[QUOTE=licher;20775571]*
La rivoluzione dell’AI fondamentalmente si sta sviluppando in questo modo:
ho dei grossi database, ma non conosco correlazioni tra input e output
do in pasto a dei sistemi di machine learning questi database
il sistema impara a prevedere correlazioni tra input e output
[/QUOTE]
Non funziona proprio così e sarebbe da fare distinguo infiniti, ma provo a semplificare.
Quello che dici tu è l’approccio di base al machine learning di tipo supervisionato.
Il flusso è stilizzabile cosi:
- dispongo di un certo numero di osservazioni qualificate su uno spettro molto ampio di ambiti informativi
- dispongo di un’etichetta per ciascuna di questa osservazione che la categorizza e/o ne assegna un valore numerico
- testo una serie di modelli di ML finché non trovo quello che mi riduce l’errore di previsione
Di fatto quello che fa il modello è identificare le correlazioni bivariate e multivariate tra le gli ambiti su cui sono descritte le osservazioni e l’etichetta associata (categoria e/o valore numerico), senza tuttavia indagare alcun meccanismo causale alla base dei processo di generazione dei dati.
A seconda dei campi applicativi, di questo modello causale possono fregarmene fintantochè il modelo allenato produce in output previsioni accurate (che monitorerò nel tempo fino a quando le performance non degraderanno abbastanza da richiedere di effettuare un nuovo allenamento su dati più aggiornati).
A questo posso aggiungere delle tecniche di explainability che mi consentono, se il modello è “blackbox”, di indagare una serie di caratteristiche che mi danno il “polso” di cosa ha appreso realmente il modello: ad esempio il contributo marginale della singola variabile alla generazione delle previsioni e/o il grado di interazione tra variabili.
Se invece mi interessa indagare le relazioni causali e ho saltato le lezione di design of experiment e/o di econometria, posso attingere alla branca del causalML che, come dice il nome, si occupa di indagare i meccanismi di causa ed effetto tramite l’impiego di tecniche moderne di ML che, nella loro formulazione originale, non saprerebbero che identificare semplici correlazioni.
Diverso discorso per i modelli linguistici come Bert, GPT e compagnia bella.
Per due motivi:
- “l’enorme database” non è altro che un corpora di documenti prodotti dall’uomo
- i documenti non sono etichettati
- la tecnica di apprendimento prevede di rimuovere parole (token) e istruire il modello affinché apprenda i pattern linguistici che consentono di fare filling the blank, riducendo al minimo gli errori
Cosa fa un LLM, per chi è del campo, è chiaro. Quello che è soggetto a studi empirici, in quanto non si dispone ancora di un framework teorico robusto, sono caratteristiche e limiti di questi modelli.
Nei fatti la nostra disciplina si basa prevalentemente sulla ricerca empirica, ma se non ci sconvolge il fatto che lo sia la farmacologia, non vedo perché ci debba preoccupare che lo sia la ricerca in ambito AI.