Scienziati del MIT, Google Research e Stanford University stanno cercando di svelare il mistero dell'apprendimento in-contesto nei grandi modelli di linguaggio come GPT-3, che sembrano imparare nuovi compiti senza aggiornare i loro parametri.

I grandi modelli di linguaggio come GPT-3 di OpenAI sono enormi reti neurali in grado di generare testi simili a quelli umani, dalla poesia al codice di programmazione. Addestrati utilizzando enormi quantità di dati provenienti da Internet, questi modelli di apprendimento automatico prendono un piccolo input di testo e poi prevedono il testo che probabilmente seguirà. Ma questi modelli possono fare molto di più. I ricercatori stanno esplorando un curioso fenomeno noto come apprendimento in-contesto, in cui un grande modello di linguaggio impara a svolgere un compito dopo aver visto solo pochi esempi, nonostante non sia stato addestrato per quel compito specifico. Ad esempio, qualcuno potrebbe fornire al modello diverse frasi di esempio e i loro sentimenti (positivi o negativi), quindi sollecitarlo con una nuova frase, e il modello può fornire il sentimento corretto. Di solito, un modello di apprendimento automatico come GPT-3 avrebbe bisogno di essere riaddestrato con nuovi dati per questo nuovo compito. Durante questo processo di addestramento, il modello aggiorna i suoi parametri mentre elabora nuove informazioni per apprendere il compito. Ma con l'apprendimento in-contesto, i parametri del modello non vengono aggiornati, quindi sembra che il modello impari un nuovo compito senza imparare nulla affatto. Scienziati del MIT, Google Research e Stanford University stanno lavorando per svelare questo mistero. Hanno studiato modelli molto simili ai grandi modelli di linguaggio per capire come possono imparare senza aggiornare i parametri. I risultati teorici dei ricercatori mostrano che questi enormi modelli di reti neurali sono in grado di contenere al loro interno modelli lineari più piccoli e semplici. Il grande modello potrebbe quindi implementare un semplice algoritmo di apprendimento per addestrare questo modello lineare più piccolo a completare un nuovo compito, utilizzando solo le informazioni già contenute nel modello più grande. I suoi parametri rimangono fissi. Questo studio rappresenta un passo importante verso la comprensione dei meccanismi dietro l'apprendimento in-contesto e apre la porta a ulteriori esplorazioni sugli algoritmi di apprendimento che questi grandi modelli possono implementare, afferma Ekin Akyürek, studente di dottorato in informatica e autore principale di un articolo che esplora questo fenomeno. Con una migliore comprensione dell'apprendimento in-contesto, i ricercatori potrebbero consentire ai modelli di completare nuovi compiti senza la necessità di costose sessioni di riaddestramento. 'Di solito, se vuoi perfezionare questi modelli, devi raccogliere dati specifici per il dominio e fare un po' di ingegneria complessa. Ma ora possiamo semplicemente fornirgli un input, cinque esempi, e ottiene ciò che vogliamo. Quindi, l'apprendimento in-contesto è un fenomeno di apprendimento incredibilmente efficiente che deve essere compreso', afferma Akyürek.