Investigadores de MIT, Google Research y Stanford University están estudiando el misterioso fenómeno del aprendizaje en contexto en modelos de lenguaje masivos como GPT-3, y han descubierto que estos modelos pueden contener modelos lineales más pequeños y simples dentro de ellos.

Los modelos de lenguaje masivos como GPT-3 de OpenAI son redes neuronales gigantes que pueden generar texto similar al humano, desde poesía hasta código de programación. Entrenados con enormes cantidades de datos de internet, estos modelos de aprendizaje automático toman un pequeño fragmento de texto de entrada y luego predicen el texto que probablemente vendrá a continuación. Sin embargo, eso no es todo lo que estos modelos pueden hacer. Los investigadores están explorando un curioso fenómeno conocido como aprendizaje en contexto, en el cual un modelo de lenguaje masivo aprende a realizar una tarea después de ver solo unos pocos ejemplos, a pesar de que no fue entrenado para esa tarea. Por ejemplo, alguien podría alimentar el modelo con varias oraciones de ejemplo y sus sentimientos (positivos o negativos), luego darle una nueva oración y el modelo puede proporcionar el sentimiento correcto. Científicos del MIT, Google Research y Stanford University están esforzándose por desentrañar este misterio. Estudiaron modelos muy similares a los modelos de lenguaje masivos para ver cómo pueden aprender sin actualizar parámetros. Los resultados teóricos de los investigadores muestran que estos modelos de redes neuronales masivas son capaces de contener modelos lineales más pequeños y simples enterrados dentro de ellos. El modelo grande podría implementar un algoritmo de aprendizaje simple para entrenar este modelo lineal más pequeño para completar una nueva tarea, utilizando solo información ya contenida dentro del modelo más grande. Sus parámetros se mantienen fijos. Un paso importante para comprender los mecanismos detrás del aprendizaje en contexto, esta investigación abre la puerta a más exploración en torno a los algoritmos de aprendizaje que estos modelos masivos pueden implementar, dice Ekin Akyürek, estudiante de posgrado en ciencias de la computación y autor principal de un artículo que explora este fenómeno. Con una mejor comprensión del aprendizaje en contexto, los investigadores podrían permitir que los modelos completen nuevas tareas sin la necesidad de un costoso reentrenamiento. 'Por lo general, si desea ajustar estos modelos, debe recopilar datos específicos del dominio y realizar una ingeniería compleja. Pero ahora podemos simplemente alimentarlo con una entrada, cinco ejemplos, y logra lo que queremos. Entonces, el aprendizaje en contexto es un fenómeno de aprendizaje irrazonablemente eficiente que debe ser entendido', dice Akyürek.