Des chercheurs du MIT, de Google Research et de l'Université de Stanford étudient le mystère de l'apprentissage en contexte des modèles de langage géants comme GPT-3 et découvrent que ces modèles massifs peuvent contenir des modèles linéaires plus simples en leur sein.

Les modèles de langage à grande échelle tels que GPT-3 d'OpenAI sont d'énormes réseaux de neurones capables de générer du texte semblable à celui produit par les humains, allant de la poésie au code de programmation. Entraînés à l'aide d'immenses quantités de données provenant d'Internet, ces modèles d'apprentissage automatique prennent un petit extrait de texte et prédisent ensuite le texte qui est susceptible de suivre. Mais ce n'est pas tout ce que ces modèles peuvent faire. Les chercheurs explorent un phénomène curieux appelé apprentissage en contexte, dans lequel un grand modèle de langage apprend à accomplir une tâche en ne voyant que quelques exemples, même s'il n'a pas été entraîné pour cette tâche. Par exemple, on pourrait nourrir le modèle avec plusieurs phrases exemples et leurs sentiments (positifs ou négatifs), puis le solliciter avec une nouvelle phrase, et le modèle peut donner le sentiment correct. Des chercheurs du MIT, de Google Research et de l'Université de Stanford cherchent à élucider ce mystère. Ils ont étudié des modèles très similaires aux grands modèles de langage pour comprendre comment ils peuvent apprendre sans mettre à jour leurs paramètres. Leurs résultats théoriques montrent que ces modèles massifs de réseaux neuronaux sont capables de contenir en leur sein des modèles linéaires plus simples. Le grand modèle pourrait alors mettre en œuvre un algorithme d'apprentissage simple pour entraîner ce modèle linéaire moins complexe à accomplir une nouvelle tâche, en utilisant uniquement les informations déjà contenues dans le modèle plus grand. Ses paramètres restent fixes. Cette recherche constitue une étape importante pour comprendre les mécanismes de l'apprentissage en contexte et ouvre la porte à de nouvelles explorations autour des algorithmes d'apprentissage que ces grands modèles peuvent mettre en œuvre, selon Ekin Akyürek, étudiant en informatique et auteur principal d'un article sur ce phénomène. Avec une meilleure compréhension de l'apprentissage en contexte, les chercheurs pourraient permettre aux modèles d'accomplir de nouvelles tâches sans avoir besoin d'un réentraînement coûteux.