Forscher untersuchen das Phänomen des In-Context-Lernens in großen Sprachmodellen wie GPT-3 und entdecken, dass diese Modelle kleinere, lineare Modelle in sich tragen, die neue Aufgaben lernen können, ohne dass die Parameter des größeren Modells aktualisiert werden müssen.
Große Sprachmodelle wie OpenAI's GPT-3 sind riesige neuronale Netzwerke, die menschenähnlichen Text erzeugen können, von Poesie bis hin zu Programmiercode. Trainiert mit Unmengen von Internetdaten, nehmen diese maschinellen Lernmodelle einen kleinen Textinput und sagen dann den Text voraus, der wahrscheinlich als nächstes kommt.
Aber das ist nicht alles, was diese Modelle können. Forscher untersuchen ein neugieriges Phänomen, das als In-Context-Lernen bekannt ist, bei dem ein großes Sprachmodell eine Aufgabe lernt, nachdem es nur wenige Beispiele gesehen hat - obwohl es nicht für diese Aufgabe trainiert wurde. Zum Beispiel könnte jemand dem Modell mehrere Beispielssätze und ihre Stimmungen (positiv oder negativ) eingeben, dann das Modell mit einem neuen Satz auffordern, und das Modell gibt die richtige Stimmung an.
Wissenschaftler des MIT, Google Research und der Stanford University arbeiten daran, dieses Rätsel zu lösen. Sie untersuchten Modelle, die großen Sprachmodellen sehr ähnlich sind, um herauszufinden, wie sie lernen können, ohne Parameter zu aktualisieren. Die theoretischen Ergebnisse der Forscher zeigen, dass diese massiven neuronalen Netzwerkmodelle in der Lage sind, kleinere, einfachere lineare Modelle in sich zu tragen. Das große Modell könnte dann einen einfachen Lernalgorithmus implementieren, um dieses kleinere, lineare Modell für eine neue Aufgabe zu trainieren, indem es nur Informationen verwendet, die bereits im größeren Modell enthalten sind. Die Parameter bleiben unverändert.
Ein wichtiger Schritt zum Verständnis der Mechanismen hinter dem In-Context-Lernen ist diese Forschung, die die Tür zu weiteren Untersuchungen über die Lernalgorithmen öffnet, die diese großen Modelle implementieren können, sagt Ekin Akyürek, ein Informatik-Graduiertenstudent und Hauptautor einer Arbeit, die dieses Phänomen untersucht. Mit einem besseren Verständnis des In-Context-Lernens könnten Forscher Modelle dazu bringen, neue Aufgaben zu bewältigen, ohne dass eine kostspielige Nachschulung erforderlich ist.