Исследователи из MIT, Google Research и Stanford University изучают загадочное явление обучения в контексте, которое позволяет крупным языковым моделям, таким как GPT-3, выполнять задачи, для которых они не обучались. Эти результаты могут пролить свет на механизмы, стоящие за этим явлением, и, возможно, позволят выполнять новые задачи без затратного переобучения.
Большие языковые модели, такие как GPT-3 от OpenAI, представляют собой массивные нейронные сети, способные генерировать текст, похожий на человеческий, от поэзии до программного кода. Благодаря обучению на огромных объемах данных из Интернета, эти модели машинного обучения могут предсказать текст, который идет после небольшого фрагмента входных данных.
Но это еще не все, на что способны эти модели. Исследователи изучают любопытное явление, известное как обучение в контексте, когда крупная языковая модель обучается выполнять задачу после просмотра всего нескольких примеров, несмотря на то, что она не была обучена для этой задачи. Обычно модели машинного обучения, такие как GPT-3, должны быть переобучены с новыми данными для выполнения новой задачи. Однако при обучении в контексте параметры модели не обновляются, и кажется, что модель учится новой задаче, не узнавая ничего нового.
Ученые из MIT, Google Research и Stanford University стараются разгадать эту тайну. Они изучали модели, очень похожие на большие языковые модели, чтобы узнать, как они могут учиться без обновления параметров. Теоретические результаты исследователей показывают, что эти массивные нейронные сети способны содержать внутри себя меньшие, более простые линейные модели. Большая модель может затем применять простой алгоритм обучения для обучения этой меньшей, линейной модели выполнению новой задачи, используя только информацию, уже содержащуюся в большой модели. Параметры модели остаются неизменными.
Это важный шаг на пути к пониманию механизмов, стоящих за обучением в контексте, и открывает двери к дальнейшему изучению алгоритмов обучения, которые могут применять эти большие модели, говорит Ekin Akyürek, студент-аспирант по компьютерным наукам и главный автор статьи, посвященной этому явлению. С лучшим пониманием обучения в контексте исследователи могут сделать модели способными выполнять новые задачи без необходимости затратного переобучения.