MIT、谷歌研究和斯坦福大学的科学家们正在探索大型语言模型中一个神秘现象——在上下文学习中,如何在不更新参数的情况下学习新任务。
大型语言模型如OpenAI的GPT-3是庞大的神经网络,可以生成类似人类的文本,从诗歌到编程代码。这些机器学习模型通过大量的互联网数据进行训练,输入一小段文本,然后预测接下来可能出现的文本。
但这些模型的功能不仅仅如此。研究人员正在研究一种称为在上下文学习的神奇现象,即大型语言模型在看到几个示例后学会完成任务,尽管它并未针对该任务进行训练。例如,有人可以向模型输入几个示例句子及其情感(积极或消极),然后提示一个新句子,模型可以给出正确的情感。
通常情况下,像GPT-3这样的机器学习模型需要用新数据重新训练以完成这个新任务。在这个训练过程中,模型在处理新信息以学习任务时会更新其参数。但在上下文学习中,模型的参数没有更新,所以看起来模型在没有学习任何东西的情况下学会了新任务。
来自MIT、谷歌研究和斯坦福大学的科学家们正在努力揭开这个谜团。他们研究了与大型语言模型非常相似的模型,以了解它们是如何在不更新参数的情况下学习的。
研究人员的理论结果表明,这些庞大的神经网络模型能够在其中包含较小、简单的线性模型。然后,大模型可以实现一个简单的学习算法来训练这个较小的线性模型,仅使用大模型内部已经包含的信息来完成新任务。其参数保持不变。
这项研究是理解在上下文学习背后的机制的重要一步,这为研究这些大型模型可以实现的学习算法打开了更多的探索空间,计算机科学研究生Ekin Akyürek说,他是探讨这一现象论文的主要作者。通过更好地理解在上下文学习,研究人员可以在无需昂贵的重新训练的情况下完成新任务。