在过去十年中,人工智能(AI)领域取得了重大进展,AI已经在我们的日常生活中变得更加普遍。生成AI模型也面临着挑战。

在过去十年中,人工智能(AI)领域取得了重大进展,AI已经在我们的日常生活中变得更加普遍。这种广泛使用和采用AI的原因有很多,包括深度学习(DL)即现代人工神经网络,大量数据的可用性以及用于训练DL模型的计算能力。最近,由于OpenAI和可扩展性强、高性能的大型语言模型(LLMs)的构建,生成AI引起了公众的关注。生成AI还可以用于生成文本、图像、视频、编程代码和音乐。有多模态模型可以根据文本描述生成图像(例如DALL·E),反之亦然,这类创新将继续迅速增长。 在DL模型的应用方面,一个重要的突破是在2012年展示的,用于将图像分类为几个不同的组(ImageNet大规模视觉识别挑战2010)。随后,DL在文本和语音的类似分类任务中的使用显著提高了以前建立的基准。这些模型是针对专门任务进行训练的,提供了最先进的性能。使用DL生成各种输出吸引了AI研究人员的注意。生成对抗网络[2]是在2014年进行的这一方向上的重要工作,它生成了逼真的人脸和数字图像。这导致了更多的研究,以在其他领域开发生成AI技术。 语言建模一直是AI的一项具有挑战性的任务。语言模型的目标是根据一系列词语预测下一个词。DL用于预训练LLMs的应用在2019年得到了证明。生成预训练转换器(GPT)是支持ChatGPT的基础技术。这些模型通过在图形处理单元(GPU)上消耗大量计算能力对大量文本数据进行了训练。GPT-3/GPT-4在文本摘要、问题回答和代码生成等任务上的结果令人印象深刻。 生成AI模型面临的挑战包括DL技术固有的挑战。此外,模型的生成性质可能会在生成的数据中引入伪影。例如,AI图像生成器在处理手部时会遇到困难。它们可能会生成难以解释的奇怪图像。已经提出了多种方法来克服这些挑战。对于LLMs而言也是如此,它们的任务是预测下一个词。它们可能会产生错误的补全或者给出错误的答案,这取决于它们所训练的数据。