AI模型“大即好”的观点已经走不通了

作者|经济学人译者|明明月如

编辑|夏萌

制作|

AI模型“大即好”的观点已经走不通了图像来源:生成者

AI要想发展得更好，就要用更少的资源实现更强大的功能。

谈“LLMs”，比如OpenAI的GPT(创成式预训变形金刚)，推动美国流行聊天机器人的核心力量，已经说明了一切。这个现代AI系统是由巨大的人工神经网络驱动的，这些人工神经网络广义上模拟了生物大脑的工作机制。2020年发布的GPT-3是一个拥有1750亿个“参数”的大语言模型“庞然大物”，这是神经元之间模拟连接的名称。GPT-3通过使用数千个擅长AI计算的GPU在几周内处理数万亿字的文本进行训练，成本预计超过460万美元。

但现代AI研究的共识是:“大就是好，越大越好”。因此，该模式的规模增长率一直发展迅速。GPT-4于3月发布，据估计它有大约1万亿个参数——比上一代多近6倍。OpenAI首席执行官山姆·奥特曼(Sam Altman)估计，其开发成本超过1亿美元。而且整个行业也呈现出同样的趋势。研究公司Epoch AI在2022年预测，训练顶级模型所需的计算能力将每六到十个月翻一番(见下图)。

AI模型“大即好”的观点已经走不通了 AI模型的参数规模越来越大，会带来一些问题。如果Epoch AI的预测准确，训练成本每十个月翻一番，那么到2026年，训练成本可能超过十亿美元——这只是在数据不会先枯竭的前提下。2022年10月的一项分析预测，用于训练的高质量文本可能会在同一时间用完。此外，即使完成了模型培训，运行大型模型的实际成本也可能非常昂贵。

今年早些时候，摩根士丹利银行估计，如果谷歌一半的搜索由目前的GPT式程序处理，可能会使该公司每年额外花费60亿美元。随着模型规模的增长，这个数字可能会继续上升。

所以很多人认为AI模型“大就是好”的观点已经行不通了。如果我们想继续改进AI模型(更不用说实现那些更雄心勃勃的AI梦想)，开发者需要找出如何在有限的资源下获得更好的性能。正如奥特曼先生在今年4月回顾大AI的历史时所说，“我认为我们已经走到了一个时代的尽头。”

定量收缩

相反，研究者开始关注如何提高模型的效率，而不仅仅是追求规模。一种方法是通过减少参数的数量，但使用更多的数据来训练模型，从而实现折衷。2022年，谷歌的DeepMind部门在包含1.4万亿个单词的语料库上训练了一个拥有700亿个参数的LLM，名为Chinchilla。虽然参数还不到GPT-3的1750亿，训练数据也只有3000亿字，但是这个模型的性能超过了GPT-3。为更小的LLM提供更多数据意味着需要更长的训练时间，但结果是一个更小、更快、更便宜的模型。

另一种选择是让降低浮点数的精度。减少模型中每个数字的精确位数，即四舍五入，可以大大降低对硬件的要求。奥地利科学技术研究所的研究人员在3月份证明，舍入可以大大降低一个GPT-3模型的内存消耗，使该模型可以在一个高端GPU上运行，而不是五个，并且“精度下降可以忽略不计”。

一些用户会对一般的LLM进行微调，并专注于特定的任务，如生成法律文档或检测假新闻。虽然这不像第一次培训LLM那么复杂，但仍然会很昂贵和耗时。用650亿个参数对Meta(脸书的母公司)的开源LLaMA模型进行微调，需要多个GPU，花费的时间从几个小时到几天不等。

华盛顿大学的研究人员发明了一种更有效的方法，在一天内在单个GPU上用美洲驼创建一个新模型Guanaco，而几乎没有性能损失。该技术的一部分是类似于奥地利研究人员的舍入技术。但他们也使用一种叫做“LoRA”的技术，这种技术涉及固定模型的现有参数，然后添加一组新的更小的参数。微调是通过只改变这些新变量来完成的。这将事情简化到即使是计算能力相对较弱的计算机，如智能手机，也可以胜任这项任务。如果LLM可以运行在用户设备上，而不是现在的巨型数据中心，可能会带来更大的个性化和更好的隐私保护。

与此同时，谷歌的一个团队为那些可以使用较小型号的人提供了新的选择。这种方法侧重于从大型通用模型中挖掘特定知识，并将其转换为较小的专用模型。大模特充当老师，小模特充当学生。研究人员要求教师回答问题，并展示他们的推理过程。教师模型(大模型)的答案和推理用于训练学生模型(小模型)。该团队成功训练了一个只有77亿个参数的学生模型(小模型)，在具体推理任务中超过了其拥有5400亿个参数的教师模型(大模型)。

另一种方法是改变模型的构建方式，而不是关注模型在做什么。大多数人工智能模型都是用Python语言开发的。它被设计成易于使用，这样程序员在程序运行时就不用考虑如何操作芯片。屏蔽这些细节的代价是代码运行速度变慢。多关注这些实现细节可以带来很大的好处。正如开源AI公司Hugging Face首席科学官托马斯·沃尔夫(Thomas Wolf)所说，这是“目前人工智能研究的一个重要方面”。

优化代码

例如，2022年，斯坦福大学的研究人员发布了注意力算法的改进版本，该算法允许大型语言模型(LLM)学习单词和概念之间的关系。想法是修改代码以考虑运行它的芯片上发生的事情，特别是跟踪何时需要检索或存储特定信息。他们的算法成功地将GPT-2(早期的大规模语言模型)的训练速度提高了三倍，并增强了其处理更长查询的能力。

更简单的代码也可以通过更好的工具来实现。今年早些时候，Meta发布了新版本的PyTorch，这是一个人工智能编程框架。通过让程序员更多地考虑如何在实际的芯片上组织计算，可以通过增加一行代码使模型的训练速度翻倍。由苹果和谷歌前工程师创办的初创公司Modular上个月发布了一种新的专注于人工智能的编程语言，名为Mojo，它基于Python。Mojo允许程序员控制过去被屏蔽的所有细节，这在某些情况下使得用Mojo编写的代码比用Python编写的同等代码块运行速度快几千倍。

最后一个选择是改进运行代码的芯片。虽然它最初是用来处理现代视频游戏中的复杂图形，但GPU在运行AI模型时出人意料地表现出色。Meta的一位硬件研究员表示，对于& # 8220；推理& # 8221；(即模型训练后的实际操作)，GPU的设计并不完美。因此，一些公司正在设计自己更专业的硬件。谷歌已经在其内部的“TPU”芯片上运行了大多数人工智能项目。Meta和它的MTIA芯片，以及亚马逊和它的推理芯片，都在做类似的尝试。

有时令人惊讶的是，仅仅几个简单的改变(比如舍入数字或切换编程语言)就可以实现巨大的性能提升。但这反映了大型语言模型(LLM)的快速发展。多年来，大型语言模型主要被视为研究项目，主要关心的是使其正常运行并产生有效的结果，而不是过多关注其设计的优雅。直到最近，它们才成为商业化和面向大众市场的产品。大部分专家一致认为还有很大的提升空间空 room。正如斯坦福大学计算机科学家克里斯·曼宁(Chris Manning)所说，“没有理由认为目前使用的神经架构(指目前的神经网络结构)是最好的，不排除未来会出现更先进的架构。”

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信(j7hr0a@163.com)，我们会及时处理和回复。

原文地址"AI模型“大即好”的观点已经走不通了"：http://www.guoyinggangguan.com/qkl/142160.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码

AI模型“大即好”的观点已经走不通了

栏目最新

栏目推荐

贷款平台