作者|经济学人译者|明明月如
编辑|夏萌
制作|
图像来源:生成者
AI要想发展得更好,就要用更少的资源实现更强大的功能。
谈“LLMs”,比如OpenAI的GPT(创成式预训变形金刚),推动美国流行聊天机器人的核心力量,已经说明了一切。这个现代AI系统是由巨大的人工神经网络驱动的,这些人工神经网络广义上模拟了生物大脑的工作机制。2020年发布的GPT-3是一个拥有1750亿个“参数”的大语言模型“庞然大物”,这是神经元之间模拟连接的名称。GPT-3通过使用数千个擅长AI计算的GPU在几周内处理数万亿字的文本进行训练,成本预计超过460万美元。
但现代AI研究的共识是:“大就是好,越大越好”。因此,该模式的规模增长率一直发展迅速。GPT-4于3月发布,据估计它有大约1万亿个参数——比上一代多近6倍。OpenAI首席执行官山姆·奥特曼(Sam Altman)估计,其开发成本超过1亿美元。而且整个行业也呈现出同样的趋势。研究公司Epoch AI在2022年预测,训练顶级模型所需的计算能力将每六到十个月翻一番(见下图)。
AI模型的参数规模越来越大,会带来一些问题。如果Epoch AI的预测准确,训练成本每十个月翻一番,那么到2026年,训练成本可能超过十亿美元——这只是在数据不会先枯竭的前提下。2022年10月的一项分析预测,用于训练的高质量文本可能会在同一时间用完。此外,即使完成了模型培训,运行大型模型的实际成本也可能非常昂贵。
今年早些时候,摩根士丹利银行估计,如果谷歌一半的搜索由目前的GPT式程序处理,可能会使该公司每年额外花费60亿美元。随着模型规模的增长,这个数字可能会继续上升。
所以很多人认为AI模型“大就是好”的观点已经行不通了。如果我们想继续改进AI模型(更不用说实现那些更雄心勃勃的AI梦想),开发者需要找出如何在有限的资源下获得更好的性能。正如奥特曼先生在今年4月回顾大AI的历史时所说,“我认为我们已经走到了一个时代的尽头。”
定量收缩
相反,研究者开始关注如何提高模型的效率,而不仅仅是追求规模。一种方法是通过减少参数的数量,但使用更多的数据来训练模型,从而实现折衷。2022年,谷歌的DeepMind部门在包含1.4万亿个单词的语料库上训练了一个拥有700亿个参数的LLM,名为Chinchilla。虽然参数还不到GPT-3的1750亿,训练数据也只有3000亿字,但是这个模型的性能超过了GPT-3。为更小的LLM提供更多数据意味着需要更长的训练时间,但结果是一个更小、更快、更便宜的模型。
另一种选择是让降低浮点数的精度。减少模型中每个数字的精确位数,即四舍五入,可以大大降低对硬件的要求。奥地利科学技术研究所的研究人员在3月份证明,舍入可以大大降低一个GPT-3模型的内存消耗,使该模型可以在一个高端GPU上运行,而不是五个,并且“精度下降可以忽略不计”。
一些用户会对一般的LLM进行微调,并专注于特定的任务,如生成法律文档或检测假新闻。虽然这不像第一次培训LLM那么复杂,但仍然会很昂贵和耗时。用650亿个参数对Meta(脸书的母公司)的开源LLaMA模型进行微调,需要多个GPU,花费的时间从几个小时到几天不等。
华盛顿大学的研究人员发明了一种更有效的方法,在一天内在单个GPU上用美洲驼创建一个新模型Guanaco,而几乎没有性能损失。该技术的一部分是类似于奥地利研究人员的舍入技术。但他们也使用一种叫做“LoRA”的技术,这种技术涉及固定模型的现有参数,然后添加一组新的更小的参数。微调是通过只改变这些新变量来完成的。这将事情简化到即使是计算能力相对较弱的计算机,如智能手机,也可以胜任这项任务。如果LLM可以运行在用户设备上,而不是现在的巨型数据中心,可能会带来更大的个性化和更好的隐私保护。
与此同时,谷歌的一个团队为那些可以使用较小型号的人提供了新的选择。这种方法侧重于从大型通用模型中挖掘特定知识,并将其转换为较小的专用模型。大模特充当老师,小模特充当学生。研究人员要求教师回答问题,并展示他们的推理过程。教师模型(大模型)的答案和推理用于训练学生模型(小模型)。该团队成功训练了一个只有77亿个参数的学生模型(小模型),在具体推理任务中超过了其拥有5400亿个参数的教师模型(大模型)。
另一种方法是改变模型的构建方式,而不是关注模型在做什么。大多数人工智能模型都是用Python语言开发的。它被设计成易于使用,这样程序员在程序运行时就不用考虑如何操作芯片。屏蔽这些细节的代价是代码运行速度变慢。多关注这些实现细节可以带来很大的好处。正如开源AI公司Hugging Face首席科学官托马斯·沃尔夫(Thomas Wolf)所说,这是“目前人工智能研究的一个重要方面”。
优化代码
例如,2022年,斯坦福大学的研究人员发布了注意力算法的改进版本,该算法允许大型语言模型(LLM)学习单词和概念之间的关系。想法是修改代码以考虑运行它的芯片上发生的事情,特别是跟踪何时需要检索或存储特定信息。他们的算法成功地将GPT-2(早期的大规模语言模型)的训练速度提高了三倍,并增强了其处理更长查询的能力。
更简单的代码也可以通过更好的工具来实现。今年早些时候,Meta发布了新版本的PyTorch,这是一个人工智能编程框架。通过让程序员更多地考虑如何在实际的芯片上组织计算,可以通过增加一行代码使模型的训练速度翻倍。由苹果和谷歌前工程师创办的初创公司Modular上个月发布了一种新的专注于人工智能的编程语言,名为Mojo,它基于Python。Mojo允许程序员控制过去被屏蔽的所有细节,这在某些情况下使得用Mojo编写的代码比用Python编写的同等代码块运行速度快几千倍。
最后一个选择是改进运行代码的芯片。虽然它最初是用来处理现代视频游戏中的复杂图形,但GPU在运行AI模型时出人意料地表现出色。Meta的一位硬件研究员表示,对于& # 8220;推理& # 8221;(即模型训练后的实际操作),GPU的设计并不完美。因此,一些公司正在设计自己更专业的硬件。谷歌已经在其内部的“TPU”芯片上运行了大多数人工智能项目。Meta和它的MTIA芯片,以及亚马逊和它的推理芯片,都在做类似的尝试。
有时令人惊讶的是,仅仅几个简单的改变(比如舍入数字或切换编程语言)就可以实现巨大的性能提升。但这反映了大型语言模型(LLM)的快速发展。多年来,大型语言模型主要被视为研究项目,主要关心的是使其正常运行并产生有效的结果,而不是过多关注其设计的优雅。直到最近,它们才成为商业化和面向大众市场的产品。大部分专家一致认为还有很大的提升空间空 room。正如斯坦福大学计算机科学家克里斯·曼宁(Chris Manning)所说,“没有理由认为目前使用的神经架构(指目前的神经网络结构)是最好的,不排除未来会出现更先进的架构。”
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"AI模型“大即好”的观点已经走不通了":http://www.guoyinggangguan.com/qkl/142160.html。
微信扫描二维码关注官方微信
▲长按图片识别二维码