您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 区块链 > openai首席科学家解读gpt4,openai创始人谈gpt-4的初心

openai首席科学家解读gpt4,openai创始人谈gpt-4的初心

区块链 岑岑 本站原创

来源:量子比特

继Windows Copilot发布之后,微软Build大会的人气被一场演讲引爆。

特斯拉AI前总监Andrej Karpathy在演讲中说,思想树类似于AlphaGo的蒙特卡洛树搜索(MCTS)!

网友大呼:这是关于如何使用大语言模型和GPT-4模型的最详细、最有趣的指南!

此外,卡帕西透露,由于训练和数据的扩大,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大型模型匿名竞技场ChatBot Arena:

克劳德的得分在ChatGPT 3.5到ChatGPT 4之间。

网友们表示,卡帕西的演讲一直都很棒,这次也一如既往,内容没有让大家失望。

与演讲稿一起的,还有推特用户根据演讲稿整理的笔记,共31篇。目前赞数已经超过3000+:

那么,这篇备受关注的演讲具体提到了什么?

如何培训GPT助理?

卡帕西的演讲主要分为两部分。

在第一部分,他谈到了如何培养一名“GPT助理”。

Karpathy主要描述了AI助手的四个训练阶段:预训练、监督微调、奖励建模和强化学习。

每个阶段都需要一个数据集。

在预训练阶段,需要使用大量的计算资源,收集大量的数据集。在大量无监督数据集上训练基本模型。

卡帕西补充了更多的例子:

使用一个小的监督数据集,并通过监督学习对这个基本模型进行微调,我们可以创建一个可以回答问题的辅助模型。

他还展示了一些模型的进化过程。相信很多人之前都看过上面这张“进化树”的图。

Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI不开放任何关于GPT-4的内容)。

这里需要明确指出的是,基本模型不是辅助模型。

基本模型虽然可以回答问题,但是它给出的答案并不可靠,可以用助手模型来回答问题。通过监督和微调,在基本模型上训练的辅助模型在生成回复和理解文本结构方面将比基本模型表现得更好。

强化学习是训练语言模型的另一个关键过程。

通过使用人工标记的高质量数据进行训练,奖励建模可用于创建损失函数以提高其性能。然后通过增加正分,降低负分的概率,进行强化训练。

在创造性任务中,使用人类的判断来改进AI模型是非常重要的,加入人类的反馈可以更有效地训练模型。

经过人类反馈的强化学习,可以得到一个RLHF模型。

在模型被训练之后,下一步就是如何有效地使用这些模型来解决问题。

如何更好地使用模型?

第二部分,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的拓展。

卡帕西举了一个具体的例子来说明:

我们在写文章的时候,会进行大量的心理活动,需要考虑自己的陈述是否正确。对GPT来说,这只是一系列的象征。

而提示可以弥补这种认知差异。

卡帕西进一步解释了思维链提示是如何工作的。

对于推理问题,为了让Transformer在自然语言处理上表现的更好,需要一步一步的处理信息,而不是直接扔给它一个非常复杂的问题。

如果你给它举几个例子,它就会模仿这个例子的模板,最后的效果会更好。

模型只能按照它的顺序回答问题。如果它生成的内容有误,可以提示它重新生成。

你不要求它检查,它就不会自己检查。

这就涉及到系统1和系统2的问题。

诺贝尔经济学奖获得者丹尼尔·卡内曼在《思考的快与慢》中提出,人类认知系统包括两个子系统:系统1和系统2。系统1主要靠直觉,系统2是逻辑分析系统。

一般来说,System1是一个快速的自动生成过程,而System2是一个经过深思熟虑的部分。

这一点在最近非常流行的一篇论文《思想之树》中也有提及。

深思熟虑的意思不是简单地给出问题的答案,而是更像与Python粘合代码一起使用的prompt,将许多提示串联起来。模型必须维护多个提示,并且必须执行一些树搜索算法来找出要扩展的提示。

卡帕西认为这个想法和AlphaGo非常相似:

下围棋时,AlphaGo需要考虑下一颗棋子在哪里。起初,它通过模仿人类来学习。但是除此之外,它还做了一个蒙特卡罗树搜索,可以得到有多种可能性的策略。它可以评估各种可能的策略,只保留那些更好的策略。我觉得这在某种程度上相当于AlphaGo。

对此,卡帕西也提到了AutoGPT:

我觉得目前它的效果不是很好,不建议你在实践中应用。我只是觉得,随着时间的推移,我们或许可以从它的发展思路中汲取灵感。

其次,还有一个小妙招:检索增强生成和有效提示。

窗口上下文的内容是运行时转换器的工作记忆。如果您可以将与任务相关的信息添加到上下文中,它将执行得非常好,因为它可以立即访问这些信息。

简而言之,您可以索引相关数据,以便高效地访问模型。

如果Transformers也有主文件可以参考,它的性能会更好。

最后,Karpathy简单讲了一下大语言模型中的约束提示和微调。大型语言模型可以通过约束提示和微调来改进。约束提示在大型语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。

我建议在低风险应用中使用大语言模型,始终将它们与人工监督结合起来,将它们视为灵感和建议的来源,并考虑副驾驶而不是让它们完全自主。

关于安德烈·卡帕西

Andrej Karpathy博士毕业后的第一份工作是在OpenAI研究计算机视觉。

后来OpenAI的联合创始人之一马斯克看中了卡帕西,把人挖到了特斯拉。但也因为这件事,马斯克和OpenAI彻底闹翻,最后被踢出局。在特斯拉,卡帕西是Autopilot、FSD等项目的负责人。

今年2月,在离开特斯拉7个月后,卡帕西再次加入OpenAI。

最近他发微博说对开源大语言模型生态系统的开发感兴趣,有点像寒武纪早期爆发的迹象。

门户:[1]https://www。**.com/watch?V=xO73EUwSegU(演讲视频)[2]https://arxiv.org/pdf/2305.10601.pdf(《思想之树》论文)

参考链接:[1]https://twitter.com/altryne/status/1661236778458832896[2]https://www.reddit.com/r/machinelearning/comments/13qrtek/ n _ state _ of _ GPT _ by _ andrej _ karpathy _ in _ muild _ 2023/[3]https://www . wisdominanutshell . academy/state-of-GPT/

本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"openai首席科学家解读gpt4,openai创始人谈gpt-4的初心":http://www.guoyinggangguan.com/qkl/146101.html

微信扫描二维码关注官方微信
▲长按图片识别二维码