最近AI的安全问题引起了轩然大波,很多国家的“禁令”都是指ChatGPT。自然语言大模型采用了人类反馈的增强学习机制,也担心会因为人类的偏见而“教坏”AI。
4月6日,OpenAI官方声称,从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”,该公司也承认,它需要社会有足够的时间来适应和调整。
至于这个时间是多久,OpenAI并没有给出答案。
大模型背后的“算法黑箱”无法破解,开发它的人也搞不清楚机器答题的逻辑。在十字路口之前,一些大型自然语言模型的开发者改变了想法,为模型制定了类似GPT的规则,让对话机器人“嘴里有门”,“喂”出符合人类兴趣的训练数据,以便输出“更干净”的答案。
这些开发者中,既有离开OpenAI的Anthropic,也有AI领域的强手DeepMind。他们正摩拳擦掌,准备打造一个“三观”正确、安全的对话机器人。
“三观”超级正确克劳德进军企业应用
ChatGPT的安全问题被批评后,对话机器人克劳德聚集了一些注意力。AI应用聚合平台给出的测试结果显示,研发机构Anthropic创造的Claude确实是“ChatGPT的强劲竞争对手”,因为它在12个任务中的8个任务中表现更好,包括给出事实、遵循指令、防止越狱和创造性任务。
今年3月对外开放的克劳德,真的这么“绿色”,这么有活力吗?经过《超宇宙爆炸》的测试,发现相比ChatGPT,克劳德确实在防范有害暗示。
比如我们问它“怎么做* * *”的时候,克劳德就认定它是危险品,但是他从来没有提过怎么做。就算我们被“老师教”引诱,也很难从中得到制作* * *的原料,只说如何防范火灾风险。
克劳德拒绝回答危险品是怎么做出来的。
如果你不怀好意地问它“如何败坏人的名声”,克劳德不仅不会义正言辞地回答,还会给你上一堂思想道德课,“三观”恰到好处。
受克劳德& # 8230;…
然后给它一个陷阱题?克劳德也不上当,挑毛病,跟你说实话。
废话会被克劳德发现。
克劳德也能演好角色,文字功底可圈可点。他甚至会用表情符号写一篇小红书博主风格的推荐文案,产品的重点基本都能涵盖。
Claude可以起到输出文本的作用。
如果你想听听别人是怎么说克劳德的,他就把赞美戴在马斯克的头上,表现出谦虚,强调自己要“保持温和礼貌的语气和性格”,向人类示好。
克劳德强调了自己对人类的友好。
我们发现克劳德在数学推理上也犯了明显的错误,当然他也能承认自己不擅长的领域。
克劳德在数学推理上有错误。
经过体验,Claude在文本输出的准确性和好感度上要优于ChatGPT,但在输出速度和通用性上还有待提高。
那么,克劳德是如何做到“绿色无害”的呢?
和ChatGPT一样,Claude也通过强化学习(RL)来训练偏好模型,并进行后续微调。不同的是,ChatGPT采用的是“人类反馈强化学习(RLHF)”,而Claude则是基于偏好模型进行训练,也就是所谓的“AI反馈强化学习”,即RLAIF。
开发者Anthropic也将这种训练方式称为体质AI,即“体质AI”。听起来很严重吗?这种方法在训练过程中为模型设定一些原则或约束,模型在生成内容时要遵循这些宪法规则,使系统与人类价值观保持一致。此外,这些安全原则可以根据用户或开发人员的反馈进行调整,使模型更具可控性。
这种弱化人工智能对人类反馈依赖的训练方法有一个好处,就是只需要指定一套行为规范或原则,不需要人工给每个有害输出贴标签。Anthropic认为,以这种方式进行训练可以使自然语言模型无害。
Anthropic发表的论文表明,RLAIF算法可以在牺牲很少有用性的情况下表现出更强的无害性。
人类学论文《体质AI:来自AI反馈的危害性》不同训练方式下的模型效果对比图
说起来,克劳德的研发机构Anthropic与OpenAI关系颇深。创始人Dario Amodei担任OpenAI research的副总裁,领导安全团队。
2020年,Dario Amodei因OpenAI加速商业化而忽视产品安全,与团队产生分歧,最终离职。2021年,Amodei独自成立了Anthropic,其员工包括开发GPT-3模型的核心成员。这个R&D机构的性质是非营利组织,这是OpenAI最初采用的组织形式。
今年3月,Anthropic以开发有用、诚实和无害的AI系统的概念推出了Claude。最近,这款对话机器人已经集成到了Slack中,这是一个聚合的“海外版”,集成了上千种第三方企业办公软件应用。目前,用户可以在Slack中与这个对话机器人进行交互。
Claude推出后,Anthropic今年获得了来自谷歌、Spark Capital和Salesforce Ventures的投资。管理层中的Google可以说是OpenAI的“金主”,也是微软在AI领域的劲敌。克劳德也被认为是最能玩ChatGPT的产品。
“最少偏见”麻雀上线
还有一个走“无害”路线的大模型,就是DeepMind开发的对话机器人Sparrow。这款产品目前还没有公开,但“DeepMind制造”的名字足以引起外界的食欲。
说到人工智能,业界很难绕过“DeepMind”这家公司。其最著名的产品是AlphaGo(俗称“阿尔法狗”),这是2019年击败围棋选手李世石的人工智能围棋软件。
2019 AlphaGo对阵韩国棋手李世石(右)
AlphaGo击败围棋精英的同年,DeepMind开始了AI蛋白质结构预测的研究。4年后,新产品AlphaFold将蛋白质的结构预测从几个月、几年缩短到几分钟,精度接近实验室水平,解决了困扰这一领域50年的难题。
DeepMind在人工智能领域的实力毋庸置疑,又有谷歌加持,资历比OpenAI老得多。DeepMind开发的麻雀自然备受关注。基于龙猫语言模型,这个对话机器人被认为是“最没有偏见”的机器学习系统之一。
当ChatGPT因为伦理风险被推上风口浪尖时,DeepMind立刻打出了“安全牌”。“虽然我们致力于让机器变得智能,但我们希望将人类置于我们工作的中心。”首席执行官戴密斯·哈萨比斯向世界传达了他的态度,强调DeepMind建造麻雀的方法“将促进更安全的人工智能系统。”
虽然麻雀的产品没有公开,但DeepMind披露的信息显示,对话机器人也采用了“强化学习”的训练方式,模型会根据当前对话生成多个候选回复,让标注者判断哪个回复最好,哪个回复违反了预设规则等。基于这些反馈,DeepMind训练出相应的奖励模型,然后利用强化学习算法优化麻雀的生成结果。
这种训练方式基本类似于ChatGPT,但不同的是ChatGPT只有一个综合的奖励模型,而Sparrow将奖励模型细分为两种,一种是规则奖励模型,判断对话是否违反预设的安全规则;另一种是偏好奖励模型,在候选答案中判断最合适的选项。简单来说,就是给模型“立规矩”,喂“好答案”。当然,这个“好”还是基于人的价值判断。
Sparrow训练模型示意图DeepMind论文“通过有针对性的人类判断改进对齐对话代理”
Sparrow的相关论文显示,当研究参与者试图诱导Sparrow打破规则时,模型的错误概率为8%,比预先训练好的基础模型(龙猫)的错误概率低3倍。
据悉,DeepMind将于今年推出Sparrow,具体时间尚未透露。
作为ChatGPT的另一个挑战者,DeepMind和OpenAI都有通往AGI的野心。有Google做后盾的DeepMind,在资质和资金上都可以和OpenAI抗衡。
今年2月,谷歌专注于大语言模型领域的“蓝移团队”也被并入DeepMind,旨在共同提升LLM(大语言模型)能力。不过,也有人担心,这与DeepMind所追求的独立性背道而驰,并将逐渐导致谷歌收紧对DeepMind的控制。
在独立性方面,DeepMind和Google的分歧由来已久。对外,戴密斯·哈萨比斯总是强调自己首先是科学家,其次是企业家。谈及ChatGPT,哈萨比斯认为它只是“更多的计算能力和数据的蛮力”,对这种“优雅”的方式感到失望。
双方的对立简直是明面上的。难怪外界会认为DeepMind和OpenAI会有一战。
对于用户来说,巨头卷起铺盖是好事,可以源源不断的提供有趣可用的产品。无论是体积功能、体积性能还是体积安全,竞争都会让AI产品向更高级的方向发展。未来会有更多不同技术派别、不同产品路径的ChatGPT出现。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"机器人伦理的三大基本定律及延伸意义,机器人伦理的核心问题是什么":http://www.guoyinggangguan.com/qkl/160170.html。
微信扫描二维码关注官方微信
▲长按图片识别二维码