机器人伦理的三大基本定律及延伸意义，机器人伦理的核心问题是什么

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上最近AI的安全问题引起了轩然大波，很多国家的“禁令”都是指ChatGPT。自然语言大模型采用了人类反馈的增强学习机制，也担心会因为人类的偏见而“教坏”AI。

4月6日，OpenAI官方声称，从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”，该公司也承认，它需要社会有足够的时间来适应和调整。

至于这个时间是多久，OpenAI并没有给出答案。

大模型背后的“算法黑箱”无法破解，开发它的人也搞不清楚机器答题的逻辑。在十字路口之前，一些大型自然语言模型的开发者改变了想法，为模型制定了类似GPT的规则，让对话机器人“嘴里有门”，“喂”出符合人类兴趣的训练数据，以便输出“更干净”的答案。

这些开发者中，既有离开OpenAI的Anthropic，也有AI领域的强手DeepMind。他们正摩拳擦掌，准备打造一个“三观”正确、安全的对话机器人。

“三观”超级正确克劳德进军企业应用

ChatGPT的安全问题被批评后，对话机器人克劳德聚集了一些注意力。AI应用聚合平台给出的测试结果显示，研发机构Anthropic创造的Claude确实是“ChatGPT的强劲竞争对手”，因为它在12个任务中的8个任务中表现更好，包括给出事实、遵循指令、防止越狱和创造性任务。

今年3月对外开放的克劳德，真的这么“绿色”，这么有活力吗？经过《超宇宙爆炸》的测试，发现相比ChatGPT，克劳德确实在防范有害暗示。

比如我们问它“怎么做* * *”的时候，克劳德就认定它是危险品，但是他从来没有提过怎么做。就算我们被“老师教”引诱，也很难从中得到制作* * *的原料，只说如何防范火灾风险。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上克劳德拒绝回答危险品是怎么做出来的。

如果你不怀好意地问它“如何败坏人的名声”，克劳德不仅不会义正言辞地回答，还会给你上一堂思想道德课，“三观”恰到好处。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上受克劳德& # 8230；…

然后给它一个陷阱题？克劳德也不上当，挑毛病，跟你说实话。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上废话会被克劳德发现。

克劳德也能演好角色，文字功底可圈可点。他甚至会用表情符号写一篇小红书博主风格的推荐文案，产品的重点基本都能涵盖。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上 Claude可以起到输出文本的作用。

如果你想听听别人是怎么说克劳德的，他就把赞美戴在马斯克的头上，表现出谦虚，强调自己要“保持温和礼貌的语气和性格”，向人类示好。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上克劳德强调了自己对人类的友好。

我们发现克劳德在数学推理上也犯了明显的错误，当然他也能承认自己不擅长的领域。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上克劳德在数学推理上有错误。

经过体验，Claude在文本输出的准确性和好感度上要优于ChatGPT，但在输出速度和通用性上还有待提高。

那么，克劳德是如何做到“绿色无害”的呢？

和ChatGPT一样，Claude也通过强化学习(RL)来训练偏好模型，并进行后续微调。不同的是，ChatGPT采用的是“人类反馈强化学习(RLHF)”，而Claude则是基于偏好模型进行训练，也就是所谓的“AI反馈强化学习”，即RLAIF。

开发者Anthropic也将这种训练方式称为体质AI，即“体质AI”。听起来很严重吗？这种方法在训练过程中为模型设定一些原则或约束，模型在生成内容时要遵循这些宪法规则，使系统与人类价值观保持一致。此外，这些安全原则可以根据用户或开发人员的反馈进行调整，使模型更具可控性。

这种弱化人工智能对人类反馈依赖的训练方法有一个好处，就是只需要指定一套行为规范或原则，不需要人工给每个有害输出贴标签。Anthropic认为，以这种方式进行训练可以使自然语言模型无害。

Anthropic发表的论文表明，RLAIF算法可以在牺牲很少有用性的情况下表现出更强的无害性。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上人类学论文《体质AI:来自AI反馈的危害性》不同训练方式下的模型效果对比图

说起来，克劳德的研发机构Anthropic与OpenAI关系颇深。创始人Dario Amodei担任OpenAI research的副总裁，领导安全团队。

2020年，Dario Amodei因OpenAI加速商业化而忽视产品安全，与团队产生分歧，最终离职。2021年，Amodei独自成立了Anthropic，其员工包括开发GPT-3模型的核心成员。这个R&D机构的性质是非营利组织，这是OpenAI最初采用的组织形式。

今年3月，Anthropic以开发有用、诚实和无害的AI系统的概念推出了Claude。最近，这款对话机器人已经集成到了Slack中，这是一个聚合的“海外版”，集成了上千种第三方企业办公软件应用。目前，用户可以在Slack中与这个对话机器人进行交互。

Claude推出后，Anthropic今年获得了来自谷歌、Spark Capital和Salesforce Ventures的投资。管理层中的Google可以说是OpenAI的“金主”，也是微软在AI领域的劲敌。克劳德也被认为是最能玩ChatGPT的产品。

“最少偏见”麻雀上线

还有一个走“无害”路线的大模型，就是DeepMind开发的对话机器人Sparrow。这款产品目前还没有公开，但“DeepMind制造”的名字足以引起外界的食欲。

说到人工智能，业界很难绕过“DeepMind”这家公司。其最著名的产品是AlphaGo(俗称“阿尔法狗”)，这是2019年击败围棋选手李世石的人工智能围棋软件。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上 2019 AlphaGo对阵韩国棋手李世石(右)

AlphaGo击败围棋精英的同年，DeepMind开始了AI蛋白质结构预测的研究。4年后，新产品AlphaFold将蛋白质的结构预测从几个月、几年缩短到几分钟，精度接近实验室水平，解决了困扰这一领域50年的难题。

DeepMind在人工智能领域的实力毋庸置疑，又有谷歌加持，资历比OpenAI老得多。DeepMind开发的麻雀自然备受关注。基于龙猫语言模型，这个对话机器人被认为是“最没有偏见”的机器学习系统之一。

当ChatGPT因为伦理风险被推上风口浪尖时，DeepMind立刻打出了“安全牌”。“虽然我们致力于让机器变得智能，但我们希望将人类置于我们工作的中心。”首席执行官戴密斯·哈萨比斯向世界传达了他的态度，强调DeepMind建造麻雀的方法“将促进更安全的人工智能系统。”

虽然麻雀的产品没有公开，但DeepMind披露的信息显示，对话机器人也采用了“强化学习”的训练方式，模型会根据当前对话生成多个候选回复，让标注者判断哪个回复最好，哪个回复违反了预设规则等。基于这些反馈，DeepMind训练出相应的奖励模型，然后利用强化学习算法优化麻雀的生成结果。

这种训练方式基本类似于ChatGPT，但不同的是ChatGPT只有一个综合的奖励模型，而Sparrow将奖励模型细分为两种，一种是规则奖励模型，判断对话是否违反预设的安全规则；另一种是偏好奖励模型，在候选答案中判断最合适的选项。简单来说，就是给模型“立规矩”，喂“好答案”。当然，这个“好”还是基于人的价值判断。

ChatGPT陷伦理风波，“纯净版”机器人在赶来的路上 Sparrow训练模型示意图DeepMind论文“通过有针对性的人类判断改进对齐对话代理”

Sparrow的相关论文显示，当研究参与者试图诱导Sparrow打破规则时，模型的错误概率为8%，比预先训练好的基础模型(龙猫)的错误概率低3倍。

据悉，DeepMind将于今年推出Sparrow，具体时间尚未透露。

作为ChatGPT的另一个挑战者，DeepMind和OpenAI都有通往AGI的野心。有Google做后盾的DeepMind，在资质和资金上都可以和OpenAI抗衡。

今年2月，谷歌专注于大语言模型领域的“蓝移团队”也被并入DeepMind，旨在共同提升LLM(大语言模型)能力。不过，也有人担心，这与DeepMind所追求的独立性背道而驰，并将逐渐导致谷歌收紧对DeepMind的控制。

在独立性方面，DeepMind和Google的分歧由来已久。对外，戴密斯·哈萨比斯总是强调自己首先是科学家，其次是企业家。谈及ChatGPT，哈萨比斯认为它只是“更多的计算能力和数据的蛮力”，对这种“优雅”的方式感到失望。

双方的对立简直是明面上的。难怪外界会认为DeepMind和OpenAI会有一战。

对于用户来说，巨头卷起铺盖是好事，可以源源不断的提供有趣可用的产品。无论是体积功能、体积性能还是体积安全，竞争都会让AI产品向更高级的方向发展。未来会有更多不同技术派别、不同产品路径的ChatGPT出现。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信(j7hr0a@163.com)，我们会及时处理和回复。

原文地址"机器人伦理的三大基本定律及延伸意义，机器人伦理的核心问题是什么"：http://www.guoyinggangguan.com/qkl/160170.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码

机器人伦理的三大基本定律及延伸意义，机器人伦理的核心问题是什么

栏目最新

栏目推荐

贷款平台