由Tanya Malhotra撰写
来源:Marktechpost
编译:定义之路
图片来源:由* *布局AI工具生成。
随着过去几个月生成式人工智能的巨大成功,大型语言模型(LLM)正在不断完善。这些模式正在促成一些值得注意的经济和社会变革。OpenAI开发的ChatGPT是一种自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如Pathways语言模型(PaLM)和Chinchilla,在模仿人类方面也有不错的表现。
大型语言模型通过强化学习(RL)进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。**(代理)通过完成某些任务并观察这些动作的结果来学习在环境中的行为。* *完成好一项任务后,会得到积极的反馈,而完成不好,会受到相应的惩罚。像ChatGPT这样的LLM的出色表现归功于强化学习。
ChatGPT使用来自人类反馈的强化学习(RLHF)通过最小化偏差来微调模型。但为什么不是监督学习(SL)呢?一个基本的强化学习范例由用于训练模型的标签组成。但是为什么这些标签不能直接用来监督学习方法呢?人工智能和机器学习研究人员塞巴斯蒂安·拉什卡(Sebastian Raschka)在他的推特上分享了一些原因,即为什么强化学习被用来微调而不是监督学习。
不使用监督学习的第一个原因是,它只预测成绩,不会产生连贯的反应;该模型只学习给与训练集相似的响应打高分,即使它们不连贯。另一方面,RLHF被训练来估计响应的质量,而不仅仅是排名分数。
Sebastian Raschka分享了使用监督学习将任务重新表述为约束优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这样会使得生成的回复和排名质量更高。但是这个方法只有在目标正确产生一个问答对的情况下才能成功。然而,累积奖励对于实现用户和ChatGPT之间的连贯对话也是必要的,而监督学习无法提供这样的奖励。
不选择SL的第三个原因是,它使用交叉熵来优化标签级别的损失。虽然改变响应中的单个单词可能对文本段落标记级别的整体损失只有很小的影响,但如果一个单词被否定,则生成连贯对话的复杂任务可能会完全改变上下文。所以,仅仅依靠SL是不够的,RLHF是必须的,要考虑整个对话的背景和连贯性。
监督学习可以用于训练模型,但是根据经验,RLHF通常表现得更好。2022年的一篇论文《从人类反馈中学习》显示,RLHF的表现优于SL。原因是RLHF考虑了连贯对话的累积回报,而SL由于在文本段落层面的损失功能而未能很好地做到这一点。
像InstructGPT和ChatGPT这样的LLM同时使用监督学习和强化学习。两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用SL对模型进行微调,然后使用RL对模型进行进一步更新。SL阶段允许模型学习任务的基本结构和内容,而RLHF阶段改善模型的响应以提高准确性。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因":http://www.guoyinggangguan.com/qkl/176959.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码