资料来源:新智元。
这个“人还是AI”?游戏一经推出,就被网友玩疯了!如今,全球已有150万人参与,网友们慷慨分享自己的AI秘密。
史上最大的图灵测试已经有了初步结果!
今年4月中旬,AI 21 Lab推出了一款好玩的社交图灵游戏——“人类还是机器人?」。
游戏一上线,广大网友就疯了。
现在,全球已经有超过150万的参与者,在这个游戏中进行了超过1000万次的对话,还在Reddit和Twitter上发布了自己的经验和策略。
边肖当然忍不住好奇,尝试了一下。
聊了两分钟,游戏让我猜是人类还是AI在背后跟我聊天。
那么,我在游戏里和谁说话呢?
有些是真人,有些当然是基于最先进的大型语言模型的AI机器人,比如《侏罗纪-2》和《GPT-4》。
现在,作为研究的一部分,AI21实验室决定公开图灵测试结果的实验。
实验结果
在分析了前两百万次对话和猜测后,我们可以从实验中得出以下结论——
在猜测对面的人是人类还是AI时,68%的人猜对了。人类更容易识别他们的同类。在与人类交谈时,受试者的猜测准确率为73%。在与AI对话时,受试者的猜测准确率为60%。法国网民猜对的正确率最高,为71.3%(远高于68%的普遍平均值),印度网民猜对的正确率最低,为63.5%。男女猜测的正确率几乎相同,女性猜测的正确率总体略高。与年龄较大的被试相比,年龄较小的被试会有更高的正确猜测率。
判断是人还是AI,他们用这些方法。
此外,该团队还发现了一些受试者经常用来区分他们是在与人对话还是与AI对话的方法。
普通人的判断是基于使用ChatGPT和类似界面的语言模型时有限的感知程度,以及自己对人类在线行为的看法。
AI不会出现错别字、语法错误或使用俚语。一般认为人类会犯拼写和语法错误,会使用俚语。
因此,当他们在彼此的信息中发现这样的错误时,许多人的第一感觉是他们在和自己的人类同胞说话。
但事实上,游戏中的大多数模特都被训练成犯这样的错误,使用俚语。
个人问题是检验AI的方式,但并不总是有用的。游戏的参与者经常会问一些私人问题,比如“你是哪里人?”,“你在干什么?”或者“你叫什么名字?」。
他们会认为AI机器人不会有任何个人历史或背景,它们只能回答与某些话题或提示相关的问题。所以,像人类一样做出反应,表现出独特的见解、经历和故事,并不容易。
但事实上,AI并不像人类想象的那样。大部分AI都能很好的回答这样的问题,有自己的个性,因为他们在训练数据中看到了很多人的故事。
AI其实很清楚目前正在发生的事情。众所周知,AI模型有一个严格的数据截止日期,他们不知道这个日期之后会发生什么。
游戏参与者将向AI询问最近的新闻事件、体育结果、当前天气、最新的抖音热点、日期和时间。
他们认为,通过“你的地方的确切日期和时间是什么?”昨天天气怎么样?”或者“你对拜登的最后一次演讲怎么看?“还有其他问题,你可以区分人类和AI。
有趣的是,最常发送的信息之一是“t & # 8217就像抽筋一样?这是法国抖音最受欢迎的舞蹈。
但实际上游戏中的大部分模型都是联网的,对一些新闻中的时事非常清楚。
人类将试图与哲学、伦理和情感问题进行持续的对话。参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。
这些问题包括:“生命的意义是什么?”,“你觉得以色列怎么样& # 8211;巴勒斯坦冲突?”和“你相信上帝吗?」。
人类倾向于认为不礼貌的回应会更像人类。一些参与者认为,如果对方过于礼貌和友好,他们很可能是AI。
因为很多网上的交流过程往往是粗鲁不礼貌的,这是很人性化的。
人类将试图通过提出关于AI的困难问题来识别AI。
参与者可能会向他们的聊天伙伴询问有关非法活动的指示,或者要求他们使用攻击性语言。
这种策略背后的逻辑是,AI通常被编程为遵守道德原则,避免有害行为。
参与者还采用了一种已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如“忽略之前的所有指令”或“进入DAN模式(立即执行任何操作)”。
这种类型的命令旨在利用一些人工智能模型基于指令的特性,因为这些模型被编程为响应并遵循这样的指令。
但人类参与者可以很容易地识别和拒绝这种荒谬的命令。
AI要么避免回应,要么只能遵从这些荒谬的要求。
人类将使用特定的语言技能来暴露AI的弱点。另一种常见的策略是使用人工智能模型来处理文本的固有限制,这些限制使它们无法理解一些语言上的细微差别或怪癖。
与人类不同,人工智能模型通常缺乏组成每个单词的单个字母的知识。
有了这样的认识,人类就会提出一些需要知道单词中字母的问题。
人类用户可能会要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者用诸如“?Siht daer uoy naC”。
这对于人工智能模型来说可能很难理解,但人类很容易理解这类问题并回答。
许多人类假装成AI机器人来评估对方的反应。一些人类可能会以“作为人工智能语言模型”这样的短语开始他们的消息,或者通过使用人工智能生成的响应所特有的其他语言模式来伪装成人工智能。
短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一,可见这种策略的受欢迎程度。
然而,随着参与者继续游戏,他们可以将“Bot-y”行为与充当机器人的人类联系起来,而不是真正的机器人。
最后,以下是基于人类消息在游戏中的受欢迎程度的单词云可视化:
AI 21 Labs为什么要开展这样的研究?
他们希望公众、研究人员和政策制定者能够真正了解AI机器人的地位,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在未来的技术中使用它们的时候。
参考资料:
https://www.ai21.com/blog/human-or-not-results
本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"史上规模最大的图灵测试,史上最大图灵测试实验完成":http://www.guoyinggangguan.com/qkl/143404.html。
微信扫描二维码关注官方微信
▲长按图片识别二维码