核心提示:
ChatGPT等基于自然语言处理技术的聊天AI,短期内有三个主要的法律合规问题急需解决:
第一,聊天AI提供的回复的知识产权,最重要的合规问题是聊天AI产生的回复是否产生相应的知识产权。需要知识产权授权吗?;
其次,聊天AI在对海量自然语言处理文本(一般称为语料库)进行数据挖掘和训练的过程中,是否需要获得相应的知识产权授权?
再次,ChatGPT等聊天AI的回答是,其中一个机制是通过对大量已有的自然语言文本进行数理统计,得到一个基于统计的语言模型,这就导致了聊天AI“严重胡说八道”的可能性,进而导致虚假信息传播的法律风险。在这种技术背景下,如何尽可能降低聊天AI的虚假信息传播风险?
总的来说,目前我国关于人工智能的立法还处于预研阶段,没有正式的立法规划或相关议案草案。相关部门对人工智能的监管尤为谨慎。随着人工智能的逐步发展,相应的法律合规问题只会越来越多。
ChatGPT不是“跨代劳动”
智能技术”
ChatGPT本质上是自然语言处理技术发展的产物,本质上仍然只是一个语言模型。
2023年初,全球科技巨头微软的巨额投资,让ChatGPT成为科技领域的“顶尖流”,成功走出圈子。随着资本市场ChatGPT概念的风起云涌,国内不少科技企业也开始布局这一领域。在“ChatGPT”概念风靡资本市场的同时,作为法律工作者,我们不禁要评价ChatGPT本身可能带来哪些法律安全风险,其法律合规路径又是怎样的?
在讨论ChatGPT的法律风险和合规路径之前,我们先来考察一下ChatGPT的技术原理——chat GPT能像新闻上说的那样,给提问者任何想要的问题吗?
在撒姐团队看来,ChatGPT似乎远非某些新闻中标榜的“神”——一句话,它只是变形金刚、GPT等自然语言处理技术的融合,本质上仍然是基于神经网络的语言模型,而非“跨时代的AI进步”。
如前所述,ChatGPT是自然语言处理技术发展的产物。就这项技术的发展历史来看,大致经历了三个阶段:基于语法的语言模型——统计语言模型——基于神经网络的语言模型。ChatGPT所处的阶段是基于神经网络的语言模型阶段。要想了解ChatGPT的工作原理以及该原理可能引发的法律风险,首先要明确基于神经网络的语言模型的前身——统计语言模型。
在基于统计的语言模型阶段,AI工程师通过对海量的自然语言文本进行统计,确定单词之间连续连接的概率。当人们提出一个问题时,AI就开始分析在这个问题的构成词组成的语言环境中,哪些词是高概率搭配的,然后把这些高概率的词拼接在一起,返回一个统计的答案。可以说,这一原理自出现以来就贯穿了自然语言处理技术的发展,甚至在某种意义上,后来出现的基于神经网络的语言模型也是对基于统计的语言模型的修正。
举个简单易懂的例子,撒姐团队输入的问题是“大连有哪些旅游景点?”在ChatGPT聊天框中。如下图所示:
AI的第一步是对问题中的基本语素“大连,哪几个,旅游胜地”进行分析,然后在现有的语料库中找到这些语素所在的自然语言文本集合,在这个集合中找到出现概率最大的搭配,然后将这些搭配组合起来形成最终答案。比如AI会大概率在“大连、旅游、度假”的语料库中找到“中山公园”这个词,所以会返回“中山公园”。比如“公园”这个词与花园、湖泊、喷泉、雕像等词的搭配概率最大,所以会进一步回归到“这是一个历史悠久的公园,有美丽的花园、湖泊、喷泉、雕像。
换句话说,整个过程是基于AI背后已有的自然语言文本信息(语料库)的概率统计,所以返回的答案也是“统计结果”,这就导致了ChatGPT在很多问题上的“严重扯淡”。比如在“大连有哪些旅游景点”这个问题的回答中,大连虽然有中山公园,但是中山公园没有湖泊、喷泉、雕像。大连历史上确实有“斯大林广场”,但斯大林广场自始至终都不是商业广场,也没有购物中心、餐馆和娱乐场所。很明显,ChatGPT返回的信息是假的。
ChatGPT作为一种语言模型目前正在
最适合的应用场景
虽然我们在上一部分解释了统计语言模型的缺点,但ChatGPT是在统计语言模型上做了很大改进的基于神经网络的语言模型,其技术基础Transformer和GPT是最新一代的语言模型。ChatGPT本质上是海量数据和Transformer模型的结合,具有很强的表达能力。因此,对自然语言进行了非常深入的建模。虽然返回的句子有时很“扯淡”,但乍一看还是像“人类回复”,所以这项技术在需要海量人机交互的场景中有着广泛的应用场景。
到目前为止,有三种这样的情况:
第一,搜索引擎;
其次是银行、律所、各类中介、商场、医院、政府服务平台中的人机交互机制,如上述场所的客户投诉系统、引导导航系统、政府咨询系统等;
第三,智能汽车与智能家居(如智能音箱、智能照明)的交互机制。
结合了ChatGPT等AI聊天技术的搜索引擎,很可能会呈现一种传统搜索引擎为主,基于神经网络的语言模型为辅的方式。目前,传统搜索巨头,如Google、百度等,在基于神经网络的语言模型技术上已经有了不少积累。比如谷歌有堪比ChatGPT的麻雀和Lamda。有了这些语言模型的加持,搜索引擎会更加“人性化”。
ChatGPT等AI聊天技术在客户投诉系统、医院和商场的引导导航、政府咨询系统中的应用,将大大降低相关单位的人力资源成本,节省沟通时间。但问题是,基于统计的答案可能会产生完全错误的内容回复,由此带来的风控风险可能需要进一步评估。
与上述两种应用场景相比,ChatGPT在智能汽车、智能家居等领域成为上述设备的人机交互机制的法律风险要小得多,因为这类领域的应用环境相对私密,AI反馈的内容错误不会造成很大的法律风险。同时,这类场景对内容精准性要求不高,商业模式更成熟。三
ChatGPT的法律风险与合规路径
初步检测
首先,中国人工智能的整体监管情况。
与许多新兴技术一样,以ChatGPT为代表的自然语言处理技术也面临着“Collingridge困境”,它包括信息困境和控制困境。所谓信息困境,是指一项新兴技术带来的社会后果,在技术的前期是无法预测的;所谓控制困境,是指当一项新技术带来的不良社会后果被发现时,该技术往往已经成为整个社会经济结构的一部分,以至于不良社会后果无法得到有效控制。
目前,人工智能领域,尤其是自然语言处理技术领域发展迅速。这项技术很可能会陷入所谓的科林·格里斯困境,而相应的法律监管似乎并没有跟上。目前我国还没有国家层面的人工智能产业立法,但地方上已经有了相关的立法尝试。就在去年9月,深圳公布了《深圳经济特区人工智能产业促进法》国家专项立法,随后上海通过了《上海市促进人工智能产业发展条例》。相信很快各地也会出台类似的人工智能行业立法。
在人工智能的伦理规范方面,国家新一代人工智能治理专业委员会也于2021年发布了《新一代人工智能伦理准则》,提出要将伦理融入人工智能研发和应用的全生命周期。或许在不久的将来,类似阿西莫夫小说的“机器人三定律”将成为人工智能领域的监管铁律。
第二,ChatGPT带来的虚假信息的法律风险。
将目光从宏观转向微观,抛开人工智能行业的整体监管图景和人工智能的伦理监管,ChatGPT等AI聊天基础存在的现实合规问题也亟待关注。
其中ChatGPT回复中信息不实的问题比较棘手。如本文第二部分所述,ChatGPT的工作原理导致其回复可能完全是“严重扯淡”,这种看似真实却离谱的虚假信息极具误导性。当然,对“大连有哪些旅游景点”问题的虚假回复可能不会造成严重后果,但如果ChatGPT应用于搜索引擎、客户投诉系统等领域,其回复的虚假信息可能会造成极其严重的法律风险。
事实上,这样的法律风险已经出现。2022年11月,元服务研究领域的语言模型Galactica几乎与ChatGPT同时推出。因为真假答案混杂的问题,测试才三天就被用户投诉。在技术原理短时间内无法突破的前提下,如果将ChatGPT和类似的语言模型应用于搜索引擎、客户投诉系统等领域,就需要进行合规化改造。当检测到用户可能提出专业问题时,应引导用户向相应的专业人士咨询,而不是在人工智能中寻找答案,同时提醒用户聊天AI返回问题的真实性可能需要进一步验证,以最大限度降低相应的合规风险。
第三,ChatGPT带来的知识产权合规问题。
当我们把目光从宏观转向微观时,除了AI回复信息的真实性,聊天AI的知识产权问题,尤其是ChatGPT这样的大语言模型,也应该引起合规人员的注意。
第一个合规问题是“文本数据挖掘”是否需要相应的知识产权授权。如上所述,ChatGPT的工作原理依赖于海量的自然语言文本(或语料库)。ChatGPT需要对语料库中的数据进行挖掘和训练,ChatGPT需要将语料库中的内容* *到自己的数据库中。相应的行为在自然语言处理领域通常被称为“文本数据挖掘”。在相应的文本数据可能构成作品的前提下,文本数据挖掘行为是否侵犯* *权仍有争议。
在比较法领域,日本和欧盟都在版权立法中扩大了合理使用的范围,在AI中增加了“文本数据挖掘”作为合理使用的新案例。虽然在2020年中国《著作权法》修订时,有学者主张将中国的合理使用制度由“封闭式”改为“开放式”,但这一主张最终并未被采纳。目前我国著作权法仍然维持合理使用制度的封闭性规定,只有著作权法第二十四条规定的十三种情形才能认定为合理使用。换句话说,目前我国著作权法还没有将AI中的“文本数据挖掘”纳入合理应用范围,文本数据挖掘在我国。
第二个遵从性问题是ChatGPT生成的响应是否是原创的。关于AI生成的作品是否原创,撒姐团队认为其评判标准应该不会与现有评判标准不同。换句话说,一个答案是AI完成的,还是人类完成的,都要按照现有的评判标准来评判。其实这个问题背后是另一个更有争议的问题。如果AI生成的答案是原创,版权人可以是AI吗?显然,在包括中国在内的大多数国家的知识产权法下,作品的作者只能是自然人,而AI不可能是作品的作者。
最后,如果ChatGPT在回复中拼接了第三方作品,应该如何处理其知识产权问题?撒姐团队认为,如果语料库中的版权作品在ChatGPT的回复中被拼接(虽然根据ChatGPT的工作原理,这种情况不太可能发生),那么根据我国现行的著作权法,除非构成合理使用,否则必须得到著作权人的授权才可以* *。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"狂飙php,什么是狂飙模式":http://www.guoyinggangguan.com/qkl/178646.html。
微信扫描二维码关注官方微信
▲长按图片识别二维码