从百度的文心开始,生成式AI已经成为中国互联网和科技公司的新高地。阿里巴巴的依桐钱文、腾讯的浑源、华为的盘古、科大讯飞的Spark昨日在360发布智脑,国产生成式AI产品频频曝光。人工智能已经成为中国新的技术出路,并在海外引起了关注。
“中国在生成式AI方面有多强?”这是英国时事杂志《经济学人》最近一篇文章的标题。本文从论文数量、系统数量、计算能力、芯片硬件四个图表来比较两国在基础层面的实力。文章认为,中国大模目前落后美国两到三年,是因为两国在培养数据、芯片等硬件和科技人才方面的差距。
文章还指出,这些差距都有自己的解决方案。最终差距不会太大,美国真正的优势是高效应用和传播技术的能力。以下是《经济学人》这篇文章的编译节选:
从北京和华盛顿的高调唱衰来看,中美正全面展开一场科技霸权的较量。
“从根本上说,我们相信少数技术将在未来十年发挥极其重要的作用。”美国总统拜登的国家安全顾问杰克·沙利文去年9月曾这样说过。今年2月,中国领导人也呼应了这一观点,称“我们迫切需要加强基础研究,从源头和底层解决关键技术问题”,以“应对国际科技竞争,实现高度自力更生”。
目前,没有任何技术比人工智能(AI)更吸引太平洋两岸政策制定者的注意力。ChatGPT等生成型AI能力的快速提升,进一步强化了这种担忧。这种大模型对网络上所有的文字、图像或声音进行分析,然后创造出越来越多的真实模仿。
如果生成式AI真的如其支持者所说是革命性的,那么善于使用它的国家可能会在21世纪重要的地缘政治竞争中获得经济和军事优势。西方和中国的战略家已经在讨论人工智能军备竞赛。中国能赢得这场比赛吗?
过去几年,中国在一些衡量AI实力的指标上已经领先美国。2019年,中国AI论文占比超过美国。2021年,全球26%的AI论文来自中国,而只有17%来自美国。按AI论文发表数量计算,全球排名前十的机构有九个在中国。按照一个常用的基准,计算机视觉领域排名前五的实验室也位于中国。
中美AI相关指标对比
但在赋予生成性AI智慧的“基础模型”领域,美国优势明显。
ChatGPT及其高级模型(最新版本为GPT-4)由美国初创公司OpenAI开发。其他美国公司也有自己强大的系统,从Anthropic或StabilityAI等小公司到谷歌、Meta和微软(持有OpenAI部分股份)等科技巨头。文易欣言是中国互联网搜索巨头百度打造的对标ChatGPT的产品,一般认为其智能没有ChatGPT高。
中美欧机器学习系统数量对比。
这让业内人士得出结论,中国在建立基础模型方面落后美国两到三年。
这种差距有三个原因。第一个原因涉及到数据。例如,商汤科技和旷视科技等AI公司在获得政府部门的数据后,在其领先的计算机视觉实验室的帮助下,开发了一流的面部识别系统。这种优势在生成式AI中就没有那么强大了,因为基础模型是用网络上大量的非结构化数据训练出来的。
根据W3Techs的数据,全球56%的网站是英文的,而中文的只有1.5%,这对美国的建模者是有利的。
斯坦福大学的傅博士指出,中国人主要通过微信和微博等应用程序在互联网上进行互动。这些app属于“围墙花园”,大部分都没有在搜索引擎上被索引。这使得AI模型在训练时很难吸收这些内容。比如北京致远人工智能研究院在2021年推出的模型“悟2.0”,虽然在计算上可能比GPT-4更复杂,但未能引起轰动,数据不足可能是一个原因。
主要半导体公司的芯片生产能力
中国在生成式AI上表现平庸的第二个原因和硬件有关。去年,美国对中国人工智能领域的一些关键技术实施出口控制,包括云计算数据中心(研究基本模型的地方)使用的微处理器和允许中国自行制造此类半导体的芯片制造工具。
这对中国大型号的发展造成了打击。英国智库AI Governance Center在分析了中国的26款大型机型后发现,超过一半的机型的芯片依赖于美国芯片公司英伟达。一些报告显示,中国最大的芯片制造商SMIC的产品仅比行业领先者TSMC落后一两代。然而,SMIC只能量产TSMC三四年前量产的芯片。
中国的AI公司很难从美国引进的另一个东西是人才。目前美国对全球科技人才还是很有吸引力的:在期刊上发表论文的美国AI专家,有三分之二是在国外出生的。2019年,中国工程师占这一顶级群体的27%。中国很多AI研究人员在美国学习或工作,然后带着专业知识回国。然而,新冠肺炎疫情和中美关系紧张导致这一群体的人数下降。2022年上半年,美国向中国学生发放的签证数量是2019年同期的一半。
数据、硬件和人才的三重短缺阻碍了中国的AI发展,但这些因素是否会更长时间阻碍中国的AI雄心则是另一回事。
先说数据问题。今年2月,在聚集了全国近三分之一AI公司的北京,当地政府承诺开放115个政府下属单位的数据,为建模机构提供15880个数据集。现就职于牛津大学的前美国驻华外交官凯拉·布洛姆奎斯特(Kayla Blomquist)表示,中国政府此前表示,希望拆除中国应用的隔离墙,这可能会公布更多数据。
此外,最近这些火的生成模型可以将机器学习的成果从一种语言转换到另一种语言。OpenAI表示,尽管训练数据中缺少中文材料,但GPT-4在中文任务中表现非常出色。乔治·华盛顿大学的杰弗里·丁(Jeffrey Ding)指出,百度的文心是用大量英文数据训练出来的。
在硬件方面,中国也在寻找替代品。《金融时报》3月报道称,被美国列入黑名单的商汤科技利用中间商逃避出口管制。中国其他AI公司正在通过其他国家的云服务器使用英伟达芯片。还有一个办法就是多买NVIDIA不先进的产品。为了继续服务广阔的中国市场,英伟达设计了符合制裁的产品,比顶级产品慢10%到30%。对于中国客户来说,这增加了处理能力的成本,但至少是足够的。
中国也可以利用开源模式在一定程度上缓解芯片和人才缺乏的问题。任何人都可以下载开源模型的内部工作机制,并针对特定任务进行微调。这包括模型参数,这些参数决定了模型的结构,并且是通过大量昂贵的训练获得的。斯坦福大学的研究人员利用Meta的基本模型LLaMA的参数,建立了一个名为羊驼的模型,其成本不到600美元,而训练一个像GPT-4这样的模型可能需要1亿美元。羊驼在某些任务上并不逊色于ChatGPT原版。
考虑到以上因素,很难想象美国或中国能在AI big model上建立不可逾越的领先优势。这两个国家最终可能会拥有具有类似能力的人工智能,尽管中国将在这个过程中为美国的制裁付出额外的代价。但如果大模型的竞争势均力敌,那么美国的另一个优势可能会让它成为AI的大赢家,那就是它在经济体系中广泛应用其前沿技术的能力。从历史上看,正是新技术的大规模高效应用帮助美国在与苏联的科技竞争中走在了前面,尽管苏联在20世纪50年代培养的理学博士数量是美国的两倍。
中国在应用新技术方面远胜于苏联。它的金融科技平台,5G电信,高铁都是世界一流的。尽管如此,Jeffrey Ding表示,这些成功可能是例外,而不是常态,尤其是中国在部署云计算和商业软件方面的表现,这些都是人工智能的支持设施。
虽然美国的出口管制可能不会阻碍中国所有大机型的发展,但会在更大范围内限制中国的科技产业,从而减缓新技术的采用。例如,中国企业整体上缺乏积极推动新技术扩散的技术专家,以及资本流向人工智能行业的不确定性。去年,中国人工智能初创公司的私人投资为135亿美元,不到流向美国竞争对手的资金的三分之一。根据数据提供商PitchBook的数据,在2023年的前四个月,投资缺口似乎进一步扩大。
无论生成式AI是否真的具有革命性,自由市场已经把赌注压在了能充分利用它的玩家身上。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"中国的生成式AI有多强?《经济学人》剖析中美差距":http://www.guoyinggangguan.com/qkl/144007.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码