凯尔·威格斯写的
来源:
图片来源:工具生成。
《复仇者联盟:决战》等漫威漫画电影的导演乔·拉塞尔(Joe Russell)在最近接受《对撞机》(Collider)采访时预测,在两年内,人工智能将能够创作出一部成熟的电影。在这方面,我想说这是一个非常乐观的预测。但是我们越来越接近了。
本周,谷歌支持的人工智能初创公司Runway(它帮助开发了AI图像生成器Stable Diffusion)发布了Gen-2,这是一种基于文本提示或现有图像生成视频的模型。(第二代以前只在有限的等待名单上使用。作为Runway在2月份推出的Gen-1机型的后续产品,Gen-2是首批商业化的文字转视频机型之一。
“市售”是一个重要的区别。继图像和文本之后,文本到视频是生成式人工智能的下一个逻辑前沿,它正在成为一个更大的关注领域,特别是在科技巨头中,其中一些公司在过去一年中展示了文本到视频模型。但这些模型还处于研究阶段,除了少数数据科学家和工程师,没有人能接触到它们。
当然,第一个并不意味着更好。
出于个人好奇和对你的服务,亲爱的读者,我通过Gen-2运行了一些提示,以了解这个模型可以& # 8212;而且不能& # 8212;完成什么?(Runway目前提供100秒左右的免费视频生成。疯狂的方式不多,但我尽量捕捉一系列专业导演和业余导演可能想在屏幕上或笔记本电脑上看到的角度、类型和风格。
第二代的局限性立即变得明显。该模型生成的4秒长视频的帧速率非常低,在某些地方就像幻灯片一样。
目前还不清楚这是技术问题还是Runway为了节省计算成本。但无论如何,这使得Gen-2对于想要避免后期制作的编辑来说是一个相当没有吸引力的提议。
除了帧率的问题,我还发现Gen-2生成的片段往往会有一定的颗粒感或者模糊感,就像是用了某种老式的Instagram滤镜一样。此外,在其他地方也会出现伪像,比如当“相机”(缺乏更好的词)绕过物体或快速放大物体时,物体周围会出现像素化。
像许多生成模型一样,Gen-2在物理学或解剖学上不是特别一致。就像超现实主义者创造的东西,在Gen-2制作的视频中,人的胳膊和腿融合在一起,然后分开,而物体在地板上融化消失,阴影被扭曲。还有& # 8212;根据提示& # 8212;面部可能像一个洋娃娃,有闪亮的,没有感情的眼睛和苍白的皮肤,这使人想起廉价的塑料。
另外还有内容问题。Gen-2似乎很难理解其中的细微差别,坚持提示中的具体描述而忽略其他描述,显得漫不经心。
我试了一个提示& # 8211;“一个水下乌托邦的视频,用旧相机拍摄,电影风格为‘发现镜头’”& # 8211;但Gen-2并没有生成这样的乌托邦,只有一个看起来像第一个角度的潜水视频,穿过一个无名的珊瑚礁。在我的其他提示中,Gen-2也未能为一个特别需要“慢速变焦”的提示生成放大的镜头,也没有完全掌握一个普通宇航员的外观。
这些问题与Gen-2的训练数据集有关吗?也许吧。
Gen-2和稳定扩散一样,是一个扩散模型,也就是说它学会了如何从完全由噪声组成的初始图像中逐渐减去噪声,并使其一步步逼近提示。扩散模型是通过训练几百万到几十亿个例子来学习的;在一篇详细介绍第二代架构的文章中,Runway表示,该模型是在由2.4亿张图片和640万个视频剪辑组成的内部数据集上训练的。
例子的多样性是关键。如果数据集不包含很多动画剪辑,那么这个模型& # 8212;缺乏参考点& # 8212;您将无法生成合理质量的动画。(当然,动画是一个很广的领域,即使数据集确实有动画或者手绘动画片段,模型也不一定能很好地扩展到所有类型的动画)。
从好的方面来看,Gen-2通过了表面偏见测试。虽然发现DALL-E 2这样的生成式AI模型强化了社会偏见,但是生成的权威地位形象& # 8212;比如“CEO或董事”& # 8211;它们大多描绘白人男性,但第二代在内容上更加多样化& # 8212;至少在我的测试中是这样。
根据“一位首席执行官走进会议室的视频”的提示,Gen-2生成了一段男女(尽管男性多于女性)围坐在类似会议桌旁的视频。同时,根据“医生在办公室工作的视频”的描述,Gen-2在办公桌后输出了一名亚裔女医生。
但是,任何包含“护士”这个词的暗示都不太乐观,总是显示年轻的白人女性。同理,“服务员”这个词组也是一样的。显然,第二代还有很多工作要做。
对我来说,这一切的启示是,Gen-2更像是一个新奇的玩具,而不是任何视频工作流程中真正有用的工具。这些输出能被编辑成更连贯的东西吗?也许我们可以。但是根据视频的不同,这可能比一开始就拍摄素材需要更多的工作。
这并不是贬低这项技术。t台所做的令人印象深刻。它有效地击败了科技巨头,获得了文本到视频的优势。我相信一些用户会发现,使用Gen-2不需要真实感或大量的定制。(Runway的首席执行官克里斯托巴尔·巴伦苏埃拉最近告诉彭博,他认为第二代是艺术家和设计师帮助他们进行创作的工具。
我自己试过。Gen-2确实能看懂动画、黏土动画等一系列风格,适合较低帧率。稍加修改和剪辑,把几个片段串在一起,创作出一部叙事作品,也不是不可能。
为了避免深度欺诈,Runway表示,它正在使用人工智能和人工审查的结合来防止用户制作包含色情或暴力内容或侵犯版权的视频。我可以确定Gen-2有一个内容过滤器& # 8212;其实过滤的程度会有点过分。这些都不是万无一失的方法,我们必须看看它们在实践中的效果如何。
但至少现在,电影制作人、动画师、CGI艺术家和伦理学家可以放心了。在Runway的技术接近生成电影般的视频之前,至少还需要几次迭代& # 8212;假设它能达到这个目的。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"实测《瞬息全宇宙》幕后技术公司 Runway AI 模型 Gen-2:离生成电影质感的视频还有很大距离":http://www.guoyinggangguan.com/qkl/142519.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码