来源:
能听能看,给模特不同的感官去理解世界!
目前大规模的语言模型,比如ChatGPT,只能接收文本作为输入。即使是升级后的GPT-4也只是增加了图像输入的功能,并不能处理其他模式的数据,比如视频和音频。
近日,来自剑桥大学、奈良前沿科技大学和腾讯的研究人员共同提出并开放了通用指令合规模型PandaGPT model,这也是首个跨六种模式(图像/视频、文本、音频、深度、热量和IMU)实现指令合规数据的基础模型。
论文链接:https://arxiv.org/pdf/2305.16355.pdf
代码链接:https://github.com/yxuansu/PandaGPT
在没有明确的多模态监督的情况下,PandaGPT展示了其强大的多模态能力,可以执行复杂的理解/推理任务,例如生成详细的图像描述,编写视频启发的故事,回答有关音频的问题,或进行多轮对话。
简而言之,PandaGPT的核心创新在于可以同时接受多个模态输入,自然地组合不同模态的语义,超越了传统的单一模态分析,拓展了下游应用场景,更接近AGI的实现。
例子
基于图片的问答:
基于图片的多问多答:
基于视频的问答:
受图像/视频启发的创意写作:
视觉推理能力:
音频推理能力:
/Image-8/Image+音频的多模态理解能力:
视频+音频的多模态理解能力:
多模态PandaGPT
相对于困在电脑里的AI模型,人类有很多感官去理解世界,可以看一幅画,听到自然界的各种声音;如果机器还能输入多模态信息,就能更全面地解决各种问题。
目前对多模态的研究大多局限于单一模态,或文本与其他模态的结合,缺乏对多模态输入感知和理解的整体性和互补性。
为了使PandaGPT具有多模态输入能力,研究人员结合了ImageBind的多模态编码器和大规模语言模型Vicuna,二者在基于视觉和音频的指令跟随任务中都取得了非常强的性能。
同时,为了使两个模型的特征空保持一致,研究人员使用了16万个开源的图像语言指令跟随数据来训练PandaGPT,其中每个训练样本包括一幅图像和一组多轮对话数据,每轮对话包含人类指令和系统响应。
为了减少可训练参数的数量,研究人员只在Vicuna的注意力模块上训练用于连接Vicuna和额外LoRA重量的ImageBind表示。
在训练过程中,按照8×A100 40G GPU的计算资源,如果将Vicuna-13B的最大序列长度设置为400,训练大概需要7个小时。
值得注意的是,当前版本的PandaGPT仅使用对齐的图像-文本数据进行训练,但通过使用从冻结的ImageBind编码器继承的六种模式(图像/视频、文本、音频、深度、热量和IMU)的绑定属性,PandaGPT显示了涌现性,即零样本跨模式的能力。
限制
尽管PandaGPT在处理多模态和模态组合方面具有惊人的能力,但是有几种方法可以用来进一步改进PandaGPT:
1.熊猫GPT的训练过程可以通过引入更多的对齐数据来丰富,例如匹配文本的其他模式(音频-文本)。
2.研究人员仅使用一个嵌入向量来表示文本之外的模态内容,还需要对细粒度的异常特征提取进行更多的研究,例如跨模态注意机制可能有利于性能的提高。
3.PandaGPT目前只使用多模态信息作为输入,未来可能会在生成端引入更丰富的多媒体内容,比如生成音频形式的图片和文字回复。
4.需要一个新的基准来评价多模态输入的组合能力。
5.PandaGPT还可以表现出语言模型的几种常见缺陷,包括幻觉、毒性和刻板印象。
研究人员还指出,PandaGPT目前只是一个研究原型,不能直接用于现实世界的应用。
参考资料:
https://hugging face . co/spaces/GMFTBY/pandagpttps://panda-GPT . github . io/https://github . com/yxuansu/PandaGPT
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"pdq 剑桥,剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型":http://www.guoyinggangguan.com/qkl/142652.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码