来源:
开源AI画图为柄,Stable DiffusionStability AI背后的公司再次放大!
全新开源模式DeepFloyd IF获得2000+星,登上GitHub热门榜单。
DeepFloyd如果不仅画质是照片级的,还解决了文圣地图的两大问题:
准确绘制文本。(霓虹灯上写着xxx)
,并准确理解空。一只猫照镜子,看到了狮子的倒影。
网友说这是大事。之前想让Midjourney v5在霓虹灯上写个AI的字,但是对镜子理解不正确。
用DeepFloyd IF,可以熟练地把指定的文字放在图片的任何地方。
霓虹灯、街头涂鸦、服装、手绘插图和文字都将出现在合理的地方,使用适当的字体、样式和排版。
这意味着AI直接渲染商品、海报等实用工作流又开启了一个环节。
也开辟了视频特效的新方向。
目前,DeepFloyd IF是在非商业许可下开源的,但团队解释说这是暂时的,在获得足够多的用户反馈后会转向更宽松的协议。
有需要的小伙伴可以密切关注反馈。
DeepFloyd IF的像素级图像生成仍然是基于扩散模型,但与之前的稳定扩散相比有两大区别。
负责理解文本的部分由OpenAI的CLIP改为了Google T5-XXL,并结合超分辨率模块中额外的注意力层,可以获得更准确的文本理解。
负责生成图像的部分从潜在扩散模型变为像素级扩散模型。
即扩散过程不再作用于代表图像编码的潜在空,而是直接作用于像素。
官方还提供了一组DeepFloyd IF和其他AI绘画模型的视觉对比。
可以看到,使用T5进行文本理解的Google Parti和NVIDIA EDFF-1也能准确绘制文本,而AI不会写的事实就是CLIP的锅。
但是英伟达EDFF-1并没有开源,谷歌的几款机型甚至都没有给出演示,所以DeepFloyd IF就成了更实用的选择。
DeepFloyd如果在生成的图像上与先前的模型一致。语言模型理解文本后,创建64×64分辨率的缩略图,然后通过不同级别的扩散模型和超分辨率模型进行放大。
在这种架构上,通过将指定的图像还原为64×64,然后使用新的提示重新执行扩散,还可以创建图像并调整样式、内容和细节。
并且不需要对模型进行微调就可以直接实现。
另外,DeepFloyd IF的优势在于IF-4.3B的基本模型拥有目前扩散模型中最有效的U-Net参数。
在实验中,IF-4.3B取得了最好的FID分数,达到了SOTA(FID越低,图像质量越高,多样性越好)。
谁是DeepFloydDeepFloyd AI Research是StabilityAI旗下的独立研发团队,深受摇滚乐队平克·弗洛伊德的影响,自称“研发乐队”。
主要成员只有四个,按姓氏来说都是东欧背景。
除了开源代码,该团队还在HuggingFace上提供了DeepFloyd IF模型的在线演示。
我们也试过,可惜目前不支持中文。
原因可能是其训练数据集LAION-A中的中文内容不多,但既然是开源的,相信在中文数据集上训练出来的变种也不会出现的太晚。
还有一件事deepfloydif并不是AI昨晚在开源上唯一的举动。
在语言模型方面,他们还推出了首款采用RLHF技术的开源聊天机器人StableVicuna,该机器人基于羊驼的Vicuna-13B模型。
目前,代码和模型重量可供下载。
一个完整的桌面和移动界面将很快发布。
Deepfloyd IF在线演示:
代码:
StableVicuna在线演示:
重量下载:
参考链接:
[1]
[2]
[3]
[4]
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,像素级生成":http://www.guoyinggangguan.com/qkl/153598.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码