Meta宣布基于Emu大模型推出AI图像及视频工具

日前Facebook母公司Meta方面宣布,在人工智能内容创作和编辑工具领域取得了重大进展,即基于其今年早些时候发布的大模型Emu打造了图像编辑工具“Emu Edit”和视频生成工具“Emu Video”。但截至目前,Meta方面尚未透露具体何时发布这两款产品,仅表示目前会用于基础研究。


据了解,Emu Edit可根据用户指令进行各种形式的编辑,包括区域和全局编辑、移除和添加背景、调整颜色并进行矢量图转换,以及进行图像构成元素的检测和分割等。

nEO_IMG_1700467939181.jpg

值得一提的是,据Meta方面透露,与当前市面上大多数生成式AI工具不同,Emu Edit可精确遵循用户指令,确保图像中与指令无关的其他元素不受影响。例如当用户要求为图片中的棒球帽添加文字时,帽子本身应保持不变。该公司表示,“我们认为,主要目标不应仅仅是产生一个可信的图像。相反,模型应专注于精确地改变与编辑请求相关的像素”。


Meta方面表示,其使用了1000万个合成数据集训练Emu Edit,其中每个样本都包含图像输入、任务描述,以及目标输出图像,可使模型忠实地执行指令,产生“比当前所有竞品都要好的结果”。此外Meta方面还指出,“我们相信这是迄今为止同类中最大的数据集”。


而Emu Video则可根据文本提示和静态图像来生成视频,据了解,Emu Video是一个基于扩散模型的文生视频模型,不依赖于“深层级模型串联”(比如用于Make-A-Video的5个模型),仅使用2个扩散模型就能够基于文本生以每秒16帧的速度,生成分辨率为512×512的4秒长视频。相关评估表明,与Runway的Gen-2以及Pika Labs的生成效果相比,Emu Video在生成质量和文本忠实度方面的得分都更高。


据悉,Emu Video采用了分解式训练方法,将视频生成过程拆分为两个步骤,即首先根据文字提示生成图像,然后基于文字和生成图像产生视频。对此Meta方面表示,“这种分解式或分步的视频生成方法让我们能够高效地训练视频生成模型”。


Meta方面还透露,“尽管这项工作目前纯粹是基础研究,但潜在的用例是显而易见的。想象一下,您可以即时生成自己的动画贴纸或巧妙的GIF并发送到群聊中,而不必搜索完美的媒体来进行回复。或者编辑您自己的照片和图像,无需任何技术技能。或者通过动画静态照片为您的Instagram帖子增添一些额外的魅力。或者产生全新的东西。虽然肯定无法取代专业艺术家和动画师,但Emu Video、Emu Edit和类似的新技术可以帮助人们以新的方式表达自己——从构思新概念的艺术总监到将最新作品生动化的创作者朋友分享独特的生日祝福。我们认为这是值得庆祝的事情。”


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看