日前,智谱AI方面宣布对其视频生成模型进行全新升级,并正式推出新品CogVideoX,同时还全面上线了基于其打造的AI视频生成功能清影(Ying)。
据官方透露,CogVideoX视频生成大模型采用了将文本、时间、空间三维一体融合的transformer架构,并设计了Expert Block来实现文本与视频两种不同模态空间的对齐,以及通过Full Attention机制优化模态间的交互效果。
.jpg)
在内容连贯性方面,智谱AI则为CogVideoX研发了一套高效的三维变分自编码器结构(3D VAE),用于压缩视频数据、降低训练成本和难度。而在可控性方面,则打造了一款端到端的视频理解模型为大量视频数据生成描述,据悉这一环节增强了CogVideoX对文本的理解以及对指令的遵循能力,以确保生成的视频更符合用户的需求,并能够处理超长且负责的指令。
此外智谱AI方面表示,清影AI生成视频功能具备高效的命令遵循能力、灵活的画面调度能力、出色的内容连贯性,以及视频生成迅速等核心特点。以文本生成视频为例,当用户在输入一段指令(Prompt),并选择卡通3D、黑白、油画、电影感等想要生成的风格后,清影仅需30秒即可生成6秒1440x960的高精度视频,并且生成的视频能够较好地还原物理世界中的运动过程,镜头也能流畅地跟随画面中的物体移动。
据了解,目前CogVideoX已经正式在智谱清言的PC端、移动应用端以及小程序端上线,所有用户均可通过智谱清言开放的入口免费体验AI文本生成视频、图像生产视频服务。此外,清影API还同步上线了大模型开放平台bigmodel.cn,企业及开发者可通过调用API的方式,来体验和使用文生视频及图生视频的模型能力。
【本文图片来自网络】
