继此前在今年6月6日快手方面发布视频生成大模型“可灵” ,并通过旗下快影App开放邀测体验后。日前官方公布的相关数据显示,截至6月11日已有超过5万用户排队申请测试。并且值得一提的是,可灵大模型目前开放的是“文生视频”,后续还将开放“图生视频”功能。
据悉,可灵大模型为快手AI团队自研,采用了与Sora相似的技术路线,并结合多项自研技术创新,能够生成1080p分辨率、时长2分钟(帧率30fps)的视频,并支持自由宽高比,号称具有能够生成大幅度的合理运动,能够模拟物理世界特性、具备强大的概念组合能力和想象力等优势,效果对标Sora。
具体而言,得益于采用了3D时空联合注意力机制,可灵大模型能够更好地建模视频中的复杂时空运动,不仅可以生成较大幅度的运动、且更符合客观运动规律。得益于快手自研模型架构及Scaling Law激发出的强大建模能力,无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。
此外,鉴于大模型的生成效果取决于数据的规模和质量,以及大规模训练的效率,快手方面还在可灵大模型研发过程中,配套建设了高效的大规模自动化数据解决方案,覆盖了海量视频挖掘、多维打标筛选、视频描述增强、及数据驱动的效果质量评估等多个方面。在训练过程中,可灵大模型采用了多种计算优化和通信优化方案,极大提升了GPU和网络带宽利用率,并通过自动故障检测和failover等机制,提供了分钟级故障恢复能力,保障了短时间内模型效果的快速提升。
据了解,除可灵之外,快手方面已先后发布通用大语言模型“快意”、文生图大模型产品“可图”,还推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等关键技术。
【本文图片来自网络】