快手可灵3.0系列模型开启内测,多模态能力升级

日前,快手方面宣布开始内测新一代视频生成模型可灵3.0系列。据了解,该系列模型是基于All-in-one产品理念打造的多模态输入输出一体化模型,在上一代全能创作引擎的基础上,实现了更为原生的多模态交互,可支持文字、声音、图片和视频等多模态信息输入与输出方式,并融合音画同出能力与主体一致性控制。


据了解,可灵3.0系列模型包括可灵视频3.0、可灵视频3.0 Omni和可灵图片3.0,覆盖图片生成、视频生成、视频编辑及后期处理等影视制作全流程。

快手可灵3.0系列模型开启内测,多模态能力升级

其中,可灵视频3.0单次视频生成时长最高可达15秒,并支持3-15秒灵活时长设置。同时新增智能分镜系统,可根据文本指令自动调度景别与机位,并提升文字生成清晰度,确保招牌、字幕等文字信息可辨识。


在音画同步能力方面,可灵视频3.0支持中、英、日、韩、西五种语言及方言的精准口型匹配,并实现多人场景下的角色定向发声。在主体一致性控制能力方面,允许通过多图或视频锚定特定视觉元素。


而可灵视频3.0 Omni则额外支持创建视频主体特征库,可提取3-8秒视频中的角色形象与音色进行还原应用。


可灵图片3.0则采用视觉思维链(vCoT)技术辅助生成前的场景解构推理,并通过Deep-Stack视觉信息流机制增强细粒度感知能力。与上一代相比,可灵图片3.0输出分辨率提升至2K与4K级别,可适配影视预演图、场景设定等专业需求,并新增组图生成能力,支持通过单张或多张输入图像批量生成逻辑连贯的系列画面。


官方公布的相关数据显示,截至2025年12月,可灵在全球拥有超过6000万创作者,累计生成超6亿个视频,并累计合作超3万家企业用户,覆盖营销、电商、影视、短剧、动画、游戏等多个专业创意创作场景。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看