日前,极佳科技联合清华大学自动化系正式发布国内首个超长时长、高性价比,端侧可用的Sora级视频生成大模型视界一粟YiSu。据悉,视界一粟YiSu生成视频的原生时长为16秒、最长可达1分钟,号称拥有“超大运动、超强表现力、懂物理世界”,以及“成本更低、速度更快、端侧可用”等优势。
据极佳科技方面介绍,Sora的爆火让DiT受到了业内更多的关注,视界一粟YiSu则是基于其自研的视频生成大模型技术路线,并未止步于DiT,而是融合LLM和扩散模型的自研架构,结合各种路线的优势,在多模态融合、训练效率、推理效率、模型效果等方面达到极致的优化。
据悉,此次极佳科技方面发布的视界一粟YiSu大模型是YiSu-Beta V0.5版本。据该公司透露,该模型将按照每周一个小版本、每月一个大版本的迭代速度飞速成长和进化,未来几个月在视频时长、可控性、推理速度、运行成本、理解物理世界等方面将持续迎来大幅度的提升,为行业客户和广大用户带来更多的价值和功能。此外其还表示,“希望通过YiSu模型强大的性能和极致的性价比,更快实现长视频生成的大规模产品应用”。
值得一提的是,极佳科技方面还强调,视频生成不是终点,更重要的目标是走向世界模型。该公司认为,世界模型对于自动驾驶、通用机器人等物理世界的通用智能至关重要,在数据生成、闭环仿真、端到端方案等方面都拥有关键的作用,而视频生成则是目前走向世界模型最高效的路径。
对此极佳科技创始人、CEO黄冠表示,“我们可能和市面上目前所有做视频生成公司的出发点都不一样……我们公司在成立之初就意识到,自动驾驶、通用机器人等物理世界通用智能的核心瓶颈是数据问题,而随着生成式AI、大语言模型等技术的突破,我们很早就看到数据最好的来源就是世界模型。同时,我们也很快意识到,世界模型的核心是视频生成”。
据悉在世界模型方向,极佳科技方面目前已发布了中国首个自动驾驶世界模型DriveDreamer,并获得了业内首个世界模型商业化定点和落地,已签约多个头部主机厂和客户。
【本文图片来自网络】