小米14 Pro vivo X100 一加12 iPhone 15 iQOO 12

Open-Sora升级，可生成16s、720p分辨率视频

时间：2024年04月26日栏目：互联网来源：原创编辑：长生

日前，全球首个类Sora架构开源视频生成模型Open-Sora迎来更新、并依旧全部开源，其中包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节等。

据了解，Open-Sora是由Colossal-AI于今年3月推出，其采用了Sora同源架构的Diffusion Transformer（DiT），并同样使用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层、将其扩展到了视频数据上。具体来说，其整个架构包括一个预训练好的VAE、一个文本编码器，以及一个利用空间-时间注意力机制的STDiT（Spatial Temporal Diffusion Transformer）模型。

Open-Sora升级，可生成16s时长、720p分辨率视频

据悉，在功能方面，新版Open-Sora可支持长达16秒的单镜头视频生成，且视频分辨率最高可达720p，并可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。而且新版Open-Sora还支持视频拼接功能，这也意味着用户有机会免费创作一段带有故事性的小短片。

在架构方面，新版Open-Sora对STDiT架构进行了关键性改进，旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务，该团队采纳了大语言模型的最佳实践，将时序注意力中的正弦波位置编码（sinusoidal positional encoding）替换为更加高效的旋转位置编码（RoPE embedding）。此外为了增强训练的稳定性，该团队还参考SD3模型架构，进一步引入了QK归一化技术，以增强半精度训练的稳定性。

训练方面，新版Open-Sora采用了一种多阶段训练方法，每个阶段都会基于前一个阶段的权重继续训练。据悉，相较于单一阶段训练，这种多阶段训练通过分步骤引入数据，能够更高效地实现高质量视频生成的目标。

在数据收集和预处理流程方面，Colossal-AI致力于扩充和优化数据集，为新版Open-Sora建立了一个自动化的数据处理流程，该流程遵循奇异值分解（SVD）原则，涵盖了场景分割、字幕处理、多样化评分与筛选，以及数据集的管理系统和规范。

据悉在公布Open-Sora各项进展的同时，Colossal-AI方面还指出，“尽管Open-Sora在复现类Sora文生视频模型的工作方面取得了不错的进展，但我们也发现，当前生成的视频在多个方面仍有待改进，包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战，我们将在下一版本的开发中优先解决，以期望达到更高的视频生成标准”。

【本文图片来自网络】