被称作AGI里程碑的Sora运用了哪些技术？-聚展

新年初始，OpenAI发布了自己的“文生视频” Sora大模型 ，该大模型可以根据文本提示生成“逼真”和“富有想象力”的短视频， 时长可达到一分钟 ，还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。 虽然 Sora 尚未向公众开放 ，但迄今为止发布的多个高质量样本已经引起了全球的热烈讨论，许多人惊呼 “好莱坞时代结束” 。

Sora发布的文生视频样本（据Sora表示没有使用任何后期编辑）

提示词：A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

Sora风潮

2022年底，我们目睹了ChatGPT横空出世，见证其如何瞬间引爆人工智能生成的全球热潮；2023年，国内外无数科技公司陆续推出自己的AI大模型，Meta发布LLaMA，百度发布文心一言、讯飞发布讯飞星火、阿里云推出通义千问；AI音乐、AI绘画、AI做题、文生文、文生图不断增加我们对人工智能生成内容的认知。

2024年开年，OpenAI发布了其文生视频大模型Sora，它能够通过快速文本生成60s的流畅视频，可以说是 直接“碾压”了行业目前平均10秒内的视频生成长度 。根据 OpenAI官方发布的 技术报告 我们大概能了解Sora是如何引爆科技圈的。

“我们探索了利用视频数据生成模型的大规模训练。具体来说，我们在不同的持续时间、分辨率和宽高比的视频和图像上联合训练以文本为输入条件扩散模型。 我们引用了一种对视频和图像潜在代码的时空序列包进行操作的transformer架构 。我们最顶级的模型 Sora 已经能够生成一分钟的高保真视频。我们的研究结果表明， 扩大视频生成模型的规模是构建模拟物理世界通用模拟器的一条极具前景的途径。 ”

将可视数据转换成数据包

大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而Sora则通过视觉包（patchs）实现了类似的效果。我们发现，对于不同类型的视频和图像，包是一种高度可扩展且有效的表示形式，可用于在不同类型的视频和图像上训练生成模型。

视频压缩网络

我们训练一个降低视觉数据维度的网络。

时空包

当给定一个压缩后的输入视频时，我们会从中提取出一系列的时空包，这些包被用作转换token。

用于视频生成的缩放Transformers

Sora是一个扩散模型，接收输入噪声包（以及文本提示等信息），然后被训练来预测原始的“干净”包。

不断训练以提升样本质量

丰富的持续时间、分辨率、宽高比

采样灵活性

Sora 可以采样宽屏 1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有视频。

改进的框架和构图

我们的实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。

语言理解深化

为了训练文本转视频生成系统，需要大量带有相应文本字幕的视频。为此，我们借鉴了DALL·E3中的re-captioning技术，并应用于视频领域。

图片与视频提示

Sora 也可以通过其他类型的输入进行提示，如预先存在的图像或视频。

DALL·E 图片变成动画

Sora还能在提供图像和提示作为输入的情况下生成视频。

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。

OpenAI技术报告原文：

https://openai.com/research/video-generation-models-as-world-simulators

AIGC模拟世界

在Sora高热度的话题下，科技圈也出现了众多围绕Sora进行的讨论。

英伟达人工智能研究院的Jim Fan表示“如果你还是把Sora当做DALLE那样的生成式玩具，还是好好想想吧， 这是一个数据驱动的物理引擎 。”

特斯拉CEO埃隆·马斯克多次在其社交媒体平台X上发帖回应，在其中一条帖子下表示：“ AI增强的人类将在未来几年里创造出最好的作品 。”

而同样是文生视频的软甲Pika创始人郭文景在被问到Sora时回应称，“ 我们觉得这是一个很振奋人心的消息 ，我们已经在筹备直接冲，将直接对标Sora。”

与此同时AI语音克隆初创公司ElevenLabs给Sora生成了视频配音，ElevenLabs的研究员 Flavio Schneider在X上发布了自己生成的 Sora 视频的配音版，听起来也很燃。

无论是一众技术人员的评价还是随着Sora的火爆，国内外出现的文生视频热潮，可以知道的是随着技术的不断进步和创新， 拥有巨大潜力的视频模型将持续扩展 。而生成视频技术使用门槛将逐步降低，帮助人们完成大量工程化的工作。未来， 可以媲美好莱坞水准的视频解决方案或许会出现。

AI大模型论坛

为了进一步探索AI大模型深远影响与广泛应用， 2024年中国国际信息通信展 同期ICT中国·高层论坛将 举办AI大模型相关论坛 ，通过深度主题演讲、ICT案例分享等环节，与会者交流大模型如何赋能各行各业，加速行业更迭和创新。2024年9月25-27日，北京·国家会议中心，等你来！

图片、资料来源：OpenAI官网、X、机器之心、腾讯新闻

推荐阅读

Recommendation

被称作AGI里程碑的Sora运用了哪些技术？

通讯通信行业资讯