首页 展会资讯 通讯通信资讯 被称作AGI里程碑的Sora运用了哪些技术?

被称作AGI里程碑的Sora运用了哪些技术?

来源: 聚展网 2024-02-23 09:15:53 92 分类: 通讯通信资讯
中国(北京)国际信息通信展览会
PTEXPO
2024年09月25日-09月27日
距离开展 182
申请展位
门票预订

新年初始,OpenAI发布了自己的“文生视频” Sora大模型 ,该大模型可以根据文本提示生成“逼真”和“富有想象力”的短视频, 时长可达到一分钟 ,还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。 虽然 Sora 尚未向公众开放 ,但迄今为止发布的多个高质量样本已经引起了全球的热烈讨论,许多人惊呼 “好莱坞时代结束”

Sora发布的文生视频样本(据Sora表示没有使用任何后期编辑)

提示词:A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

Sora风潮

2022年底,我们目睹了ChatGPT横空出世,见证其如何瞬间引爆人工智能生成的全球热潮;2023年,国内外无数科技公司陆续推出自己的AI大模型,Meta发布LLaMA,百度发布文心一言、讯飞发布讯飞星火、阿里云推出通义千问;AI音乐、AI绘画、AI做题、文生文、文生图不断增加我们对人工智能生成内容的认知。

2024年开年,OpenAI发布了其文生视频大模型Sora,它能够通过快速文本生成60s的流畅视频,可以说是 直接“碾压”了行业目前平均10秒内的视频生成长度 。根据 OpenAI官方发布的 技术报告 我们大概能了解Sora是如何引爆科技圈的。

图片

“我们探索了利用视频数据生成模型的大规模训练。具体来说,我们在不同的持续时间、分辨率和宽高比的视频和图像上联合训练以文本为输入条件扩散模型。 我们引用了一种对视频和图像潜在代码的时空序列包进行操作的transformer架构 。我们最顶级的模型 Sora 已经能够生成一分钟的高保真视频。我们的研究结果表明, 扩大视频生成模型的规模是构建模拟物理世界通用模拟器的一条极具前景的途径。

01

将可视数据转换成数据包

大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。

图片

02

视频压缩网络

我们训练一个降低视觉数据维度的网络。

03

时空包

当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。

04

用于视频生成的缩放Transformers

Sora是一个扩散模型,接收输入噪声包(以及文本提示等信息),然后被训练来预测原始的“干净”包。

不断训练以提升样本质量

05

丰富的持续时间、分辨率、宽高比

06

采样灵活性

Sora 可以采样宽屏 1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有视频。


07

改进的框架和构图

我们的实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。


08

语言理解深化

为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。

09

图片与视频提示

Sora 也可以通过其他类型的输入进行提示,如预先存在的图像或视频。


10

DALL·E 图片变成动画

Sora还能在提供图像和提示作为输入的情况下生成视频。

11

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。

OpenAI技术报告原文:

https://openai.com/research/video-generation-models-as-world-simulators

AIGC模拟世界

在Sora高热度的话题下,科技圈也出现了众多围绕Sora进行的讨论。

英伟达人工智能研究院的Jim Fan表示“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧, 这是一个数据驱动的物理引擎 。”

特斯拉CEO埃隆·马斯克多次在其社交媒体平台X上发帖回应,在其中一条帖子下表示:“ AI增强的人类将在未来几年里创造出最好的作品 。”

图片

而同样是文生视频的软甲Pika创始人郭文景在被问到Sora时回应称,“ 我们觉得这是一个很振奋人心的消息 ,我们已经在筹备直接冲,将直接对标Sora。”

与此同时AI语音克隆初创公司ElevenLabs给Sora生成了视频配音,ElevenLabs的研究员 Flavio Schneider在X上发布了自己生成的 Sora 视频的配音版,听起来也很燃。

图片

无论是一众技术人员的评价还是随着Sora的火爆,国内外出现的文生视频热潮,可以知道的是随着技术的不断进步和创新, 拥有巨大潜力的视频模型将持续扩展 。而生成视频技术使用门槛将逐步降低,帮助人们完成大量工程化的工作。未来, 可以媲美好莱坞水准的视频解决方案或许会出现。

AI大模型论坛

为了进一步探索AI大模型深远影响与广泛应用, 2024年中国国际信息通信展 同期ICT中国·高层论坛将 举办AI大模型相关论坛 ,通过深度主题演讲、ICT案例分享等环节,与会者交流大模型如何赋能各行各业,加速行业更迭和创新。2024年9月25-27日,北京·国家会议中心,等你来!

图片、资料来源:OpenAI官网、X、机器之心、腾讯新闻

推荐阅读

Recommendation

图片

图片


资讯背景
声明:文章部分图文版权归原创作者所有,不做商业用途,如有侵权,请与我们联系删除。
来源:聚展网
展位咨询
门票预订
展商名录
展位咨询
通讯通信行业展会
韩国首尔消费电子展览会KES
2024.10.22-10.25
korea electronics show
印度新德里电信通信通讯展览会
2025.03.19-03.21
Convergence India
巴基斯坦通信通讯展览会
2024.08.27-08.29
ITCN ASIA
新加坡通讯通信展览会
2024.05.29-05.31
CommunicAsia
巴西圣保罗通信通讯展览会
2024.10.08-10.10
FUTURECOM
香港电子产品展-香港消费电子展
2024.04.13-04.16
Hong Kong Electronics Fair
俄罗斯高科技周RWHT
2024.04.23-04.26
Russian Week Of High Technologies
  • icon 电话
    展位咨询:0571-88683357
    观众咨询:0571-88611413
  • icon 客服
  • icon 我的
  • icon 门票
  • 展位
    合作