OpenAI视频生成模型Sora刷屏背后:哪些行业真要被颠覆了

AGI
我们离AGI还远吗?

图片来源@视觉中国

图片来源@视觉中国

文 | AI大模型工场,作者 | 星奈,编辑 | 方奇

春节假期期间,诞生了两个顶流。一个是成功减肥100斤的贾玲,还有一个AI科技圈的Sora。

就在三天前,当大家都还在沉浸在春节假期中时,OpenAI却悄悄地放出一记大招,在没有任何预兆和消息透露的情况下,奥特曼突然官宣了OpenAI首个文生视频大模型Sora,颠覆了整个生成式视频大模型的全球格局。

随着Sora的亮相,关于它的讨论和报道如潮水般涌来。“Sora风”不仅席卷整个科技圈,也在影视圈、游戏圈刷屏,马斯克、周鸿祎、贾扬清等一众科技大佬纷纷下场讨论。

马斯克直言:人类要完蛋了。

360创始人周鸿祎第一时间发博表示,Sora意味着AGI实现将从10年缩短到两三年。他谈到Sora通过把大语言模型和扩散模型结合,实现了对现实世界的理解和对世界的模拟两层能力。一旦AI接上摄像头,把所有电影、YouTube和TikTok上的视频看一遍,对世界的理解将远超过文字学习。

前阿里VP贾扬清也对Sora赞不绝口,直呼:真的非常牛。他认为Sora的出现将对整个AI行业产生深远影响。对于对标OpenAI的公司来说,它们将面临被其他大厂收购的机会;对于算法小厂来说,它们要么在算法上与OpenAI媲美,要么在垂直领域深耕应用,要么就选择开源。他还预言,随着Sora的推出,infra的需求将继续猛增。

随着Sora概念的持续发酵,资本市场也闻风而动。2月19日早盘,Sora概念股大幅高开,个股掀涨停潮。截至发稿,会畅通讯、当虹科技、因赛集团等7股涨停,易点天下、数码视讯等跟涨。

然而,Sora的出现也引发了人们对于“AI代替人类”的焦虑。随着AI技术的不断发展,许多行业都面临着被自动化和智能化的风险。这种焦虑不仅体现在科技圈内部,也在各个行业中蔓延开来。

有趣的是,在互联网上,一些人已经敏锐地捕捉到了这种焦虑情绪的商业价值。他们利用人们害怕被AI取代的心理售卖各种AI课程,并赚了春节过后的第一桶金。

AI输出视频效果炸裂,现实内爆

这一次,Sora之所以能够震惊行业,成为“顶流”,在于其能够对世界进行模拟,它不仅能够理解提示词中的角色、场景、概念等,还能理解“这些事物在物理世界中是如何存在的”。

从时长到运镜再到角色理解,Sora模型刷新了多个行业指标,甚至重新定义了文生视频在当下的技术极限。

首先在视频生成时长上,此前的视频生成模型Runway、Pika等生成的视频长度仅为几秒,Sora的60秒超长长度可谓吊打同行。

只要输入“猛犸象在雪地上走进”、“维多利亚冠鸽”等关键词就能够迅速生成一个60秒左右的高清视频,里面包含的丰富的细节、鲜艳的色彩。

目前,Sora还能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。

例如,输入提示词:中国龙的中国农历新年庆祝视频。

Sora就能够生成一个热闹的舞龙游街视频,里面一个值得注意的细节是,有不少观众在举着手机录视频,这一细节不仅为整个场景增添生动性与现实感,更展示了Sora模型对现代文化和习俗的深刻理解。

Sora 还可以在单个生成的视频中创建多个镜头,也就是说,Sora已经掌握“运镜”技术。不少网友调侃:“自导电影,指日可待。”

提示词:无人机摄像机围绕着一座美丽的历史教堂盘旋。Sora视频运镜以无人机视角对教堂环绕拍摄,这个视频的运镜似乎有与专业摄影师一比高下的意味。

不仅如此,Sora还能够理解并生成专业摄影动画效果。例如,输入提示词:从郊区房屋的窗台上长出的一朵花的定格动画,将得到以下画面。一朵花缓缓绽放,期间还有跟随花朵绽放的丝滑运镜,谁看了不说一声“牛逼”。

除了文生视频外,Sora还支持图生视频、扩展生成视频、视频生成视频、连接视频等。

图生视频

提示词:在一个华丽的历史大厅里,一个巨大的潮汐达到顶峰并开始崩溃。两名冲浪者抓住时机,熟练地驾驭海浪。

扩展生成视频

Sora 还能够向前或向后扩展视频。以下视频从生成的视频片段开始向前、向后延伸,以产生无缝的无限循环。

视频生成视频

利用SDEdit,(32)到索拉技术使 Sora 能够零镜头转换输入视频的风格和环境。

输入视频

将设置改为在茂密的丛林中输入视频

连接视频

Sora可以在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。上下两侧视频结合生成中间视频。

不过,Sora模型的弱点也很明显,在以下视频中,我们发现,老人吹蜡烛并没有将蜡烛吹灭;篮球穿过球筐边缘直接落地。

Sora难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系,此外,还可能混淆提示的空间细节,如左右混淆等。

理解和模拟现实世界到底该如何实现

Sora作为一种扩散模型,具备三维空间连贯性、模拟数字世界、长期连续性和物体持久性等特点。

其训练过程受到大语言模型的启发,采用扩散型变换器结构,简单来说,就是将视频压缩到低维潜在空间并分解为时空区块。Sora在压缩空间上训练并生成视频,配合解码器模型还原到像素空间。随着计算量增加,样本质量显著提升。

Sora可生成不同分辨率、持续时间和纵横比的视频,并使用DALL·E 3为视觉训练数据生成高度描述性的标题,将简短提示转换为详细提示。因此,该模型能够更准确地理解提示词文本。

在数据方面,OpenAI将视频和图像表示为patch,类似于Transformer中的tokens。这种基于patch的表示使得Sora可以在比以前更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比。

另外,OpenAI还发现在原始大小的数据上训练相比以往将视频调整大小、裁剪或修剪为标准大小具有更为明显的好处。

采样灵活性

Sora可以对宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有内容进行采样。这使Sora可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型——所有这些都使用相同的模型。

改进的取景和构图

OpenAI发现,以原始纵横比对视频进行训练可以改善构图和取景。研究团队将Sora与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形裁剪上训练的模型有时会生成视频,其中主体仅部分可见。相比之下,Sora的视频改善了取景。

Sora视频模型还支持现有图像或视频输入,并具有图像生成功能、新兴的仿真功能。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。

OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,并且相信这一能力将是实现AGI的重要里程碑。

Sora刷屏时代,国内厂商抢注文生视频

这次,Sora视频模型的刷屏,无疑在国内AI领域掀起了巨大的波澜。

从之前爆火的Runway、Pika,到现在的Sora,随着多模态模型能力的不断提升,加注文生视频领域成为国内大厂发展大模型的必经之路。

在中国的大模型企业里,AI大模型工场一直在跟踪和报道,以百度为例。去年年末,推出文生视频工具“度加剪辑”,它凭借一键获取最新热点、AI生成文案、一键生成视频等强大功能,迅速在市场上崭露头角。

与此同时,360作为国内知名的安全企业,在AI领域同样有着深厚的积累。2023年6月份就推出了“360智脑文生视频”的创作工具,显示了“无中生有”的能力。

字节跳动也在积极布局AI,日前,抖音集团CEO张楠宣布已经辞去集团CEO一职,全力聚焦剪映发展,据AI大模型工场了解,张楠过去一年已经在该领域投入了大量精力,并即将推出一个新的AI生图和视频产品。

阿里达摩院也宣布开源Video-LLaMA,帮助大语言模型加上了“眼睛”和“耳朵”,使其能够理解和生成视频内容。

此外,除了这些科技巨头,更多的初创企业也在跃跃欲试。如“数美科技”推出的“视频内容生成器”等。这些初创企业的加入,无疑为文生视频这一新赛道注入了更多的活力和可能性。

实际上,文生视频的爆发在意料之中,只是没有想到会这么快。AI大模型工场在之前的文章中就曾谈到,2024年多模态将成为主流叙事,从文字、图像到视频,多模态让AI更直观和生动。

可以说,Sora的出现加速了国内大模型多模态能力的发展,为国内AI市场带来了新的机遇和挑战。在这个新的一年里,谁能够最先做出“国产版Sora”,或许将成为决定胜负的关键。

但无论如何,这一场由Sora引发的AI热潮,已经让整个国内大模型市场充满了无限的可能性和期待。

 

本文系作者 AI大模型工场 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

12:23

远望谷:公司的宠物经济业务目前尚处于起步阶段

12:13

卓谱微完成数千万元融资,创东方独家投资

12:12

机构:预测2026年SSD和HDD市场将实现显著增长

12:11

工信部:预计2025年规模以上工业增加值同比增长5.9%

12:09

财政部:引导基金将以差异化风控体系培育创新生态

12:07

中国金饰价格再上1400元/克

12:05

广药集团旗下白云山生物冻干人用狂犬病疫苗(Vero细胞)获批生产

11:59

椭圆时空完成数亿元C1轮融资

11:58

柳州优必选第1000台工业人形机器人下线

11:56

神州数码:在合规前提下,可以开展包括H200在内的各种型号产品的经销

11:52

国家创业投资引导基金首批三只区域基金已具备投入运作条件

11:48

东风汽车:2025年度新能源汽车、自主乘用车销量均突破百万辆

11:47

世界最长高速公路隧道今日通车

11:47

海联金汇:目前未在海南自贸区开展跨境支付业务

11:45

佳力奇:公司先进复合材料产品可应用于航空、航天等领域

11:45

瑞银财富管理:中国股市明年仍有上行空间,AI和科技驱动长期盈利增长

11:42

A股午评:沪指半日跌0.19%,超3900股飘绿,锂电、海南板块逆势活跃

11:30

原财政部副部长朱光耀:人工智能发展需在伦理规范与治理规则方面形成共识

11:30

市场监管总局部署开展元旦、春节期间重要民生商品服务稳价保质工作

11:27

惠柏新材:公司新型复合材料用环氧树脂相关产品可以用于航空航天等领域

扫描下载App

Baidu
map