要約
SORAの発表が、動画生成モデルを波風の先に押し上げた。科学技術大手は製品を猛プッシュし、創業会社は風に乗って上昇した。SORAはまだフィードバック獲得段階にあり、短期的には一般公開されていない。
原文: 新浪 创事记 2024-03-27
本文(ピンイン)
2024年开年,科技圈没有什么比Sora的出现更让人兴奋。
如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。
科技巨头猛推产品,创业公司则乘风而上。
3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资;3月12日,生数科技完成数亿元A轮融资;3月1日,AI视频生成
SaaS服务商「布尔向量」完成近千万元融资...
Sora首次践行了DiT架构,将过去各自独立的扩散模型和大模型融合在了一起,也将视频生成模型的历史翻开了新的篇章。
毫无疑问,一场新的技术风暴正在到来。一夜之间,国内大大小小的视频生成大模型争抢“中国版Sora”的标签。
为了探究这个问题的答案,「自象限」通过国内已有的视频生成产品进行实际体验,并结合公开信息、第三方检测机构数据等多个维度,对当下主流的视频生成模型进行了全面评估。
我们将从产品设计、实测效果和行业分析三个角度,全面探究,究竟谁能成为“中国版Sora”?
DIT的创新,谁能复刻?
Sora的风虽然才刚刚从大洋彼岸吹到了中国,但视频生成却不是什么新鲜的话题。
在此之前,这个赛道已经经历了Runway的Gen–2、Pika1.0和谷歌VideoPoet的几波革命浪潮,终于来到了生成效果更好、时间更长、逻辑性更强、更稳定性的“Sora”时刻。
「自象限」梳理绘制出了国内视频大模型公司及产品的基本情况。
▲图:国内外视频生成大模型企业一览,访问量以2024年2月计
在国外,谷歌、微软这类“硅谷老钱”很早就投入到了多模态视频生成的研究中。去年,谷歌发布了多模态大模型Gemini和VideoPoet视频大模型,让人从直观的效果层面看到了多模态生成视频的可能性。
在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积累深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。
扩散模型路线是文生视频的主流路线,在保证效果生成上发挥着重要的作用,所以即使是惊为天人的Sora在底层架构上也只是改造,而非全盘颠覆。
无论国内外,在这条道路都最为拥挤,首先是一手打造和开源扩散模型的Stability
AI公司,紧跟其后的是猛猛向前冲的Runway、Pika,然后才是OpenAI、Meta、英伟达这些巨头。
回到国内,腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领域的研究,时不时地抛出一个demo小小地惊艳一下。但真的谈到落地产品,还是创业公司明显更快一步,比如爱诗科技、Morph
studio、右脑科技等公司已经开始面向用户开放。
被称之为“Sora路线”的DiT,全称为Diffusion
Transformer,本质是把训练大模型方法机制融入到了扩散模型之中,从Sora技术报告呈现的结果来看,大力出奇迹之下可能会产生世界物理模拟器的效果。
如今,Sora的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不意味着人手一个Sora指日可待,技术、数据、算力、训练规模都是一道道关卡。
近期,Sora核心团队负责人在采访中透露:“Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。”
从技术路线上看,国内的爱诗科技是少数从一开始就坚持了DiT路线的企业,其创始人王长虎在公开采访中谈到,Sora的出现验证了爱诗视频生成大模型的方向正确性。正因如此,爱诗科技定下了“3—6
个月赶超Sora”的目标,抓住机会,奋起直追。
产品实测,用户“跑分”
在视频生成模型赛道,目前国内的创业公司大致可以分为两类。
一类是以爱诗科技(PixVerse)、生数科技(PixWeaver)、
Morph
Studio和智象未来(Pixeling)为代表的自研基...
単語(ピンイン)
ディスカッション
コメント一覧
まだ、コメントがありません