当前位置:首页 >休闲 >国产Sora来了 ?这家初创企业发布Etna文生视频模型 曾获超讯通信战投 正文

国产Sora来了 ?这家初创企业发布Etna文生视频模型 曾获超讯通信战投

来源:凤凰网   作者:时尚   时间:2024-05-10 06:35:01


  AI发展持续加速 ,国产Sora模型的家初出现正在引发文生视频领域的变革,各创业企业都在根据OpenAI发布的创企技术白皮书 ,重新调整自己的生视方向 。

  5日,频模文生视频创业公司——七火山发布了其结合Sora路线迭代的型曾讯通信战Etna文生视频模型 ,并在发布会现场对生成效果进行了展示 。获超

  公司CTO黄礼强对《科创板日报》记者表示 ,国产借鉴Sora技术迭代开发的家初Etna模型 ,在性能上有显著提升,创企“视频时长延长至8-15秒,生视且每秒帧数高达60帧,频模保证了视频流畅性;语义理解能力强大 ,型曾讯通信战能够更准确地理解和转化文本信息为视频内容;视频清晰度高 、获超图片细节丰富 ,国产提升了视频的视觉效果。”

  黄礼强进一步对《科创板日报》记者表示 ,Sora的出现极大提升了文生视频模型的水平 ,“最大的价值在于,OpenAI用它的尝试突破验证了一个技术路线的可行性 ,引领了整个业界的技术迭代 。它的方向可能不是唯一的,但至少Sora目前的效果完全证实了这个方向的可能性,大家短期内都会转向这个技术方向优化自身的产品。”

  文生视频领域技术大转向

  黄礼强告诉记者,Sora模型面世后 ,他与OpenAI的部分工程师在美国进行了会面交流 ,“在他们授权可讲的范围内做了一些讨论,包括他们自己是怎么看待Sora这个模型的。”据悉  ,Sora模型的研发经历了近一年时间 ,过程中也经历了多个不同方向的探索  ,直到近期才取得了重要突破  。

  其进一步表示,Sora模型最大的突破在于 ,使用了DiT的技术框架。而在此之前,市面上的大多数文生视频创业企业 ,包括明星项目Runway 、Pika等,都采用了扩散模型这一技术路线 。

  “扩散模型的技术路线我们研究了比较长的时间,包括分析了Pika在去年4月发布的产品 ,以及去年底Stable Diffusion发布的开源项目。事实上 ,扩散模型一直有一个瓶颈,即视频时长 、连贯性很难得到提升,所以现在我们看到的绝大多数文生视频片段就只有3到4秒 ,分辨率也只能达到512x512,或者再往上一点点 ,但再往后就无法进一步扩大 。”

  算法也决定了用何种数据进行模型训练 。“如果只使用扩散模型 ,训练过程就是把图像作为数据集进行训练  ,但视频到图像之间会有转化过程 ,在训练过程如何避免信息量的丢失,让模型能学习到数据本身是一个视频而不是单一图像 ,扩散模型实际上存在局限。”黄礼强表示,彼时 ,由于上述两点在技术和方法上都未能取得了突破,业内很少有人敢于大量投入算力,“因为原来的方法是有明确的瓶颈限制的。”

  而直到Sora模型的出现,其所采用的DiT的技术路线让上述两点存在已久的局限迎刃而解 。“在语义理解上,Sora模型背后由ChatGPT提供强大的语言处理支持 ,大幅提升了语义理解能力;模型结构方面 ,它将传统的扩散模型与transformer模型相结合 ,形成一种既有效又先进的新模型架构;在训练数据方面,Sora采用视频数据而非静态图片作为训练材料 ,通过patches作为处理方法来优化训练效果。”

  黄礼强将Sora带给他和团队的启发形容为“醍醐灌顶”。他表示 ,在把七火山的模型从原来单一的扩散模型往与Transformer结合的方向转移后 ,仅仅两周时间 ,就看到了显著的成效。“比如我们现在做的视频已经能做到大概10到20秒 ,以及每秒帧数能达到60帧,这种参数水平放在现行文成视频同类产品中比较,已经可以排在前列了 。”但其坦言,目前和Sora比仍存在很大差距  ,“Sora能做到60秒的时长 ,且达到4k甚至更高的分辨率 ,而且场景非常丰富 。”

  上市公司押宝的战略新路线

  除了及时调整技术路线,目前  ,七火山也在紧锣密鼓推进产品的应用落地 。黄礼强对《科创板日报》记者表示,公司从创立开始就着眼于应用创新,“和大厂卷大模型能力不是我们的方向,我们从一开始就在研究,怎么把模型能力变成一个实际能落地的应用 。”

  据悉 ,目前 ,七火山通过Lava平台已与字节跳动 、小米 、快手建立合作关系,实现短剧内容的角色换脸、对白配音及字幕翻译 ,推动内容本地化和国际化发展;MiniTV作为分发平台 ,探索短剧海外发行的多元化模式;其Bromo工具则能够将低分辨率 、简单风格的图片  ,转化为高达10K分辨率的高质量图像,展示了AI技术在艺术创作与表情包转换等方面的潜力。

  黄礼强进一步表示 ,尽管现阶段七火山以文生视频作为研究和推进的重点 ,但其将自身定位为一家AI多模态公司,“不局限在某一个应用,而是根据业界的最新进展,与自身业务进行有机结合 ,调整应用落地 。”

  《科创板日报》记者注意到 ,除了七火山本身作为一家刚成长不久的创业公司  ,在AI2.0极速发展的时期试图建立起自身的商业坐标外 ,其背后的战略投资方,亦通过对外投资等一系列方式对自身进行重新定位。

  七火山目前获得了来自上市公司超讯通信的战略投资 ,后者由此成为持股30%的单一大股东。超讯通信子公司超讯智能CEO胡柏逸告诉记者 ,从去年初开始 ,超讯通信就开始在找AIGC垂类新锐企业进行布局 ,“当时看了不少公司,包括文生图到文生多模态 ,还有AI游戏等一系列公司都有接触,到今年确定了对七火山进行战略投资。”

  公开资料显示  ,超讯通信成立于1998年 ,2016年7月在上交所挂牌上市 ,据其2022年年报,公司主要业务包括通信技术服务业务 、物联网业务以及IDC业务三大板块 。

  而在5日的战略发布会上 ,超讯通信董事长梁建华公布了公司未来三年的战略规划,“我们的愿景是建立一个完整的AI生态系统 ,通过算力 、数据与人工智能技术的有机结合 ,构建独特而强大的超讯通信生态 。我们追求的不仅是硬件的积累 ,更注重软硬件技术的自主创新和安全高效的集成应用。这意味着 ,在算力领域 ,我们不满足于简单的购买或租赁服务器,而是致力于技术的深度加持和创新 。”

  其进一步表示 ,超讯通信在人工智能方面进行了全方位部署,“重点投资于灵犀妙笔AI等境内外先进技术 ,同时注重AI安全和装备的配套 。”

  黄礼强则表示 ,与超讯通信的战略合作  ,未来会类似于当前国产大模型与互联网巨头之间的合作  。“肯定不是直奔着超讯通信给我们的财务投资去的 ,而是双方在理念上达成一致。与此同时 ,当我们的模型取得突破进展后 ,并实现与具体的垂类行业应用的结合,就需要我们去进行upscale ,即规模需要提升和扩大,这是超讯通信的算力  、资金包括其他一些资源 ,就能助力七火山实现模型规模的快速扩大。”

(文章来源 :财联社)

标签:

责任编辑:娱乐