超讯科技股份有限公司-STS超讯

行业动态丨AI多模态应用持续发酵，竞逐文生视频模型蓝海

发布时间：2024-03-16 14:32:21 浏览次数：3388

在全球AI视频技术热潮持续沸腾的背景下，据了解，爱诗科技近日获得了电广传媒旗下达晨财智亿级A1轮融资领投，资金将主要用于底层视频大模型的技术研发及团队搭建等方面。这进一步印证了业界对AI视频技术的热烈追捧。

Sora的横空出世，激发了全球科技公司竞相角逐AI视频革新赛道。各家企业犹如八仙过海，各显神通，如Stability AI上线公测SVD视频平台、七火山发布了文生视频模型Etna、Pika上线了新功能——可以给视频对口型的Lip Sync和根据内容自动生成声音的音效生成功能、LTX Studio上线视频AI制作平台、Meta发布AI自动剪辑视频工具。

作为人工智能领域的积极探索者，超讯通信从去年就开始部署AI生态，已完成“算力-数据-AI”新业务布局。今年年初，公司敏锐洞察到AI视频的市场潜力，与AI多模态应用公司Hong Kong Inequation Limited签署了相关投资协议，成为该公司占股30%的第一大股东。

Etna文生视频模型是由Hong Kong Inequation Limited业务品牌七火山研发，在设计和开发上采取了一系列革命性的技术突破，这些突破不仅提升了视频内容的质量，还极大地增强了模型的应用潜力。其主要创新点包括：

01 视频帧率高达4K

Etna模型支持生成视频时长达到8-15秒，且视频流畅度极高，每秒可达60帧。这一特性使得Etna生成的视频不仅内容丰富，而且视觉效果流畅自然，极大提升了用户观看体验。

02 深度语义理解能力

Etna模型背后的技术架构，特别强调了对输入文本的深度理解。借鉴了sora模型的成功经验，Etna能够更准确地捕捉和转化文本信息为视频内容，使得生成的视频不仅忠实于原文意图，还能丰富展现文本的细微情感和场景。

03 高清晰度与丰富细节

与早期的视频生成模型相比，Etna在视频清晰度和图像细节方面取得了显著进步。这意味着Etna能够产生高质量的视频内容，每个场景的细节都被精细呈现，为观众带来身临其境的视觉享受。

04 技术架构的创新

Etna模型融合了diffusion模型和transformer模型的优势，通过这种结合，形成了一种高效且先进的新型模型架构。这不仅提升了模型的生成效率，还保证了生成内容的高质量和高一致性。

05 训练数据的独特选择

与传统模型主要采用静态图像作为训练数据不同，Etna模型采用的是视频数据，这种方法更符合其生成目标的本质。通过优化的patch处理方法，Etna模型在训练过程中能更有效地理解和模拟动态场景，从而提升最终视频的自然度和真实感。

Etna模型生成的视频

国内视频生成领域方兴未艾，我们相信，Etna文生视频模型将以更为卓越的效能和创造力，有力满足合作伙伴在视频生成领域日益增长的需求，同时也将进一步推动公司AI业务发展，与公司自主研发的AI功能集成app“灵犀妙笔AI”共同开启AI多模态应用新篇章。

部分内容来源于七火山公众号：7Volcanoes七火山

七火山官网：https://7volcanoes.com/

咨询热线	+86 020-80660188
官方微信

新闻中心