行业动态丨AI多模态应用持续发酵,竞逐文生视频模型蓝海
发布时间:2024-03-16 14:32:21 浏览次数:1512


在全球AI视频技术热潮持续沸腾的背景下,据了解,爱诗科技近日获得了电广传媒旗下达晨财智亿级A1轮融资领投,资金将主要用于底层视频大模型的技术研发及团队搭建等方面。这进一步印证了业界对AI视频技术的热烈追捧。

Sora的横空出世,激发了全球科技公司竞相角逐AI视频革新赛道。各家企业犹如八仙过海,各显神通,如Stability AI上线公测SVD视频平台、七火山发布了文生视频模型Etna、Pika上线了新功能——可以给视频对口型的Lip Sync和根据内容自动生成声音的音效生成功能、LTX Studio上线视频AI制作平台、Meta发布AI自动剪辑视频工具。

作为人工智能领域的积极探索者,超讯通信从去年就开始部署AI生态,已完成“算力-数据-AI”新业务布局。今年年初,公司敏锐洞察到AI视频的市场潜力,与AI多模态应用公司Hong Kong Inequation Limited签署了相关投资协议,成为该公司占股30%的第一大股东。

Etna文生视频模型是由Hong Kong Inequation Limited业务品牌七火山研发,在设计和开发上采取了一系列革命性的技术突破,这些突破不仅提升了视频内容的质量,还极大地增强了模型的应用潜力。其主要创新点包括:

图片

01 视频帧率高达4K

Etna模型支持生成视频时长达到8-15秒,且视频流畅度极高,每秒可达60帧。这一特性使得Etna生成的视频不仅内容丰富,而且视觉效果流畅自然,极大提升了用户观看体验。


图片

02 深度语义理解能力

Etna模型背后的技术架构,特别强调了对输入文本的深度理解。借鉴了sora模型的成功经验,Etna能够更准确地捕捉和转化文本信息为视频内容,使得生成的视频不仅忠实于原文意图,还能丰富展现文本的细微情感和场景。


图片

03 高清晰度与丰富细节

与早期的视频生成模型相比,Etna在视频清晰度和图像细节方面取得了显著进步。这意味着Etna能够产生高质量的视频内容,每个场景的细节都被精细呈现,为观众带来身临其境的视觉享受。


图片

04 技术架构的创新

Etna模型融合了diffusion模型和transformer模型的优势,通过这种结合,形成了一种高效且先进的新型模型架构。这不仅提升了模型的生成效率,还保证了生成内容的高质量和高一致性。


图片

05 训练数据的独特选择

与传统模型主要采用静态图像作为训练数据不同,Etna模型采用的是视频数据,这种方法更符合其生成目标的本质。通过优化的patch处理方法,Etna模型在训练过程中能更有效地理解和模拟动态场景,从而提升最终视频的自然度和真实感。


Etna模型生成的视频

国内视频生成领域方兴未艾,我们相信,Etna文生视频模型将以更为卓越的效能和创造力,有力满足合作伙伴在视频生成领域日益增长的需求,同时也将进一步推动公司AI业务发展,与公司自主研发的AI功能集成app“灵犀妙笔AI”共同开启AI多模态应用新篇章

部分内容来源于七火山公众号:7Volcanoes七火山

七火山官网:https://7volcanoes.com/