OmniAudio— 阿里通义推出的空间音频生成模型


OmniAudio是什么

omniaudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(foa)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。omniaudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监督学习;以及基于双分支视频表示的有监督微调,强化模型对声源方向的表征能力。

拾贝 拾贝

一键同步微信读书所有笔记和划线,并在新标签页回顾

拾贝 186 查看详情 拾贝

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OmniAudio— 阿里通义推出的空间音频生成模型

OmniAudio的主要功能

  • 生成空间音频:能直接从360°视频生成FOA音频,这种音频是一种标准的3D空间音频格式,能捕捉声音的方向性,实现真实的3D音频再现。采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。在头部旋转时,可以确保声音定位的准确性得以保持。
  • 提升沉浸式体验:为虚拟现实和沉浸式娱乐带来了全新的可能性。可以解决传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求的问题。

OmniAudio的技术原理

  • 自监督的 coarse-to-fine 流匹配预训练
    • 数据处理:由于真实FOA数据稀缺,研究团队利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),将立体声转换为“伪FOA”格式。具体来说,W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。
    • 模型训练:将转换后的“伪FOA”音频送入四通道VAE编码器获得潜在表示,然后以一定概率进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。
  • 基于双分支视频表示的有监督微调
    • 数据利用:仅使用真实的FOA音频数据,继续沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。
    • 模型强化:通过对真实FOA潜在序列进行更高概率的掩码,强化了对声源方向(W/X/Y/Z四通道之间的互补关系)的表征能力,在解码端提升了对高保真空间音频细节的重建效果。
    • 双分支结合:完成自监督预训练后,将模型与双分支视频编码器结合。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件,局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。
    • 微调与输出:在保持预训练初始化参数大致走向的前提下,高效微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的项目地址

  • 项目官网:http://omniaudio-360v2sa.github.io/
  • Github仓库:http://github.com/liuhuadai/OmniAudio
  • arXiv技术论文:http://arxiv.org/pdf/2504.14906

OmniAudio的应用场景

  • 虚拟现实(VR)和沉浸式体验:OmniAudio 能为 VR 内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感。
  • 360°视频配乐:为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。
  • 智能语音助手:集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。
  • 机器人和自动驾驶领域:OmniAudio 可以应用于机器人和自动驾驶领域,为这些系统提供更准确的声音定位和环境感知。

以上就是OmniAudio— 阿里通义推出的空间音频生成模型的详细内容,更多请关注其它相关文章!


# 只需  # seo引流是什么意思  # 铁岭抖音seo排名公司  # 企业网站优化推广怎么做  # SEO大牛美食推荐火锅  # 网站方案优化工作内容  # 美图的营销推广措施分析  # 网站基本建设重做  # 嘉定seo优化多少费用  # 大沥狮山网站建设  # 原创软件_营销推广方式  # 阿里巴巴  # git  # 就能  # 道为  # 是一种  # 这一  # 安装包  # 一键  # 拾贝  # 掩码  # udio  # omniaudio  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  热点 | 人工智能黄金时代开启  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  国内通用人形机器人将发布、产业加速突破  “踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?  微软新出热乎论文:Transformer扩展到10亿token  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  北交大推出国内首个开源交通大模型TransGPT,可免费商用  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  首届全国体育人工智能大会在首都体育学院召开  OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理  揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence  让AI助手带您轻松愉快地享受写作之旅  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  实现人工智能和物联网的协同运作  周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资  丰田汽车研究院推出生成式人工智能汽车设计工具  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  懒人必备的家居清洁好物,石头自清洁扫拖机器人G20  中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军  支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇  在心理治疗中用VR技术,治疗成效显著提高  遵义市首次引入手术机器人,成功实施全膝关节置换术  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下  调查显示:实际上没有那么多人在用 ChatGPT  华为即将推出HarmonyOS 4,再度领先行业的AI技术  抢占新赛道 加快机器人产业集聚发展  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态  Adobe旗下Illustrator引入生成式AI工具Firefly  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态  Zoom远程会议应用:AI培训需经用户授权  首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工  令人震惊的特斯拉机器人 

 2025-06-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.