Nvidia开源AI文本转音效模型，只要3.7秒就能生成30秒的音效

2025年1月13日#AI194

AI 生成的摘要

TangoFlux是一个专注于生成拟音效果的音频生成模型，能够在单个A40 GPU上高效生成高质量音频。其技术特点包括： - **高效生成能力**：仅需3.7秒生成30秒的44.1kHz音频，显著提高生成效率。 - **流匹配与直流量化流**：采用直流量化流技术，减少采样步骤同时保持音频质量。 - **Clap排名偏好优化（CRPO）**：通过CLAP模型优化生成音频与文本描述的匹配度。 - **多模态扩散变换器架构**：结合文本提示和时长嵌入，生成多样化的音频内容。提供了GitHub项目链接、Hugging Face试用链接和论文链接。

这个文本转音频的模型，但更精确点来说，主要是用来生成一些拟音效果，比如刮风下雨、银针落地的声音、飞机起飞的轰鸣声。

技术特点#

高效生成能力：
TangoFlux 能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频。相比其他模型，它在生成速度上具有显著优势，能够在更短的时间内提供高质量的音频输出，极大地提高了音频生成的效率。
流匹配与直流量化流：
该模型采用流匹配框架，特别是直流量化流（Rectified Flows），这是一种从噪声到目标分布的直线路径，能够在减少采样步骤的同时保持音频质量。这种技术使得模型在生成过程中更加高效和稳定，减少了对计算资源的需求。
Clap 排名偏好优化（CRPO）：
TangoFlux 引入了 CRPO 技术，利用 CLAP 模型作为代理奖励模型，通过迭代生成和优化偏好数据来增强模型的对齐能力。CRPO 能够有效地提升生成音频与文本描述的匹配度，使音频内容更加符合用户的意图和期望。
多模态扩散变换器架构：
模型基于多模态扩散变换器（MMDiT）和扩散变换器（DiT）构建，结合了文本提示和时长嵌入，能够生成具有不同长度和丰富细节的音频。这种架构使得模型在处理复杂的文本描述和生成多样化的音频内容方面具有更强的能力。

项目链接#

GitHub 项目链接

试用链接#

Hugging Face 试用链接

论文链接#

论文链接