这个文本转音频的模型,但更精确点来说,主要是用来生成一些拟音效果,比如刮风下雨、银针落地的声音、飞机起飞的轰鸣声。
技术特点#
-
高效生成能力:
TangoFlux 能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频。相比其他模型,它在生成速度上具有显著优势,能够在更短的时间内提供高质量的音频输出,极大地提高了音频生成的效率。 -
流匹配与直流量化流:
该模型采用流匹配框架,特别是直流量化流(Rectified Flows),这是一种从噪声到目标分布的直线路径,能够在减少采样步骤的同时保持音频质量。这种技术使得模型在生成过程中更加高效和稳定,减少了对计算资源的需求。 -
Clap 排名偏好优化(CRPO):
TangoFlux 引入了 CRPO 技术,利用 CLAP 模型作为代理奖励模型,通过迭代生成和优化偏好数据来增强模型的对齐能力。CRPO 能够有效地提升生成音频与文本描述的匹配度,使音频内容更加符合用户的意图和期望。 -
多模态扩散变换器架构:
模型基于多模态扩散变换器(MMDiT)和扩散变换器(DiT)构建,结合了文本提示和时长嵌入,能够生成具有不同长度和丰富细节的音频。这种架构使得模型在处理复杂的文本描述和生成多样化的音频内容方面具有更强的能力。