MMAudio 是一個強大的自動根據視頻生成適配音頻的模型,能夠根據視頻內容完美生成豐富、貼合的音頻。這個模型專注於生成與視頻中的視覺元素、動作和環境相匹配的高質量音頻,並保持時間的一致性。
MMAudio 首次亮相於 2023 年,但由於早期的生成效果平平,並未掀起太大的波瀾。在 2024 年 12 月 8 日,MMAudio 在 Github 社區正式發布,隨著 SORA 的無音頻視頻技術的加入,普通人如今也能輕鬆借助 AI 的力量,實現從創意到成品的飛躍,搖身一變成為 “短片大師”。該模型採用了專門為視頻到音頻合成設計的深度學習架構。通過先進的神經網絡和時間分析,它處理視頻中的視覺信息,生成自然適配的音頻。MMAudio 支持高質量的音頻合成、上下文感知的聲音生成、精確的時間同步、豐富的環境音合成、準確的動作與聲音匹配以及可處理多種視頻來源。
https://huggingface.co/spaces/hkchengrex/MMAudio
https://huggingface.co/hkchengrex/MMAudio/tree/main
https://hkchengrex.com/MMAudio/video_main.html