今天我們就來看一款效果非常不錯的 AI 語音克隆工具 Speaking AI,它可以將文本轉為如真人說話一般自然的語音,還支持用戶免費克隆自己的聲音。
一、Speaking AI 介紹
官方網站:https://speaking.ai/
Speaking AI 是一個初創公司,創始人為 Harry Zheng,其團隊成員也都是中國人。公司創立的初衷是堅信對話式生成語音代表著人類與人工智能之間的未來接口,他們希望讓語音克隆聽起來更加自然,為人與人工智能之間的互動方式帶來根本性改變。
Speaking AI 目前有兩項主要功能:文本轉語音和語音克隆,其中語音克隆功能尤其出色,能做到接近真人說話的效果。
Speaking AI 目前支持中文和英文的文本轉語音,另有 5 款名人語音模板供用戶選擇。此功能目前是免費的,使用人數較多時需要排隊。Speaking AI 支持用戶克隆自己和他人的聲音,你可以選擇在線錄制 10 秒的音頻,或者上傳本地音頻文件,然後進行實時轉換,操作起來非常方便。錄制時說話的情緒和語調會影響最終的合成效果,Speaking AI 的模型也會根據文本內容自主選擇合適的情感基調。
注意:上傳他人的聲音時需要獲得對方的同意,並且不能將合成的語音用於任何非法、欺詐和有害目的。
據創始人介紹,目前 Speaking AI 還處於 V1 模型,算是一個試玩 Demo,性能比較有限,這種情況會在未來幾周內得到改善。官方已經在研發 V2 模型,它將支持更多不同的語言,語音克隆速度會更快,質量也會更高。
除了今天推薦的 Speaking AI,目前市面還有很多成熟的 AI 語音生成應用和開源工具。
比如一直比較受關注的 Elevenlabs,幾分鐘就能克隆用戶個人聲音並合成新的語音,支持將文本轉換為中文等 28 種語言,並能以不同的情緒演繹,目前上線了視頻自動翻譯配音功能。Elevenlabs 在翻譯、電影遊戲 / 配音、有聲書製作、聊天機器人對話上有廣泛應用,它的文本轉語音功能可以免費使用,進入官網後註冊賬號就能體驗。
國內的網易有道技術團隊則在 11 月份開源了自研的語音合成(TTS)引擎「易魔聲」,目前支持中英文雙語,包含 2000 多種不同的音色。易魔聲也支持情感合成功能,可以合成如快樂、興奮、悲傷、憤怒等不同感覺的語音。其 Github 主頁中有官方提供的 Web 界面及批量生成結果的腳本接口,安裝後就可以免費使用。
Github 主頁:https://github.com/netease-youdao/EmotiVoice
我最近還在網上看到一個新的 AI 音樂合成工具 Musicfy AI,它可以將人聲哼唱轉化為不同類型的樂器伴奏,非常有意思。這可能會改變傳統的編曲工作流,人們可以輕鬆地用聲音進行音樂創作,對音樂感興趣的小夥伴可以嘗試一下。
官方直達:https://musicfy.lol/