AI音声クローン

今日は、非常に素晴らしい AI 音声クローニングツールである Speaking AI を紹介します。このツールはテキストを自然な音声に変換することができ、ユーザーの声を無料でクローンすることもサポートしています。

Speaking AI の紹介

Speaking AI は、Harry Zheng が創設したスタートアップ企業で、チームメンバーもすべて中国人です。同社は、対話型音声生成が人間と人工知能の未来のインターフェースを表しているという信念を持ち、音声クローニングをより自然に聞こえるようにし、人間と人工知能の間の相互作用方法に根本的な変化をもたらすことを目指しています。

Speaking AI には現在、テキストから音声への変換と音声クローニングの 2 つの主要な機能があります。特に音声クローニング機能は非常に優れており、ほぼ人間のように話すことができます。

Speaking AI は現在、中国語と英語のテキストから音声への変換をサポートしており、さらに 5 つの有名人の音声テンプレートも提供しています。この機能は現在無料で利用できますが、利用者が多い場合は待ち時間が発生することがあります。Speaking AI は、自分自身や他の人の声をクローンすることもサポートしており、オンラインで 10 秒の音声を録音するか、ローカルの音声ファイルをアップロードしてリアルタイムに変換することができます。録音時の話し方や感情は最終的な合成効果に影響を与えますし、Speaking AI のモデルもテキストの内容に基づいて適切な感情の基調を選択します。

注意：他人の声をアップロードする場合は、相手の同意を得る必要があり、合成された音声を違法、詐欺、有害な目的に使用することはできません。

創設者によると、Speaking AI は現在 V1 モデルであり、デモ版としての性能に限りがありますが、数週間以内に改善される予定です。公式はすでに V2 モデルの開発を進めており、さらに多くの言語をサポートし、音声クローニングの速度と品質を向上させる予定です。
今日紹介した Speaking AI 以外にも、市場には多くの成熟した AI 音声生成アプリやオープンソースツールがあります。

例えば、常に注目を集めている Elevenlabs は、数分でユーザーの個人的な声をクローンし、新しい音声を合成することができます。また、中国語など 28 種類の言語にテキストを変換することもサポートしており、さまざまな感情で演じることもできます。現在、ビデオの自動翻訳と音声合成の機能も提供しています。Elevenlabs は、翻訳、映画、ゲーム / 声優、オーディオブック制作、チャットボットの対話など、さまざまな分野で広く活用されており、テキストから音声への変換機能は無料で利用できます。公式ウェブサイトにアクセスしてアカウントを登録すれば、すぐに体験することができます。

公式ウェブサイト：https://elevenlabs.io/

国内の NetEase Youdao の技術チームは、11 月に自社開発の音声合成（TTS）エンジン「EmotiVoice」をオープンソース化しました。現在、中国語と英語の両方をサポートしており、2000 以上の異なる音色を含んでいます。EmotiVoice は感情合成機能もサポートしており、幸福、興奮、悲しみ、怒りなど、さまざまな感情の音声を合成することができます。GitHub のホームページには、公式の Web インターフェースとバッチ生成結果のスクリプトインターフェースが提供されており、インストール後は無料で使用することができます。
GitHub のホームページ：https://github.com/netease-youdao/EmotiVoice

最近、オンラインで新しい AI 音楽合成ツール Musicfy AI を見つけました。このツールは、人の歌声をさまざまなタイプの楽器の伴奏に変換することができ、非常に興味深いです。これにより、伝統的な編曲作業フローが変わる可能性があり、人々は声を使って簡単に音楽を作曲することができます。音楽に興味のある方は、ぜひ試してみてください。

公式ウェブサイト：https://musicfy.lol/