プロジェクト紹介 FishSpeech は、FishAudio チームによって開発された TTS 音声生成ツールで、ChatTTS と同時期(2024 年 6-7 月)にオープンソースとして登場した超人気の TTS プロジェクトです。そして、そのチームメンバーは、GitHub 上のさまざまな SVC の大御所であり、AI 音声クローンの教父たちです。
主な機能
・ゼロショット & 少数ショット TTS:10-30 秒の音声サンプルで、高品質な音声を生成し、音声クローンのニーズを完璧にサポートします。
・音素依存なしの強力な一般化能力:Fish Speech のモデルは音素に依存せず、任意の文字表現の言語を簡単に処理でき、TTS の適用シーンをより広範にします。
・超高精度:5 分間の英語テキストにおいて、文字誤り率(CER)と単語誤り率(WER)は約 2% に過ぎません。
・ユーザーフレンドリーな多インターフェースサポート:
・WebUI:Gradio に基づくウェブユーザーインターフェースで、主流のブラウザ(Chrome、Firefox、Edge)に対応しています。
・GUI 推論:PyQt6 グラフィカルインターフェースを提供し、API サーバーとシームレスに連携します。
・簡単なデプロイ:ローカルでもクラウドでも、迅速なデプロイをサポートし、速度損失を最小限に抑え、開発者に大きな利便性を提供します。
公式ホームページ:https://fish.audio
GitHub プロジェクトアドレス:https://github.com/fishaudio/fish-speech
HF デモ:https://huggingface.co/spaces/fishaudio/fish-speech-1