15.1K スター！Fish Speech 1.5 正式リリース！世界をリードする多言語 TTS ツール！ローカルにデプロイして「調整」可能。

2024年12月6日#AI530

AI 翻訳

この記事はAIを通じて中国語から日本語に翻訳されました。原文を表示

AI が生成した要約

FishSpeechは、FishAudioチームによって開発されたTTS音声生成ツールで、2024年6-7月にオープンソースとしてリリースされました。主な機能は以下の通りです。 - **ゼロショットおよび少数ショットTTS**：10-30秒の音声サンプルで高品質な音声を生成し、音声クローンに対応。 - **音素依存なしの強い汎化能力**：音素に依存せず、様々な言語のテキストを処理可能。 - **高精度**：5分の英語テキストで、文字誤り率（CER）と単語誤り率（WER）が約2%。 - **ユーザーフレンドリーなインターフェース**： - WebUI：Gradioベースのウェブインターフェース、主要ブラウザに対応。 - GUI推論：PyQt6グラフィカルインターフェースを提供。 - **簡単なデプロイ**：ローカルまたはクラウドでの迅速なデプロイが可能。公式サイトやGitHubプロジェクトへのリンクも提供されています。

プロジェクト紹介 FishSpeech は、FishAudio チームによって開発された TTS 音声生成ツールで、ChatTTS と同時期（2024 年 6-7 月）にオープンソースとして登場した超人気の TTS プロジェクトです。そして、そのチームメンバーは、GitHub 上のさまざまな SVC の大御所であり、AI 音声クローンの教父たちです。

主な機能

・ゼロショット & 少数ショット TTS：10-30 秒の音声サンプルで、高品質な音声を生成し、音声クローンのニーズを完璧にサポートします。
・音素依存なしの強力な一般化能力：Fish Speech のモデルは音素に依存せず、任意の文字表現の言語を簡単に処理でき、TTS の適用シーンをより広範にします。
・超高精度：5 分間の英語テキストにおいて、文字誤り率（CER）と単語誤り率（WER）は約 2% に過ぎません。
・ユーザーフレンドリーな多インターフェースサポート：
・WebUI：Gradio に基づくウェブユーザーインターフェースで、主流のブラウザ（Chrome、Firefox、Edge）に対応しています。
・GUI 推論：PyQt6 グラフィカルインターフェースを提供し、API サーバーとシームレスに連携します。
・簡単なデプロイ：ローカルでもクラウドでも、迅速なデプロイをサポートし、速度損失を最小限に抑え、開発者に大きな利便性を提供します。

公式ホームページ：https://fish.audio

GitHub プロジェクトアドレス：https://github.com/fishaudio/fish-speech

HF デモ：https://huggingface.co/spaces/fishaudio/fish-speech-1