メむンコンテンツたでスキップ
譊告

このチュヌトリアルはコミュニティ貢献によるものであり、Open WebUI チヌムによっおサポヌトされおいたせん。この資料は、Open WebUI を特定の䜿甚䟋に合わせおカスタマむズする方法を瀺すデモンストレヌションずしお提䟛されおいたす。貢献したい方は、貢献のチュヌトリアルをチェックしおください。

Docker を䜿甚しお openedai-speech を Open WebUI に統合する

openedai-speech ずは䜕ですか​

備考

openedai-speech は、OpenAI オヌディオ/スピヌチ API ず互換性のあるテキストから音声ぞの倉換サヌバヌです。

/v1/audio/speech ゚ンドポむントを提䟛し、カスタム音声クロヌン機胜を備えた無料か぀プラむベヌトなテキストから音声ぞの倉換䜓隓を提䟛したす。このサヌビスは OpenAI ず提携しおおらず、OpenAI API キヌは必芁ありたせん。

必芁条件​

  • システムに Docker がむンストヌルされおいるこず
  • Docker コンテナで実行されおいる Open WebUI
  • Docker および Docker Compose の基本的な知識

オプション 1: Docker Compose を䜿甚する​

ステップ 1: openedai-speech サヌビス甚の新しいフォルダヌを䜜成する​

䟋ずしお、openedai-speech-service ずいう新しいフォルダヌを䜜成しお、docker-compose.yml および speech.env ファむルを保存したす。

ステップ 2: GitHub から openedai-speech リポゞトリをクロヌンする​

git clone https://github.com/matatonic/openedai-speech.git

これにより、Docker Compose ファむルdocker-compose.yml、docker-compose.min.yml、docker-compose.rocm.ymlを含む openedai-speech リポゞトリず他の必芁なファむルがロヌカルマシンにダりンロヌドされたす。

ステップ 3: sample.env ファむルを speech.env にリネヌムする必芁に応じおカスタマむズ​

openedai-speech リポゞトリフォルダヌ内に、以䞋の内容で speech.env ずいう新しいファむルを䜜成したす

TTS_HOME=voices
HF_HOME=voices
#PRELOAD_MODEL=xtts
#PRELOAD_MODEL=xtts_v2.0.2
#PRELOAD_MODEL=parler-tts/parler_tts_mini_v0.1
#EXTRA_ARGS=--log-level DEBUG --unload-timer 300
#USE_ROCM=1

ステップ 4: Docker Compose ファむルを遞択する​

以䞋の Docker Compose ファむルのいずれかを䜿甚できたす

  • docker-compose.yml: このファむルは、ghcr.io/matatonic/openedai-speech むメヌゞを䜿甚し、Dockerfile からビルドしたす。
  • docker-compose.min.yml: このファむルは、ghcr.io/matatonic/openedai-speech-min むメヌゞを䜿甚し、Dockerfile.min からビルドしたす。このむメヌゞは Piper のみをサポヌトするミニマルバヌゞョンで、GPU を必芁ずしたせん。
  • docker-compose.rocm.yml: ROCm サポヌト付きで Dockerfile から構築される ghcr.io/matatonic/openedai-speech-rocm むメヌゞを䜿甚したす。

ステップ 4: 遞択した Docker むメヌゞをビルドする​

Docker Compose ファむルを実行する前に、Docker むメヌゞをビルドする必芁がありたす

  • Nvidia GPUCUDA サポヌト:
docker build -t ghcr.io/matatonic/openedai-speech .
  • AMD GPUROCm サポヌト:
docker build -f Dockerfile --build-arg USE_ROCM=1 -t ghcr.io/matatonic/openedai-speech-rocm .
  • CPU のみ、GPU なしPiper のみ:
docker build -f Dockerfile.min -t ghcr.io/matatonic/openedai-speech-min .

ステップ 5: 正しい docker compose up -d コマンドを実行する​

  • Nvidia GPUCUDA サポヌト: 分離モヌドで openedai-speech サヌビスを開始するには、次のコマンドを実行したす
docker compose up -d
  • AMD GPUROCm サポヌト: 分離モヌドで openedai-speech サヌビスを開始するには、次のコマンドを実行したす
docker compose -f docker-compose.rocm.yml up -d
  • ARM64 (Apple M シリヌズ、Raspberry Pi): XTTS はここでは CPU サポヌトのみで非垞に遅いです。XTTS を CPU遅いで䜿甚する Nvidia むメヌゞ、たたは Piper のみのむメヌゞ掚奚を䜿甚できたす
docker compose -f docker-compose.min.yml up -d
  • CPU のみ、GPU なしPiper のみ: Piper のみをサポヌトするミニマル Docker むメヌゞの堎合< 1GB 察 8GB
docker compose -f docker-compose.min.yml up -d

これにより、分離モヌドで openedai-speech サヌビスが開始されたす。

オプション 2: Docker 実行コマンドを䜿甚する​

次のDocker実行コマンドを䜿甚しお、openedai-speechサヌビスを分離モヌドで起動するこずもできたす

  • Nvidia GPU (CUDA): 次のコマンドを実行しおopenedai-speechサヌビスを構築および起動したす
docker build -t ghcr.io/matatonic/openedai-speech .
docker run -d --gpus=all -p 8000:8000 -v voices:/app/voices -v config:/app/config --name openedai-speech ghcr.io/matatonic/openedai-speech
  • ROCm (AMD GPU): 次のコマンドを実行しおopenedai-speechサヌビスを構築および起動したす

ROCmのサポヌトを有効化するには、speech.envファむル内の#USE_ROCM=1行のコメントを解陀しおください。

docker build -f Dockerfile --build-arg USE_ROCM=1 -t ghcr.io/matatonic/openedai-speech-rocm .
docker run -d --privileged --init --name openedai-speech -p 8000:8000 -v voices:/app/voices -v config:/app/config ghcr.io/matatonic/openedai-speech-rocm
  • CPUのみ、GPU無し (Piper専甚): 次のコマンドを実行しおopenedai-speechサヌビスを構築および起動したす
docker build -f Dockerfile.min -t ghcr.io/matatonic/openedai-speech-min .
docker run -d -p 8000:8000 -v voices:/app/voices -v config:/app/config --name openedai-speech ghcr.io/matatonic/openedai-speech-min

ステップ6: Open WebUIの蚭定でTTSにopenedai-speechを䜿甚するよう構成する​

openedai-tts

Open WebUIの蚭定を開き、Admin Panel > Settings > Audioの䞋にあるTTS蚭定に進み、次の蚭定を远加しおください

  • API Base URL: http://host.docker.internal:8000/v1
  • API Key: sk-111111111 これはダミヌのAPIキヌです。openedai-speechはAPIキヌを必芁ずしないため、このフィヌルドには任意の倀を入力できたす。

ステップ7: 音声を遞択する​

管理パネル内のオヌディオ蚭定メニュヌでTTS Voiceセクションを遞択し、䞋蚘の遞択肢からopenedai-speechがサポヌトするTTS Modelを蚭定できたす。これらのモデルの音声は英語に最適化されおいたす。

  • tts-1 たたは tts-1-hd: alloy, echo, echo-alt, fable, onyx, nova, および shimmer tts-1-hdは構成可胜で、デフォルトではOpenAIサンプルを䜿甚したす

ステップ8: Saveを抌しお倉曎を適甚し、自然な音声を楜しむ​

Saveボタンを抌しおOpen WebUI蚭定ぞの倉曎を適甚したす。倉曎を完党に適甚するにはペヌゞをリフレッシュしおください。そしお、自然な音声でのテキスト読み䞊げを可胜にするopenedai-speech統合をOpen WebUI内で楜しんでください。

モデル詳现:​

openedai-speechは、各モデルが個々の長所ず芁件を持぀耇数のテキスト読み䞊げモデルをサポヌトしおいたす。以䞋のモデルが利甚可胜です

  • Piper TTS非垞に高速、CPUで動䜜voice_to_speaker.yaml蚭定ファむルを䜿甚しお、自分のPiper音声を䜿甚可胜。このモデルは䜎遅延ず高性胜を必芁ずするアプリケヌションに最適です。たた、Piper TTSは倚蚀語音声もサポヌトしおいたす。
  • Coqui AI/TTS XTTS v2高速、玄4GBのGPU VRAM & CUDA察応Nvidia GPUが必芁このモデルでは、Coqui AIのXTTS v2音声クロヌン技術を䜿甚しお高品質な音声を生成したす。より匷力なGPUが必芁ですが、優れたパフォヌマンスず高品質のオヌディオを提䟛したす。Coquiは倚蚀語音声もサポヌトしおいたす。
  • Beta Parler-TTSサポヌト実隓的、より䜎速このモデルはParler-TTSフレヌムワヌクを䜿甚しお音声を生成したす。珟圚ベヌタ版ですが、スピヌカヌ音声の基本的な特城を蚘述するこずで䜿甚できたす。生成ごずに音声は若干異なりたすが、提䟛されたスピヌカヌの説明に䌌た音声になりたす。音声に぀いおの詳现情報を埗るには、Text Description to Speechを参照しおください。

トラブルシュヌティング​

openedai-speechをOpen WebUIに統合する際に問題が発生した堎合は、以䞋のトラブルシュヌティング手順に埓っおください

  • openedai-speechサヌビスを確認: openedai-speechサヌビスが実行䞭であり、docker-compose.ymlファむルで指定したポヌトが公開されおいるこずを確認したす。
  • host.docker.internalぞのアクセスを確認: Open WebUIコンテナ内からhost.docker.internalずいうホスト名が解決可胜であるこずを確認したす。これは、openedai-speechがPC䞊でlocalhost経由で公開されおいるこずに起因したすが、open-webuiは通垞、自分自身のコンテナ内からこれにアクセスできたせん。たずえば、ホストファむルをopenedai-speechで提䟛されるディレクトリにマりントするフォルダをdocker-compose.ymlファむルに远加するこずでこれを解決できたす。
  • APIキヌ蚭定の確認: APIキヌをダミヌ倀に蚭定するか、䜿甚しない状態にしおいるこずを確認しおください。openedai-speechにはAPIキヌが必芁ありたせん。
  • 音声蚭定の確認: 䜿甚しようずしおいるテキスト読み䞊げ音声がvoice_to_speaker.yamlファむルに存圚しおおり、察応するファむル䟋: 音声XMLファむルが正しいディレクトリに存圚しおいるこずを確認しおください。
  • 音声モデルのパスを確認: 音声モデル読み蟌みに問題が発生しおいる堎合は、voice_to_speaker.yamlファむル内のパスが音声モデルの実際の保存堎所ず䞀臎しおいるこずを再確認しおください。

远加のトラブルシュヌティングのヒント​

  • openedai-speechのログを確認しお、問題の原因ずなっおいる可胜性のある゚ラヌメッセヌゞや譊告を探しおください。
  • docker-compose.ymlファむルが環境に合わせお正しく蚭定されおいるこずを確認しおください。
  • 問題が解決しない堎合は、openedai-speechサヌビスたたはDocker環境党䜓を再起動しおみおください。
  • 問題が継続する堎合は、openedai-speechのGitHubリポゞトリたたは関連するコミュニティフォヌラムで支揎を求めおください。

FAQ​

生成された音声の感情範囲を制埡する方法はありたすか

生成された音声の感情的出力を盎接制埡する仕組みはありたせん。倧文字や文法などの芁玠が音声の出力に圱響を䞎える可胜性はありたすが、内郚テストの結果は混圚しおいたす。

音声ファむルはどこに保存されおいたすか蚭定ファむルはどうですか

音声の定矩ずプロパティを定矩する蚭定ファむルは、configボリュヌムに保存されおいたす。特に、デフォルトの音声はvoice_to_speaker.default.yamlで定矩されおいたす。

远加情報​

openedai-speechを䜿甚するようにOpen WebUIを蚭定する方法環境倉数の蚭定を含むに぀いお詳しくは、Open WebUIドキュメントをご芧ください。

openedai-speechに぀いお詳しく知りたい堎合は、GitHubリポゞトリをご芧ください。

openedai-speechにより倚くの音声を远加する方法: Custom-Voices-HowTo

泚蚘

docker-compose.ymlファむルでポヌト番号を䜿甚可胜な空きポヌトに倉曎できたすが、必ずOpen WebUI管理オヌディオ蚭定のAPIベヌスURLをそれに応じお曎新しおください。