VoiceCraft の概要
VoiceCraft:ゼロショット音声編集とテキスト読み上げをワイルドに
VoiceCraft は、最先端のパフォーマンスを音声編集とゼロショットテキスト読み上げ (TTS) の両方にもたらす、強力なオープンソースツールです。オーディオブック、インターネットビデオ、ポッドキャストなど、多様な実際のオーディオデータの処理に優れています。 VoiceCraft の特徴は、わずか数秒の参照オーディオを使用して、見慣れない音声をクローンまたは編集できることです。
VoiceCraft とは何ですか?
VoiceCraft は、高品質の音声編集および TTS タスク用に設計された、トークンインフィルニューラルコーデック言語モデルです。 ゼロショット学習を活用しており、最小限のトレーニングデータで新しい音声に適応できます。
VoiceCraft の仕組みは?
VoiceCraft は、ニューラルコーデック言語モデルとして動作します。 その機能の重要な側面は次のとおりです。
- トークンインフィル: VoiceCraft は、トークンインフィル技術を使用して、音声をシームレスに編集および生成します。
- ゼロショット学習: わずか数秒の参照オーディオで新しい音声に適応できるため、大規模なトレーニングデータは不要です。
- ニューラルコーデック言語モデル: このアーキテクチャにより、高品質の音声合成と編集が可能になります。
VoiceCraft の使い方は?
VoiceCraft にはいくつかの使用方法があります。
- Google Colab: まずは、音声編集および TTS 推論用の提供されている Google Colab ノートブックを使用するのが最も簡単な方法です。
- Docker: 提供されている Docker イメージを使用して、一貫性のある再現可能な環境を実現します。
- スタンドアロンスクリプト: スタンドアロンスクリプトを使用して、VoiceCraft をプロジェクトに統合します。
各方法の内訳は次のとおりです。
Google Colab
Google Colab は、VoiceCraft の使用を開始する簡単な方法を提供します。 次の手順に従ってください。
- 音声編集 Colab ノートブックを開きます。
- TTS 推論 Colab ノートブックを開きます。
- ノートブック内の指示に従って、デモを実行します。
Docker
Docker は、VoiceCraft を実行するための一貫した環境を提供します。 設定方法は次のとおりです。
リポジトリをクローンします。
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. Docker イメージを構築します。
```bash
docker build --tag "voicecraft" . ``` 3. Docker コンテナを起動します。
```bash
./start-jupyter.sh # linux
start-jupyter.bat # windows
```
4. Docker ログに表示されている URL をブラウザで開きます。
5. inference_tts.ipynb を開き、指示に従います。
スタンドアロンスクリプト
VoiceCraft をスタンドアロンスクリプトとして使用するには:
環境が正しく設定されていることを確認します (「環境設定」セクションを参照)。
tts_demo.pyおよびspeech_editing_demo.pyスクリプトを使用します。
python3 tts_demo.py -h ```
VoiceCraft を選ぶ理由は?
- ゼロショット機能: 最小限のデータで新しい音声にすばやく適応します。
- 高品質の出力: 音声編集と TTS で最先端のパフォーマンスを提供します。
- 汎用性: さまざまなオーディオソースでうまく機能します。
- オープンソース: コミュニティの貢献とカスタマイズを奨励します。
VoiceCraft は誰のためのものですか?
VoiceCraft は以下に最適です。
- 研究者: 音声合成と編集の技術を探求します。
- 開発者: 高度な TTS 機能をアプリケーションに統合します。
- コンテンツクリエイター: 高品質のボイスオーバーと編集されたオーディオを生成します。
- 愛好家: 音声クローンとオーディオ操作を試します。
主な機能:
- スマートトランスクリプト: ユーザーが生成したい内容を正確に指定できます。
- TTS モード: テキストから音声を生成するゼロショット TTS。
- 編集モード: 既存のオーディオを変更するための音声編集機能。
- ロング TTS モード: 長いテキストでの TTS を簡素化します。
環境設定:
VoiceCraft の環境を設定するには:
新しい Conda 環境を作成します。
conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 必要なパッケージをインストールします。
```bash
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```
トレーニングと微調整:
VoiceCraft は、カスタムデータセットでのトレーニングと微調整をサポートしています。 プロセスには以下が含まれます。
- 発話とそのトランスクリプトを準備します。
- Encodec を使用して発話をコードにエンコードします。
- トランスクリプトを音素シーケンスに変換します。
- マニフェストファイルを作成します。
VoiceCraft を活用する最良の方法は、提供されているスクリプトとノートブックを使用し、特定のユースケースに合わせて調整することです。 音声編集、TTS、音声クローンなど、VoiceCraft は堅牢で柔軟なソリューションを提供します。
VoiceCraft は、コードベースについては CC BY-NC-SA 4.0 (LICENSE-CODE) の下で、モデルの重みについては Coqui Public Model License 1.0.0 (LICENSE-MODEL) の下でライセンスされています。 また、MIT および Apache 2.0 ライセンスの下で他のリポジトリのコードも組み込んでいます。
"VoiceCraft" のベストな代替ツール
写真と動画を瞬時にリアルな話すAIアバターに変換。40以上の言語でリップシンクのプロフェッショナルビデオ。今日から無料で作成を始めよう!
Voice.aiは、ゲーム、ストリーミング、コンテンツ作成、ビジネス向けの無料のリアルタイムAIボイスチェンジャー、ボイスクローン、テキスト読み上げ、AIボイスエージェントを提供します。AI音声とオーディオツールをご覧ください。
Audiobox は Meta の新しい基礎研究モデルで、オーディオ生成に使用されます。音声入力と自然言語テキストプロンプトの組み合わせを使用して、声や音響効果を生成できます。
Me.bot はあなたの AI セカンドセルフで、アイデアをパーソナライズされたボイスとビジュアルのプレゼンテーションに変えます。あなたのデータから学び、あなたのように話して関与し、より深いつながりと洞察のためのインタラクティブなトークを提供します。