VoiceCraft: ゼロショット音声編集とテキスト読み上げ

VoiceCraft

3.5 | 522 | 0
しゅるい:
オープンソースプロジェクト
最終更新:
2025/10/04
説明:
VoiceCraft は、ゼロショット音声編集およびテキスト読み上げ用のオープンソース AI ツールであり、わずか数秒の参照音声で音声クローニングを可能にします。実際のデータで最先端のパフォーマンスを実現します。
共有:
音声合成
音声クローニング
オーディオ編集
TTS
ゼロショットTTS

VoiceCraft の概要

VoiceCraft:ゼロショット音声編集とテキスト読み上げをワイルドに

VoiceCraft は、最先端のパフォーマンスを音声編集とゼロショットテキスト読み上げ (TTS) の両方にもたらす、強力なオープンソースツールです。オーディオブック、インターネットビデオ、ポッドキャストなど、多様な実際のオーディオデータの処理に優れています。 VoiceCraft の特徴は、わずか数秒の参照オーディオを使用して、見慣れない音声をクローンまたは編集できることです。

VoiceCraft とは何ですか?

VoiceCraft は、高品質の音声編集および TTS タスク用に設計された、トークンインフィルニューラルコーデック言語モデルです。 ゼロショット学習を活用しており、最小限のトレーニングデータで新しい音声に適応できます。

VoiceCraft の仕組みは?

VoiceCraft は、ニューラルコーデック言語モデルとして動作します。 その機能の重要な側面は次のとおりです。

  • トークンインフィル: VoiceCraft は、トークンインフィル技術を使用して、音声をシームレスに編集および生成します。
  • ゼロショット学習: わずか数秒の参照オーディオで新しい音声に適応できるため、大規模なトレーニングデータは不要です。
  • ニューラルコーデック言語モデル: このアーキテクチャにより、高品質の音声合成と編集が可能になります。

VoiceCraft の使い方は?

VoiceCraft にはいくつかの使用方法があります。

  • Google Colab: まずは、音声編集および TTS 推論用の提供されている Google Colab ノートブックを使用するのが最も簡単な方法です。
  • Docker: 提供されている Docker イメージを使用して、一貫性のある再現可能な環境を実現します。
  • スタンドアロンスクリプト: スタンドアロンスクリプトを使用して、VoiceCraft をプロジェクトに統合します。

各方法の内訳は次のとおりです。

Google Colab

Google Colab は、VoiceCraft の使用を開始する簡単な方法を提供します。 次の手順に従ってください。

  1. 音声編集 Colab ノートブックを開きます。
  2. TTS 推論 Colab ノートブックを開きます。
  3. ノートブック内の指示に従って、デモを実行します。

Docker

Docker は、VoiceCraft を実行するための一貫した環境を提供します。 設定方法は次のとおりです。

  1. リポジトリをクローンします。

git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. Docker イメージを構築します。

```bash

docker build --tag "voicecraft" . ``` 3. Docker コンテナを起動します。

```bash

./start-jupyter.sh # linux start-jupyter.bat # windows ``` 4. Docker ログに表示されている URL をブラウザで開きます。 5. inference_tts.ipynb を開き、指示に従います。

スタンドアロンスクリプト

VoiceCraft をスタンドアロンスクリプトとして使用するには:

  1. 環境が正しく設定されていることを確認します (「環境設定」セクションを参照)。

  2. tts_demo.py および speech_editing_demo.py スクリプトを使用します。

python3 tts_demo.py -h ```

VoiceCraft を選ぶ理由は?

  • ゼロショット機能: 最小限のデータで新しい音声にすばやく適応します。
  • 高品質の出力: 音声編集と TTS で最先端のパフォーマンスを提供します。
  • 汎用性: さまざまなオーディオソースでうまく機能します。
  • オープンソース: コミュニティの貢献とカスタマイズを奨励します。

VoiceCraft は誰のためのものですか?

VoiceCraft は以下に最適です。

  • 研究者: 音声合成と編集の技術を探求します。
  • 開発者: 高度な TTS 機能をアプリケーションに統合します。
  • コンテンツクリエイター: 高品質のボイスオーバーと編集されたオーディオを生成します。
  • 愛好家: 音声クローンとオーディオ操作を試します。

主な機能

  • スマートトランスクリプト: ユーザーが生成したい内容を正確に指定できます。
  • TTS モード: テキストから音声を生成するゼロショット TTS。
  • 編集モード: 既存のオーディオを変更するための音声編集機能。
  • ロング TTS モード: 長いテキストでの TTS を簡素化します。

環境設定

VoiceCraft の環境を設定するには:

  1. 新しい Conda 環境を作成します。

conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 必要なパッケージをインストールします。

```bash

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```

トレーニングと微調整

VoiceCraft は、カスタムデータセットでのトレーニングと微調整をサポートしています。 プロセスには以下が含まれます。

  1. 発話とそのトランスクリプトを準備します。
  2. Encodec を使用して発話をコードにエンコードします。
  3. トランスクリプトを音素シーケンスに変換します。
  4. マニフェストファイルを作成します。

VoiceCraft を活用する最良の方法は、提供されているスクリプトとノートブックを使用し、特定のユースケースに合わせて調整することです。 音声編集、TTS、音声クローンなど、VoiceCraft は堅牢で柔軟なソリューションを提供します。

VoiceCraft は、コードベースについては CC BY-NC-SA 4.0 (LICENSE-CODE) の下で、モデルの重みについては Coqui Public Model License 1.0.0 (LICENSE-MODEL) の下でライセンスされています。 また、MIT および Apache 2.0 ライセンスの下で他のリポジトリのコードも組み込んでいます。

"VoiceCraft" のベストな代替ツール

AI Avatar Generator
画像がありません
418 0

写真と動画を瞬時にリアルな話すAIアバターに変換。40以上の言語でリップシンクのプロフェッショナルビデオ。今日から無料で作成を始めよう!

話すアバター
リップシンクAI
Voice.ai
画像がありません
622 0

Voice.aiは、ゲーム、ストリーミング、コンテンツ作成、ビジネス向けの無料のリアルタイムAIボイスチェンジャー、ボイスクローン、テキスト読み上げ、AIボイスエージェントを提供します。AI音声とオーディオツールをご覧ください。

音声修正
Audiobox
画像がありません
575 0

Audiobox は Meta の新しい基礎研究モデルで、オーディオ生成に使用されます。音声入力と自然言語テキストプロンプトの組み合わせを使用して、声や音響効果を生成できます。

オーディオ生成
音声合成
Me.bot
画像がありません
432 0

Me.bot はあなたの AI セカンドセルフで、アイデアをパーソナライズされたボイスとビジュアルのプレゼンテーションに変えます。あなたのデータから学び、あなたのように話して関与し、より深いつながりと洞察のためのインタラクティブなトークを提供します。

パーソナルAIアバター

VoiceCraft関連タグ