VoiceCraft:零样本语音编辑和文本到语音

VoiceCraft

3.5 | 518 | 0
类型:
开源项目
最后更新:
2025/10/04
资源描述:
VoiceCraft 是一款开源 AI 工具,用于零样本语音编辑和文本到语音转换,只需几秒钟的参考音频即可实现声音克隆。在实际数据上实现最先进的性能。
分享:
语音合成
声音克隆
音频编辑
文本转语音
零样本TTS

VoiceCraft 概述

VoiceCraft:野外环境下的零样本语音编辑和文本转语音

VoiceCraft 是一款强大的开源工具,为语音编辑和零样本文本转语音 (TTS) 带来了最先进的性能。它擅长处理各种真实的音频数据,包括有声读物、互联网视频和播客。 VoiceCraft 的独特之处在于它只需几秒钟的参考音频即可克隆或编辑未见过的声音。

什么是 VoiceCraft?

VoiceCraft 是一种 Token 填充神经编解码器语言模型,专为高质量语音编辑和 TTS 任务而设计。 它利用零样本学习,这意味着它可以用最少的训练数据适应新的声音。

VoiceCraft 如何工作?

VoiceCraft 作为一种神经编解码器语言模型运行。 其功能的主要方面包括:

  • Token 填充: VoiceCraft 使用 Token 填充技术来无缝编辑和生成语音。
  • 零样本学习: 它只需几秒钟的参考音频即可适应新的声音,无需大量的训练数据。
  • 神经编解码器语言模型: 这种架构允许高质量的语音合成和编辑。

如何使用 VoiceCraft?

有几种方法可以使用 VoiceCraft:

  • Google Colab: 入门的最简单方法是使用提供的 Google Colab 笔记本进行语音编辑和 TTS 推理。
  • Docker: 使用提供的 Docker 镜像来实现一致且可重现的环境。
  • 独立脚本: 使用独立脚本将 VoiceCraft 集成到您的项目中。

以下是每种方法的详细说明:

Google Colab

Google Colab 提供了一种开始使用 VoiceCraft 的简单方法。 请按照以下步骤操作:

  1. 打开语音编辑 Colab 笔记本。
  2. 打开 TTS 推理 Colab 笔记本。
  3. 按照笔记本中的说明运行演示。

Docker

Docker 为运行 VoiceCraft 提供了一致的环境。 这是设置方法:

  1. 克隆存储库:

git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. 构建 Docker 镜像:

```bash

docker build --tag "voicecraft" . ``` 3. 启动 Docker 容器:

```bash

./start-jupyter.sh # linux start-jupyter.bat # windows ``` 4. 在浏览器中打开 Docker 日志中显示的 URL。 5. 打开 inference_tts.ipynb 并按照说明进行操作。

独立脚本

要将 VoiceCraft 用作独立脚本:

  1. 确保您的环境已正确设置(请参阅环境设置部分)。

  2. 使用 tts_demo.pyspeech_editing_demo.py 脚本。

python3 tts_demo.py -h ```

为什么选择 VoiceCraft?

  • 零样本能力: 以最少的数据快速适应新的声音。
  • 高质量输出: 在语音编辑和 TTS 方面提供最先进的性能。
  • 多功能: 适用于各种音频源。
  • 开源: 鼓励社区贡献和定制。

VoiceCraft 适合哪些人?

VoiceCraft 非常适合:

  • 研究人员: 探索语音合成和编辑技术。
  • 开发人员: 将高级 TTS 功能集成到应用程序中。
  • 内容创作者: 生成高质量的画外音和编辑后的音频。
  • 爱好者: 尝试声音克隆和音频处理。

主要特点

  • 智能转录: 允许用户准确指定他们想要生成的内容。
  • TTS 模式: 用于从文本生成语音的零样本 TTS。
  • 编辑模式: 用于修改现有音频的语音编辑功能。
  • 长 TTS 模式: 简化长文本的 TTS。

环境设置

要为 VoiceCraft 设置您的环境:

  1. 创建一个新的 Conda 环境:

conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 安装必要的软件包:

```bash

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```

训练和微调

VoiceCraft 支持在自定义数据集上进行训练和微调。 该过程包括:

  1. 准备话语及其脚本。
  2. 使用 Encodec 将话语编码为代码。
  3. 将脚本转换为音素序列。
  4. 创建清单文件。

利用 VoiceCraft 的最佳方式是使用提供的脚本和笔记本,并将其调整为您的特定用例。 无论是语音编辑、TTS 还是声音克隆,VoiceCraft 都提供了一个强大而灵活的解决方案。

VoiceCraft 在 CC BY-NC-SA 4.0 (LICENSE-CODE) 下获得代码库许可,在 Coqui Public Model License 1.0.0 (LICENSE-MODEL) 下获得模型权重许可。 它还包含来自 MIT 和 Apache 2.0 许可下的其他存储库的代码。

"VoiceCraft"的最佳替代工具

TopMediai
暂无图片
558 0

TopMediai是一个集AI视频生成、语音合成和音乐创作于一体的平台。利用智能、快速的AI工具增强您的内容。

AI视频
AI语音
AI音乐
KickBot
暂无图片
526 0

Kick.com 流媒体的最佳机器人:聊天命令、警报和叠加层、AI TTS、打赏以及即时剪辑。100% 基于云端。几分钟内设置完成。

流媒体聊天机器人
AI 文本转语音
AudioPod AI
暂无图片
519 0

AudioPod AI 是一款一体化AI音频工作站和制作套件。生成语音旁白、分离音轨、创作音乐、自动翻译内容等。包括文本转语音、语音转文本和AI音乐生成。

文本转语音
语音转文本
AI音乐生成
Trump AI Voice Generator
暂无图片
427 0

您的特朗普AI语音生成器,用于文本转语音和视频—逼真节奏,快速导出用于模仿和社交媒体。

语音克隆
名人模仿
AI语音合成

与VoiceCraft相关的标签