VoiceCraft: Edición de voz de disparo cero y texto a voz

Descripción general de VoiceCraft

VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza

VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.

¿Qué es VoiceCraft?

VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.

¿Cómo funciona VoiceCraft?

VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:

Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.

¿Cómo usar VoiceCraft?

Hay varias formas de usar VoiceCraft:

Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.

Aquí hay un desglose de cada método:

Google Colab

Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:

Abra el cuaderno de Speech Editing Colab.
Abra el cuaderno de TTS Inference Colab.
Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.

Docker

Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:

Clone el repositorio:

git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

Construya la imagen de Docker:
```
docker build --tag "voicecraft" .
```

Inicie el contenedor de Docker:

./start-jupyter.sh  # linux
start-jupyter.bat   # windows

Abra la URL que se muestra en los registros de Docker en su navegador.
Abra inference_tts.ipynb y siga las instrucciones.

Script Independiente

Para usar VoiceCraft como un script independiente:

Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).
Utilice los scripts tts_demo.py y speech_editing_demo.py.
```
python3 tts_demo.py -h
```

¿Por qué elegir VoiceCraft?

Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
Versátil: Funciona bien con diversas fuentes de audio.
Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.

¿Para quién es VoiceCraft?

VoiceCraft es ideal para:

Investigadores: Explorando la síntesis de voz y las técnicas de edición.
Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
Aficionados: Experimentando con la clonación de voz y la manipulación de audio.

Características Clave:

Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
Modo TTS: TTS zero-shot para generar voz a partir de texto.
Modo Editar: Capacidades de edición de voz para modificar el audio existente.
Modo TTS Largo: Simplifica el TTS en textos largos.

Configuración del Entorno:

Para configurar su entorno para VoiceCraft:

Cree un nuevo entorno Conda:

conda create -n voicecraft python=3.9.16
conda activate voicecraft

Instale los paquetes necesarios:

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Entrenamiento y Ajuste Fino:

VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:

Preparar las expresiones y sus transcripciones.
Codificar las expresiones en códigos usando Encodec.
Convertir las transcripciones en secuencias de fonemas.
Crear un archivo de manifiesto.

La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.

VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.

Directorio Recomendado

Síntesis de Voz con IA Cambiador de Voz con IA Creación de Música con IA De Voz a Texto Servicio al Cliente y Asistente de Voz con IA Podcast y Doblaje de Video

Más categorías ...

Mejores herramientas alternativas a "VoiceCraft"

Typecast

504 0

Typecast es un generador de voz AI que ofrece 600+ voces personalizables, clonación de voz, edición de video y avatares parlantes para creadores de contenido.

síntesis-de-voz

TTS-emocional

Listnr AI

494 0

Crea y automatiza videos faceless fácilmente con Listnr AI. Nuestra plataforma impulsada por IA genera y publica contenido fresco diariamente para hacer crecer tus canales de TikTok y YouTube. ¡Confiada por millones!

generación de video sin rostro

PodGen.io

202 0

PodGen.io es un generador de podcasts con IA que convierte texto, videos de YouTube, PDFs, blogs y más en podcasts profesionales. Incluye +1000 voces, +25 idiomas, herramientas de edición, analíticas y distribución fácil.

generador de podcasts

AI Avatar Generator

418 0

Transforma fotos y videos en avatares AI parlantes realistas al instante. Videos profesionales con sincronización labial en más de 40 idiomas. ¡Comienza a crear gratis hoy!

avatares parlantes

Más Alternativas a VoiceCraft

Añadir a Favoritos

Editar favorito

VoiceCraft