VoiceCraft
Descripción general de VoiceCraft
VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza
VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.
¿Qué es VoiceCraft?
VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.
¿Cómo funciona VoiceCraft?
VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:
- Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
- Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
- Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.
¿Cómo usar VoiceCraft?
Hay varias formas de usar VoiceCraft:
- Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
- Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
- Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.
Aquí hay un desglose de cada método:
Google Colab
Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:
- Abra el cuaderno de Speech Editing Colab.
- Abra el cuaderno de TTS Inference Colab.
- Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.
Docker
Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:
Clone el repositorio:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraftConstruya la imagen de Docker:
docker build --tag "voicecraft" .Inicie el contenedor de Docker:
./start-jupyter.sh # linux start-jupyter.bat # windowsAbra la URL que se muestra en los registros de Docker en su navegador.
Abra
inference_tts.ipynby siga las instrucciones.
Script Independiente
Para usar VoiceCraft como un script independiente:
Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).
Utilice los scripts
tts_demo.pyyspeech_editing_demo.py.python3 tts_demo.py -h
¿Por qué elegir VoiceCraft?
- Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
- Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
- Versátil: Funciona bien con diversas fuentes de audio.
- Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.
¿Para quién es VoiceCraft?
VoiceCraft es ideal para:
- Investigadores: Explorando la síntesis de voz y las técnicas de edición.
- Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
- Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
- Aficionados: Experimentando con la clonación de voz y la manipulación de audio.
Características Clave:
- Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
- Modo TTS: TTS zero-shot para generar voz a partir de texto.
- Modo Editar: Capacidades de edición de voz para modificar el audio existente.
- Modo TTS Largo: Simplifica el TTS en textos largos.
Configuración del Entorno:
Para configurar su entorno para VoiceCraft:
Cree un nuevo entorno Conda:
conda create -n voicecraft python=3.9.16 conda activate voicecraftInstale los paquetes necesarios:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Entrenamiento y Ajuste Fino:
VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:
- Preparar las expresiones y sus transcripciones.
- Codificar las expresiones en códigos usando Encodec.
- Convertir las transcripciones en secuencias de fonemas.
- Crear un archivo de manifiesto.
La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.
VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.
Síntesis de Voz con IA Cambiador de Voz con IA Creación de Música con IA De Voz a Texto Servicio al Cliente y Asistente de Voz con IA Podcast y Doblaje de Video
Mejores herramientas alternativas a "VoiceCraft"
Typecast es un generador de voz AI que ofrece 600+ voces personalizables, clonación de voz, edición de video y avatares parlantes para creadores de contenido.
Crea y automatiza videos faceless fácilmente con Listnr AI. Nuestra plataforma impulsada por IA genera y publica contenido fresco diariamente para hacer crecer tus canales de TikTok y YouTube. ¡Confiada por millones!
PodGen.io es un generador de podcasts con IA que convierte texto, videos de YouTube, PDFs, blogs y más en podcasts profesionales. Incluye +1000 voces, +25 idiomas, herramientas de edición, analíticas y distribución fácil.
Transforma fotos y videos en avatares AI parlantes realistas al instante. Videos profesionales con sincronización labial en más de 40 idiomas. ¡Comienza a crear gratis hoy!