Sesame AI: Cruzando el valle inquietante de la voz conversacional

Sesame

3.5 | 400 | 0
Tipo:
Sitio Web
Última actualización:
2025/10/06
Descripción:
Sesame AI tiene como objetivo lograr la 'presencia de voz' en la IA, haciendo que las interacciones habladas se sientan reales y comprensibles. Explore su modelo de voz conversacional (CSM) para un diálogo natural.
Compartir:
voz conversacional
generación de voz
IA multimodal
texto a voz
compañero de IA

Descripción general de Sesame

Sesame AI: Cruzando el Valle Inquietante de la Voz Conversacional

¿Qué es Sesame AI? Sesame AI se dedica a lograr la "presencia de voz" en la inteligencia artificial, con el objetivo de que las interacciones habladas se sientan reales, comprendidas y valoradas. Su investigación se centra en la creación de interlocutores que participen en un diálogo genuino, generando confianza con el tiempo.

¿Cómo funciona Sesame AI? Sesame AI introduce el Modelo de Voz Conversacional (CSM), una tarea de aprendizaje multimodal de extremo a extremo que utiliza transformadores. CSM aprovecha el historial de la conversación para producir un habla más natural y coherente.

Componentes Clave:

  • Inteligencia emocional: leer y responder a contextos emocionales.
  • Dinámica conversacional: sincronización natural, pausas, interrupciones y énfasis.
  • Conciencia contextual: ajustar el tono y el estilo para que coincidan con la situación.
  • Personalidad consistente: mantener una presencia coherente, confiable y apropiada.

Detalles Técnicos de CSM:

  • CSM opera como un modelo de una sola etapa, mejorando la eficiencia y la expresividad.
  • Utiliza dos transformadores autorregresivos basados en la arquitectura Llama.
  • El modelo procesa texto y audio entrelazados para modelar el libro de códigos cero.
  • Un decodificador de audio separado utiliza un encabezado lineal distinto para cada libro de códigos para reconstruir el habla a partir de las representaciones de la columna vertebral.

Amortización de Computación:

Para abordar los desafíos de infraestructura durante el entrenamiento, Sesame AI utiliza un esquema de amortización de cómputo que alivia el cuello de botella de la memoria al tiempo que preserva la fidelidad de los libros de códigos RVQ completos. El decodificador de audio se entrena solo en un subconjunto aleatorio de 1/16 de los fotogramas de audio, mientras que el libro de códigos cero se entrena en cada fotograma.

Experimentos y Resultados:

Sesame AI entrenó tres tamaños de modelo (Tiny, Small y Medium) en un gran conjunto de datos de audio disponible públicamente. La evaluación incluyó métricas objetivas como la Tasa de Error de Palabra (WER) y la Similitud del Hablante (SIM), así como nuevos puntos de referencia basados en la transcripción fonética para la desambiguación de homógrafos y la coherencia de la pronunciación.

Métricas subjetivas, utilizando estudios de Puntuación de Opinión Media Comparativa (CMOS) en el conjunto de datos Expresso, revelaron que, si bien la naturalidad está saturada, existe una brecha entre la prosodia generada y la humana en la generación de voz conversacional.

¿Por qué elegir Sesame AI? El enfoque de Sesame AI ofrece un camino prometedor hacia conversaciones de AI más naturales y atractivas. Al centrarse en la inteligencia emocional, la conciencia contextual y la dinámica conversacional, Sesame AI tiene como objetivo crear compañeros digitales que realmente comprendan y respondan a las necesidades humanas.

¿Cómo usar Sesame AI? Pruebe la vista previa de voz conversacional en el sitio web de Sesame AI para experimentar el potencial de su enfoque. Los modelos estarán disponibles bajo una licencia Apache 2.0.

¿Para quién es Sesame AI? Sesame AI es para investigadores, desarrolladores y cualquier persona interesada en avanzar en el campo de la AI conversacional. Su trabajo tiene aplicaciones en diversas áreas, incluyendo:

  • Asistentes de AI
  • Servicio al cliente
  • Educación
  • Entretenimiento

Código Abierto y Trabajo Futuro:

Sesame AI está comprometido con el código abierto de los componentes clave de su investigación, lo que permite a la comunidad experimentar, construir y mejorar su enfoque. El trabajo futuro incluye ampliar el tamaño del modelo, aumentar el volumen del conjunto de datos, expandir el soporte de idiomas y explorar formas de utilizar modelos de lenguaje pre-entrenados.

Mejores herramientas alternativas a "Sesame"

ChatDox
Imagen no disponible
138 0

ChatDox es una plataforma impulsada por IA próxima para chatear con documentos, videos, audio y sitios web. Extrae insights, analiza contenido y aumenta la productividad con consultas en lenguaje natural en más de 100 idiomas. Lanzamiento Q3 2025.

chat documentos
análisis video
WhatsGPT
Imagen no disponible
296 0

WhatsGPT es un compañero con IA que se integra con aplicaciones de mensajería como WhatsApp y Telegram, ofreciendo conversaciones inteligentes, acceso a vasta información y herramientas de productividad, incluyendo soporte de voz e imagen, para optimizar la comunicación y las tareas para uso personal y profesional.

Chatbot de IA
IA para WhatsApp
Futurepedia
Imagen no disponible
414 0

Futurepedia es un sitio gratuito que te ayuda a encontrar las mejores herramientas y software de IA para hacer tu trabajo y vida más eficiente y productiva. Actualizado diariamente, únete a millones de seguidores de nuestro sitio web, boletín y YouTube.

directorio de herramientas de IA
mistral.rs
Imagen no disponible
552 0

mistral.rs es un motor de inferencia LLM increíblemente rápido escrito en Rust, que admite flujos de trabajo multimodales y cuantización. Ofrece API de Rust, Python y servidor HTTP compatible con OpenAI.

motor de inferencia LLM
Rust

Etiquetas Relacionadas con Sesame