Sesame
Descripción general de Sesame
Sesame AI: Cruzando el Valle Inquietante de la Voz Conversacional
¿Qué es Sesame AI? Sesame AI se dedica a lograr la "presencia de voz" en la inteligencia artificial, con el objetivo de que las interacciones habladas se sientan reales, comprendidas y valoradas. Su investigación se centra en la creación de interlocutores que participen en un diálogo genuino, generando confianza con el tiempo.
¿Cómo funciona Sesame AI? Sesame AI introduce el Modelo de Voz Conversacional (CSM), una tarea de aprendizaje multimodal de extremo a extremo que utiliza transformadores. CSM aprovecha el historial de la conversación para producir un habla más natural y coherente.
Componentes Clave:
- Inteligencia emocional: leer y responder a contextos emocionales.
- Dinámica conversacional: sincronización natural, pausas, interrupciones y énfasis.
- Conciencia contextual: ajustar el tono y el estilo para que coincidan con la situación.
- Personalidad consistente: mantener una presencia coherente, confiable y apropiada.
Detalles Técnicos de CSM:
- CSM opera como un modelo de una sola etapa, mejorando la eficiencia y la expresividad.
- Utiliza dos transformadores autorregresivos basados en la arquitectura Llama.
- El modelo procesa texto y audio entrelazados para modelar el libro de códigos cero.
- Un decodificador de audio separado utiliza un encabezado lineal distinto para cada libro de códigos para reconstruir el habla a partir de las representaciones de la columna vertebral.
Amortización de Computación:
Para abordar los desafíos de infraestructura durante el entrenamiento, Sesame AI utiliza un esquema de amortización de cómputo que alivia el cuello de botella de la memoria al tiempo que preserva la fidelidad de los libros de códigos RVQ completos. El decodificador de audio se entrena solo en un subconjunto aleatorio de 1/16 de los fotogramas de audio, mientras que el libro de códigos cero se entrena en cada fotograma.
Experimentos y Resultados:
Sesame AI entrenó tres tamaños de modelo (Tiny, Small y Medium) en un gran conjunto de datos de audio disponible públicamente. La evaluación incluyó métricas objetivas como la Tasa de Error de Palabra (WER) y la Similitud del Hablante (SIM), así como nuevos puntos de referencia basados en la transcripción fonética para la desambiguación de homógrafos y la coherencia de la pronunciación.
Métricas subjetivas, utilizando estudios de Puntuación de Opinión Media Comparativa (CMOS) en el conjunto de datos Expresso, revelaron que, si bien la naturalidad está saturada, existe una brecha entre la prosodia generada y la humana en la generación de voz conversacional.
¿Por qué elegir Sesame AI? El enfoque de Sesame AI ofrece un camino prometedor hacia conversaciones de AI más naturales y atractivas. Al centrarse en la inteligencia emocional, la conciencia contextual y la dinámica conversacional, Sesame AI tiene como objetivo crear compañeros digitales que realmente comprendan y respondan a las necesidades humanas.
¿Cómo usar Sesame AI? Pruebe la vista previa de voz conversacional en el sitio web de Sesame AI para experimentar el potencial de su enfoque. Los modelos estarán disponibles bajo una licencia Apache 2.0.
¿Para quién es Sesame AI? Sesame AI es para investigadores, desarrolladores y cualquier persona interesada en avanzar en el campo de la AI conversacional. Su trabajo tiene aplicaciones en diversas áreas, incluyendo:
- Asistentes de AI
- Servicio al cliente
- Educación
- Entretenimiento
Código Abierto y Trabajo Futuro:
Sesame AI está comprometido con el código abierto de los componentes clave de su investigación, lo que permite a la comunidad experimentar, construir y mejorar su enfoque. El trabajo futuro incluye ampliar el tamaño del modelo, aumentar el volumen del conjunto de datos, expandir el soporte de idiomas y explorar formas de utilizar modelos de lenguaje pre-entrenados.
Síntesis de Voz con IA Cambiador de Voz con IA Creación de Música con IA De Voz a Texto Servicio al Cliente y Asistente de Voz con IA Podcast y Doblaje de Video
Mejores herramientas alternativas a "Sesame"
ChatDox es una plataforma impulsada por IA próxima para chatear con documentos, videos, audio y sitios web. Extrae insights, analiza contenido y aumenta la productividad con consultas en lenguaje natural en más de 100 idiomas. Lanzamiento Q3 2025.
WhatsGPT es un compañero con IA que se integra con aplicaciones de mensajería como WhatsApp y Telegram, ofreciendo conversaciones inteligentes, acceso a vasta información y herramientas de productividad, incluyendo soporte de voz e imagen, para optimizar la comunicación y las tareas para uso personal y profesional.
Futurepedia es un sitio gratuito que te ayuda a encontrar las mejores herramientas y software de IA para hacer tu trabajo y vida más eficiente y productiva. Actualizado diariamente, únete a millones de seguidores de nuestro sitio web, boletín y YouTube.
mistral.rs es un motor de inferencia LLM increíblemente rápido escrito en Rust, que admite flujos de trabajo multimodales y cuantización. Ofrece API de Rust, Python y servidor HTTP compatible con OpenAI.