Sesame
Vue d'ensemble de Sesame
Sesame AI : Franchir la vallée dérangeante de la voix conversationnelle
Qu’est-ce que Sesame AI ? Sesame AI se consacre à la réalisation de la « présence vocale » dans l’intelligence artificielle, dans le but de rendre les interactions orales réelles, comprises et valorisées. Leurs recherches se concentrent sur la création de partenaires conversationnels qui s’engagent dans un dialogue authentique, renforçant ainsi la confiance au fil du temps.
Comment fonctionne Sesame AI ? Sesame AI présente le modèle de parole conversationnelle (CSM), une tâche d’apprentissage multimodal de bout en bout utilisant des transformateurs. CSM exploite l’historique de la conversation pour produire une parole plus naturelle et cohérente.
Éléments clés:
- Intelligence émotionnelle : lecture et réponse aux contextes émotionnels.
- Dynamique conversationnelle : synchronisation naturelle, pauses, interruptions et emphase.
- Conscience contextuelle : ajustement du ton et du style en fonction de la situation.
- Personnalité cohérente : maintien d’une présence cohérente, fiable et appropriée.
Détails techniques du CSM:
- Le CSM fonctionne comme un modèle à un seul étage, ce qui améliore l’efficacité et l’expressivité.
- Il utilise deux transformateurs autorégressifs basés sur l’architecture Llama.
- Le modèle traite le texte et l’audio entrelacés pour modéliser le livre de codes zéro.
- Un décodeur audio distinct utilise un en-tête linéaire distinct pour chaque livre de codes afin de reconstruire la parole à partir des représentations de la structure de base.
Amortissement du calcul:
Pour relever les défis liés à l’infrastructure pendant la formation, Sesame AI utilise un schéma d’amortissement du calcul qui atténue le goulot d’étranglement de la mémoire tout en préservant la fidélité des livres de codes RVQ complets. Le décodeur audio est entraîné sur seulement un sous-ensemble aléatoire de 1/16 des trames audio, tandis que le livre de codes zéro est entraîné sur chaque trame.
Expériences et résultats:
Sesame AI a formé trois tailles de modèles (Tiny, Small et Medium) sur un vaste ensemble de données audio accessibles au public. L’évaluation comprenait des mesures objectives telles que le taux d’erreur de mots (WER) et la similarité des locuteurs (SIM), ainsi que de nouveaux critères de référence basés sur la transcription phonétique pour la désambiguïsation des homographes et la cohérence de la prononciation.
Les mesures subjectives, utilisant des études de score d’opinion moyen comparatif (CMOS) sur l’ensemble de données Expresso, ont révélé que, bien que le naturel soit saturé, il subsiste un écart entre la prosodie générée et la prosodie humaine dans la génération de parole conversationnelle.
Pourquoi choisir Sesame AI ? L’approche de Sesame AI offre une voie prometteuse vers des conversations d’IA plus naturelles et engageantes. En se concentrant sur l’intelligence émotionnelle, la conscience contextuelle et la dynamique conversationnelle, Sesame AI vise à créer des compagnons numériques qui comprennent et répondent véritablement aux besoins humains.
Comment utiliser Sesame AI ? Essayez l’aperçu de la parole conversationnelle sur le site Web de Sesame AI pour découvrir le potentiel de leur approche. Les modèles seront disponibles sous une licence Apache 2.0.
À qui s’adresse Sesame AI ? Sesame AI s’adresse aux chercheurs, aux développeurs et à toute personne intéressée à faire progresser le domaine de l’IA conversationnelle. Leur travail a des applications dans divers domaines, notamment :
- Assistants d’IA
- Service à la clientèle
- Éducation
- Divertissement
Open Source et travaux futurs:
Sesame AI s’engage à rendre open source les éléments clés de ses recherches, permettant ainsi à la communauté d’expérimenter, de s’appuyer sur son approche et de l’améliorer. Les travaux futurs comprennent l’augmentation de la taille du modèle, l’augmentation du volume de l’ensemble de données, l’extension de la prise en charge linguistique et l’exploration de moyens d’utiliser des modèles linguistiques pré-entraînés.
Synthèse vocale par IA Changeur de Voix par IA Création Musicale par IA De la Voix au Texte Service Client et Assistant Vocal par IA Podcast et Doublage de Vidéo
Meilleurs outils alternatifs à "Sesame"
ChatGPT Omni (GPT4o) Gratuit est une plateforme conviviale pour les conversations d'IA avec des capacités multimodales avancées, y compris l'interaction audio en temps réel et le support multilingue.
Twinning permet aux influenceurs de créer des jumeaux IA personnalisés pour discuter avec les fans par texte et audio. Rejoignez la liste d'attente, enregistrez un audio court et commencez à monétiser les interactions sans frais mensuels.
Scoopika est une plateforme open source pour créer des applications d'IA multimodales avec des LLM et des agents d'IA, avec récupération des erreurs, streaming et validation des données.
Innervu propose des agents d'IA adaptatifs et des solutions d'automatisation, permettant aux entreprises d'utiliser des prompts intelligents, le RAG et des flux de travail d'agents. Améliorez l'efficacité et la sécurité avec Innervu.