NVIDIA NeMo a dévoilé sa dernière innovation en matière de technologie de synthèse vocale (TTS) avec le modèle T5-TTS, selon le blog technique de NVIDIA. Ce nouveau modèle représente une avancée significative dans le domaine, exploitant les grands modèles linguistiques (LLM) pour produire une parole plus précise et plus naturelle.
Le rôle des LLM dans la synthèse vocale
Les LLM ont révolutionné le traitement du langage naturel (TAL) grâce à leur capacité à comprendre et à générer un texte cohérent. Récemment, ces modèles ont été adaptés au domaine de la parole, capturant les nuances des modèles de parole et des intonations humaines. Cette adaptation a conduit à des modèles de synthèse vocale qui produisent un discours plus naturel et plus expressif, ouvrant de nouvelles possibilités pour diverses applications.
Cependant, à l’instar de leur utilisation dans le traitement de texte, les LLM en synthèse vocale sont confrontés au défi des hallucinations, qui peuvent entraver leur déploiement dans le monde réel.
Présentation du modèle T5-TTS
Le modèle T5-TTS utilise une architecture de transformateur encodeur-décodeur pour la synthèse vocale. L’encodeur traite la saisie de texte, tandis que le décodeur auto-régressif prend une invite vocale de référence du locuteur cible pour générer des jetons de parole. Ces jetons sont créés en prêtant attention à la sortie de l’encodeur via les têtes d’attention croisée du transformateur, qui apprennent à aligner le texte et la parole. Malgré leur robustesse, ces têtes peuvent faiblir, en particulier lorsque le texte d’entrée comprend des mots répétés.
Relever le défi des hallucinations
Les hallucinations dans la synthèse vocale se produisent lorsque le discours généré s’écarte du texte prévu, ce qui entraîne des erreurs allant de simples erreurs de prononciation à des mots totalement incorrects. Ces inexactitudes peuvent compromettre la fiabilité des systèmes de synthèse vocale dans des applications critiques telles que les technologies d’assistance, le service client et la création de contenu.
Le modèle T5-TTS résout ce problème en alignant plus efficacement les entrées textuelles avec les sorties vocales correspondantes, réduisant ainsi considérablement les hallucinations. En appliquant un alignement monotone préalable et une perte de classification temporelle connexionniste (CTC), la parole générée correspond étroitement au texte prévu, ce qui donne un système TTS plus fiable et plus précis. Pour la prononciation des mots, le modèle T5-TTS fait 2 fois moins d’erreurs que Bark, 1,8 fois moins d’erreurs que VALLE-X et 1,5 fois moins d’erreurs que SpeechT5.
Implications et recherches futures
La sortie du modèle T5-TTS par NVIDIA NeMo marque une avancée significative dans les systèmes TTS. En abordant efficacement le problème des hallucinations, le modèle ouvre la voie à une synthèse vocale plus fiable et de meilleure qualité, améliorant ainsi l’expérience utilisateur dans un large éventail d’applications.
À l’avenir, l’équipe NVIDIA NeMo prévoit d’affiner davantage le modèle T5-TTS en étendant la prise en charge linguistique, en améliorant sa capacité à capturer divers modèles de parole et en l’intégrant dans des cadres NLP plus larges.
Découvrez le modèle NVIDIA NeMo T5-TTS
Le modèle T5-TTS représente une avancée majeure dans la synthèse vocale plus précise et plus naturelle. Son approche innovante de l’apprentissage d’un alignement texte-parole robuste établit une nouvelle référence dans le domaine, promettant de transformer la façon dont nous interagissons avec la technologie TTS et dont nous en bénéficions.
Pour accéder au modèle T5-TTS et commencer à explorer son potentiel, visitez NVIDIA/NeMo sur GitHub. Que vous soyez chercheur, développeur ou passionné, cet outil puissant offre d’innombrables possibilités d’innovation et de progrès dans le domaine de la technologie de synthèse vocale. Pour en savoir plus, consultez l’article Améliorer la robustesse de la synthèse vocale basée sur LLM en apprenant l’alignement monotone.
Remerciements
Nous adressons nos remerciements à tous les auteurs et collaborateurs du modèle qui ont contribué à ce travail, notamment Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Boris Ginsburg, Rafael Valle et Rohan Badlani.
Source de l’image : Shutterstock
Source https://blockchain.news/news/nvidia-nemo-t5-tts-model-tackles-hallucinations-speech-synthesis