Le modèle NVIDIA NeMo T5-TTS s’attaque aux hallucinations dans la synthèse vocale

Lecture 6 minutes


Le modèle NVIDIA NeMo T5-TTS s'attaque aux hallucinations dans la synthèse vocale


NVIDIA NeMo a dévoilé sa dernière innovation en matière de technologie de synthèse vocale (TTS) avec le modèle T5-TTS, selon le blog technique de NVIDIA. Ce nouveau modèle représente une avancée significative dans le domaine, exploitant les grands modèles linguistiques (LLM) pour produire une parole plus précise et plus naturelle.

Le rôle des LLM dans la synthèse vocale

Les LLM ont révolutionné le traitement du langage naturel (TAL) grâce à leur capacité à comprendre et à générer un texte cohérent. Récemment, ces modèles ont été adaptés au domaine de la parole, capturant les nuances des modèles de parole et des intonations humaines. Cette adaptation a conduit à des modèles de synthèse vocale qui produisent un discours plus naturel et plus expressif, ouvrant de nouvelles possibilités pour diverses applications.

Cependant, à l’instar de leur utilisation dans le traitement de texte, les LLM en synthèse vocale sont confrontés au défi des hallucinations, qui peuvent entraver leur déploiement dans le monde réel.

Présentation du modèle T5-TTS

Le modèle T5-TTS utilise une architecture de transformateur encodeur-décodeur pour la synthèse vocale. L’encodeur traite la saisie de texte, tandis que le décodeur auto-régressif prend une invite vocale de référence du locuteur cible pour générer des jetons de parole. Ces jetons sont créés en prêtant attention à la sortie de l’encodeur via les têtes d’attention croisée du transformateur, qui apprennent à aligner le texte et la parole. Malgré leur robustesse, ces têtes peuvent faiblir, en particulier lorsque le texte d’entrée comprend des mots répétés.

aperçu-nvidia-nemo-t5-tts-modele.png
Figure 1. Présentation du modèle NVIDIA NeMo T5-TTS et de son processus d’alignement

Relever le défi des hallucinations

Les hallucinations dans la synthèse vocale se produisent lorsque le discours généré s’écarte du texte prévu, ce qui entraîne des erreurs allant de simples erreurs de prononciation à des mots totalement incorrects. Ces inexactitudes peuvent compromettre la fiabilité des systèmes de synthèse vocale dans des applications critiques telles que les technologies d’assistance, le service client et la création de contenu.

Le modèle T5-TTS résout ce problème en alignant plus efficacement les entrées textuelles avec les sorties vocales correspondantes, réduisant ainsi considérablement les hallucinations. En appliquant un alignement monotone préalable et une perte de classification temporelle connexionniste (CTC), la parole générée correspond étroitement au texte prévu, ce qui donne un système TTS plus fiable et plus précis. Pour la prononciation des mots, le modèle T5-TTS fait 2 fois moins d’erreurs que Bark, 1,8 fois moins d’erreurs que VALLE-X et 1,5 fois moins d’erreurs que SpeechT5.

intelligibilité-métriques-discours-synthétisé-llm-tts-models.png
Figure 2. Mesures d’intelligibilité de la parole synthétisée à l’aide de différents modèles TTS basés sur LLM sur 100 entrées de texte difficiles

Implications et recherches futures

La sortie du modèle T5-TTS par NVIDIA NeMo marque une avancée significative dans les systèmes TTS. En abordant efficacement le problème des hallucinations, le modèle ouvre la voie à une synthèse vocale plus fiable et de meilleure qualité, améliorant ainsi l’expérience utilisateur dans un large éventail d’applications.

À l’avenir, l’équipe NVIDIA NeMo prévoit d’affiner davantage le modèle T5-TTS en étendant la prise en charge linguistique, en améliorant sa capacité à capturer divers modèles de parole et en l’intégrant dans des cadres NLP plus larges.

Découvrez le modèle NVIDIA NeMo T5-TTS

Le modèle T5-TTS représente une avancée majeure dans la synthèse vocale plus précise et plus naturelle. Son approche innovante de l’apprentissage d’un alignement texte-parole robuste établit une nouvelle référence dans le domaine, promettant de transformer la façon dont nous interagissons avec la technologie TTS et dont nous en bénéficions.

Pour accéder au modèle T5-TTS et commencer à explorer son potentiel, visitez NVIDIA/NeMo sur GitHub. Que vous soyez chercheur, développeur ou passionné, cet outil puissant offre d’innombrables possibilités d’innovation et de progrès dans le domaine de la technologie de synthèse vocale. Pour en savoir plus, consultez l’article Améliorer la robustesse de la synthèse vocale basée sur LLM en apprenant l’alignement monotone.

Remerciements

Nous adressons nos remerciements à tous les auteurs et collaborateurs du modèle qui ont contribué à ce travail, notamment Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Boris Ginsburg, Rafael Valle et Rohan Badlani.

Source de l’image : Shutterstock



Source https://blockchain.news/news/nvidia-nemo-t5-tts-model-tackles-hallucinations-speech-synthesis

Crypto Week

Avertissement : Crypto Week ne fournit pas de conseils financiers de quelque manière que ce soit. Nous ne vous recommandons pas d'investir de l'argent dans une crypto-monnaie ou un actif financier sans avoir effectué des recherches approfondies. Nous ne sommes pas responsables de vos décisions financières de quelque manière que ce soit.

Derniers articles de Featured Posts