Zoom, la plate-forme de vidéoconférence populaire, propose une fonctionnalité qui permet aux utilisateurs d’enregistrer l’audio de chaque participant sur des pistes distinctes. Cette capacité, bien que peu annoncée, peut améliorer considérablement la précision des services de transcription lorsqu’elle est combinée à la technologie de transcription multicanal d’AssemblyAI, selon AssemblyAI.
Comprendre l’enregistrement multicanal
En enregistrant chaque participant sur des pistes distinctes, les utilisateurs peuvent éviter les pièges courants du chevauchement des paroles qui peuvent confondre les modèles de synthèse vocale. Cette méthode de diarisation des canaux garantit que chaque énoncé est attribué avec précision au bon locuteur, fournissant ainsi une transcription plus fiable que la diarisation des locuteurs traditionnelle, qui tente de séparer les locuteurs sur la même piste à l’aide de l’IA.
Pour utiliser cette fonctionnalité, les utilisateurs peuvent configurer leurs comptes Zoom pour enregistrer des fichiers audio individuels pour chaque participant. Cela peut être fait via les paramètres de Zoom, où les utilisateurs peuvent choisir d’enregistrer localement ou sur le cloud. Pour les enregistrements cloud, les utilisateurs devront peut-être mettre à niveau leurs comptes Zoom pour accéder à cette fonctionnalité.
Intégration d’AssemblyAI pour la transcription
AssemblyAI propose une solution robuste pour transcrire l’audio multicanal. En utilisant leur API, les utilisateurs peuvent transcrire individuellement la piste audio de chaque participant, ce qui améliore la précision de la transcription. Le processus consiste à récupérer les enregistrements des participants à l’aide de l’API Zoom, à combiner ces enregistrements dans un seul fichier où chaque piste est un canal distinct, puis à transcrire le fichier combiné à l’aide de la fonction de transcription multicanal d’AssemblyAI.
Pour commencer, les utilisateurs doivent cloner le référentiel du projet depuis GitHub, créer un environnement virtuel et installer les dépendances nécessaires. Après avoir configuré leurs comptes Zoom et AssemblyAI, les utilisateurs peuvent configurer leurs systèmes pour récupérer et transcrire les enregistrements.
Configuration technique et exécution
La configuration technique comprend plusieurs étapes, notamment la configuration de Zoom pour enregistrer des fichiers audio séparés, la configuration de l’API Zoom pour récupérer les enregistrements et l’utilisation de FFmpeg pour combiner des fichiers audio. Les utilisateurs utilisent ensuite l’API d’AssemblyAI pour transcrire le fichier audio combiné, garantissant ainsi une transcription précise en exploitant les canaux audio séparés.
FFmpeg, un puissant outil de traitement multimédia, est utilisé pour fusionner les enregistrements individuels en un seul fichier multicanal. Ce fichier peut ensuite être transcrit à l’aide de l’API d’AssemblyAI, configurée pour gérer l’audio multicanal.
Sécurité et autorisations
La sécurité est une considération importante dans ce processus. Les utilisateurs doivent créer une application Zoom pour accéder aux enregistrements dans le cloud, ce qui implique la configuration des informations d’identification OAuth. Cela garantit que l’application dispose des autorisations nécessaires pour accéder aux enregistrements tout en maintenant la sécurité en adhérant au principe du moindre privilège.
En gérant soigneusement les jetons d’accès et les étendues, les utilisateurs peuvent limiter les autorisations de l’application uniquement à ce qui est nécessaire, réduisant ainsi le risque d’accès non autorisé aux données du compte Zoom.
Pour ceux qui souhaitent une description détaillée du code et de ses fonctionnalités, AssemblyAI fournit une documentation complète et des exemples dans son référentiel de projet, offrant une plongée approfondie dans les aspects techniques de la configuration et de l’exécution de ce flux de travail de transcription.
Source de l’image : Shutterstock
Source https://blockchain.news/news/optimizing-zoom-transcriptions-multichannel-audio