Le domaine du traitement du langage naturel (TAL) a le plus avancé dans les langues les plus utilisées comme l’anglais et le russe. Mais un corpus de recherche émergent se concentre sur la formation de modèles d’IA utilisant des langues africaines.
Grâce à ces efforts, le rêve d’un chatbot en langue africaine se rapproche de la réalité.
La recherche sur les chatbots dominée par la langue anglaise
Le traitement du langage naturel et les grands modèles de langage qui alimentent les chatbots comme ChatGPT sont encore des technologies relativement nouvelles. Et à ce jour, la recherche et le développement se sont concentrés sur les langues les plus parlées.
Par exemple, ChatGPT est disponible en anglais, espagnol, français, allemand, portugais, italien, néerlandais, russe, arabe et chinois.
La tendance à la dominance linguistique dans la recherche sur l’IA est largement motivée par la disponibilité des données.
On estime que plus de la moitié de tout le contenu écrit disponible en ligne est en anglais. Par conséquent, parmi les ensembles de données nécessaires pour former des modèles linguistiques, les plus grands et les plus facilement disponibles sont en anglais, suivis des autres langues les plus populaires.
Les langues africaines posent un défi aux chercheurs en IA
Actuellement, les plus grandes entreprises d’IA au monde se battent pour créer les chatbots les plus avancés pour une poignée de langues. Mais un autre domaine de recherche cherche à développer des outils d’IA pour des langues moins populaires.
Pour les langues africaines, la disponibilité limitée des données de formation présente un défi important pour les développeurs d’IA.
La diversité linguistique de nombreux pays africains complique encore les choses. Par exemple, l’Afrique du Sud a 11 langues officielles parlées et il y a trente-cinq langues indigènes dans le pays. Avec environ 2000 langues utilisées sur le continent, il serait presque impossible d’accumuler de vastes bibliothèques de contenu numérique à une échelle équivalente à l’anglais.
De plus, une étude récente a identifié le manque d’outils linguistiques numériques de base comme un facteur qui inhibe la création de contenu. Comme l’ont observé les auteurs :
« La création de contenu numérique dans les langues africaines est frustrante en raison d’un manque d’outils de base tels que des dictionnaires, des correcteurs orthographiques et des claviers. »
Néanmoins, des efforts sont en cours pour accroître la disponibilité des données sur les langues africaines, par exemple en numérisant les dépôts d’archives des langues et en rendant plus d’ensembles de données librement accessibles. Le travail des créateurs de contenu, des conservateurs et des traducteurs est également essentiel.
Des modèles multilingues pourraient faire des chatbots en langue africaine une réalité
Bien que le manque de données sur la formation ait certainement freiné la recherche sur la PNL en langues africaines, les modèles linguistiques multilingues pré-formés (mPLM) pourraient aider les chercheurs à surmonter ce défi.
Les modèles pré-formés peuvent être considérés comme les éléments constitutifs de chatbots performants. Cependant, ils nécessitent toujours un réglage fin spécifique à la tâche afin de fournir des sorties conversationnelles.
En acquérant des informations linguistiques généralisables lors de la pré-formation, les modèles multilingues sont capables d’interpréter la structure de base et le contour des langues apparentées sans les jeux de données de formation massifs normalement requis.
Sans surprise, une étude récente a montré que la similarité linguistique améliore les performances du modèle. Tout comme les locuteurs de langues apparentées peuvent souvent se comprendre, les modèles entraînés avec une langue peuvent interpréter avec précision des langues similaires.
En utilisant cette approche, les chercheurs ont développé un mPLM qu’ils ont appelé SERENGETI, qui couvre 517 langues et variétés de langues africaines.
Cela représente un saut technologique majeur et une amélioration significative par rapport aux 31 langues africaines précédemment couvertes.
Clause de non-responsabilité
Conformément aux directives du Trust Project, BeInCrypto s’engage à fournir des rapports impartiaux et transparents. Cet article de presse vise à fournir des informations précises et opportunes. Cependant, les lecteurs sont invités à vérifier les faits de manière indépendante et à consulter un professionnel avant de prendre toute décision basée sur ce contenu.
Source https://beincrypto.com/ai-developing-african-language-chatbots/