Dioula, wolof, baoulé, tamazight... Google mise sur les langues africaines

  • publiè le : 2024-07-04 00:15:22
  • tags : dioula -  - wolof - baoulé - tamazight... - google - langues
Dioula, wolof, baoulé, tamazight... Google mise sur les langues africaines
Le traducteur du géant de la Silicon Valley a intégré 31 idiomes du continent parlés par plus de 200 millions de locuteurs.

Ce proverbe baoulé, que vous ne parvenez probablement pas à lire, est désormais traduisible avec Google Traduction : « Celui qui déclare la guerre n'y participe pas. »

Depuis sa nouvelle mise à jour, le 27 juin, le logiciel du géant américain offre la possibilité de traduire 110 nouvelles langues, dont le breton et l'occitan, mais aussi trente et une langues africaines, parmi lesquelles le tamazight (berbère), l'afar, le wolof, le dioula ou encore le baoulé. Selon Google, ces dernières représentent 200 millions de locuteurs sur le continent.

« Aujourd'hui, on peut photographier une étiquette en mandarin et la voir traduite par Google Lens en dioula », se réjouit Abdoulaye Diack, responsable de programme au laboratoire d'intelligence artificielle (IA) de Google à Accra, au Ghana, qui dit vouloir « rapprocher les communautés » avec son nouveau service.

Etablir ces modèles de traduction était un défi de taille en raison de l'absence de ressources disponibles. La moitié des données écrites sur Internet est en anglais. Le français n'en représente que 3 % et les nombreuses langues africaines moins de 1 %. « Il existe des blogs et des sites d'information en swahili, en haoussa ou en wolof, mais beaucoup de langues africaines ont majoritairement des usages oraux, explique Abdoulaye Diack. La première mission était donc d'identifier les sources écrites disponibles. » En plus de ces sites, certains textes majeurs sont traduits dans la quasi-totalité des langues de la planète, comme la Déclaration universelle des droits de l'homme, la Bible ou le Coran.

« Un effet incitatif »
Les équipes de Google ont ensuite travaillé avec des linguistes de plusieurs facultés, comme l'université du Ghana, et des ONG, pour emmagasiner des données sur toutes les langues ciblées. Ces éléments ont été employés pour entraîner l'IA de Google, un modèle d'apprentissage baptisé PaLM2 déjà éprouvé avec près de 400 langues. « L'intelligence artificielle est comme un enfant, résume Abdoulaye Diack. Plus le modèle reçoit de données, plus il apprend, et meilleur est le résultat. »

Les partenaires de Google dans les communautés cibles - des associations défendant les langues en voie de disparition, des chercheurs... - ont été sollicités pour évaluer et améliorer les premières traductions de l'IA, jusqu'à atteindre une qualité et une quantité suffisantes pour lancer la mise à jour. « Ce processus prend plusieurs années. Ses résultats ne sont pas parfaits mais assez satisfaisants pour être utilisables, reconnaît Abdoulaye Diack. Il va forcément y avoir des erreurs, mais ce sera utile à énormément de gens. »

Un avis partagé par le linguiste ivoirien Jérémie N'Guessan Kouadio, coauteur d'un Dictionnaire français-baoulé, à qui Le Monde a fait tester la nouvelle mise à jour de Google Traduction. « La langue baoulé est indissociable de son oralité, analyse-t-il. Pour améliorer le résultat, il faudrait par exemple pouvoir restituer les tons, ces phonèmes qui peuvent changer le sens d'un mot et que nous notons par des signes diacritiques sous la syllabe. Prenez "sa" : si je la prononce avec un ton haut, cela signifie "la main". Mais avec un ton bas, cela veut dire "ainsi". Toutes les langues de Côte d'Ivoire fonctionnent comme cela, y compris le dioula. »

Malgré ses réserves, Jérémie N'Guessan Kouadio reconnaît que le logiciel « a son utilité ». « Depuis des années, on essaie de convaincre les Africains - et les Ivoiriens - qu'ils peuvent parler français ou anglais, mais aussi parler et écrire dans leur langue maternelle, indique le chercheur. Je pense qu'un tel logiciel aura un effet incitatif, notamment sur les jeunes de la diaspora qui se sont éloignés de leur langue d'origine. »

Reconnaissance et synthèse vocales
Des usages professionnels sont également envisageables. Les langues africaines précédemment ajoutées (cinq en 2020 et dix en 2022, dont le bambara, le lingala et le twi) sont disponibles en open source à travers les Aplication Programming Interface (API), qui permettent de connecter un logiciel ou un service de Google. Le logiciel pourra également faciliter le travail des interprètes humains, prédit l'Ivoirien Yao Kanga Tanoh, dont l'essentiel des commandes de traduction concerne des documents administratifs : « Je devrai bien sûr retravailler le résultat, mais une traduction automatique me fera gagner du temps. »

Le géant de la Silicon Valley ne compte pas s'arrêter là et s'est donné pour objectif, à moyen terme, d'intégrer un millier de langues priorisées selon plusieurs critères : le nombre de locuteurs, la faisabilité du projet en fonction de l'abondance de ressources écrites, mais aussi l'appétence de la communauté concernée. « Cela faisait des années que les gens nous demandaient le wolof », témoigne Abdoulaye Diack. Son équipe compte aussi développer un système de reconnaissance et de synthèse vocales pour les langues récemment ajoutées, comme il en existe déjà pour les précédentes, afin qu'un téléphone soit capable de répéter instantanément une phrase française en baoulé. Une option particulièrement utile pour les locuteurs analphabètes.

Google revendique également la volonté d'immortaliser les langues en voie de disparition, boudées par les jeunes générations. Comme la langue nko, inventée en 1949 par l'écrivain guinéen Solomana Kanté et dotée d'un alphabet unique, pensée pour autonomiser les communautés mandingues en leur fournissant leur propre système d'écriture.

Marine Jeannin (Abidjan, correspondance)
source : lemonde.fr

A voir egalement

Publicité
Publicité