Traductions automatiques statistiques et récapitulation des identifiants de logithèques en langue française à partir de l'anglais

 

Peter Rigby

Université Concordia

 

Domaine : technologies de l'information et des communications

Programme établissement de nouveaux chercheurs universitaires

Concours 2015-2016

Les identifiants (noms de classes ou méthodes) de la plupart des logithèques utilisent des termes anglais qui captent leur sémantique (la classe « AccountManager » de l'application Android, par exemple). Des milliers d'identifiants d'Android sont ainsi recensés en anglais, ce qui pénalise les intervenants non-anglophones. En outre, la plupart des ressources d'apprentissage des logithèques et forums qui les discutent (StackOverflow, par exemple) sont également en anglais. Les traductions statistiques (de type Google Translate) de documents techniques, basées sur des modèles de langage non technique, résultent en de fausses traductions : le terme « window » par exemple signifie techniquement « intervalle »).

Contrairement à la traduction non technique, les identifiants de logithèques ne sont pas traduits quand ils sont écrits en multiples langues, comme par exemple, « Qu'est-ce que la classe "BitmapShader" fait? » Le projet se bâtit sur une expertise unique de création de modèles statistiques de traduction de documents logiciels. La technique qui sera utilisée extrait les identifiants des textes libres. Un modèle statistique de langage sera élaboré, déterminant la coproduction des mots avec chaque identifiant dans deux corpus comparables rédigés en français et en anglais. Chaque identifiant sera décrit dans sa langue respective, et les coproductions une fois alignées permettront de 1) résumer le but de chaque identifiant et 2) augmenter la qualité des traductions concernant les identifiants.