L'apprentissage profond des images et du langage naturel

 

Aaron Courville

Université de Montréal

 

Domaine : technologies de l'information et des communications

Programme établissement de nouveaux chercheurs universitaires

Concours 2014-2015

De plus en plus, les données numériques disponibles publiquement sont offertes dans un riche éventail de format : texte, images, vidéos, audio. Un des principaux défis, pour l'utilisation de ces données dans des systèmes intelligents, requiert le traitement conjoint de plusieurs de ces modalités (par exemple, une image annotée d'une phrase descriptive). Alors que les méthodes d'analyse de chaque modalité individuelle (par exemple, traitement d'image) ont fait le sujet de recherches approfondies, le traitement de données multi-format est beaucoup plus récent.

Ce projet de recherche cible l'application de méthodes d'apprentissage profond visant à exploiter la richesse des informations disponibles dans les images et les textes jumelés. L'approche proposée concerne le développement de modèles hiérarchiques des images et textes, permettant ainsi de former des représentations conjointes de haut niveau qui capturent le contenu sémantique présent dans les deux modalités. L'innovation centrale du projet est le développement d'un modèle de langage probabiliste qui utilise une structure modulaire pour construire la représentation hiérarchique des phrases en fonction de leur structures grammaticales.

Une évaluation empirique de l'approche visera à démontrer que l'apprentissage de ce riche modèle conjoint du langage et de l'image permet d'améliorer de façon significative la performance de systèmes intelligents sur des tâches telles que la recherche d'images en utilisant des requêtes en langage naturel, et la génération automatique d' annotations en langage naturel pour les images.