Enseigner aux robots à construire des modèles d'environments avec l'apprentissage profond par renforcement

 

Liam Paull

Université de Montréal

 

Domaine : techniques, mesures et systèmes

Programme : établissement de nouveaux chercheurs universitaires

Concours 2018-2019

Les robots nécessitent une «carte» de leur entourage ou un modèle de l'environnement pour naviguer et exécuter des tâches complexe. Les cartes sont générées en traitant les données du capteur du robot et en les réconciliant en un seul cadre de référence. En l'absence d'une carte, un robot peut en construire une sur demande tout en utilisant simultanément la carte nouvellement créée pour accomplir des tâches programmées; une application appelée localisation et cartographie simultanée (SLAM), qui est devenue une sujet de recherche important dans le domaine de la robotique au cours des 25 dernières années.
 
Un des problèmes majeurs pour un robot mobile autonome exécutant SLAM est de balancer les avantages de l'exploration pour découvrir de nouvelles parties de l'environnement contre l'exploitation de la carte existante pour faciliter la localisation et la navigation. La conception de stratégies de contrôle qui tiennent compte de ces deux objectifs est appelée «SLAM actif».
 
L'apprentissage profond est un sous-domaine de l'apprentissage automatique qui est une composante du domaine plus large de intelligence artificielle. Un système d'apprentissage profond s'appuie sur des quantités massives de données pour identifier les modèles et les représentations sous-jacents et créer des modèles qui peuvent être utilisés pour l'inférence. Récemment, l'apprentissage profond a été appliqué avec succès au contrôle optimal et à «l'apprentissage par renforcement» (RL), où, par simulation ou interaction avec un système réel, un modèle est capable d'apprendre les méthodes de contrôle à partir d'ensembles de données massifs.
 
Un défi majeur en RL profond est que l'agent (robot dans ce cas) est un participant actif dans la procédure de collecte des données. En d'autres termes, l'ensemble de données nécessite des données marquées des <<actions>> et des <<récompenses>> résultantes; une fonctionnalité extrêmement coûteuse et difficile pour un robot. En conséquence, la notion d'apprentissage par transfert envisage la possibilité de former des modèles dans des environnements de simulation, puis de les déployer sur des robots réels. L'apprentissage par transfert peut être particulièrement efficace dans le cas du SLAM actif car la représentation de cartes sous-jacentes ainsi que les capteurs utilisés pour construire les cartes (par exemple, les détecteurs LiDAR) sont bien compris et donc faciles à simuler avec précision.
 
Dans ce travail, nous appliquerons le pouvoir de l'apprentissage par renforcement profond dans le domaine de l'exploration de robots et de la construction de cartes (SLAM actif). Plus précisément, nous développerons des représentations de cartes appropriées et des fonctions de coûts qui permettent à un robot d'apprendre à construire de manière efficace et autonome une carte d'un environnement. Dans la première phase du projet, nous développerons et démontrerons des algorithmes dans un environnement de simulation de robot à haute fidélité. Dans la deuxième phase du projet, nous développerons les algorithmes d'apprentissage de transfert spécifiquement applicables au problème de SLAM actif et les mettront en oeuvre sur de vrais robots.