Reconnaissance Visuelle Efficace

 

Marco Pedersoli

École de technologie supérieure (ÉTS)

 

Domaine : technologies de l'information et des communications

Programme : établissement de nouveaux chercheurs universitaires

Concours 2019-2020

Récemment, la reconnaissance visuelle basée sur l'apprentissage profond a atteint des résultats excellents, surpassant même parfois les capacités humaines. Ainsi, on peut maintenant utiliser des réseaux de neurones convolutifs pour la classification de milliers de classes d'objets différentes et ce, avec très peu d'erreurs. Aussi, on peut utiliser la reconnaissance visuelle pour reconnaître des actions et des émotions humaines, faire le suivi d'objets dans des vidéos, ou encore, reconnaître automatiquement un objet dans une base de données de millions d'images.

Cependant, ces méthodes requièrent une grande capacité de calcul et utilisent donc des dispositifs de calcul spécifiques, qui sont coûteux et consomment beaucoup d'énergie. De plus, si dans certains domaines, il est possible d'utiliser de tels dispositifs, dans d'autres, cela reste impossible. Par exemple, les téléphones cellulaires, et plus généralement, tous les systèmes embarqués utilisés dans l'Internet des objets ont des ressources très limitées en termes de puissance de calcul et d'énergie.

Dans ce projet, je propose le développement de nouvelles approches pour réduire le coût de calcul pour la reconnaissance visuelle et de les adapter à des dispositifs portables, mais sans réduire leur qualité de reconnaissance. En fait, les derniers avancements dans la recherche de l'apprentissage machine montrent de plus en plus clairement que les modèles utilisés pour l'apprentissage sont surdimensionnés et, qu'une fois qu'ils sont entraînés, on peut leur enlever une grande partie des paramètres sans perdre en qualité de performance.

Plus en détail, ce projet se développera autour de deux axes : i) l'élimination des poids dans des réseaux de neurones convolutifs et ii) l'évaluation dynamique pour chaque exemple de la taille du modèle de reconnaissance optimal à utiliser. Comme les deux manières de réduire le coût de calcul sont basées sur deux principes différents, elles seront combinées en un système intégré.

Cela rendra possible une reconnaissance visuelle presque humaine sur des dispositifs de coût modéré et des dispositifs embarqués. Une telle reconnaissance ouvrira les portes à un nouveau marché où l'apprentissage machine et surtout la reconnaissance visuelle seront développés et déployés dans plusieurs applications. Ce sera notamment le cas pour la conduite autonome, les dispositifs rapportables, les cellulaires intelligents et l'Internet des objets.