Optimisation en exploitation de données (Data Mining)

 

Pierre Hansen

HEC Montréal

 

Domaine : structures abstraites

Programme projet de recherche en équipe

Concours 2012-2013

Ce projet fait suite aux nombreux travaux sur l'exploitation de données effectués au GERAD et soutenu notamment par le FRQNT. Il en approfondit les thèmes tant au niveau de la découverte de propriétés et d'algorithmes que de la diffusion au moyen de logiciels d'accès libre. L'exploitation de données (Data Mining) se propose d'étudier les grands ensembles de données afin d'en extraire des connaissances précises, pertinentes et/ou profitables. Les méthodes d'extraction des connaissances reposent sur l'apprentissage automatique (machine learning), la statistique et la recherche opérationnelle.

Conjointement, l'équipe couvre ces trois domaines. Elle se propose de poursuivre l'étude des trois classes principales de problèmes de l'exploitation de données : (i) la classification automatique (clustering, ou classification non supervisée) qui vise à trouver des classes homogènes et/ou bien séparées parmi un ensemble d'objets donné; (ii) la discrimination (ou classification supervisée) qui vise à trouver une fonction qui sépare le mieux une classe donnée d'objets d'une ou de plusieurs autres, afin de classifier au mieux de nouveaux objets; (iii) la recherche de relations satisfaites par des mesures caractérisant les objets d'un ensemble donné. Comme précédemment, l'optimisation sera utilisée pour formuler des problèmes précis, étendant nos résultats, ainsi que des programmes informatiques performants pour les mettre en oeuvre.

Ces algorithmes et programmes seront ensuite appliqués dans plusieurs domaines, notamment l'optimisation de chaînes d'approvisionnement et la découverte de nouvelles formules en chimie mathématique.