Nouvelles méthodes statistiques pour l'analyse de données à haute dimensionnalité : apprentissage multitâche, évaluation de la performance et sélection de variables réponses

 

Yi Yang

Université McGill

 

Domaine : structures abstraites

Programme : établissement de nouveaux chercheurs universitaires

Concours 2017-2018

Cette proposition de recherche, motivée par des problématiques réelles, se concentre sur les problèmes de sélection de variables en haute dimensionnalité où la variable réponse d'intérêt est modélisée en fonction d'un petit sous-ensemble d'un grand nombre de variables explicatives.

Le but de cette proposition est de chercher de nouvelles avenues dans ce domaine prometteur. Particulièrement, une des emphases de ce projet portera sur le développement d'outils diagnostiquant les modèles qui permettront de mesurer l'incertitude reliée aux modèles et de fournir une évaluation globale de la performance des modèles d'apprentissage statistiques en haute dimensionnalité pour la sélection de variables. Une seconde partie de ce projet, motivée par de nombreuses applications où des réponses individuelles sont invariantes à des changements de variables explicatives, se penchera sur la sélection de variables réponses en régression linéaire multivariée.

De plus, cette proposition impliquera également des sujets de recherche aux limites des sciences actuarielles. Une partie de cette proposition portera sur des techniques de sélection de variables explicatives pour des problèmes multitâches à haute dimensionnalité liés aux primes d'assurances non-vies. Ces techniques sélectionnent conjointement un sous-ensemble pertinent des variables explicatives qui sont partagées par plusieurs portefeuilles d'assurances connexes.

Mon programme de recherche proposé abordera des enjeux statistiques non résolus par rapport aux modèles d'apprentissage en haute dimensionnalité et apportera des solutions à des problèmes pratiques d'intérêt pour un auditoire statistique plus large.