Méthodes probabilistes pour comprendre les phénotypes humains complexes

 

Yue Li

Université McGill

 

Domaine : technologies de l'information et des communications

Programme : établissement de nouveaux chercheurs universitaires

Concours 2019-2020

Les données multi-omiques à grande échelle sont de plus en plus accessibles. En raison du déclin des coûts de séquençage, le profilage de l'expression génétique a été effectué simultanément sur une vaste cohorte de populations en santé. Ces données génomiques fournissent une carte de référence qui établit un lien entre les mutations et les changements dans l'expression génétique de tissus humains. De plus, l'adoption des systèmes de dossiers de santé électroniques (DSE) a permis de créer de riches données phénomiques (notes cliniques, codes de facturation, analyses en laboratoire, ordonnances et questionnaires autodéclarés). Ces données permettent d'établir de nouvelles méthodes d'apprentissage automatique afin d'élucider les mécanismes biologiques qui donnent lieu à une diversité et à une interdépendance phénotypiques. Toutefois, sans cadre d'inférence bayésienne évolutif, les méthodes existantes se limitent à analyser seulement un petit groupe de l'ensemble de données et sont incapables de tenir compte de la disparité et des valeurs manquantes non aléatoires. Nous proposons un nouveau cadre d'apprentissage automatique pour intégrer les données génomiques et les données des DSE. Nous avons deux objectifs principaux :

1. Nous extrairons des concepts biologiques significatifs à partir de données hétérogènes pour faciliter les découvertes (biomarqueurs phénotypiques). Nous tiendrons compte de la multimodalité des données. Notre méthode regroupera les gènes connexes, les résultats des tests et les questionnaires en « sujets » latents communs afin d'approfondir leurs liens biologiques.

2. Nous imputerons :

  • a. les données manquantes des DSE, formulant ainsi des recommandations cliniques fondées sur les données partiellement observées d'un patient non rencontré ;
  • b. l'expression génétique dans les tissus inaccessibles (en imputant l'expression dans les tissus cérébraux pour diagnostiquer les troubles mentaux en utilisant l'expression de tissus plus accessibles).
  • c. Nous prendrons en compte le biais « ne manquant pas au hasard » (NMAR) dans les données (biais de détermination dans les tests de laboratoire, etc.). 

Nous adopterons une nouvelle méthode de factorisation tensorielle/matricielle probabiliste creuse. Notre principale innovation consiste à projeter les données hétérogènes et de grande dimension de chaque patient sur (1) un ensemble de matrices « de base » creuses de faible niveau (les sujets latents) correspondant au génotype et à divers codes des DSE et (2) un ensemble de sujets communs généraux pour les patients sur divers sujets latents, établissant ainsi un lien entre les matrices de base et les types de données. Pour tenir compte du biais NMAR, nous induirons les sujets latents en fonction des valeurs observées et de l'information manquante sur les indicateurs. Afin d'imputer les entrées manquantes des DSE et l'expression génétique propre à certains tissus d'un patient, nous utiliserons toute l'information sur le patient et emprunterons des renseignements auprès d'autres patients et phénotypes ou tissus similaires.

La recherche proposée permettra à un étudiant diplômé de développer diverses compétences en recherche. L'étudiant recevra des formations sur la formulation d'une problématique de recherche en bio-informatique en une problématique d'apprentissage automatique, les dérivations de modèles, les plans d'expérience, les programmes scientifiques, les publications et les présentations.