Santé et Data Science : quatre projets statistiques d’étudiants
Épidémiologie, imagerie, essais cliniques, génétique, médecine prédictive… nombreuses sont les applications de la Data Science dans le domaine médical. Dès la deuxième année, les étudiants de l’ENSAI peuvent être amenés à travailler sur ces sujets en mode projet durant plusieurs semaines.
Les projets statistiques de deuxième année ont pour objectif l’application concrète et l’approfondissement des connaissances acquises. Par groupe de trois ou quatre, les étudiants de l’ENSAI traitent un sujet sous la direction du praticien l’ayant soumis, en utilisant les concepts, méthodes et outils appropriés. Chaque projet donne lieu à la production d’un rapport et à une soutenance.
Les étudiants de 2e année de la promo 2021 ont traité plus de 40 projets, parmi lesquels des sujets liés au domaine de la santé. En voici quatre.
Estimation du risque de toxicité dans les essais cliniques de phase 1 : rôle du schéma de l’essai
Les premiers essais cliniques ou essais dits de phase 1 sont réalisés chez des personnes volontaires en bonne santé afin d’évaluer la toxicité potentielle d’un médicament.
Sur la suggestion d’une équipe de recherche labellisée par l’Inserm, (Institut national de la santé et de la recherche médicale), trois étudiants se sont interrogés sur le lien entre le schéma de conduite d’un essai et la survenue d’évènements indésirables graves (EIG).
Les essais cliniques de phase 1 soulèvent en effet plusieurs problématiques statistiques. Les plus importantes sont liées au schéma d’administration de la molécule : nombre de doses à tester, incréments inter-doses, nombre de malades inclus simultanément à une même dose, intervalle de temps entre les inclusions, administration unique ou répétée du médicament.
Ce groupe a étudié deux situations successivement : l’administration unique du médicament (dite SAD pour Single Ascending Dose) puis l’administration répétée sur dix jours du médicament (dite MAD pour Multiple Ascending Dose) en utilisant les données d’un essai réel, comme point de départ à leurs simulations.
Identification des familles de réponses à un traitement de réadaptation de patients ayant une broncho-pneumopathie chronique obstructive
La Broncho-pneumopathie Chronique Obstructive est une maladie liée au tabagisme dans la grande majorité des cas. Cette maladie inflamme les bronches et se caractérise par un rétrécissement progressif et une obstruction permanente des voies aériennes et des poumons, entraînant une gêne respiratoire.
Quel que soit le degré de sévérité de la maladie, les patients présentant une intolérance à l’effort et des limitations dans leurs activités quotidiennes ont la possibilité de suivre un séjour de réhabilitation à titre de traitement. Ce séjour prévoit la pratique d’activités physiques, le sevrage au tabagisme ou encore de la kinésithérapie respiratoire.
Au début et à la fin de ce séjour de réhabilitation, les patients passent un test de marche de 6 minutes durant lequel la distance parcourue est mesurée. Cette distance permet d’évaluer le niveau du patient et les effets du séjour de réhabilitation sur sa santé. Une réponse au séjour de réhabilitation est considérée positive si le patient augmente la distance parcourue lors du dernier TM6 de plus de 44 mètres par rapport au premier.
À la demande d’un laboratoire de recherche de l’Inserm, trois étudiants de deuxième année ont réalisé une étude sur l’intérêt de la classification des individus réalisant un séjour de réhabilitation pour prédire leur réussite ou non à celui-ci. L’objectif : adapter au mieux le séjour aux besoins de chaque patient.
Après une étude descriptive des données, la deuxième phase du projet a eu pour objectif d’identifier les classes de patients répondeurs au séjour de réhabilitation via le test de marche de 6 minutes. Cette classification a pour but de prédire la réaction d’un patient à un séjour de réhabilitation. Un patient supposé non-répondeur bénéficierait alors d’un suivi plus rapproché pour que ce séjour lui profite.
Évaluation du test de tendance en épidémiologie nutritionnelle
La relation dose-effet exprime le changement d’effet, sur un organisme, provoqué par une quantité de stimuli après un certain temps d’exposition. Les épidémiologistes parlent également de “tendance” entre l’exposition et le risque en termes d’événements de santé.
En 2018, une publication d’épidémiologistes dans The Journal of Nutrition détaillait une étude affirmant que le vieillissement en bonne santé des individus était lié au potentiel inflammatoire de leur régime alimentaire.
Il n’existe toutefois pas de méthode consensuelle, comme des tests ou des régressions, permettant de vérifier l’existence d’un tel lien en termes de tendance.
Sur la proposition de l’Inserm, les étudiants de l’ENSAI ont repris les recherches de ces épidémiologistes afin de répondre à la question suivante : dans quelle mesure le potentiel inflammatoire de l’alimentation a-t-il une influence sur le vieillissement en bonne santé des individus ?
L’étude statistique portait dans ce cas sur une base de données de 1021 individus, tous suivis sur une durée allant de 12 à 15 ans. Pour chaque individu, les étudiants disposaient de mesures de deux variables d’intérêt : le potentiel inflammatoire de l’alimentation (le facteur d’exposition) et le vieillissement en bonne santé (la variable à expliquer). D’autres informations telles que le sexe, le niveau d’étude ou encore l’IMC étaient également fournies.
Dans le but de déterminer l’existence, ou non, d’une tendance entre le potentiel inflammatoire de l’alimentation et le risque de vieillissement en bonne santé, ce groupe a mobilisé différentes approches statistiques : tout d’abord des statistiques descriptives simples, puis un test de tendance, et enfin différents modèles de régression.
Analyse de données radiomiques en grande dimension : prédiction de la survie sans progression par Machine Learning, dans le cas du cancer du rein
Le Centre d’investigation clinique (CIC1418i) de l’Hôpital européen Georges Pompidou est une structure de recherche clinique mixte APHP-Inserm. Ses principaux objectifs sont le développement de recherches translationnelles, innovantes, compétitives, de brevets d’invention et la production de nouvelles connaissances médicales et scientifiques, notamment sur le cancer du rein.
En général, le cancer du rein est détecté par hasard lors d’une échographie ou d’un scanner réalisés pour une raison autre. Afin d’établir le diagnostic du cancer du rein, on effectue un examen clinique et un scanner de l’abdomen.
Avec le développement des nouvelles méthodes d’imagerie, les données décrivant les images pour chaque patient sont de plus en plus volumineuses. Les tables de données contiennent en général plus de variables que d’individus. Cependant ces variables sont fortement corrélées entre elles.
Les méthodes de machine learning peuvent permettre dans un tel contexte de faire un tri pertinent de ces variables. L’utilisation de ces algorithmes de machine learning en radiologie peut servir à poser un diagnostic ou être utilisé comme outil d’aide à la décision pour les médecins. C’est dans ce contexte que se situe le travail de trois étudiants de deuxième année de l’ENSAI.
En 2018, un étudiant de l’école avait commencé à étudier les possibilités d’utiliser les images de radiologie de patients atteints du cancer du rein dans le but de prédire leur survie sans progression, autrement appelée PFS (progression-free survival).
Poursuivant dans cette démarche, le groupe s’est fixé pour objectif d’améliorer les résultats obtenus, à la demande du Centre d’Investigation Clinique de l’Hôpital Georges Pompidou.
Les principaux enjeux de ce projet statistique sont premièrement d’observer l’effet de la modification du seuil du coefficient de corrélation de Lin pour la sélection des variables considérées comme reproductives inter-observateurs, puis d’observer l’effet d’un changement de fonction de perte et de comparer la prédiction de la durée de vie sans progression directement à partir des caractéristiques de l’ensemble des individus et enfin de prédire la PFS à partir des caractéristiques des individus d’une même classe.
Les étudiants ont procédé de deux manières.
Prédiction de la PFS à partir des données : dans ce cas, ils ont construit différents modèles (random forest, Xgboost, réseaux de neurones) en utilisant les caractéristiques de tous les individus. Les variables retenues ont été sélectionnées à l’aide du coefficient de Lin. En faisant varier le seuil du coefficient de Lin pour la sélection des variables, ils sont parvenus à déterminer le seuil optimal.
Prédiction de la PFS en tenant compte de la classe de l’individu : dans un premier temps, le groupe a construit deux classes, celle des individus ayant une PFS supérieure à la médiane et celle de ceux ayant une PFS inférieure. Ils ont ensuite testé différents modèles pour prédire la classe. Enfin, ils ont construit des modèles de prédiction de la survie sans progression pour chacune des deux classes. Pour prédire la PFS d’un nouvel individu, ils ont d’abord prédit sa classe et déterminé quelle méthode appliquer par la suite.
Plus d’informations sur les projets d’études à l’ENSAI