Le prix du meilleur projet tutoré remis à trois étudiants de l’ENSAI
La Société Française de Statistiques vient de remettre le prix du meilleur projet tutoré de deuxième année de l’ENSAI à Guillaume Flament, Camille Frévent et Benjamin Larvaron. Durant près d’un an, ils ont mis leurs compétences au service du projet Classifieurs sur données textuelles pour le diagnostic médical proposé par les entreprises LumenAI et Hospisoft.
Actuellement en stage de fin d’étude, ces trois étudiants de la promotion 2020 reviennent sur leur expérience.
Distingués par la Société Française de Statistiques
Guillaume Flament, Camille Frévent et Benjamin Larvaron : “Chaque année, la SFdS distingue le meilleur projet ENSAI et le meilleur stage STID.
La cérémonie de remise des prix 2020 a été transmise en direct sur la chaîne Youtube de la SFdS jeudi 24 septembre. Nous avons été invités à exposer notre projet avant de participer à une séance de questions-réponses.
La data science au service de la santé au Cameroun
Le nombre de médecins rapporté au nombre d’habitants est faible au Cameroun et malheureusement le suivi des patients est compliqué.
L’idée était double : premièrement, mettre en place une plateforme permettant de sauvegarder le dossier d’un patient, afin d’éviter d’administrer un médicament auquel il est allergique et plus généralement, afin d’améliorer le suivi des patients. Deuxièmement, mettre en place un outil capable de prédire les maladies les plus probables à partir des symptômes.
C’est sur ce dernier aspect que nous sommes principalement intervenus dans le cadre du projet Classifieurs sur données textuelles pour le diagnostic médical.
Le projet tutoré, en relation étroite avec le monde de l’entreprise
En septembre 2018, nous avons participé à l’IAPau et plus particulièrement au data challenge organisé par LumenAI. Dans ce cadre, nous avons rencontré Hospisoft et son fondateur, Aymard Djadchin. Nous avons remporté le data challenge.
Nous avons continué à travailler sur le projet dans le cadre du projet statistique de 2ème année de l’ENSAI de début janvier à fin mai 2019. Durant l’été 2019, nous avons contribué à mettre en production le travail effectué.
Tout au long du projet, nous avons été en contact avec LumenAI et plus particulièrement Camille Saumard.
Nous avons eu la chance de présenter notre travail aux côtés d’Aymard Djadchin lors de l’édition 2019 d’IAPau. En collaboration avec LumenAI, Hospisoft avait à cette époque déjà déployé son idée dans une dizaine d’hôpitaux camerounais.
L’approche méthodologique…
Traitement des données :
Le premier objectif que nous nous étions fixés était d’obtenir des données formatées. En effet, les documents envoyés étaient des documents retranscrits à la main, ils comportaient donc des irrégularités à corriger.
Nous avons ensuite effectué les premiers traitements classiques de NLP, enlevé les stopwords, traité les minuscules, majuscules, la lemmatisation, avant de tokenizer le texte. Nous avons exploré différentes formes de tokenization, en incluant par exemple, des sacs de mots de différentes longueurs. Nous avons ensuite mis en valeur les mots peu présents mais qui contenaient beaucoup d’informations avec la transformation tf-idf.
Modélisation :
Une fois cette première étape franchie et les données mises en forme, nous avons testé différents modèles et leur efficacité (arbre de décision, random Forest, K plus proche voisin/centroïde, etc).
Evaluation des modèles :
Ces premiers modèles semblant fonctionner correctement, nous avons donc cherché à les évaluer. Puisque nous avions une base de données restreinte, nous avons estimé le taux d’erreur en séparant notre échantillon en un échantillon d’apprentissage et un échantillon de test, ce dernier comportant un individu par maladie. Nous avons ensuite effectué une moyenne de nos taux de bien classés sur plusieurs découpes pour chaque méthode.
Amélioration de la modélisation :
Dans le cas de mauvais diagnostics, il fallait comprendre d’où provenaient les erreurs. Pour cela nous avons identifié les mots qui avaient le plus d’importance dans la prédiction du modèle avec les wordclouds et les Shap values, afin d’y trouver d’éventuelles incohérences. Cela semblait aussi bien résumer certaines maladies, par exemple dans le cas d’une lombosciatique, nous avons obtenu les mots suivants : réveil, matinal, région, membre, lombaire et intense.
…et les défis relevés dans le cadre de ce projet
Lors de ce projet nous avons été pour la première fois confrontés à la gestion de données textuelles, ce qui nous a appris les techniques de NLP classiques.
Pour la première fois, nous avons utilisé Python en dehors du cadre des projets informatiques, ce qui nous a permis d’utiliser des packages comme l’indispensable Sklearn.
Nous avons également travaillé sur l’interprétabilité de nos modèles ce qui a été particulièrement intéressant, tout en nous faisant découvrir de nouveaux concepts théoriques”.
Voir la retransmission de la cérémonie de remise de prix du meilleur projet tutoré ENSAI par la SFdS
Vous souhaitez encadrer un projet ? Plus d’informations sur les projets d’étude à l’ENSAI.