Steven Golovkine : une thèse sur l’analyse de données fonctionnelles chez Renault
Dernière ligne droite pour Steven Golovkine. Le doctorant devrait soutenir sa thèse « Statistical methods for multivariate functional data » au mois de juin. Le jeune chercheur concentre ses travaux sur les méthodes de classification pour l’analyse des données du véhicule autonome au sein du Groupe Renault.
Diplômé du cursus ingénieur de l’ENSAI, Steven Golovkine a poursuivi sa formation en intégrant le Master in Statistics for Smart Data, durant lequel il a développé un fort intérêt pour l’analyse de données fonctionnelles. Elle est devenue le sujet central de sa thèse, sous la direction de Valentin Patilea (CREST) et Nicolas Klutchnikoff (IRMAR). Il revient sur ses travaux de recherche.
Steven, qu’apportent les méthodes de classification pour l’analyse des données dans le développement du projet de véhicule autonome de Renault ?
Steven Golovkine : L’analyse de données est un point central dans le cadre du développement du véhicule autonome et du véhicule en général. Par exemple, la reconnaissance de panneaux est particulièrement utile pour la compréhension de l’environnement véhicule.
Le monitoring des données CAN est utilisé depuis longtemps pour détecter d’éventuels problèmes dans le moteur.
Dans la cadre de ma thèse, l’intérêt principal est la validation de la fiabilité du véhicule autonome. En effet, pour pouvoir commercialiser un véhicule, quel que soit son niveau d’autonomie, le constructeur doit pouvoir démontrer la sécurité fonctionnelle du produit.
Actuellement, cette validation de la fiabilité d’un véhicule classique se fait par roulage au physique. Concrètement, les constructeurs font rouler les nouveaux modèles un million de kilomètres et s’il n’y a pas d’incident, ceux-ci sont considérés comme fiables et peuvent ainsi être homologués.
Comment l’analyse de données fonctionnelles peut-elle contribuer à la validation de la fiabilité du véhicule autonome ?
S.G. : Dans le cas du véhicule autonome, comme la conduite est déléguée au véhicule lui-même, le nombre de kilomètres à atteindre pour valider un certain niveau de fiabilité est bien trop important (de l’ordre de 230 millions de kilomètres) pour que l’on y procède réellement.
L’idée est donc de réduire ce nombre de kilomètres physiques en réalisant des simulations. C’est dans cet objectif de calibrage des simulations que je me suis lancé dans une thèse.
Plus précisément, je cherche à identifier des scénarios de conduite qui sont représentatifs des comportements humains. Ces scénarios viendront nourrir les moteurs de simulation.
Quel type de données collectes-tu et comment les traites-tu ?
S.G. : Les données considérées sont des ensembles de caractéristiques représentatives du trafic routier et des interactions entre les usagers évoluant pour un temps, comme ce qu’il se passe pendant 10 secondes autour d’un véhicule, ou un espace donné, par exemple un rond-point. Ces caractéristiques sont, entre autres, la position, la vitesse et l’accélération des véhicules dans la scène. De plus, ces scènes ne sont en général pas annotées.
Mon travail consiste à faire une classification non-supervisée, que l’on appelle aussi “clustering”, de ce type de données. Ce type de données, où chaque individu peut être modélisé par un ensemble de fonctions continues, est dénommé “données fonctionnelles multivariées ».
En utilisant l’information contenue dans chaque fonction aléatoire et celles disponibles grâce au nombre important d’observations, nous sommes capables d’estimer différentes quantités, comme la courbe moyenne, la surface de covariance ou encore une distance entre les observations et donc d’en trouver des similaires.
Quels outils et méthodes exploites-tu dans le cadre de ta thèse ?
S.G. : Avec Valentin Patilea et Nicolas Klutchnikoff, nous avons développé une méthode permettant de faire un clustering de données fonctionnelles en créant un ensemble d’arbres binaires par fractionnement récursif des observations.
Celle-ci est basée sur une analyse en composantes principales fonctionnelles, qui est une méthode permettant de réduire la dimension des observations en construisant une base de fonctions dans laquelle les observations ont une représentation parcimonieuse, utilisant une estimation de la covariance des données.
Nous avons aussi proposé un estimateur de la covariance de données fonctionnelles par polynômes locaux s’appuyant sur l’estimation de la régularité des courbes.
La régularité caractérise à quel point les courbes sont lisses. Plus celles-ci sont lisses, plus leur régularité est élevée.
Quel avenir pour l’analyse de données dans l’automobile ?
S.G. : L’analyse de données est amenée à se développer très rapidement dans l’industrie automobile. Bien entendu, les données seront utilisées pour l’analyse du véhicule mais aussi pour tout ce qui tourne autour.
Pour donner quelques exemples, le développement de la maintenance prédictive automatisée dans les usines permettra une meilleure gestion de celle-ci, l’expérience client pourra être amélioré lors de l’achat et des différents passages de celui-ci au garage grâce à une prise en charge plus rapide dû à une compréhension plus fine du problème. Il est même possible d’imaginer des designs de véhicule créés à partir de données.
Finalement, l’industrie automobile devra, comme toutes les autres industries, apprendre à faire bon usage, et de façon éthique, de l’énorme quantité de données récoltées pour rester compétitif.
Plus d’informations sur la recherche à l’ENSAI.