Soutenance de thèse d’Edouard Genetay
Edouard Genetay soutiendra sa thèse de doctorat « Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion » le lundi 16 mai à 14h30 à l’ENSAI.
Ecole Doctorale : Mathématiques et Sciences et Technologies de l’Information et de la Communication
Unité de recherche : CREST (UMR 9194)
Directeur de thèse : Adrien SAUMARD, Enseignant-Chercheur, CREST- ENSAI
Co-directeur de thèse : Valentin PATILEA , Professeur, CREST-ENSAI
Composition du jury
Nom | Qualité | Etablissement | Rôle |
---|---|---|---|
BRECHETEAU Claire | Maître de Conférence | Université de Rennes 2 | Examinatrice |
CHRETIEN Stéphane | Professeur des Universités | Université Lyon 2 | Examinateur |
GREGORUTTI Baptiste | Directeur Scientifique | Lumen AI, Pau | Examinateur |
LECUE Guillaume | Professeur associé | ENSAE, IP Paris | Examinateur |
LE PENNEC Erwan | Professeur des Universités | Ecole Polytechnique, IP Paris | Examinateur |
LEVRARD Clément | Maître de Conférence | Université Paris Cité | Examinateur |
PATILEA Valentin | Professeur des Universités | ENSAI, Bruz | Co-directeur de thèse |
SAUMARD Adrien | Professeur associé | ENSAI, Bruz | Directeur de thèse |
Mots clés
Clustering, median-of-means, grande dimension, entropie conditionnelle, détection d’intrusion, nombre de communautés
Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion.
Résumé : Le clustering vise à regrouper les données observées en différents sous ensembles partageant des propriétés similaires. Le plus souvent ce regroupement se fait via l’optimisation d’un critère choisi à l’avance. Dans cette thèse CIFRE, nous avons étudié le clustering sous trois aspects différents. Dans une première partie, nous proposons une méthode d’estimation robuste de K centroïdes basé sur le critère, dit des « K-means ». Nous proposons également une méthode d’initialisation robuste de la procédure. D’une part, la robustesse des procédures proposées a été testée par de nombreuses simulations numérique. D’autre part, nous avons montré un théorème donnant la vitesse de convergence d’un estimateur idéalisé en présence d’outliers ainsi qu’un théorème donnant le breakdown point de la méthode. Dans une seconde partie nous nous plaçons dans le cadre d’un mélange équilibré de deux gaussiennes isotropes, centré en l’origine, afin de fournir la première analyse théorique d’un estimateur de clustering basé sur un critère d’entropie conditionnelle. Nous montrons que le critère est localement convexe, offrant d’une part des vitesses d’apprentissage rapide et d’autre part une inégalité oracle en grande dimension, lorsque le vecteur moyen de séparation est sparse. Dans une troisième partie, plus pratique et consacrée à des graphes en cybersécurité, nous regardons si l’évolution du nombre de clusters obtenus par une méthode d’optimisation de modularité peut révéler des anomalies causées par une intrusion dans un système informatique.
Abstract: Clustering aims at grouping observed data into different subsets sharing similar properties. Most often this clustering is done through the optimization of a criterion chosen in advance. In this CIFRE thesis, we have studied clustering under three different aspects. In a first part, we propose a robust estimation method of K centroids based on the so-called « K-means » criterion. We also propose a robust initialization method for the procedure. On the one hand, the robustness of the proposed procedures has been tested by numerous numerical simulations. On the other hand, we have shown a theorem giving the rate of convergence of an idealized estimator in the presence of outliers and a theorem giving the breakdown point of the method. In a second part, we place ourselves in the framework of a balanced mixture of two isotropic Gaussians, centered at the origin, in order to provide the first theoretical analysis of a clustering estimator based on a conditional entropy criterion. We show that the criterion is locally convex, offering on the one hand fast learning rates and on the other hand an oracle inequality in high dimension when the mean separation vector is sparse. In a third part, more practical and devoted to graphs in cybersecurity, we investigate whether the evolution of the number of clusters obtained by a modularity optimization method can reveal anomalies caused by an intrusion in a computer system.