Soutenance de thèse d’Edouard Genetay

Edouard Genetay soutiendra sa thèse de doctorat « Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion » le lundi 16 mai à 14h30 à l’ENSAI.

Ecole Doctorale : Mathématiques et Sciences et Technologies de l’Information et de la Communication

Unité de recherche : CREST (UMR 9194)

Directeur de thèse : Adrien SAUMARD, Enseignant-Chercheur, CREST- ENSAI

Co-directeur de thèse : Valentin PATILEA , Professeur, CREST-ENSAI

 

Composition du jury

NomQualitéEtablissementRôle
BRECHETEAU Claire Maître de ConférenceUniversité de Rennes 2Examinatrice
CHRETIEN Stéphane Professeur des UniversitésUniversité Lyon 2Examinateur
GREGORUTTI BaptisteDirecteur Scientifique Lumen AI, PauExaminateur
LECUE GuillaumeProfesseur associéENSAE, IP ParisExaminateur
LE PENNEC Erwan Professeur des UniversitésEcole Polytechnique, IP ParisExaminateur
LEVRARD ClémentMaître de ConférenceUniversité Paris CitéExaminateur
PATILEA ValentinProfesseur des UniversitésENSAI, BruzCo-directeur de thèse
SAUMARD Adrien Professeur associéENSAI, BruzDirecteur de thèse

 

Mots clés

Clustering, median-of-means, grande dimension, entropie conditionnelle, détection d’intrusion, nombre de communautés

 

Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion.

Résumé : Le clustering vise à regrouper les données observées en différents sous ensembles partageant des propriétés similaires. Le plus souvent ce regroupement se fait via l’optimisation d’un critère choisi à l’avance. Dans cette thèse CIFRE, nous avons étudié le clustering sous trois aspects différents. Dans une première partie, nous proposons une méthode d’estimation robuste de K centroïdes basé sur le critère, dit des « K-means ». Nous proposons également une méthode d’initialisation robuste de la procédure. D’une part, la robustesse des procédures proposées a été testée par de nombreuses simulations numérique. D’autre part, nous avons montré un théorème donnant la vitesse de convergence d’un estimateur idéalisé en présence d’outliers ainsi qu’un théorème donnant le breakdown point de la méthode. Dans une seconde partie nous nous plaçons dans le cadre d’un mélange équilibré de deux gaussiennes isotropes, centré en l’origine, afin de fournir la première analyse théorique d’un estimateur de clustering basé sur un critère d’entropie conditionnelle. Nous montrons que le critère est localement convexe, offrant d’une part des vitesses d’apprentissage rapide et d’autre part une inégalité oracle en grande dimension, lorsque le vecteur moyen de séparation est sparse. Dans une troisième partie, plus pratique et consacrée à des graphes en cybersécurité, nous regardons si l’évolution du nombre de clusters obtenus par une méthode d’optimisation de modularité peut révéler des anomalies causées par une intrusion dans un système informatique.

Abstract: Clustering aims at grouping observed data into different subsets sharing similar properties. Most often this clustering is done through the optimization of a criterion chosen in advance. In this CIFRE thesis, we have studied clustering under three different aspects. In a first part, we propose a robust estimation method of K centroids based on the so-called « K-means » criterion. We also propose a robust initialization method for the procedure. On the one hand, the robustness of the proposed procedures has been tested by numerous numerical simulations. On the other hand, we have shown a theorem giving the rate of convergence of an idealized estimator in the presence of outliers and a theorem giving the breakdown point of the method. In a second part, we place ourselves in the framework of a balanced mixture of two isotropic Gaussians, centered at the origin, in order to provide the first theoretical analysis of a clustering estimator based on a conditional entropy criterion. We show that the criterion is locally convex, offering on the one hand fast learning rates and on the other hand an oracle inequality in high dimension when the mean separation vector is sparse. In a third part, more practical and devoted to graphs in cybersecurity, we investigate whether the evolution of the number of clusters obtained by a modularity optimization method can reveal anomalies caused by an intrusion in a computer system.