Soutenance de thèse d’Edouard Genetay

6 mai 2022 soutenance thèse

Edouard Genetay soutiendra sa thèse de doctorat « Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion » le lundi 16 mai à 14h30 à l’ENSAI.

Ecole Doctorale : Mathématiques et Sciences et Technologies de l’Information et de la Communication

Unité de recherche : CREST (UMR 9194)

Directeur de thèse : Adrien SAUMARD, Enseignant-Chercheur, CREST- ENSAI

Co-directeur de thèse : Valentin PATILEA , Professeur, CREST-ENSAI

Composition du jury

Nom	Qualité	Etablissement	Rôle
BRECHETEAU Claire	Maître de Conférence	Université de Rennes 2	Examinatrice
CHRETIEN Stéphane	Professeur des Universités	Université Lyon 2	Examinateur
GREGORUTTI Baptiste	Directeur Scientifique	Lumen AI, Pau	Examinateur
LECUE Guillaume	Professeur associé	ENSAE, IP Paris	Examinateur
LE PENNEC Erwan	Professeur des Universités	Ecole Polytechnique, IP Paris	Examinateur
LEVRARD Clément	Maître de Conférence	Université Paris Cité	Examinateur
PATILEA Valentin	Professeur des Universités	ENSAI, Bruz	Co-directeur de thèse
SAUMARD Adrien	Professeur associé	ENSAI, Bruz	Directeur de thèse

Mots clés

Clustering, median-of-means, grande dimension, entropie conditionnelle, détection d’intrusion, nombre de communautés

Quelques problématiques autour du clustering : robustesse, grande dimension et détection d’intrusion.

Résumé : Le clustering vise à regrouper les données observées en différents sous ensembles partageant des propriétés similaires. Le plus souvent ce regroupement se fait via l’optimisation d’un critère choisi à l’avance. Dans cette thèse CIFRE, nous avons étudié le clustering sous trois aspects différents. Dans une première partie, nous proposons une méthode d’estimation robuste de K centroïdes basé sur le critère, dit des « K-means ». Nous proposons également une méthode d’initialisation robuste de la procédure. D’une part, la robustesse des procédures proposées a été testée par de nombreuses simulations numérique. D’autre part, nous avons montré un théorème donnant la vitesse de convergence d’un estimateur idéalisé en présence d’outliers ainsi qu’un théorème donnant le breakdown point de la méthode. Dans une seconde partie nous nous plaçons dans le cadre d’un mélange équilibré de deux gaussiennes isotropes, centré en l’origine, afin de fournir la première analyse théorique d’un estimateur de clustering basé sur un critère d’entropie conditionnelle. Nous montrons que le critère est localement convexe, offrant d’une part des vitesses d’apprentissage rapide et d’autre part une inégalité oracle en grande dimension, lorsque le vecteur moyen de séparation est sparse. Dans une troisième partie, plus pratique et consacrée à des graphes en cybersécurité, nous regardons si l’évolution du nombre de clusters obtenus par une méthode d’optimisation de modularité peut révéler des anomalies causées par une intrusion dans un système informatique.

Abstract: Clustering aims at grouping observed data into different subsets sharing similar properties. Most often this clustering is done through the optimization of a criterion chosen in advance. In this CIFRE thesis, we have studied clustering under three different aspects. In a first part, we propose a robust estimation method of K centroids based on the so-called « K-means » criterion. We also propose a robust initialization method for the procedure. On the one hand, the robustness of the proposed procedures has been tested by numerous numerical simulations. On the other hand, we have shown a theorem giving the rate of convergence of an idealized estimator in the presence of outliers and a theorem giving the breakdown point of the method. In a second part, we place ourselves in the framework of a balanced mixture of two isotropic Gaussians, centered at the origin, in order to provide the first theoretical analysis of a clustering estimator based on a conditional entropy criterion. We show that the criterion is locally convex, offering on the one hand fast learning rates and on the other hand an oracle inequality in high dimension when the mean separation vector is sparse. In a third part, more practical and devoted to graphs in cybersecurity, we investigate whether the evolution of the number of clusters obtained by a modularity optimization method can reveal anomalies caused by an intrusion in a computer system.

Toutes les actualités