Premier semestre

Dimension Reduction & Matrix Completion

Objectifs

Dans les ensembles de données modernes, de nombreuses variables sont collectées et, pour garantir de bonnes performances statistiques, il faut contourner la "malédiction de la dimensionnalité" en appliquant des techniques de réduction de la dimension. La notion clé pour clarifier les performances de la réduction de dimension est la rareté, entendue au sens large, c’est-à-dire que le phénomène étudié a une structure intrinsèque de faible dimension. La rareté est également au cœur de la détection compressive pour l’acquisition de données. La notion la plus simple de sparsité est développée pour les vecteurs, où elle ouvre la voie à la régression linéaire en haute dimension (LASSO) et à la régression non linéaire, comme par exemple les modèles linéaires généralisés en haute dimension, en utilisant des techniques de régularisation. Ces méthodes peuvent être étendues à l’estimation de matrices de faible rang, qui apparaissent par exemple dans les systèmes de recommandation sous le problème de l’achèvement de la matrice. La sparité est également utile dans le contexte des algorithmes d’apprentissage automatique hautement non linéaires, tels que le regroupement. Tout en énonçant clairement les fondements mathématiques de la réduction de dimension, ce cours se concentrera sur les aspects méthodologiques et algorithmiques de ces techniques.

– Comprendre la malédiction de la dimension et la notion de sparsité.
– Connaître la définition du Lasso et de ses principales variantes, ainsi que ses principales implémentations algorithmiques.
– Comprendre le réglage du Lasso et connaître les principales techniques.
– Savoir comment régulariser un modèle linéaire généralisé de haute dimension.
– Comprendre le problème de la complétion des matrices et l’approche du filtrage collaboratif.
– Savoir utiliser la SVD et résoudre un problème d’estimation de matrice de faible rang.

Plan

– Régression linéaire en haute dimension.
– Modèles linéaires généralisés à haute dimension.
– Estimation de matrices de faible rang.

Prérequis

Statistiques de base, algèbre linéaire et probabilités.