First semester

Webmining & NLP

Objectifs

Le cours de webmining & natural language processing répond à plusieurs objectif:
– pratiquer la collecte de données, l’extraction d’information et l’appariement de sources
– équiper les élèves avec des outils théoriques pour l’étude des données textuelles
– faire comprendre les grandes approches qui structurent le foisonnement de modèles de la langue
– présenter des exemples concrets d’applications dans les différentes domaines d’application des élèves
– donner la capacité de réaliser des tâches classiques en étude de texte: classification, analyse de sentiment, détection d’entités, etc.

Plan

– Introduction au traitement automatique du langage (natural language processing)
Grandes catégories de modèles : bag-of-words et tf-ifd ; réseaux de neurones (LSTM, GRU, etc.) ; plongements de mots (word2vec, GLoVe, fasttext, Elmo, BERT, etc.) ; modèles probabilistes (HMM, CRF, LDA, etc.)

– Applications : classification, analyse de sentiment, détection d’entités, etc.
Traitement de donnés textuelles et extraction d’information.

– Collecte de données sur le web et utilisation d’une API.

Prérequis

Apprentissage statistique (réseaux de neurones) ; apprentissage statistique à grande échelle ; statistique bayésienne ; chaînes de Markov