Premier semestre

Indexation Web

Objectifs

A l’issue de ce cours, les élèves devront savoir collecter des informations issues du web, connaître la notion d’Information Retrieval, savoir constituer des corpus, et les organiser à des fins d’analyse exploratoires. Ils devront maîtriser également l’algorithme qui permet de hiérarchiser les pages web (pagerank) et les techniques de classification de documents textuels.

Par ailleurs, ils devront avoir acquis les notions d’opinion mining (classification de textes, analyses de sentiments, évaluation de modèles).

Toutes les applications seront traitées en R.

Plan

Partie 1 – Information Retrieval : Preprocessing, Extraction et PageRank
Mots clés : Twitter, R, PageRank, corpus, term-document matrix, Information retrieval, tf-idf, stemming, Regex, kmeans

Partie théorique (3h)
– Information Retrieval
° Concepts & Définitions
° Term Document Matrix
° Tf-idf, Cosine Index, jaccard Index
° Stemming
– Web Search : Google
° Google et le Page Rank
° Pages Jaunes (Notion de tri alpha)
° Notion de graphes et de vecteurs propres

Partie pratique (9h)
– TP1 : Introduction à R pour le Web Mining (3h)
° Installation de librairies de textmining disponible dans R
° Collecter les informations issues du WEB : Twitter, Wikipedia
° Pre-processing : Stemmatisation, Lemmatisation
° Parsing HTML, XML,
° Tokenization
° Introduction à la term-document matrix

– TP2 : Similarité de documents (Applications aux recherches utilisateurs sur le site pagesjaunes.fr (3h)
° Indices de similarité : Tf, tf-idf Jaccard, Cosine
° Distance de Damerau, Distance de Jaro
° Liens entre les recherches, Notion de graphe de recherche

-TP3 : Ordonnancement des résultats d’une recherche (3h)
° PageRank
° Détecter les mots clés
° Intro à la classification des docs sur mots clés

Partie 2 – Opinion Mining : Textmining, analyse de sentiments, classification et évaluation des modèles.
Mots clés : Facebook, R, opinion mining, corpus, sentiment analysis, annotation syntaxique.

Partie théorique (4h)
– Introduction
°Quelles applications dans quels domaines d’activités ?

– État de l’art (opinion mining, sentiment analysis, affective computing)
° Quels descripteurs pour quels types de données
* Textuelles
*Audio
*Images
°Sélection automatique de descripteurs (réduction de l’espace de recherche)
°Quels algorithmes de classification dans quels cas ?

– Constitution du corpus
° Réflexions générales sur la qualité des données et son impact
° Annotation manuelle et automatique (schéma d’annotation, calcul d’un score d’agrément interannotateur)
° Répartition des données dans les classes

– Pre-processing (texte)
° Quelle granularité pour mes données (mot, phrases, paragraphes)
° Annotation syntaxique et sémantique (exemples de POS, WordNet-Affect, etc)

– Évaluation
°Quelles mesures utiliser pour mesurer la qualité d’un modèle (rappel, précision, f-score, ROC, indices de confiance à 0.95)

– Les produits du marché (exemples)
° Produit de la société TEMIS (cartouche sentiments)
° Produit de la société Sinequa

Partie pratique (8h)

– TP1 : classification de la valence d’un texte littéraire (critiques de cinéma)

– TP2 : classification de la valence de textes issus de réseaux sociaux (twitter, facebook)

– TP3 : Fusion de modèles (à partir des modèles crées dans le TP2)

– TP4 (optionnel) : Constructions de modèles à partir d’indices multimodaux (texte + audio)

Prérequis

SQL