Marketing et économie : quatre projets statistiques d’étudiants
Profilage, segmentation client, ciblage, engagement… la Data Science est un outil d’aide à la décision essentiel en marketing digital. La collecte et l’analyse d’un nombre croissant de données permet à ce secteur d’affiner ses stratégies afin de vendre le bon produit, au bon moment, au bon client.
En deuxième année, les étudiants de l’ENSAI travaillent par groupe de trois ou quatre sur des projets statistiques. Sous la direction des professionnels ayant soumis les problématiques et avec le soutien des enseignants-chercheurs, les étudiants s’attèlent à fournir une étude élaborée. Ils y mobilisent les concepts, méthodes et outils enseignés depuis leur entrée à l’ENSAI. Chaque projet donne lieu à la rédaction d’un rapport, soutenu devant un jury.
Les étudiants de la promotion 2021 de l’ENSAI ont traité plus de 40 sujets dans des thèmes très variés. En voici quatre dans les domaines du marketing et de l’économie.
Prédiction de l’appétence à une gamme de produits cosmétiques
Avec l’émergence de nouvelles tendances, le secteur cosmétique français, 10 milliards de chiffre d’affaires en 2017, fait face à̀ de nouveaux enjeux. Face à une diversité croissante de l’offre de cosmétiques et à la création de nouvelles start-ups, adapter ses stratégies marketing pour fidéliser les anciens clients et en cibler de nouveaux est devenu une nécessité pour les entreprises.
Fondé en 2002, ClaraVista est un cabinet de conseil spécialisé dans le luxe, le retail ou encore les cosmétiques. L’équipe se base sur les données des marques pour les accompagner dans leurs actions marketing en leur permettant de mieux connaître leur clientèle ou en analysant leur stratégie CRM.
A la demande de cette entreprise, les étudiants de l’ENSAI ont travaillé autour de la problématique suivante : quelle est la probabilité qu’un client achète une gamme de produits pour les lèvres dans les deux mois à venir ?
Pour prédire l’appétence d’un client à cette gamme de produits, le groupe d’étudiants de l’ENSAI a exploité les données des ventes entre 2016 et 2018 de la marque de cosmétiques française ainsi que les données sur leurs clients.
L’étude s’est basée sur la modélisation et la comparaison de deux méthodes : la régression logistique et les forêts aléatoires. Ils ont complété leur analyse par une étude de la robustesse du meilleur modèle obtenu.
Attribution d’une valeur client à l’aide d’une segmentation marketing RFMP pour Claravista
Chaque client est unique, a ses propres besoins, attentes et comportements d’achat. Les stratégies marketing des entreprises visent à inciter le client à acheter mais aussi à rester fidèle. Dans cette optique, il est important pour une marque, notamment dans le domaine des cosmétiques, de pouvoir différencier ses clients afin de leur proposer des actions marketing les plus pertinentes possibles pour les fidéliser, tout en optimisant leurs coûts.
Le budget marketing d’une entreprise étant limité, il est important d’identifier les groupes de clients sur lesquels la marque souhaite concentrer une plus grande part de son budget. Le cabinet de conseil ClaraVista a chargé les étudiants de l’ENSAI de réaliser une segmentation RMFP (Récence – Fréquence – Montant – Produit) à l’aide de tables sur les clients, les produits, les magasins, et les ventes de 2015 à 2018.
L’objectif : créer une solution afin qu’une marque de cosmétiques améliore la personnalisation de ses offres dans le but de mieux fidéliser ses clients.
Pour réaliser cette étude, le groupe d’étudiants a tout d’abord réalisé un travail de tri, transformation et observation des données.
Les étudiants se sont ensuite concentrés sur la mise en place de différents modèles prédictifs, à l’aide d’arbres de régression, de modèles de forêts aléatoires et de régressions logistiques. Ils ont appliqué ces modèles à chacune des années entre 2015 et 2017 et les ont validés au regard des historiques d’achat de l’année suivante. Ils se sont également proposés de tester sa robustesse et sa validité dans le temps.
Implémentation d’un modèle hédonique sur le prix des smartphones
Depuis l’explosion de l’utilisation des nouvelles technologies de l’information et de la communication au début des années 2000, le marché des smartphones est très concurrentiel. Cinq fabricants principaux (Samsung, Huawei, Apple, Xiaomi, Oppo) s’efforcent de proposer des modèles de smartphones toujours plus innovants. Cette évolution constante du marché des smartphones entraîne le remplacement des téléphones mobiles dits « classiques » par des modèles plus récents de smartphones.
Aujourd’hui, les téléphones portables représentent 0,31% de l’Indice des Prix à la Consommation (IPC) et une baisse de prix de 8% a été constatée entre 2018 et 2019 (base 100, année 2015).
L’IPC mesure l’évolution des prix d’un panier de consommation fixe au cours d’une année (de décembre de l’année n-1 à décembre de l’année n) et est calculé́ à qualité constante.
Sous cette contrainte, le suivi du prix des smartphones pose des difficultés puisque les smartphones sont régulièrement remplacés par des modèles plus récents ayant de nouvelles caractéristiques. De plus, l’IPC doit mesurer une évolution pure de prix. Or, la différence de prix entre un nouveau smartphone et un ancien modèle peut s’expliquer par deux effets : un effet prix et un effet qualité (meilleure résolution de l’écran ou de l’appareil photo par exemple). Il importe donc d’éliminer l’effet qualité pour calculer l’IPC des smartphones le plus fidèlement possible.
Au-delà d’enjeux économique, social et comptable, c’est la mesure de l’inflation qui se cache derrière le calcul de l’IPC et de ses sous-indices. Pour éliminer cet effet qualité, il existe des méthodes de remplacements classiques qui contiennent des biais : les remplacements en dissemblable avec recouvrement et les remplacements par équivalent.
Ces deux méthodes de remplacements sont sources de biais et ne permettent pas de calculer le prix du produit remplaçant à l’année t-1.
Pour tenter de remédier à ces obstacles, l’Insee a fait le choix d’utiliser les modèles hédoniques et de les développer grâce au webscraping. En effet, le recours aux données récupérées par webscraping rendent possible l’utilisation d’une base de données plus riche pour construire le modèle que la simple collecte avec des relevés terrains.
L’autre avantage de l’utilisation des modèles hédoniques réside dans la possibilité de calculer le prix théorique des produits dans le passé en mesurant l’influence de l’amélioration technologique sur les prix. Le modèle hédonique permet donc bien d’estimer le prix théorique que le modèle remplaçant aurait eu en décembre de l’année précédente.
Dans ce cadre, le projet de ce groupe d’étudiants en deuxième année a consisté à implémenter un modèle hédonique sur le prix des smartphones en décembre et en janvier en fonction de leurs caractéristiques.
L’ensemble des données de prix et de caractéristiques des smartphones mises à la disposition des Ensaiens a été recueilli par webscraping sur les sites internet de Boulanger et de Rueducommerce pour les mois de novembre et décembre 2019 et janvier 2020.
Pour construire un modèle hédonique sur le prix des smartphones, les étudiants ont, dans un premier temps, construit une base de données exploitable à partir des données issues des deux sites web.
Cette première phase revêtait un aspect primordial pour la suite de notre projet puisque la construction d’un modèle de régression repose sur une phase préalable d’élaboration et d’exploration d’une base de données claire et intelligible. La construction du modèle hédonique fiable et robuste a donc nécessité un traitement d’éventuels problèmes de colinéarité entre les différentes variables explicatives du prix des smartphones.
Les futurs Data Scientists ont réalisé, dans un second temps, une sélection des variables suivant différentes méthodes de régression (linéaire, Lasso). Ils ont ensuite effectué une comparaison des modèles à partir de leur pouvoir prédictif pour sélectionner le modèle hédonique sur le prix des smartphones qui permette d’assurer le meilleur équilibre possible entre qualité d’ajustement et variance des paramètres pour minimiser le risque empirique.
Modélisation des cotations quotidiennes des prix des fruits et légumes pour un marché de « seconde main »
Le gaspillage alimentaire est un enjeu majeur, au coeur des problématiques environnementales de transition écologique. Ce gaspillage se produit à diverses étapes : production, transformation, distribution, et consommation.
Le secteur primaire agricole est un secteur majeur de l’économie française. La production et la cotation de fruits et légumes en France a des répercussions non seulement locales mais aussi européennes et internationales. De fait, ce secteur est un des secteurs les plus touchés par les problématiques du gaspillage. En France, les fruits et légumes représentent environ 22 à 24% du gaspillage alimentaire.
Plusieurs stratégies sont mises en place pour réduire le gaspillage, à différents niveaux. Le pari de l’entreprise Foodologic est de réduire le gaspillage dès les phases de production et de distribution. Son but est de mettre en relation les producteurs ayant des invendus et des acteurs de l’agroalimentaire afin de créer un marché des fruits et légumes de seconde main pour réduire le gaspillage et avoir un bilan carbone plus mesuré tout en aidant les producteurs.
Traditionnellement en économie, le prix se fixe en fonction de la confrontation offre-demande. Ici, le problème vient du fait que l’on n’a pas de données claires ni venant des producteurs sur leurs quantités de fruits et légumes « non conformes », ni sur la volonté des consommateurs à acheter ce type de produits. Il faut donc mettre en place d’autres stratégies pour parvenir à définir un prix.
Pour ce faire, le groupe d’étudiants s’est proposé d’adopter une étude dite « data-driven » (guidée par les données) en s’intéressant tout d’abord aux cours des marchés de fruits et légumes classiques avec des cotations au niveau national, et d’essayer de modéliser un marché à partir de ces trends.
Les étudiants se sont attelés à répondre aux questions suivantes : Quels types de fruits et légumes pour quels comportements des prix ? quelles saisonnalités? Comment prédire un prix sur le marché́ de Gros et utiliser cette information pour la modélisation d’un marché de seconde main ?
Dans un premier temps, des statistiques descriptives ont été établies pour donner une idée générale de la structure du marché et pour analyser les produits par saison.
La similitude entre la déformation dynamique du temps et la classification hiérarchique a été utilisée pour regrouper des séries de formes similaires, même si elles ont des longueurs différentes. Ces grappes représentent certaines des formes régulières de prix que l’on peut observer sur le marché. Pour faciliter l’exploitation des grappes, les Ensaiens ont utilisé une méthode de calcul d’un barycentre moyen à l’aide de l’algorithme DTW (DBA) pour chaque grappe.
La phase de modélisation qui s’est ensuivie a été double, avec deux objectifs distincts.
Tout d’abord, le groupe d’étudiants a calculé les modèles ARIMA pour ajuster les séries hebdomadaires afin d’expliquer les processus inhérents aux séries et être en mesure de calculer des prévisions à court terme (pour la semaine suivante). Ensuite, sur les séries mensuelles, les étudiants ont ajusté les MAG afin de prévoir la tendance des prix à long terme (un ou deux ans) en utilisant des covariables météorologiques.
Cette phase de modélisation et de prévision est essentielle à la compréhension de la baisse des prix pour modéliser le marché de l’occasion. Ils ont utilisé certains résultats empiriques sur les différences de prix en fonction de la qualité, de la taille des fruits et légumes, pour estimer la baisse de valeur à appliquer.
Plus d’informations sur les projets d’études à l’ENSAI