Les 3 méthodes d’agrégation

Une fois les données récoltées et stockées la question qui se pose est de savoir comment les agréger entres elles de la manière la plus juste et la plus efficace possible et créer un Data-Frame sur lequel les algorithmes pourront « apprendre ». Les données récoltées sont de différents types (données brutes, fonction de répartition, scores, …) et nécessitent l’utilisation de plusieurs types d’agrégation. ETIC DATA utilise 3 méthodes d’agrégation dans son processus d’enrichissement :

1. Agrégation stricte / semi stricte

Cette méthode est utilisée lorsqu’une seule information est à faire remonter de manière stricte. Il suffit simplement de déterminer quelle clé est à utiliser pour effectuer le lien entre la base à enrichir et la base d’information externe.

Un exemple simple ici est l’enrichissement du sexe en fonction d’un prénom, dans le cas d’un prénom non mixte. La base externe préalablement stockée est la base contenant l’ensemble des prénoms avec pour chacun d’entre eux le sexe (base de données disponible en Open Data) et la clé à utiliser est le prénom (données présente à la fois dans la base à enrichir et dans la base externe). La correspondance se fait de manière stricte (correspondance parfaite) ou semi-stricte dans le cas de données mal orthographiées en utilisant un système par moteur de recherche.

2. Agrégation par loi de probabilité

Cette méthode est utilisée lorsque les données sont stockées sous forme de fonction de répartition, ou loi de probabilité.

Si on reprend l’exemple de l’enrichissement du sexe en fonction du prénom, les données sur les prénoms non mixtes seront mises en corrélation par agrégation stricte comme nous l’avons vu précédemment car une valeur en implique une autre (le prénom Jean donnera toujours le sexe Masculin) en revanche les données sur les prénoms mixtes nécessiteront une agrégation par loi de probabilité. En effet, le prénom Dominique peut être associé à une femme ou à un homme, l’information sera donc stockée sous forme de fonction de répartition de la manière suivante : Dominique {58% M – 42% F}. Cette information peut être gérée de différentes manière. Elle peut être, comme il est fait couramment, transformée en une donnée unique, en conservant la modalité la plus probable (méthode du maximum de vraisemblance) c’est-à-dire Homme car majoritairement présente pour ainsi permettre une agrégation stricte ou bien conservée sous forme de loi de probabilité et dans ce cas-là ce sont les algorithmes qui vont gérer l’intégralité de l’information et effectuer des tirages aléatoires avec poids (dépendant des fonctions de répartition). Dans le premier cas, toutes les personnes ayant pour prénom Dominique, y compris les femmes, se verront attribuer la modalité sexe=Masculin, dans le deuxième cas, certains individus se verront attribuer la modalité sexe=Masculin, d’autres la modalité sexe=Féminin. ETIC DATA a conçu ses algorithmes pour gérer les fonctions de répartition dans leur intégralité, il y a ainsi aucune perte d’information et toutes les modalités sont prises en compte dans chaque modélisation.

3. Agrégation par mini modèle d'apprentissage

ETIC DATA est propriétaire d’une base de données de plus de 20 000 millions de profils. Cette base de données, en constante évolution et actualisation, permet par un système d’apprentissage de repérer des règles d’enrichissement.

Ces règles d’enrichissement sont stockées dans des « mini modèles » et seront ensuite déployées sur les nouvelles bases entrantes et permettront d’estimer de nouvelles données.

Inscrivez-vous à notre newsletter mensuelle "Machine Learning & Data Marketing" et restez informé de nos dernières actualités

Les 3 sources de données d’enrichissement

1. Les données internes - First Party Data

Dans le processus d'enrichissement de données, les données internes sont utilisées. Il s’agit des données disponibles au sein de l’entreprise tels que les données clients, de transactions, comportementales, récoltées par enquête de satisfaction, formulaire d’inscription, rapports d’activité... Elles supposent un archivage rigoureux et une accessibilité aisée pour être rassemblées et mises à profit. Le principal travail à effectuer sur ces sources de données consiste à les nettoyer, vérifier leur véracité et rechercher les clés qui les lient entres elles. Une étape très importante est également de sélectionner parmi ces données, lesquelles seront utilisées pour la construction du modèle prédictif. En effet, l’utilisation de données trop spécifiques à l’entreprise dans une analyse va limiter l’utilisation du modèle prédictif à ces mêmes données. Pour fonctionner, le modèle prédictif créé doit obligatoirement être utilisé sur des bases de données contenant les mêmes données que celles qui ont permis sa construction. Ainsi, construire un modèle sur des données spécifiques à l’entreprise limitera son utilisation sur des bases de données internes à l’entreprise. Le choix des données internes utilisées dans la construction du modèle est donc une étape extrêmement importante. ETIC DATA propose de construire des modèles en utilisant uniquement 6 données internes : un nom, un prénom, une adresse, un code postal, une ville et une adresse mail. La justification du choix de ces variables réside dans le fait qu’elles sont les plus courantes et que de ce fait les modèles pourront être déployés sur un très grand nombre de bases de données, y compris des bases externes à l'entreprise et très peu qualifiées. Ces 6 données vont permettre en revanche la mise en corrélation de plus de 1200 données complémentaires, issues de sources externes et propriétaires.

2. Les données externes - Third Party Data

Il s’agit de données pouvant être obtenues gratuitement ou au prix d’un droit d’accès auprès de centres d’information généralistes ou spécialisés tels que l’INSEE. Le but de l’enrichissement de données ETIC DATA est d’en rechercher le plus grand nombre, sans aucun a priori, afin de permettre aux algorithmes la découverte de corrélations qui n’ont pu être observées jusque-là. Ces corrélations n’auront pas forcément d’explications rationnelles dans le contexte de l’entreprise utilisatrice et viendront apporter de nouvelles connaissances. En effet, des données qui semblent pour certaines sans relation avec l’acte d’achat ou le comportement des clients vont peut-être se révéler comme fondamentales dans les résultats obtenus. Il est donc important d’enrichir de tous types de données, sans aucune limite et a priori. Grâce aux nouvelles politiques « open data », un grand nombre de sources de données sont rendues accessibles et peuvent être récupérées de manière libre. Le principal travail consiste à les dénicher (même si penser à toutes relève de l’impossible), à développer des systèmes permettant de les extraire de manière automatique, à les stocker et les maintenir à jour en permanence. Parmi les différentes sources de données externes auxquelles ETIC DATA vient se connecter on peut citer l’insee, l’inpi, infogreffes, data-gouv, météo France, … C’est à partir de ces différentes sources de données que ETIC DATA va créer, pour chaque modélisation plus de 1000 variables d’enrichissement. Quelques exemples de catégories de données enrichies :

  • Données liées au profil, à l’activité, logement, structure des familles, études et formations, ….
  • Données liées à l’environnement : Impôts, risques, criminalité, réseaux/internet, points d’intérêts, …
  • Données liées à l’évolution des structures : famille, logement, activité, formation, population, …
  • & données météos, données de distances, données d'évènements, données médias
3. Les données propriétaires - ETIC DATA

ETIC DATA est propriétaire d’une base de données de plus de 20 000 millions de profils. Cette base de données, en constante évolution et actualisation, permet par un système d’apprentissage de repérer des règles d’enrichissement. Ces règles d’enrichissement, ou mini modèles, seront ensuite déployés sur les nouvelles bases entrantes et permettront d’estimer de nouvelles données. Ces données sont utilisées dans le cadre de l' enrichissement de données d'ETIC DATA.
ETIC DATA possède plus de 100 mini modèles propriétaires en constant évolution, apprentissage et actualisation. Parmi eux, on peut citer un modèle d’estimation de l’âge, des revenus, de la composition du foyer, du niveau de vie, du type de logement, …
« A noter que ce processus d’enrichissement est en accord avec la CNIL, la RGPD et les lois relatives à l’interconnexion et au rapprochement des fichiers. »

Une fois les données récoltées et stockées la question qui se pose est de savoir comment les agréger entres elles de la manière la plus juste et la plus efficace possible et créer un Data-Frame sur lequel les algorithmes pourront « apprendre ». Les données récoltées sont de différents types (données brutes, fonction de répartition, scores, …) et nécessitent l’utilisation de plusieurs méthodologies. ETIC DATA en utilise 3 différentes :

  • Une méthode d’agrégation stricte/semi stricte
  • Une méthode d’agrégation par loi de probabilité
  • Une méthode d’agrégation par mini modèle d’apprentissage

Demandez une web démo personnalisée avec nos experts Data