1. Les données internes - First Party Data

Dans le processus d'enrichissement de données, les données internes sont utilisées. Il s’agit des données disponibles au sein de l’entreprise tels que les données clients, de transactions, comportementales, récoltées par enquête de satisfaction, formulaire d’inscription, rapports d’activité... Elles supposent un archivage rigoureux et une accessibilité aisée pour être rassemblées et mises à profit. Le principal travail à effectuer sur ces sources de données consiste à les nettoyer, vérifier leur véracité et rechercher les clés qui les lient entres elles. Une étape très importante est également de sélectionner parmi ces données, lesquelles seront utilisées pour la construction du modèle prédictif. En effet, l’utilisation de données trop spécifiques à l’entreprise dans une analyse va limiter l’utilisation du modèle prédictif à ces mêmes données. Pour fonctionner, le modèle prédictif créé doit obligatoirement être utilisé sur des bases de données contenant les mêmes données que celles qui ont permis sa construction. Ainsi, construire un modèle sur des données spécifiques à l’entreprise limitera son utilisation sur des bases de données internes à l’entreprise. Le choix des données internes utilisées dans la construction du modèle est donc une étape extrêmement importante. ETIC DATA propose de construire des modèles en utilisant uniquement 6 données internes : un nom, un prénom, une adresse, un code postal, une ville et une adresse mail. La justification du choix de ces variables réside dans le fait qu’elles sont les plus courantes et que de ce fait les modèles pourront être déployés sur un très grand nombre de bases de données, y compris des bases externes à l'entreprise et très peu qualifiées. Ces 6 données vont permettre en revanche la mise en corrélation de plus de 1200 données complémentaires, issues de sources externes et propriétaires.

2. Les données externes - Third Party Data

Il s’agit de données pouvant être obtenues gratuitement ou au prix d’un droit d’accès auprès de centres d’information généralistes ou spécialisés tels que l’INSEE. Le but de l’enrichissement de données ETIC DATA est d’en rechercher le plus grand nombre, sans aucun a priori, afin de permettre aux algorithmes la découverte de corrélations qui n’ont pu être observées jusque-là. Ces corrélations n’auront pas forcément d’explications rationnelles dans le contexte de l’entreprise utilisatrice et viendront apporter de nouvelles connaissances. En effet, des données qui semblent pour certaines sans relation avec l’acte d’achat ou le comportement des clients vont peut-être se révéler comme fondamentales dans les résultats obtenus. Il est donc important d’enrichir de tous types de données, sans aucune limite et a priori. Grâce aux nouvelles politiques « open data », un grand nombre de sources de données sont rendues accessibles et peuvent être récupérées de manière libre. Le principal travail consiste à les dénicher (même si penser à toutes relève de l’impossible), à développer des systèmes permettant de les extraire de manière automatique, à les stocker et les maintenir à jour en permanence. Parmi les différentes sources de données externes auxquelles ETIC DATA vient se connecter on peut citer l’insee, l’inpi, infogreffes, data-gouv, météo France, … C’est à partir de ces différentes sources de données que ETIC DATA va créer, pour chaque modélisation plus de 1000 variables d’enrichissement. Quelques exemples de catégories de données enrichies :

  • Données liées au profil, à l’activité, logement, structure des familles, études et formations, ….
  • Données liées à l’environnement : Impôts, risques, criminalité, réseaux/internet, points d’intérêts, …
  • Données liées à l’évolution des structures : famille, logement, activité, formation, population, …
  • & données météos, données de distances, données d'évènements, données médias
3. Les données propriétaires - ETIC DATA

ETIC DATA est propriétaire d’une base de données de plus de 20 000 millions de profils. Cette base de données, en constante évolution et actualisation, permet par un système d’apprentissage de repérer des règles d’enrichissement. Ces règles d’enrichissement, ou mini modèles, seront ensuite déployés sur les nouvelles bases entrantes et permettront d’estimer de nouvelles données. Ces données sont utilisées dans le cadre de l' enrichissement de données d'ETIC DATA.
ETIC DATA possède plus de 100 mini modèles propriétaires en constant évolution, apprentissage et actualisation. Parmi eux, on peut citer un modèle d’estimation de l’âge, des revenus, de la composition du foyer, du niveau de vie, du type de logement, …
« A noter que ce processus d’enrichissement est en accord avec la CNIL, la RGPD et les lois relatives à l’interconnexion et au rapprochement des fichiers. »

Une fois les données récoltées et stockées la question qui se pose est de savoir comment les agréger entres elles de la manière la plus juste et la plus efficace possible et créer un Data-Frame sur lequel les algorithmes pourront « apprendre ». Les données récoltées sont de différents types (données brutes, fonction de répartition, scores, …) et nécessitent l’utilisation de plusieurs méthodologies. ETIC DATA en utilise 3 différentes :

  • Une méthode d’agrégation stricte/semi stricte
  • Une méthode d’agrégation par loi de probabilité
  • Une méthode d’agrégation par mini modèle d’apprentissage

Demandez une web démo personnalisée avec nos experts Data