Une fois les données récoltées et stockées la question qui se pose est de savoir comment les agréger entres elles de la manière la plus juste et la plus efficace possible et créer un Data-Frame sur lequel les algorithmes pourront « apprendre ». Les données récoltées sont de différents types (données brutes, fonction de répartition, scores, …) et nécessitent l’utilisation de plusieurs types d’agrégation. ETIC DATA utilise 3 méthodes d’agrégation dans son processus d’enrichissement :

1. Agrégation stricte / semi stricte

Cette méthode est utilisée lorsqu’une seule information est à faire remonter de manière stricte. Il suffit simplement de déterminer quelle clé est à utiliser pour effectuer le lien entre la base à enrichir et la base d’information externe.

Un exemple simple ici est l’enrichissement du sexe en fonction d’un prénom, dans le cas d’un prénom non mixte. La base externe préalablement stockée est la base contenant l’ensemble des prénoms avec pour chacun d’entre eux le sexe (base de données disponible en Open Data) et la clé à utiliser est le prénom (données présente à la fois dans la base à enrichir et dans la base externe). La correspondance se fait de manière stricte (correspondance parfaite) ou semi-stricte dans le cas de données mal orthographiées en utilisant un système par moteur de recherche.

2. Agrégation par loi de probabilité

Cette méthode est utilisée lorsque les données sont stockées sous forme de fonction de répartition, ou loi de probabilité.

Si on reprend l’exemple de l’enrichissement du sexe en fonction du prénom, les données sur les prénoms non mixtes seront mises en corrélation par agrégation stricte comme nous l’avons vu précédemment car une valeur en implique une autre (le prénom Jean donnera toujours le sexe Masculin) en revanche les données sur les prénoms mixtes nécessiteront une agrégation par loi de probabilité. En effet, le prénom Dominique peut être associé à une femme ou à un homme, l’information sera donc stockée sous forme de fonction de répartition de la manière suivante : Dominique {58% M – 42% F}. Cette information peut être gérée de différentes manière. Elle peut être, comme il est fait couramment, transformée en une donnée unique, en conservant la modalité la plus probable (méthode du maximum de vraisemblance) c’est-à-dire Homme car majoritairement présente pour ainsi permettre une agrégation stricte ou bien conservée sous forme de loi de probabilité et dans ce cas-là ce sont les algorithmes qui vont gérer l’intégralité de l’information et effectuer des tirages aléatoires avec poids (dépendant des fonctions de répartition). Dans le premier cas, toutes les personnes ayant pour prénom Dominique, y compris les femmes, se verront attribuer la modalité sexe=Masculin, dans le deuxième cas, certains individus se verront attribuer la modalité sexe=Masculin, d’autres la modalité sexe=Féminin. ETIC DATA a conçu ses algorithmes pour gérer les fonctions de répartition dans leur intégralité, il y a ainsi aucune perte d’information et toutes les modalités sont prises en compte dans chaque modélisation.

3. Agrégation par mini modèle d'apprentissage

ETIC DATA est propriétaire d’une base de données de plus de 20 000 millions de profils. Cette base de données, en constante évolution et actualisation, permet par un système d’apprentissage de repérer des règles d’enrichissement.

Ces règles d’enrichissement sont stockées dans des « mini modèles » et seront ensuite déployées sur les nouvelles bases entrantes et permettront d’estimer de nouvelles données.

Inscrivez-vous à notre newsletter mensuelle "Machine Learning & Data Marketing" et restez informé de nos dernières actualités