connaissanceclient-enrichissement

Connaissance client « augmentée » : comment enrichir un profil utilisateur ?

Enrichissement de données & statistiques pour une connaissance client "augmentée"

Qu'est-ce que l'enrichissement ?

L’enrichissement consiste à aller chercher, sans limitation et sans aucun préjugé, des données complémentaires, provenant de sources externes, qui vont être mises en corrélation avec l'ensemble des données communiquées par les entreprises utilisatrices.

L’enrichissement va permettre de reconstituer le profil et l’environnement d’un individu à partir de simples données, jugées pauvres d’un premier abord.

Les étapes de l'enrichissement de données

Deux étapes principales sont à distinguer dans un processus d’enrichissement.

  • La recherche de sources de données permettant de récolter un maximum d’informations brutes sur un individu.

  • L’utilisation de méthodes statistiques permettant d’agréger ces données entre elles de la manière la plus juste et efficace possible et de les regrouper dans un Data-Frame sur lequel les algorithmes pourront « apprendre ».

L'enrichissement par ETIC DATA

Sources de données

3 sources de données différentes : internes, externes et propriétaires ETIC DATA avec plus de 20 millions de profils stockés et analysés en continu.

En savoir plus

Méthodes d'agrégation

3 méthodes d’agrégation : stricte/semi stricte, par loi de probabilité et par score (résultant de mini modèles en apprentissage continu sur la base de données ETIC).

En savoir plus

D'un data-frame "figé" à un data-frame "évolutif"

En utilisant ces différentes méthodes d’agrégation ETIC DATA a introduit des statistiques dans un système d’enrichissement de base de données permettant ainsi d’obtenir des estimations plus justes et de se distinguer des enrichissements classiques et figés. Les humains évoluent et changent dans le temps et les données qui les caractérisent aussi, ainsi la base de données enrichie n’est plus constituée de données figées comme on a l’habitude de la rencontrer mais « variables », en constante évolution et réapprentissage. Face à cette nouvelle architecture de data-frame « évolutif », ETIC DATA a dû développer des algorithmes spécifiques capables de gérer de la manière la plus pertinente possible ces nouveaux flux de données « vivantes » générés par l’enrichissement.

+1200 variables additionnelles

Au total la phase d’enrichissement permet d’ajouter plus de 1200 variables à la base de données initiale. Ces variables reconstituent de manière très fine, le profil d’un individu, son environnement, son comportement, son évolution uniquement à partir de données externes. Elles sont évolutives et en constant réapprentissage.

L’apport de cet enrichissement couplé à un algorithme adapté peut être mesuré sur les taux de bonne classification (principal indicateur de performance d’un modèle prédictif) qu’il induit. On observe en moyenne une augmentation de 15% de ce dernier suite à la phase d’enrichissement proposée par ETIC DATA (écart mesuré entre le taux de bonne classification obtenu sur base brute et sur base enrichie, moyenne sur 10 études de cas client).

Les limites de l'enrichissement

Actuellement l’enrichissement proposé par ETIC DATA permet d’ajouter plus de 1200 variables, mais il existe une infinité de sources disponibles et ce nombre ne cesse d’augmenter. Cette augmentation est d’autant plus grande que les algorithmes et les méthodologies utilisées permettent de traiter tout type de données, quantitatives, qualitatives, ordinales, structurées, non structurées, …

Équilibre entre enrichissement et robustesse des modèles

Face à cet enrichissement massif et à tant de données on peut se poser la question de la perte de robustesse des modèles qu’il peut induire. En effet, il a été démontré qu’un ajout trop important de données pouvait augmenter la variabilité des modèles prédictifs c’est pourquoi ETIC DATA travaille actuellement sur la notion d’enrichissement intelligent (sujet à découvrir à l'occasion de notre participation au Salon AI). Cet enrichissement permet, suite à une phase de prétraitement des données, de sélectionner pour chaque modèle, parmi l’ensemble des variables disponibles, uniquement les plus pertinentes et de limiter ainsi la variabilité causée par l’utilisation d’un trop grand nombre de variables.

 ETIC DATA vous apporte des solutions concrètes
pour anticiper les mouvements de vos clients :

 
miniature-blog-serge-interview

Interview Serge LARA

La solution d’ETIC DATA est reconnue comme l’une des 7 innovations les plus prometteuses du salon e-marketing 2018. Lors de cet évènement, l’équipe d’ETIC DATA a en effet présenté sa nouvelle plateforme d’analyse prédictive en version bêta lors d’un atelier produit dédié à la connaissance client dont le thème était : « Comment prédire et prescrire l’appétence client sans être data scientist ? ».

Aujourd’hui Serge Lara, Président du Groupe ETIC, prend la parole pour revenir sur la technologie d’ETIC DATA et son partenariat avec l’IMAG ;

Pouvez-vous nous présenter ETIC DATA en quelques mots ? 

ETIC DATA est une start-up créée en 2016 à Montpellier. Elle appartient au Groupe ETIC. ETIC DATA se positionne comme le « pure player » de l’analyse prédictive des comportements clients utilisant l’IA et les Big Data.

Notre solution s’adresse à toutes les directions Marketing et Commerciales soucieuses de mettre en œuvre un dispositif client « data driven » grâce à une connaissance client enrichie et ayant pour objectif d’accélérer l’engagement client. Pour cela, ETIC DATA a conçu des algorithmes spécifiques de Machine Learning de type forêts d’arbres qui sont le fruit de 10 années de R&D. Depuis 4 ans maintenant, ce programme se trouve renforcé par un partenariat avec l’Institut Montpelliérain Alexander Grothendieck. L’IMAG est une unité de recherche commune au CNRS et à l’Université de Montpellier regroupant des chercheurs et des doctorants en Probabilités et Statistique (EPS). L’institut fédère l’essentiel des acteurs de la recherche en mathématiques de la région Occitanie.

Vous nous parlez d’IA et de Machine Learning, mais pouvez-vous nous dire quelles sont les 3 principales spécificités des algorithmes à l’origine des modèles d’ETIC DATA ?

La première spécificité de nos algorithmes réside dans notre processus d’enrichissement intelligent, qui nous distingue des enrichissements classiques. Grâce à cette nouvelle architecture de data-frame « évolutif », nous avons développé des algorithmes capables de gérer de la manière la plus pertinente possible ces nouveaux flux de données « vivantes », générés par l’enrichissement.
Au total, cette phase d’enrichissement permet d’ajouter à la base de données propriétaire, bien plus de variables que les solutions existantes. Ces variables reconstituent de manière très fine, le profil d’un individu selon son environnement, sa CSP, etc... Grâce à notre processus d’enrichissement, les données « First Party » nécessaires à la création d’un modèle sont minimes : 5000 lignes minimum avec 6 champs : nom, prénom, adresse, code postal, ville et adresse mail. Sans oublier la variable cible.

La seconde spécificité de nos algorithmes se situe dans la phase de prétraitement des données, permettant de sélectionner pour chaque modèle, parmi l’ensemble des variables disponibles, uniquement les plus pertinentes. Nous obtenons alors des modèles robustes dont la fiabilité se mesure au travers des résultats concrets obtenus par nos clients : en moyenne nos modèles ont des taux de bonne classification après apprentissage, supérieurs à 80%.

La troisième spécificité de nos algorithmes tient dans le fait qu’ils ne se contentent pas uniquement de prédire les comportements d’achats, mais vont bien plus loin grâce au processus d’inflexion du comportement, dans un contexte dynamique et en temps réel. Cette offre technologique unique crée de la valeur en proposant des recommandations automatisées ultra-personnalisées permettant ainsi d’augmenter l’attrait des individus à faibles appétences, ceux qui sont habituellement mis de côté par les services marketing.

Quels sont les grands projets d'ETIC DATA ?

A la rentrée prochaine, nous lançons officiellement la 1ère plateforme d’analyse prédictive en mode SaaS. Celle-ci permettra d’explorer et d’automatiser les modèles comportementaux les plus pertinents complétant ainsi la chaine de valeur des Directions Marketing « data driven ». L’un de ses points forts est son accessibilité prix qui permet de mesurer rapidement le ROI des actions marketing. Il faut savoir qu’un modèle prédictif est facturé uniquement s’il est validé, c’est-à-dire si ses prédictions sont bonnes à 70% minimum. Pour découvrir en avant-première notre plateforme, notre équipe organise des web démos.

Le deuxième grand projet c’est la création d’un laboratoire de R&D « ETIC DATA Search » pour le premier trimestre 2019. Il permettra de travailler sur les évolutions de la technologie utilisée par nos équipes, mais également de progresser sur les cas qui nécessite des approfondissements technologiques, pour garder un temps d’avance.

Comment l’entrée en vigueur de la réglementation RGPD impacte votre solution ?

Nous sommes « RGPD Compliant ». En effet toutes les données « First-Party » que nous utilisons pour nos modélisations peuvent être anonymisées sans répercussion sur la fiabilité de nos modèles. Pour ce qui est des données utilisées lors de la phase d’enrichissement, celles-ci sont collectées en accord avec les règlementations en vigueur.

Il est aussi important de souligner que les données clients ne font l’objet d’aucun traitement de notre côté, elles sont restituées en intégralité à la société propriétaire à la fin de la modélisation et cela est clairement spécifiée dans le contrat de confidentialité que nous signons avant tout démarrage de projet.

Où pouvons-nous rencontrer l'équipe d'ETIC DATA en 2018 ?

Elle sera présente les 11 et 12 Juin au Salon AI Paris 2018 et animera 2 ateliers sur le thème de « l’enrichissement intelligent » mis au service de la connaissance client. La présentation sera illustrée par des clients avec des résultats business concrets. Vous pourrez également nous retrouver les 7 et 8 Novembre au Salon Customer Relationship & Marketing à Cannes.

Vous souhaitez découvrir la plateforme ETIC DATA ?

 
image-interview-serge-wev

Serge Lara

Président Groupe ETIC

Demandez une web démo personnalisée avec nos experts Data

plateforme

miniature-blog-foret-web

Choix des forêts aléatoires

Sur quelle méthodologie sont basés nos algorithmes ? ETIC DATA vous parle des forêts, principal moteur de ses modèles.

Le choix du bon classifieur :

Le classifieur est le principal outil utilisé pour effectuer les tâches de l’analytique prédictive. Un classifieur est une fonction mathématique qui, au vu du profil d'un individu, va lui assigner la valeur d'une quantité d'intérêt appelée la "cible" (consommateur /non consommateur par exemple) et un score de certitude. Cette valeur cible et ce score vont permettre au décideur de déterminer et de planifier les actions optimales pour cet individu.

Il existe de nombreux classifieurs, plus d'une centaine si on tient compte de leurs variantes, chacun ayant ses forces et ses faiblesses. Parmi les plus connus, on peut citer les réseaux de neurones, les régressions logistiques, les arbres CART ou encore les forêts. La sélection du classifieur le mieux adapté aux objectifs d'une situation spécifique est donc un véritable problème. De nombreuses considérations sont à prendre en compte, allant du type de données disponibles aux objectifs du décideur, en passant par le coût des erreurs potentielles.

Chez ETIC DATA, les données sur lesquelles nous travaillons sont pour la plupart des données concernant des clients, et nous visons à fournir les meilleurs outils pour cerner et anticiper leurs comportements. L'une des caractéristiques dont nous devons tenir compte est la diversité des comportements humains. En effet, les femmes et les hommes changent, évoluent, réagissent et s’adaptent en fonction de leurs particularités. Il faut donc choisir un classifieur capable d'extraire de ces profils complexes les marqueurs spécifiques, les variations subtiles et les indices cachés qui permettent au mieux de prendre en compte ces particularités et d'anticiper ces évolutions.

Pour sélectionner le meilleur classifieur en regard de ces objectifs, ETIC DATA, en partenariat avec le laboratoire IMAG (UMR CMRS 5149) de l’Université de Montpellier, a voulu comparer la pertinence des classifieurs les plus populaires. Après avoir déterminé une liste de 13 critères que devraient rencontrer un « bon » classifieur, les chercheurs d'ETIC DATA et de l'IMAG leur ont attribué des notes.

Et le gagnant est ?

Avec une note de 4.5/5 les classifieurs de type forêt sont ressortis comme étant la meilleure classe d'algorithmes pour répondre aux problématiques clients rencontrées, devançant entre autres la régression logistique (3.88) et les réseaux de neurones (2.75). ETIC DATA a donc choisi d’orienter ses algorithmes vers les classifieurs de type forêt et leurs variantes.

Vous pouvez retrouver l’intégralité de l’étude sur la page suivante : Gille R. Ducharme - CRITÈRES DE QUALITÉ D’UN CLASSIFIEUR GÉNÉRALISTE.

Qu’est-ce qu’un classifieur de type forêt ?

Les premiers classifieurs de type forêt ont été les forêts aléatoires (Random Forest) introduites par Leo Breiman en 2001. Cet algorithme de machine learning est une version ensembliste des arbres CART et fait partie des méthodes les plus précises et les plus efficaces sur le marché. Un classifieur de type forêt présente de nombreux avantages qui ont fortement contribué à leur note élevée lors de notre étude comparative.

Principaux avantages des classifieurs de type forêt :

  • Gestion des données manquantes, massivement présentes dans les bases de données clients

  • Gestion des données de natures mixtes - quantitatives, qualitatives, ordinales … - également caractéristiques des bases de données rencontrées

  • Adaptation à des problématiques de classification, pour prédire une cible catégorielle (client/non-client par exemple) ou pour prédire une variable continue (un prix par exemple).

  • Inclusion d'informations contextuelles, comme les coûts d'erreurs de classification, la présence de niches à faible effectif, etc.

  • Production d'une mesure de l’importance des variables permettant d’avoir une visibilité sur les variables qui influent le plus dans la modélisation

  • Production d'un score qui, après calibration, permet de faire de l'analytique prescriptif, principal axe de développement d’ETIC DATA.

Vous souhaitez en savoir plus sur les forêts aléatoires ?

 

Un arbre de classification CART est un ensemble de règles exécutées en séquence qui permettent à un prospect de voyager depuis la racine de l'arbre au travers de nœuds vers une feuille qui lui assigne une valeur de la cible (client/non client) et un score de certitude. Les règles se logent dans les nœuds de l'arbre et sont de la forme : "si telle caractéristique du prospect est comme ceci, poursuivez dans la branche de gauche de l'arbre, sinon dans celle de droite". La figure ci-dessous représente un arbre permettant d’attribuer la variable cible (consommateur/non consommateur) d’un individu en fonction de diverses données de profil (estimation des revenus, âge, CSP, …).

image-arbre-classification

Limite des arbres de classification :

Les arbres ont de nombreux avantages, mais ont tendance à surajuster les données, ce qui nuit à leur précision quand on les utilise en mode production. Les classifieurs de type forêt sont constitués d'un ensemble d'arbres de tailles et de formes différentes, qui remédient à ce problème. De plus, ces algorithmes ont des capacités prédictives considérablement améliorées: ils donnent un taux d'erreur en général inférieur, et au pire comparable, à celui de la plupart des autres méthodes de classifications inventées à ce jour.

Utilisation d’un classifieur de type forêt en production :

Un prospect passe dans chacun des arbres de la forêt, depuis sa racine jusqu'à la feuille qui lui assigne une valeur temporaire de la cible. La prédiction finale de la forêt se fait par une procédure de vote : la valeur ayant l'effectif le plus élevé parmi les arbres d'une forêt devient la valeur définitivement assignée au prospect. Il existe de nombreuses variantes des forêts d'arbres permettant de les adapter aux spécificités de chaque situation. ETIC DATA a développé une version généraliste offrant d'excellents résultats dans la majorité des cas, avec en option la possibilité d'utiliser des variantes offrant un réglage plus fin selon les besoins.

 ETIC DATA vous apporte des solutions concrètes
pour anticiper les mouvements de vos clients :

 

Auteur

visuel-blog

Maximilien Dossa

Data Scientist

Demandez une web démo personnalisée avec nos experts Data

plateforme

miniature-blog-gilles-ducharme-web

Interview Gilles R. Ducharme Ph.D.

Bonjour Gilles, pouvez-vous vous présenter ? Qui êtes-vous ? 

Je suis professeur à l'Université de Montpellier et chercheur à l'IMAG depuis 1994. L’IMAG est l'Institut de mathématiques de Montpellier. AG, c'est pour Alexander Grothendieck, médaillé Fields de notre laboratoire.

Quels sont vos domaines de recherches en statistiques ?

Mes recherches portent principalement sur la méthode du bootstrap, l'adéquation et la sélection de modèle, la classification par arbre et par forêt d'arbres. Mais également les applications de la statistique et de la data  à la biostatistique, l'écologie, la sécurité numérique et le marketing.

Si vous deviez nous donner un chiffre sur votre carrière ?

Ce serait « 22» parce qu’au cours de ma carrière, j’ai dirigé 22 thèses en statistique, biostatistique et data science. Et j'ai l'immense chance de voir mes étudiants à leur tour faire pour d'autres ce que j'ai fait pour eux, et qu'auparavant, on avait fait pour moi. C'est la grande roue de la vie scientifique !

Quel est votre parcours ?

Après des études post-doctorales à l'Université Berkeley en Californie j’ai été nommé professeur adjoint de recherche opérationnelle à l'Université de Montréal. Ensuite j’ai été promu professeur agrégé de statistique en 1988, pour devenir par la suite, professeur titulaire en 1994.

Après les Etats-Unis et le Canada, vous êtes donc venu à la rencontre de Montpellier, quel est votre rôle au sein de l’Université de Montpellier et de l’IMAG ?

Outre mes activités de professeur et chercheur à l'IMAG, j’ai créé la formation doctorale en biostatistique. En 2007, constatant la montée en puissance du phénomène big data et de la data science, j'ai mis sur pied le master MIND qui vise à former des data-ingénieurs. J'ai été également le directeur du Laboratoire de Probabilité et Statistique de l'IMAG.

Quelle est la genèse de votre partenariat avec ETIC DATA ?

Dès 2012, une des sociétés du Groupe ETIC s'est rapprochée du master MIND pour y recruter des data-ingénieurs, puis des thésards-CIFRE et futurs data-scientists. De ce rapprochement a découlé des sujets de réflexion en lien avec certaines thématiques de recherche de l'IMAG sur des sujets qu’ ETIC DATA souhaitait investiguer pour ses clients et en rapport avec les données dont elle disposait.

 

Vous souhaitez en savoir plus sur Gilles Ducharme ?

 
Gilles Ducharme2

Gilles R. DUCHARME Ph.D.

Professeur chercheur

INSTITUT MONTPELLIÉRAIN ALEXANDER GROTHENDIECK
(IMAG-CNRS) - UNIVERSITÉ DE MONTPELLIER

Venez nous rencontrer :

Salon AI Paris 2018image-plateforme

background-algoruthem-predictif-etic-data

Les algorithmes prescriptifs proactifs au service de la préférence client avec un temps d’avance !

Le stade actuel de développement des data sciences permet de répondre à de nombreuses questions émanant de l'analyse de bases de données. Les questions résolues ayant tendance à en générer de nouvelles, des méthodologies plus fines sont en train d'émerger dans les laboratoires de recherche universitaire en partenariat avec des entreprises de pointe.

ETIC DATA, solution logicielle cognitive du Groupe ETIC spécialisée dans l’apprentissage et l’anticipation des comportements humains avec des taux de bonnes classifications supérieurs aux méthodes actuelles, a noué un partenariat avec le Laboratoire de Mathématiques de l'Université de Montpellier IMAG expert dans un de ces domaines émergeants, l'analytique prescriptive, où l'intelligence humaine et artificielle s'unissent pour créer des outils plus puissants, plus performants et plus précis. Ce dernier vise à apporter des réponses à de nouvelles problématiques et produit des mesures des risques encourus, permettant ainsi de prendre des décisions dans des contextes où l'incertitude est ambiante.

L'analytique prédictive classique a pour objectif de répondre à une question se rapportant à un événement futur, comme, dans un contexte marketing de lutte contre le churn, " Qui, parmi ces individus, présente un risque de désabonnement ? ". Pour y répondre, elle cherche à identifier divers prédicteurs (sexe, âge, revenu, localisation…) permettant la prédiction et à établir les liens entre ces derniers et l’éventuel futur. Ces règles sont stockées dans un objet mathématique (un classifieur) qui permettra par la suite, d’associer à chaque individu qui lui est présenté, son comportement futur le plus probable. Et ensuite ?

Les individus renvoyés par le classifieur dans le groupe « favorable » sont traditionnellement transmis aux services en charge de la relation client au sein des entreprises, et leur avenir ne dépend plus des data sciences. Tandis que ceux renvoyés dans le groupe « Non favorable » sont généralement écartés. Mais les données bien exploitées sont souvent plus riches et, permettent d’aller plus loin que la simple prédiction.

Un pôle en développement de l'analytique prescriptive est l’analyse ProActive. Après avoir déterminé QUI appartient au groupe défavorable, l’ « Analyse Prescriptive ProActive » (APPA) étudie COMMENT éviter cette issue. L’APPA vise à définir une nouvelle stratégie dans le but d’influer sur les comportements et d’amener progressivement, au cours du temps, les individus défavorablement prédits vers le groupe favorable grâce à un dispositif ultra personnalisé dans la stratégie de communication post classification.

 

background-algoruthem-predictif-etic-data

 

Ainsi, l’APPA cherche à identifier les « meilleures » combinaisons de prédicteurs à un instant T pour faire cheminer les individus d’un groupe à faible valeur vers un autre à plus forte valeur. Ces combinaisons sont appelées « chemins d’inflexion ».
L’Analyse Prescriptive ProActive s’inscrit donc dans la continuité de l’analyse prédictive, en amenant la brique cognitive suivante aux solutions prédictives actuelles.

Pour chaque individu, plusieurs « chemins d’inflexion » sont possibles. Une fonction objective minimisant les coûts, temps et efforts est utilisée pour sélectionner les plus pertinents.

L’APPA distingue deux catégories de prédicteurs :
- Les prédicteurs « flexibles », sur lesquels une action est possible comme un média de contact, un texte, une action commerciale, …
- Les prédicteurs « inflexibles », sur lesquels aucune action n’est possible comme le sexe, l’âge, la situation familiale, …

Seuls les prédicteurs flexibles sont pris en compte dans les chemins d’inflexion.

L’APPA s'exerce dans le temps ; ainsi les différentes étapes du chemin d’inflexion sont définies à l’instant T et des points de contrôle permettent de vérifier l’évolution de chaque individu dans le temps. En cas d’écart entre le positionnement vérifié et prédit d’un individu, de nouveaux chemins d’inflexion sont générés et un accompagnement peut être instauré.

visuel-blog

Maximilien Dossa

Data Scientist

ETIC DATA

Demandez une web démo personnalisée avec nos experts Data

plateforme

Vous souhaitez en savoir plus sur la solution ETIC DATA ?

 


logo-etic-data-blc-200-100-web

Inscription à notre newsletter

Inscription à la newsletter

ETIC DATA
244 rue Claude François
34080 Montpellier

contact@etic-data.com

Copyright 2017 © Tous droits réservés