Nos modèles de data science prédictifs s'appuient sur le concept des « algorithmes cognitifs à évolution rapide »

Nos algorithmes comportementaux se basent sur le principe des forêts aléatoires auto génératrices auxquelles sont intégrés des concepts proches du « vivant » permettant d’obtenir des probabilités toujours plus robustes et un scoring client de qualité.

Nos algorithmes prescriptifs ont été conçus par notre équipe de data scientists en partenariat avec l’Institut montpelliérain Alexander Grothendieck (IMAG) rattaché à l’Université de Montpellier.

Une connaissance client affinée grâce à un enrichissement massif et intelligent des data !

Pour obtenir des modèles de marketing prédictifs fiables, nos experts en data science ont fait le choix d’inclure une phase d’enrichissement massif aux process de machine learning.

L’enrichissement consiste à aller chercher, sans limitation et sans aucun préjugé, des données complémentaires issues de sources externes à l’entreprise : jusqu’à 1200 variables au total ! Une fois mises en corrélation avec l'ensemble des données 1st party communiquées par les entreprises-utilisatrices, elles peuvent alors révéler des tendances fondamentales dans les résultats obtenus.

La pertinence des modèles de data science dépendant fortement des données (ou facteurs) qui les nourrissent, cette opération est cruciale et permet aux algorithmes ETIC DATA d’exprimer toute leur puissance.

La construction d'un modèle prédictif a pour but d'associer chaque individu à sa cible en fonction des divers facteurs présents dans la nouvelle base de données enrichie.

L'étape de création de ces différents facteurs par un processus d’enrichissement est donc stratégique.

La mégabase ETIC DATA est connectée à de multiples sources, bases big data, open data, INSEE, INPI, Infogreffe, bases privées, réseaux sociaux, zones Iris... À partir de ces sources externes et de ses propres mini-modèles probabilistes, ETIC DATA crée, pour chaque modélisation, ses propres valeurs pertinentes.

Nos modèles fonctionnent ainsi sur tous types de bases de données, externes à l'entreprise et non qualifiées.

Une base de données évolutive

Chez ETIC DATA, les données sur lesquelles nous travaillons sont pour la plupart des données concernant des « humains » et l'une des caractéristiques dont nous devons tenir compte est la diversité des comportements.

En effet, les femmes et les hommes changent, évoluent, réagissent et s’adaptent en fonction de leurs particularités. Les données stockées qui les caractérisent doivent donc en faire autant. Ainsi, il n’est plus question de prendre en compte une base de données figée, mais une base de données évolutives selon divers facteurs : environnement, influences, tendances, météo…

Pour exploiter de telles données les algorithmes ETIC DATA ont été redéveloppés dans un langage probabiliste « le probabilistic programming » permettant ainsi de créer des modèles qui prennent des décisions à partir d'observations en temps réel.

Des milliards de combinaisons sont testées en permanence pour fournir des résultats toujours meilleurs en temps réel

Les forêts aléatoires évolutives vont venir croiser l'ensemble des données entre elles, quel que soit leur type : quantitatives, qualitatives, ordinales ou encore supervisées, non supervisées, afin d'identifier les combinaisons à plus fortes valeurs et les stocker dans un modèle prédictif évolutif.

Grâce à un apprentissage continu, dont la durée peut varier entre 3 et 4 mois, le système analyse de façon répétée les données et génère avec fiabilité la meilleure réponse à la question initiale.

Chaque question posée au système génère un modèle spécifique. Notre solution ETIC DATA créée ainsi autant de modélisation qu’il y a de questions.

modele-predictif-etic-data

La pertinence des concepts "Vrais positifs" et "Vrais négatifs" en data intelligence

La qualité d’un modèle de classification en data science se mesure par ses probabilités de bonne classification. Cependant un "bon" taux de bonne classification général peut parfois cacher des résultats insatisfaisants.

Exemple : « si la base de données à partir de laquelle le modèle « acheteur / non acheteur » est créé contient moins de 20% d’acheteurs, il suffit que le modèle classe tous les individus dans le groupe non acheteurs pour avoir un taux de bonne classification général de 80 % ».

En conséquence, les taux de bonne classification de nos modèles ETIC DATA s’expriment en termes de taux de "vrais positifs" (individus bien classés répondant positivement à la question) et de taux de "vrais négatifs" (individus bien classés répondant négativement à la question). Ce n’est qu’une fois ces deux indicateurs validés en termes de performance que le modèle est confirmé.

Notre processus de modélisation en 5 étapes

Que souhaitez vous connaître de vos cibles ?

ÉTAPE 1

etape-un

Extraction aléatoire d'un échantillon de votre base de données

La variable cible répondant à votre question doit être observée dans l'échantillon transmis. Vos données peuvent être anonymisées conformément à l’approche « Privacy by Design ». Cette 1ère étape inclut la phase de data cleaning.

separateur-blc-ombre1

ÉTAPE 2

Enrichissement massif et intelligent des données

C'est à partir d'une multitude de sources disponibles Open Data, Big Data et mégabase spécifique ETIC DATA que nous allons recréer un ensemble intelligent de données pertinentes pour chaque modélisation.

Notre mégabase comprend 170 ans de données issues de 100 pays. Lire la suite...

separateur-gris-ombre1

ÉTAPE 3

etape-trois

Création de la base d'apprentissage et test du modèle

La base d’apprentissage est constituée de 75% des données propriétaires transmises par l’entreprise. Nos algorithmes de data intelligence analysent de façon répétée les données du passé pour extraire le modèle prédictif spécifique à la question. La réponse à la question posée doit être observable dans cette base d’apprentissage.

La base de test est constituée des 25% des données restantes. La variable réponse est supprimée puis retrouvée par le modèle. La réponse renvoyée est ensuite comparée à la réalité. Cette comparaison permet l’obtention d‘un premier indicateur de performance évaluant la fiabilité du modèle.

separateur-blc-ombre1

ÉTAPE 4

etape-quatre-2-2

Apprentissage du modèle prédictif spécifique à la question (3 à 4 mois)

Cette étape est cruciale. Elle va permettre aux modèles de se stabiliser et de gagner en performance.

Sur une période de 3 à 4 mois, à fréquence régulière, les opérations suivantes sont alors exécutées :

• Test de modèle sur la base test
• Analyse de la performance
• Régénération des modèles (pour stabilisation des performances)
• Validation des modèles dès que les résultats obtenus sont supérieurs à ceux constatés habituellement.

Si suite à la phase d’apprentissage, le résultat est inférieur à 70%, c'est qu'une ou plusieurs variables significatives permettant de caractériser votre cible n'ont pas encore été observées. Dans ce cas, de nouveaux enrichissements s'opèreront jusqu'à l'obtention des résultats recherchés.

separateur-gris-ombre1

ÉTAPE 5

Déploiement du modèle prédictif

La modélisation est validée, car elle obtient un score de fiabilité minimum de 70%. Le modèle prédictif peut alors être déployé sur tout type de base de données (même très peu qualifiée) et permettra de renvoyer le score d'appétence de chaque individu, correspondant à la question posée. Plus le score est élevé plus l'individu est susceptible de répondre positivement à la question.

Grâce à ce score, vous pouvez classer vos individus selon leur potentiel business, qu’ils soient déjà clients ou simples prospects, et accélérer la transformation des actions en vous concentrant uniquement sur les bonnes personnes, et ce même en l’absence d’intention explicite !

« Le livre de l’Univers est écrit en langue mathématique »

Galilée