Pour les entreprises d’aujourd’hui, en pleine mutation et transformation digitale, prendre le tournant du Machine Learning, mais également du Big Data et de l’Intelligence Artificielle est primordial pour anticiper les évolutions de leur marché et prendre un temps d’avance sur leurs concurrents. Comme nous le rappelle "Les Echos", dans le domaine de l'IA aujourd'hui, il faut penser vite et voir grand pour créer l'écart avec ses concurrents.

Pour les équipes opérationnelles (marketing, commerciales...) l’analyse des données et les algorithmes de modélisation prédictive constituent un véritable outil d’aide à la prise de décision permettant ainsi d’intégrer une « brique » cognitive aux dispositifs existants.

Maximilien Dossa, Data Scientist au sein d'ETIC DATA nous éclaire sur la notion de Machine Learning, très souvent employée aujourd’hui mais parfois complexe à comprendre.

 

1/ Quelle est la tendance en matière de Machine Learning ?

En plein dans le phénomène du Big Data, on assiste à l’utilisation conjointe de quantités massives d’informations et d’algorithmes d’apprentissages. Ce duo rend possible la solution de problèmes considérés il y a peu comme inaccessibles.
Grâce au progrès récent du Machine Learning, des programmes sont aujourd’hui capables de réaliser de nombreuses tâches. Par exemple, il peuvent agir dans le domaine médical pour des diagnostics ou encore identifier des parcours d'achat.
L’approche par le Machine Learning fait le pari qu’il est possible de construire des systèmes autonomes. Ceux-ci sont « éduqués » sur la base d’un corpus d’exemples pertinents, permettant de caractériser toutes observations ou comportements humains.

2/ Les principes généraux du Machine Learning

Le principe du Machine Learning est de prédire un phénomène à partir d’observations passées. Il cherche à découvrir, de manière autonome, des corrélations significatives dans un jeu d’observations entre un fait (un acte d’achat par exemple) appelé la cible et diverses données (âge, sexe, profession…) appelées variables. Ces corrélations sont stockées dans un objet mathématique, un classifieur et l’ensemble forme un modèle prédictif.

 

3/ L’importance d’avoir un processus de Machine Learning « robuste »

La qualité du classifieur, ou du modèle prédictif, dépend de la robustesse des règles détectées. Pour extraire des règles robustes il faut d’une part avoir des données riches afin de pouvoir en observer le plus grand nombre. D’autre part il faut pouvoir analyser chacune d’entre elles pour stocker uniquement les plus pertinentes. La réussite d’un processus de Machine Learning réside donc à la fois dans la qualité et la richesse des données observées. Mais également dans les méthodologies statistiques utilisées pour analyser chacune de ces observations.

 

4/ Un facteur influençant : la richesse des bases de données

Caractéristiques des bases de données

Pour permettre la construction de modèles prédictifs robustes les bases de données doivent être « riches », c’est-à-dire être composées à la fois de variables de profils et de variables comportementales. Malheureusement ces bases de données sont coûteuses et sont de ce fait rares.

Contexte d'analyse de comportement humain

Dans le contexte d’analyse de comportement humain qui est le nôtre, il est courant d’avoir, dans une base de données un nom, un prénom ou une adresse postale mais très rare d’avoir des informations sur l’âge, la composition du foyer ou encore la profession d’un individu. Les données disponibles ont généralement un faible pouvoir discriminant et ne permettent pas aux algorithmes d’exprimer leur pleine puissance. Pour pallier cet inconvénient, il faut aller chercher des données ailleurs, dans des sources externes et utiliser des méthodologies d’enrichissement permettant de les exploiter au mieux.

 

5/ La stratégie d’ETIC DATA

Méthodologies du Machine Learning

En fonction des problématiques traitées il existe plusieurs méthodologies envisageables. Parmi les plus courantes, on peut mentionner les réseaux de neurones, les machines à vecteurs de support, les arbres de classification ou encore les forêts aléatoires.

Choix des forêts aléatoires

ETIC DATA a fait le choix des algorithmes d'apprentissage se basant sur le principe des forêts aléatoires. En effet, elles sont particulièrement bien adaptées dans le contexte marketing d’analyse de comportement. Ces méthodes se sont beaucoup développées ces dernières années et sont devenues très performantes au point que certains pensent maintenant qu’elles ont atteint un plateau en termes de résultats. Partant de ce constat, le principal levier pour augmenter la robustesse des analyses de Machine Learning réside dans les données utilisées.

Technologie-ETIC-DATA

Source : ETIC DATA

Auteur

visuel-blog

Maximilien Dossa

Data Scientist

La data science au service de la connaissance client

image-3-page-partenaire-

Demandez une web démo avec nos experts Data

plateforme

Retrouvez-nous sur le salon CRM de Cannes les 7 & 8 novembre

logopagesaloncrm

Partagez sur :

Vous souhaitez en savoir plus sur la technologie ETIC DATA ?