Data driven change

Il y a quelques temps, j’ai découvert le terme « data driven ». C’est peut-être une innovation majeure. Jusqu’ici l’analyse de données partait d’hypothèses, de modèles. Les hommes des Lumières semblent avoir cru que le monde obéissait à des lois que l’esprit humain pouvait saisir. Ensuite, c’était à l’expérience de mettre au point le modèle. « Hypothesis driven » semble partager cette idée.

Avec le « data driven », pas d’hypothèse. Le « data driven » repère des anomalies sans que vous n’ayez rien à lui dire. Et cela a un bénéfice colossal : c’est le changement. Hypothesis driven ne voit pas apparaître la nouveauté. Or, c’est elle qui a, de loin, le plus de valeur. Car c’est le changement qui nous fait et nous défait. Comme disait Maurice Lévy, de Publicis: les modes viennent des marges. (Ainsi que les Macron ou les de Gaulle !)

Malheureusement, peu de logiciels sont data driven. Déjà, selon les « datas » que vous mettez dans l’algorithme, il vous « drivera » d’un côté ou d’un autre. Ensuite, les dits datas ne représentent pas la réalité, mais un échantillonnage de celle-ci. (Par exemple l’atmosphère d’un jour d’été ne se ramène pas à la mesure de la température et de l’hygrométrie en un point donné.) Enfin, j’ai de plus en plus l’impression que les algorithmes font des hypothèses plus ou moins bien cachées. (La structure de l’algorithme, elle-même, tend à biaiser le résultat.)

J’en suis arrivé à penser qu’une forme de data driven est possible. A condition de renoncer à l’algorithme « boîte noire » (ou « non interprétable »). En effet, la collaboration entre l’homme et la machine permet de naviguer dans un monde de données incomplètes. L’algorithme cherche les anomalies, l’homme leur cherche une interprétation, qu’il teste ensuite. Curieusement, il est encore question d’hypothèse. Peut-être est-ce la façon de penser de l’homme ? Mais l’hypothèse n’est pas première, elle résulte de l’analyse.

Exhausteur, métier d'avenir ?

Dans un billet, je disais que l’on était passé de l’hypothesis driven au data driven. (et du français à l’anglais). Je développe, et m’interroge : révélateur d’un changement social ?…
Pour prévoir le résultat d’élections, les instituts de sondage partent d’une hypothèse : il y a dans la population e1 électeurs qui comptent voter pour le candidat c1, e2 électeurs qui comptent voter pour le candidat c2, etc. Ensuite, par un tirage aléatoire on estime ces valeurs. On applique pour cela la théorie des probabilités. Cela ressemble à : sachant qu’il y a b boules blanches et n boules noires dans un saladier, si je tire t boules, combien en trouverais-je de noires et de blanches ? Avant le « data driven », il y avait « l’hypothesis driven ». Cela avait des conséquences :

La fin des certitudes ?

Le cas des primaires des Républicains en montre une première. La population qui allait voter était inconnue. Du coup, les sondeurs savaient qui gagnerait si les adhérents républicains votaient (M.Sarkozy), ou si c’était le pays (M.Juppé), mais pas ce qui se passerait dans les conditions de la primaire. Mais surtout, on n’est plus dans le modèle des boules de couleur. Nous sommes devenus des caméléons, nos couleurs changent sans cesse, y compris celle de l’abstention. Les électeurs sont, d’une certaine façon, clientélistes. Désormais, ce qu’il faut comprendre, ce sont les « couleurs émergentes », ce qu’il y a de nouveau. 
Les démocrates furent victimes de leurs hypothèses. Ils pensaient que certains électeurs ne voteraient jamais pour M.Trump, et que l’électeur voulait un président compétent. Or, si l’on regarde les sondages d’après vote, on voit deux bizarreries. Même l’électeur qui a voté pour M.Trump ne le considère par compétent. Ce qu’il voulait, c’était du changement. Par ailleurs, contrairement aux élections précédentes, le mécontentement avait cru dans le camp des votants du parti au pouvoir plutôt que dans celui de ceux de l’opposition. 

De la certitude au doute et du sondeur à l’exhausteur
Le « data driven » n’est qu’un effet d’un changement social. Notre monde est devenu incertain. Nous entrons dans l’ère du doute ! Avant de décider, il faut étudier la question, avec humilité. Ce qui va demander, pour commencer, une révision déchirante aux instituts de sondage. En effet, par définition même, le « sondage », l’échantillonnage, ne fonctionne plus. Il faut collecter une information exhaustive et systémique. Le sondeur doit devenir exhausteur.

Facebook et le data driven

On reproche à Facebook d’avoir fait élire Donald Trump. Facebook désinforme. 
Il me semble que c’est une question de « data driven » mal compris. L’algorithme de Facebook fait comme celui d’Amazon. S’il constate que vous regardez quelque chose ou avez des liens avec quelqu’un, il vous en ressert de plus en plus. C’est ainsi qu’il va vous inciter à reprendre contact avec vos « ex » ou à acheter, pour Amazon, des produits dont vous n’avez pas voulu. Et si Facebook vous identifie comme un facho, il va vous envoyer de la nouvelle pour facho. 
Le vrai « data driven », comme je le disais précédemment, lui, ne vous enfonce pas dans vos vices, mais vous pousse à la remise en cause. Qu’est-ce que cela signifie, en pratique ? Il va identifier des anomalies dans ce que vous faites. Par exemple, vous êtes un écolo, et un collectionneur de vieilles bagnoles qui consomment du 20l aux 100. Ensuite, il va vous donner les moyens d’enquêter. Par exemple, comment se sont guéris ceux qui furent atteints de mon mal ?

Data driven

Big data, analyse de données, machine learning, data mining… vous êtes paumés ? Dîtes « data driven ». Pour JF Marcotorchino, c’est cela le sens de l’histoire. Hier les statistiques étaient « hypothesis driven ». On présupposait un modèle, et l’exercice d’analyse consistait à le paramétrer. Par exemple, on partait de l’idée que la taille d’une population était distribuée selon une loi de Gauss, et on calculait les paramètres de la loi. Le « data driven » ne fait plus d’hypothèse. Cela a des conséquences révolutionnaires. Et incomprises.
Exemple d’application ? M.Fillon. Les sondages croyaient connaître la population qui allait voter à la primaire des Républicains. Raté. On était dans le champ du data driven, pas des statistiques ordinaires. Mais même dans le cas de la primaire de la gauche, le data driven peut-être utile. En effet, son propre est de repérer des « anomalies ». Et ces anomalies ne sont autres que l’apparition de changements. De nouvelles tendances, qui peuvent être des occasions à exploiter. Le data driven ne fait pas votre travail, à votre place, comme on nous le dit. Au contraire, il détecte des problèmes imprévus. A vous de les résoudre. Impossible de dormir avec ce machin.