Paul Duan

Connais-tu Paul Duan ? me demande un éminent chercheur qui s’indigne qu’il « prétende faire baisser le chômage de 10% avec une méthode de Big Analytics« . Je réponds non. Et j’ai tort. Une amie m’avait déjà envoyé un article sur lui, en début d’année. J’avais enterré. Pas sérieux. 
Qui est-il ? Présenté comme un « petit génie de la Silicon Valley« . Il semble diriger une sorte d’ONG qui donne dans un sujet à la mode : faire du nudge avec Big Data. Ou comment transformer les sociétés en utilisant des règles sociales inconscientes, détectées grâce à l’analyse de données. 
J’ai regardé sa fiche linkedin. Pour un génie de l’informatique, il a un profil atypique : sciences po Paris. (Il possède aussi une licence de mathématiques.)
En tout cas, il a un don pour la promotion. Il a levé beaucoup d’argent notamment auprès d’un accélérateur de start up, et  de la fondation Gates, il  se dit venu de la misère, alors qu’il a étudié dans un lycée que fréquente le haut du pavé versaillais, et son idée de réduire le chômage français de 10% a frappé la presse.

(PS. D’après ce que l’on m’a dit, l’hostilité de la communauté scientifique à l’endroit de Paul Duan, viendrait de ce qu’il a coûté 1m€ à Pôle Emploi, somme qui aurait pu aller à une entreprise française…)

Machine learning

Que veut dire « machine learning » ? Trouver une bonne vieille droite de régression, c’est du machine learning. La machine a « appris » la droite, qui est « la plus proche » (au sens de la distance que vous avez choisie) de vos données. Dans cette définition « apprendre » n’est rien de mieux que calculer les paramètres d’un modèle que vous lui avez imposé.

Mais cela fait mieux de dire « machine learning » que « software computing » ? Que l’homme se tienne à carreau : il est bien peu de choses par rapport au progrès, et au génie de ceux qui en tirent les ficelles ?

Big Data, c'est du passé ?

Discussion avec un spécialiste de Big Data. Ancien DSI de grosses structures et prof de haut niveau. Les SSII que je connais ne s’intéressent plus au sujet. Selon lui le phénomène serait général. Les plus grands cabinets, qu’il a rencontrés, ne dépasseraient pas le « POC ». Ils ne vendent pas de mission. 
Mais les entreprises ont des données, et essaient de les exploiter, généralement par nécessité. Elles le font avec leurs moyens, sans penser à appeler un spécialiste extérieur. Lui-même, par exemple, ne parvient pas à entrer sur ce marché, en dépit de son expérience, et de son prestige. 
Je me suis demandé pourquoi. Pour les entreprises ce type d’application n’est pas du « big data » ? Trop prosaïque ? On associe « big data » à quelque-chose comme « découverte miraculeuse » ? Si oui, ce serait un cas vraiment curieux. Pour vendre Big Data et data scientists on a cru bon de faire une publicité excessive. Elle aurait totalement fermé un marché pourtant existant !

A-t-on besoin de data scientists ?

Le problème que pose le data scientist est celui des aveugles et de l’éléphant. Le data scientist est un ritualiste du chiffre. Il ne comprend pas ce qu’il signifie. Je me fiche de ses descriptions hyper précises. Je veux savoir que je suis en face d’un éléphant. Même sa taille exacte m’indiffère.
Un exemple concret. Analyse du fichier du Titanic. Un algorithme finit par trouver les règles suivantes pour expliquer qui a survécu : (personne de 9 à 35 ans, classe 1) ; (homme accompagné de 0 ou 1 adulte) ; (femme en classe 1 ou 2) ; (femme de 26,5 à 60 ans) ; (femme de 22 à 24 ans) ; (femme accompagnant de 0 à 2 enfants) ; (personne de 0,167 an à 6 ans accompagnée de 0 à 3 personnes) ; (femme accompagnant 1 personne). 

J’analyse le même fichier avec mes petits moyens. Je tire une règle : « les femmes et les enfants d’abord ». C’est peut-être moins juste que ce que produit la science de la donnée, mais ça m’est utile à comprendre ce qui s’est passé.

Big Data amplifie les inégalités

« Une question : étant donné que tout change très vite et qu’aujourd’hui est différent d’hier, sans parler de demain, quel crédit peut-on accorder à une prédiction qui s’appuie sur des faits d’hier ? » me dit-on, au sujet de Big Data.
Voilà le problème avec Big Data et le data scientist. De plus en plus, d’ailleurs, on craint que Big Data n’amplifie les inégalités. Non seulement, il y aura ceux qui savent l’utiliser et les autres, mais, par définition, utiliser Big Data, c’est conduire le dos au sens de la marche. C’est reproduire le passé dans l’avenir.
La solution, c’est l’homme et l’anomalie. Il y a un type d’algorithme qui cherche l’exceptionnel, et pas à décrire le normal. L’exceptionnel, c’est le nouveau qui émerge, ou qui mériterait d’émerger. Par exemple, oui, le manager est mauvais, mais il en existe aussi de bons. Et si l’on généralisait leurs « bonnes pratiques » ? 
Pour utiliser ces algorithmes, il faut l’esprit humain. C’est lui qui va transformer des données incompréhensibles en une intuition qui fait du sens, et qui est robuste. En fait, elle l’est parce qu’elle lui donne envie d’agir, et qu’en agissant il va faire aller l’avenir dans la direction qui lui convient.

Big data pour les nuls

Je me suis fait prendre au jeu. Je suis tombé sur une vidéo d’un cours d’analyse de données, et de fil en aiguille, j’ai regardé toute la série (de l’ordre de 4h).
Le cours porte sur WEKA, un logiciel développé par l’université de Waikato (Nouvelle Zélande). (https://www.youtube.com/user/WekaMOOC.) Il est donné par un professeur irlandais, qui a fait ses études au Canada.
Ce que j’en déduis :
Il y a maintenant des outils, comme Weka, très simples à utiliser, qui demandent peu de connaissances mathématiques, et très puissants. Aussi, caractéristiques d’un cours à l’anglo-saxonne. En France, on cherche à vous faire croire que l’équation gouverne le monde, les Anglo-saxons partent de la pratique. En éliminant la complication, ils en arrivent à la vraie complexité, à savoir que ces techniques ne font pas de miracles, et demandent une grosse rigueur intellectuelle pour que la science ne ruine pas l’âme.
L’analyse de données est essentiellement une question de prédiction. A partir d’observations passées, on cherche à savoir ce qui va arriver. Alternativement, il s’agit d’aide à la décision : quels sont les facteurs de risque de tel ou tel cancer ? par exemple.
On parle aujourd’hui de « machine learning » (apprentissage automatique). Mais « learning » est trompeur. Contrairement à l’homme qui procède par « coup de génie », qui comprend, par exemple, comment marcher, ou qui invente de nouveaux jeux, ou la notion de jeu, le logiciel ne fait qu’appliquer des modèles prédéfinis. Il n’invente pas de nouveau modèle. Il est déterminé. Machine learning, c’est du marketing. Le marketing, tel qu’on l’entend aujourd’hui, est la plaie d’Internet, et de l’économie de marché.
Il y a différents types de techniques : arbres de décision, segmentation, régression… Leur performance est peu impressionnante. Dans l’ensemble elles permettraient de faire juste dans 3 cas sur 4. Ce taux n’est pas très élevé, pour deux raisons. 1) Il existe généralement une méthode évidente de prévision, et elle marche généralement dans un cas sur deux. (Exemple : le temps de demain sera celui d’aujourd’hui.) ; 2) lorsque l’on doit diagnostiquer un cancer, une chance sur 4 de se tromper, c’est beaucoup…

La France est-elle capable de penser ?

Le fils d’un ami, qui fait un doctorat au MIT, se retrouve avec 5 polytechniciens et un major de l’agrégation de maths… Le MIT est devenu la Mecque de l’élite scientifique française. L’option Mathématiques appliquées de Centrale aurait été renommée data science ! Mais les mathématiques ça n’a rien à voir avec la donnée numérique. Les mathématiques c’est la volonté démente de comprendre le monde. La donnée numérique c’est de l’anecdote, un infâme bricolage. Cela mérite autant le titre de science que le socialisme scientifique de Marx. C’est du marketing.
Mais il y a pire. Au moment où la France s’engage dans la data science comme un seul mouton, Big Data est en plein reflux. Qui va paraître stupide, bientôt ? 
Mais qu’est devenue la France ? Hier elle explorait en pionnière le progrès. Maintenant, elle absorbe les idées des autres sans les comprendre.

Les vertus cachées de data analytics

Les hasards de la vie font que je me retrouve au milieu de gens qui brassent des données. L’enseignement majeur que je tire de cela, c’est que ces données sont incompréhensibles. Car incohérentes. Cela vient de l’homme. Il ne savait pas trop ce qu’elles signifiaient, et il a entré n’importe quelle donnée, ou pas loin. 
Et pourtant ce travail n’est pas sans intérêt. Car, en essayant de comprendre les données, on fait une enquête. Et, chemin faisant, on trouve des idées. Et elles n’ont plus besoin de chiffres. 
Par exemple, pourquoi autant d’accidents du travail ? Données incomplètes et sans intérêt. Pourquoi certains accidents ne sont-ils pas déclarés en accident du travail, mais affublés d’un nom bizarre, d’ailleurs ? Au fait, beaucoup de gens ont-ils changé de métier chez vous ? Oui ? Les gens ont-ils été formés à leur nouveau métier ? Non ? Et si l’on tentait de le faire ?