Vieillesse

A 60 ans, on est affecté de tous les maux de la terre. C’est ce que m’apprend la publicité d’Internet. 

C’est, certainement, un des résultats remarquables de l’usage de l’intelligence artificielle. Grâce à toute l’information qu’il est possible de capter sur Internet, ses algorithmes choisissent les publicités qui nous sont appropriées. 

C’est, certainement, ce qui prouve l’intelligence de l’intelligence artificielle. Car la plupart de ceux qui nous gouvernent ont bien plus de 60 ans. Et, eux, ne se sont jamais sentis aussi jeunes. Et que dire de la génération 68, qui s’y j’en crois Le Monde, clame que sa puissance sexuelle est à son zénith ? Ce qui démontre que l’IA a bien compris que je n’appartenais pas au segment des dominants… 

La raison et la donnée

La gouvernante de Proust raconte ses souvenirs. Quelques temps plus tard, j’entends une comédienne lire ses paroles. Rien à voir. Tout le drame a disparu. 

C’est la question de l’interprétation. Avec le même texte, avec les mêmes notes de musique, on peut faire des choses complètement différentes. 

Pourtant, ce n’est pas ce que nous ont dit les scientifiques et les ingénieurs. Pour eux, les données, c’était tout. Il est curieux que l’humanité entière puisse gober de telles sottises. Sera-ce toujours le cas, ou les philosophes des Lumières auront-ils le dernier mot ?

IA, Big Data : mythes et réalités

J’ai placé chez Slideshare le livre blanc de Jean-François Marcotorchino. C’est le regard d’un mathématicien sur ce que l’on appelle aujourd’hui « Intelligence artificielle et Big Data ». Ce mathématicien a une double légitimité : celle d’avoir été longtemps acteur dans l’univers industriel (IBM et Thales) et chercheur académique et enseignant universitaire en France et en Europe.

Que dit-il ? Que, pour le moment, nous sommes en train de vendre la peau de l’ours avant de l’avoir tué. Même si l’ours est gravement blessé, il est loin d’être mort. Nous ne sommes pas capables de réaliser toutes les promesses que l’on nous a faites et que l’on est en train de nous faire. Plus précisément, utiliser les techniques d’I.A. et de Big Data demande de se confronter à cinq « antinomies », qui en limitent singulièrement la portée : « pour l’avenir, l’évolution réelle se trouve obérée par cinq problématiques structurelles. Toute réflexion devra d’une manière ou d’une autre en tenir compte et essayer de les résoudre au moins celles qui sont les moins ambigües si l’on souhaite réellement déboucher sur des ruptures. » Faire un pas vers cette innovation de rupture demandera des mathématiciens de très bon niveau. Or, beaucoup des nôtres, qui étaient et sont encore parmi les meilleurs au monde, nous quittent petit à petit appelés par les sirènes dollars ou yuans.

Cependant, les techniques dont parlent les journaux ne sont pas les seules qui puissent nous concerner. En effet, il y a eu « démocratisation ». Des outils extrêmement puissants sont maintenant accessibles par quasiment n’importe qui. C’est là que se trouve, pour la grande majorité des entreprises, donc pour l’économie, le levier d’un changement potentiellement radical.

IA et Big Data : par où commencer ?

IA et Big Data, par où commencer ? Une question que suscite une vidéo que j’ai tirée d’un cours du professeur JF. Marcotorchino. La question porte sur le contrôle de gestion. Si l’on remplace contrôle de gestion par la discipline qui vous intéresse, il n’y a rien à changer à ma réponse :

Que dit la vidéo ? La façon dont on nous parle de l’IA et de Big Data est trompeuse. Big Data et l’IA ne font pas de miracles. 

Voilà la méthode que nous recommandons pour les utiliser : 

Il faut vouloir résoudre un problème pratique. (Exemple : pourquoi mon entreprise n’est-elle pas rentable ?)
Ensuite, il faut formuler mathématiquement cette question. Pour cela, il faut travailler avec un mathématicien. Il vous dira s’il existe un algorithme utile. Sinon, il faudra trouver une autre formulation.
La difficulté ? Le mathématicien ne parle pas notre langue. Il faut lui faire comprendre ce qu’est une entreprise. Lui doit vous faire comprendre ce que peuvent et ne peuvent pas faire les mathématiques.
Comment apprendre la langue du mathématicien ? Le livre « data mining » de Ian Witten est très bien écrit. Il est associé à un logiciel téléchargeable gratuitement. Vous trouverez aussi des vidéos de Ian Witten sur YouTube. (Taper « Weka ».) Une fois que vous saurez utiliser ce logiciel, vous pourrez appliquer vos connaissances à des problèmes de contrôle de gestion. Alors, vous saurez poser des questions à des mathématiciens. Vous pourrez utiliser le « vrai IA et Big Data ».

Smart data

Le smart data est une branche du big data et de l’intelligence artificielle. C’est un type d’algorithme qui traite des relativement petits volumes de données, mais de problèmes d’une grande « complexité ». 
Les situations que nous rencontrons tous les jours, par exemple dans l’entreprise, combinent quelques dizaines à quelques centaines de paramètres. Or, au delà de deux ou trois paramètres l’homme est perdu. Le smart data, lui, identifie ceux qui comptent, et les valeurs qu’ils doivent prendre. Il permet à l’intuition humaine de se remettre en fonctionnement. 
Car cette intuition réussit ce qui est impossible à la machine : elle distingue le « système » derrière la complexité apparente de la réalité. C’est ce système qui est la cause de l’interdépendance des acteurs. Et donc de leurs conflits. Mais c’est aussi lui qui en est la solution.
(Ma définition de smart data est-elle universelle ?)

Exhausteur, métier d'avenir ?

Dans un billet, je disais que l’on était passé de l’hypothesis driven au data driven. (et du français à l’anglais). Je développe, et m’interroge : révélateur d’un changement social ?…
Pour prévoir le résultat d’élections, les instituts de sondage partent d’une hypothèse : il y a dans la population e1 électeurs qui comptent voter pour le candidat c1, e2 électeurs qui comptent voter pour le candidat c2, etc. Ensuite, par un tirage aléatoire on estime ces valeurs. On applique pour cela la théorie des probabilités. Cela ressemble à : sachant qu’il y a b boules blanches et n boules noires dans un saladier, si je tire t boules, combien en trouverais-je de noires et de blanches ? Avant le « data driven », il y avait « l’hypothesis driven ». Cela avait des conséquences :

La fin des certitudes ?

Le cas des primaires des Républicains en montre une première. La population qui allait voter était inconnue. Du coup, les sondeurs savaient qui gagnerait si les adhérents républicains votaient (M.Sarkozy), ou si c’était le pays (M.Juppé), mais pas ce qui se passerait dans les conditions de la primaire. Mais surtout, on n’est plus dans le modèle des boules de couleur. Nous sommes devenus des caméléons, nos couleurs changent sans cesse, y compris celle de l’abstention. Les électeurs sont, d’une certaine façon, clientélistes. Désormais, ce qu’il faut comprendre, ce sont les « couleurs émergentes », ce qu’il y a de nouveau. 
Les démocrates furent victimes de leurs hypothèses. Ils pensaient que certains électeurs ne voteraient jamais pour M.Trump, et que l’électeur voulait un président compétent. Or, si l’on regarde les sondages d’après vote, on voit deux bizarreries. Même l’électeur qui a voté pour M.Trump ne le considère par compétent. Ce qu’il voulait, c’était du changement. Par ailleurs, contrairement aux élections précédentes, le mécontentement avait cru dans le camp des votants du parti au pouvoir plutôt que dans celui de ceux de l’opposition. 

De la certitude au doute et du sondeur à l’exhausteur
Le « data driven » n’est qu’un effet d’un changement social. Notre monde est devenu incertain. Nous entrons dans l’ère du doute ! Avant de décider, il faut étudier la question, avec humilité. Ce qui va demander, pour commencer, une révision déchirante aux instituts de sondage. En effet, par définition même, le « sondage », l’échantillonnage, ne fonctionne plus. Il faut collecter une information exhaustive et systémique. Le sondeur doit devenir exhausteur.

Facebook et le data driven

On reproche à Facebook d’avoir fait élire Donald Trump. Facebook désinforme. 
Il me semble que c’est une question de « data driven » mal compris. L’algorithme de Facebook fait comme celui d’Amazon. S’il constate que vous regardez quelque chose ou avez des liens avec quelqu’un, il vous en ressert de plus en plus. C’est ainsi qu’il va vous inciter à reprendre contact avec vos « ex » ou à acheter, pour Amazon, des produits dont vous n’avez pas voulu. Et si Facebook vous identifie comme un facho, il va vous envoyer de la nouvelle pour facho. 
Le vrai « data driven », comme je le disais précédemment, lui, ne vous enfonce pas dans vos vices, mais vous pousse à la remise en cause. Qu’est-ce que cela signifie, en pratique ? Il va identifier des anomalies dans ce que vous faites. Par exemple, vous êtes un écolo, et un collectionneur de vieilles bagnoles qui consomment du 20l aux 100. Ensuite, il va vous donner les moyens d’enquêter. Par exemple, comment se sont guéris ceux qui furent atteints de mon mal ?

Analyse relationnelle

L’analyse relationnelle est une idée, simple et ancienne, dont on n’avait pas vu la portée. D’ordinaire on décrit les individus d’une population par leurs caractéristiques. Par exemple, pour un client potentiel : sexe, revenus, lieu d’habitation… En analyse relationnelle, les individus sont représentés par les relations qu’ils ont les uns avec les autres. Une relation peut être « a le même âge que », ou « est plus vieux que », par exemple. Toute variable descriptive peut fournir une relation.

A l’origine était Condorcet
L’idée vient de Condorcet. Il s’intéresse à des électeurs qui choisissent des candidats. Les « individus », ici, sont les candidats. Les relation sont, en quelque sorte, les électeurs. L’électeur X préfère le candidat C au candidat c.
Elle a des conséquences surprenantes. Premier exemple. Segmenter une population joue un rôle central en analyse de données. Il remplace des millions d’observations par quelques informations pertinentes. Or, les techniques « individualistes » aboutissent naturellement à la segmentation triviale (un segment = un individu) ! Du coup, on est obligé de fixer le nombre de segments que l’on cherche. Mais alors, on court le risque de rater l’essentiel ; par exemple de fondre dans un gros segment un segment émergeant, qui était, justement, celui qui annonçait l’avenir (un groupe d’innovateurs). Le phénomène est bien connu : la fortune d’une poignée de ministres du cabinet de M.Trump est équivalente à celle d’un tiers de la population américaine. Explication du naufrage actuel des sondages ?
En fait, les bénéfices de cette approche sont tellement radicaux qu’ils sont impossibles à résumer. La notation relationnelle a une capacité explicative étonnante, elle rend triviaux pas mal de problèmes, et permet d’en « linéariser » beaucoup d’autres. La question de linéarisation est décisive en informatique. La plupart des problèmes de « big data » consistent à optimiser une fonction. Dans l’approche ordinaire, cette fonction fait appel à des calculs de carrés. En analyse relationnelle, la fonction est linéaire. Cela fait que des problèmes incalculables normalement peuvent être résolus en quelques secondes… Peut-être, plus fondamentalement, le succès de l’analyse relationnelle pose la question de la nature de l’homme et de ce qui l’entoure… mais ça, c’est une autre histoire.

Passer aux choses sérieuses
Pour ceux qui veulent approfondir la question, voici une conférence sur ce sujet. Et aussi un complément d’information :

L’Analyse Relationnelle Mathématique (ARM) est une approche développée initialement par JF. Marcotorchino et P. Michaud à la fin des années 1970 et qui s’inspire des travaux de Condorcet en théorie des votes. L’ARM propose un cadre formel pour l’étude de l’association et de l’agrégation de relations binaires telles que les relations de préférences, les relations d’équivalence… et fait intervenir des outils de la théorie des graphes, des statistiques et de l’optimisation. L’étude des relations d’ordre trouve des applications en statistiques non paramétriques (tau de Kendall, …) et en aide multicritère à la décision (agrégation des préférences, ordres médians, …). L’étude des relations d’équivalence trouve des applications en statistiques de données qualitatives (coefficient de Rand, Chi-deux, …) et en classification automatique (correlation clustering, algorithme sans fixation du nb de clusters,…) … L’approche est élégante d’une part car elle est à la croisée de plusieurs disciplines et d’autre part car elle permet un angle de vue unificateur de plusieurs problèmes en mettant en lumière le rôle fondamental joué par les relations binaires. L’ARM, ses fondements, ses algorithmes et ses applications, ont principalement été développés en industrie, à IBM d’abord et à Thalès ensuite. Le but de cette journée est de communiquer plus largement sur les fondements théoriques et sur les applications récentes de cette approche notamment en co-clustering, en détection de communautés et en cyber-sécurité.

Data driven

Big data, analyse de données, machine learning, data mining… vous êtes paumés ? Dîtes « data driven ». Pour JF Marcotorchino, c’est cela le sens de l’histoire. Hier les statistiques étaient « hypothesis driven ». On présupposait un modèle, et l’exercice d’analyse consistait à le paramétrer. Par exemple, on partait de l’idée que la taille d’une population était distribuée selon une loi de Gauss, et on calculait les paramètres de la loi. Le « data driven » ne fait plus d’hypothèse. Cela a des conséquences révolutionnaires. Et incomprises.
Exemple d’application ? M.Fillon. Les sondages croyaient connaître la population qui allait voter à la primaire des Républicains. Raté. On était dans le champ du data driven, pas des statistiques ordinaires. Mais même dans le cas de la primaire de la gauche, le data driven peut-être utile. En effet, son propre est de repérer des « anomalies ». Et ces anomalies ne sont autres que l’apparition de changements. De nouvelles tendances, qui peuvent être des occasions à exploiter. Le data driven ne fait pas votre travail, à votre place, comme on nous le dit. Au contraire, il détecte des problèmes imprévus. A vous de les résoudre. Impossible de dormir avec ce machin.