Moyenne

Un service de météo présente la température du moment par rapport à celles qui ont été mesurées dans le passé. Surprise : il y a une dizaine de degrés entre les valeurs supérieures et les valeurs inférieures.

Dans ces conditions, on peut être au dessus de la moyenne, sans que cela produise un temps bien fantastique. La moyenne n’a pas d’intérêt ?

En revanche, ce qui manque à ces données, c’est un aspect statistique : sur l’étendue des températures, toutes sont-elles également possibles ? (Ce qui poserait la question de savoir si la moyenne est bien une moyenne.)

Rigueur intellectuelle

La BBC annonçait que, en Angleterre, les femmes noires et asiatiques mourraient significativement plus en couche que les femmes blanches. Explication : racisme.

Curieusement, la BBC ne se demandait pas si un pays dont le premier ministre s’appelle Rishi Sunak, où Humza Yusef est le nom du leader du mouvement de libération de l’Ecosse, est fondamentalement raciste.

Et si d’autres facteurs entraient en jeu ? Richesse ? Niveau d’éducation ? Histoire de la famille ? Culture d’une société fondamentalement inégalitaire ?… Pourquoi ne pas comparer les conditions de vie de ceux qui ont un duc parmi leurs ancêtres, avec celles du reste de la population ?

L’analyse de la BBC ressemble fort à un biais de confirmation. On ne trouve que ce que l’on cherche. Et, la façon de formuler une question oriente sa solution. Dommage que la rigueur scientifique ne soit plus enseignée ?

Causalité

L’intérêt d’appartenir à un collège anglais est de ne pas être pris pour un imbécile. Mon ancien collège organise des visio conférences fort intéressantes pour ses anciens. Des universitaires de partout dans le monde, qui sont passés par le dit collège, présentent leurs travaux.

(Curieusement, l’acte gratuit finit par rapporter beaucoup. Car les anciens qui ont réussi font parfois de généreuses donations. Même moi, j’ai failli faire travailler un des laboratoires de l’université. Simplement parce que je savais ce qu’il faisait, alors que je ne connaissais rien d’équivalent en France.)

Le dernier sujet en date était la question de la cause, traitée par une éminente statisticienne canadienne. Qu’est-ce qu’une cause ?

Illustration : il y a une corrélation remarquable entre la quantité de chocolat consommée par habitant d’un pays et son nombre de prix Nobel. (En nombre de Nobel par habitants, la Suisse ridiculise les USA.)

Le chocolat rend-il intelligent ? En fait, il est possible que Nobel et chocolat aient une cause commune.

Personnellement, je ne crois pas à la cause. X a assassiné Y. Mais, si c’était lors d’une guerre, Y n’était-il pas condamné par les événements ? On retrouve l’histoire du chocolat.

La cause a elle-même une cause : si l’on pouvait trouver des causes, il serait facile d’agir. Malheureusement, c’est l’exception qui fait la règle. Si l’on croit aux causes, on s’endort sur ses deux oreilles, et ont fait de graves erreurs. A commencer par manger trop de chocolat…

Statuts et statistiques

Comment bien employer les statistiques ? Mon billet sur l’usage qu’en fait le Monde pour traiter du débat sur le statut des cheminots pose cette question. Que sont les statistiques ? « Ensemble des techniques d’interprétation mathématique appliquées à des phénomènes pour lesquels une étude exhaustive de tous les facteurs est impossible » (Le Robert.) Que fait Le Monde ? La moyenne de toutes les données qui concernent les employés de la SNCF. Et il les compare à la moyenne française. C’est comme si la météo vous annonçait la température moyenne qu’il fait sur terre !

Le principe des statistiques est d’agréger ce qui se ressemble, et d’éloigner ce qui est différent. C’est la segmentation. On répartit le problème en morceaux. Peut-être, pour la SNCF, employés administratifs, conducteurs, informaticiens… Mais, généralement, les segmentations donnent des résultats plus subtils que cela. Et après ? L’évolution du découpage, lui-même, est intéressante. La population de la SNCF a dû beaucoup changer en peu d’années. Peut-être la SNCF ressemble-t-elle de moins en moins à une société de transport ? (Carlson Wagon-lits est devenu un éditeur de logiciel…) Aussi, on peut segmenter la SNCF au sein de la population française. S’il y a des segments propres à la SNCF, ils indiquent un métier qui lui est propre. Sinon qu’est-ce que cela signifie que tel type de métier de la SNCF soit avec tels autres métiers hors SNCF ? On peut, encore, avoir deux types de paramètres : des paramètres pour la segmentation, et d’autres pour la description.

Les statistiques permettent de comprendre en simplifiant. Une fois que l’on a compris, on peut agir. Mais il n’y a là-dedans rien de mécanique. On mène une enquête, on multiplie les techniques de statistiques, pour éclairer la question sous divers angles, et on décide en son âme et conscience. C’est pourquoi les statistiques sont trop importantes pour être laissées aux statisticiens, et aux journalistes.

Voitures : baisse des ventes

Les ventes de voitures sont en baisse d’un février sur l’autre, en France. 
Mais le dernier février avait 29 jours, et celui-ci 28. En a-t-on tenu compte ? Si les ventes journalières sont les mêmes sur un mois de 29 jours, que sur un mois de 28, la baisse des ventes est de 3,5%. 
D’ailleurs, il y a beaucoup d’autres effets, d’où tentative de « correction des variations » (saisonnières ou autres). Elles me semblent plus un art qu’une science, si mes souvenirs d’études sont bons… Et l’on voit qu’il en faut peu pour constater des écarts significatifs. 
Méfions-nous des statistiques ? 

Mannequins et statistiques

Les mannequins ne représenteraient pas la diversité de la société, disait une étude. Ils seraient blancs en grande majorité. Racisme
Certes. Mais les mannequins (femmes) mesurent 1m80. Ce qui signifie qu’elles sont probablement d’Europe du nord. Racisme du nord ? Et si les mannequins étaient à l’image qu’a d’elle-même l’acheteuse de haute couture ? Peut-être aussi, si l’on allait plus loin dans l’analyse des origines sociales des mannequins découvrirait-on qu’occidentales, africaines ou asiatiques, elles viennent désormais d’une même classe de la société : celle qui, en Occident, en Asie ou en Afrique, a profité de la globalisation et s’est enrichie ? Hold up des riches sur les richesses ?… Un autre angle d’analyse serait celui de la pratique. Si le mannequin est est grand et maigre cela peut s’expliquer, qui sait ?, parce qu’ainsi les habits ont le meilleur effet sur lui…
Et si notre interprétation des statistiques ne reflétait que nos préjugés ? 

Condorcet, analyse relationnelle et big data

Les travaux de Condorcet sur le vote ont eu une curieuse conséquence. On a découvert que sa mathématique permettait de faire des typologies de données. C’est le domaine de l’Analyse relationnelle de MM. Marcotorchino et Michaud.
Imaginons que vous soyez la NSA et que vous vouliez identifier automatiquement une communauté d’esprits malfaisants, sans même savoir qu’ils existent. Condorcet vous propose une technique qui permet de regrouper les mails mondiaux selon des classes de similarité, sans avoir à faire de traitement préliminaire des données ordinaire en statistiques (ce qui demande du temps et introduit un biais). Pour cela il faut disposer d’un moyen de coder les mails (par exemple en fonction des « unités lexicales » employées). De là on peut définir deux mesures, de proximité et d’éloignement, entre éléments pris deux à deux. Alors apparaît le critère de Condorcet pour une partition des données. C’est la somme des mesures de proximité des éléments d’une même classe plus la somme des mesures d’éloignement des éléments appartenant à des classes distinctes. Optimiser ce critère permet, en quelque sorte, de disposer d’une partition qui maximise à la fois la proximité entre éléments d’une même classe et la distance entre éléments de classes distinctes.
Bien qu’heuristiques, les algorithmes (programmation linéaire) qui permettent de faire ces calculs sont sensiblement plus efficace que ceux qu’utilisent d’autres techniques de classification.
Enseignement ? Condorcet pensait que sa mathématique ferait le bonheur de l’humanité. Comme Taylor, il avait sous-estimé la complexité du problème. Surtout, la première application de ses travaux pourrait bien servir au flicage. La motivation à nuire à l’humanité aurait-elle toujours un coup d’avance sur la volonté à l’aider ? (Ou est-il plus complexe d’aider que de nuire ?)
(En quoi cela simplifie-t-il le travail de la NSA ? Chaque classe est représentée par un élément central, ce qui permet de savoir, simplement, ce qui la caractérise. Ensuite, il suffit de faire liquider par un drone les classes suspectes. Les approximations de l’heuristique sont ensuite traduites en « dommages collatéraux »  par la communication officielle.)

La statistique et le changement

il faut critiquer la quantification du monde, puis le requantifier pour le changer. C’est pourquoi la statistique doit être autant vue comme un instrument de la démocratie que comme une institution dont il faut débattre.

Comme tout, les statistiques peuvent être la meilleure et la pire des choses. Elles peuvent permettre de simplifier un problème, de nous montrer où agir. Mais elles peuvent tout aussi bien être outil de manipulation. Dernier exemple en date :

À l’ère néolibérale, le gouvernement cherche moins à protéger les travailleurs ou à se donner les moyens d’un pilotage macroéconomique de la société qu’à mettre en place un système d’incitation. Ce système s’appuie sur la modélisation micro-économétrique ou des techniques de benchmarking (les indicateurs de performance comme les classements ou les palmarès). La spécificité de ces techniques est celle de quantifier en rétroagissant directement sur les acteurs quantifiés.

Bilel Benbouzid, « Quantifier pour transformer », La Vie des idées, 3 octobre 2014. ISSN : 2105-3030. URL : http://www.laviedesidees.fr/Quantifier-pour-transformer.html (Recension d’un livre d’Alain Desrosières.)

Fiabilité des sondages

Les prochaines élections nous réservent-elles des surprises ? Les journalistes s’interrogent.

On a vu récemment les deux principaux candidats perdre des points. Lors des élections de 2007, N.Sarkozy avait eu plus de votes que ce que lui promettaient les sondages. On parle aussi des indécis. Mais ils semblent moins nombreux qu’aux autres élections. Peut-on croire les sondages ?
En fait, le seul sondage fiable est le comptage de boules de couleur par tirage au hasard. La disparition des idéologies a laissé des électeurs peu certains de leurs choix. Par conséquent, le sondage ne peut être un indicateur de vote totalement juste. Par contre, vu la stabilité des prévisions, et l’importance des écarts prévus au second tour, il y a peu de chances de surprise.