Corrélation ou causalité ?
(Version française / French version)
Auparavant, dans les communes qui abritaient des cigognes, le taux de natalité était plus élevé que dans le reste du pays. Fallait-il pour autant en conclure que les cigognes apportaient les bébés ? La réponse était plus prosaïque : les cigognes nichaient dans les villages plutôt que dans les villes et la natalité y était plus élevée.
Dans le milieu des jardiniers, il est parfois conseillé de protéger les jeunes pousses, les légumes et les fruits à peine formés lorsque la lune est rousse, soit entre début avril et début mai. La lune est-elle responsable ? La réponse est négative : à cette période de l’année, les nuits sont souvent froides a fortiori lorsque le temps est clair – la lune est alors visible – et le gel est nocif pour les jeunes pousses et les fruits en formation.
Dans les deux cas, il s’agit d’un exemple typique de confusion entre corrélation (présence de cigognes / taux de natalité ; lune rousse / impact sur les jeunes pousses) et causalité.
Le dictionnaire définit la corrélation comme les relations existant entre deux notions dont l’une ne peut être pensée sans l’autre, entre deux faits liés par une dépendance nécessaire. Mathématiquement, la corrélation est définie comme le rapport entre la covariance de deux variables et le produit de leur écart-type. Une discussion humoristique omniprésente sur Internet sur ce sujet ressemble à :
A : Avant, je pensais que la corrélation impliquait la causalité. Ensuite, j’ai suivi un cours de statistiques, et maintenant je ne le pense plus.
B : Il semble que le cours ait aidé.
A : Eh bien… Peut-être.
Une corrélation peut être positive (la taille et le poids par exemple), négative (anti-corrélation : la consommation de cigarettes et l’espérance de vie) ou non présente (la taille et l’espérance de vie).
Lorsque deux évènements sont corrélés, ou anti-corrélés, trois cas de figure sont possibles :
- L’un implique l’autre.
À titre d’exemple, la corrélation entre les incendies et les sorties de pompiers est élevée, et il est simple de conclure que les pompiers se déplacent parce qu’il y a des incendies.
- Un troisième paramètre est la cause des deux autres qui n’ont pas de lien de causalité entre eux.
Le samedi, le chiffre d’affaires des supermarchés augmente par rapport aux autres jours et il y a plus d’enfants dans les rayons. S’il y a bien corrélation entre ces deux évènements, il n’y pas de causalité. Celle-ci s’explique par une troisième variable : le samedi est un jour de congés, ce qui implique la présence d’enfants et une plus forte densité dans les magasins, et donc une consommation plus élevée.
- Les deux évènements sont corrélés, mais il n’y a pas de lien direct ou indirect entre eux.
Le site « Spurious correlations » liste des couples de variables corrélées pour lesquelles il n’y a aucun lien de causalité, même en incluant une troisième variable. Citons : le nombre de personnes noyées en tombant dans une piscine et le nombre de films dans lesquels Nicolas Cage est apparu dans l’année, la consommation de fromage par habitant et le nombre de personnes mortes par étranglement dans leurs draps, le nombre de doctorats de mathématiques et la quantité d’uranium stockée dans les centrales nucléaires américaines. Dans ces trois cas, il n’y a évidemment aucun lien : en analysant des centaines ou des milliers de séries, il est toujours possible de trouver des corrélations entre des données complètement indépendantes.
Dans ces trois familles d’exemples, il est aisé de classer ceux qui relèvent de la causalité directe, indirecte (présence d’un troisième facteur « cause ») ou qui n’ont pas de relation de causalité. Néanmoins, dans les sphères professionnelle et personnelle, ce n’est pas toujours si facile. L’une des raisons est notre propension (ii) à chercher des liens, ou des raisons, et (ii) à nous satisfaire d’éléments que nous jugeons suffisants pour expliquer tel ou tel phénomène. Par ailleurs, une fois celui-ci élucidé à nos yeux, toute la panoplie liée aux croyances (au sens « opinion », et non « religieux ») intervient.
Enfin, même présente, la corrélation n’est pas état binaire, mais un chiffre. Il est compris entre -1 (anticorrélation absolue) et 1 (corrélation absolue) en passant par 0 (aucune corrélation). Les mathématiciens considèrent qu’il y a corrélation au-dessus de 0,8 ou 0,9 suivant les cas. Cependant, une corrélation positive, de 50% par exemple, indique un lien, certes ténu, mais présent. Notre cerveau est câblé pour identifier les liens de manière discrète (présence ou absence) plutôt que de manière continue.
À titre d’exemple, il y a sans doute une corrélation entre les températures négatives et le nombre de fractures soignées aux urgences, dans la mesure où le verglas augmente les probabilités de chute. Néanmoins, il est probable que cette corrélation soit faible, mathématiquement parlant, parce qu’il existe beaucoup d’autres causes aux fractures.
En conclusion, si la corrélation n’est pas la causalité, distinguer l’une de l’autre est parfois difficile. Pourtant, en validant l’une pour l’autre, les croyances qui résultent de cette démarche intellectuelle se renforcent substantiellement, puisque cette résonnance confirmative paraît prouvée aux yeux de l’individu.
One Response
[…] the articles on correlation / causality and on beliefs (both in French), I had a few questions about biases, especially the ones that […]