Psychologie: toutes les couleurs d'un carton rouge

BLOGUE / La question de départ était pourtant fort simple : est-ce que les joueurs de soccer «de couleur» sont plus susceptibles de recevoir des cartons rouges que les joueurs «blancs» ou à la peau plus pâle ? Cette question, de même qu'un seul et même ensemble de données, ont été envoyés à une trentaine d'équipes de recherche différentes en psychologie et... disons que les choses ont arrêté d'être simples pas mal tout de suite après le point d'interrogation.

Et c'était d'ailleurs là l'objectif avoué de l'exercice : pas de déterminer s'il y a bel et bien discrimination à l'égard des joueurs de couleur, mais de voir comment différentes équipes allaient aborder la question et les données. Quels choix méthodologiques chacune ferait et, surtout, quelle incidence cela aurait-il sur leur réponse finale. Le fascinant article qui en a été tiré est paru récemment dans Advances in Methods and Practices in Psychological Sciences et est disponible ici, en libre accès (yé !).

Vingt-neuf équipes de chercheurs se sont prêté au jeu et ont donc toutes reçu exactement les mêmes données, soit des informations sur tous les footballeurs ayant joué la campagne 2012-2013 dans les ligues française, anglaise, allemande et espagnols. Pour chaque joueur, une foule de variables étaient fournies (en plus du nombre de cartons rouges), comme la taille, le nombre de matches disputés, le teint de peau sur une échelle de 1 (très pâle) à 5 (très foncé), le nombre de cartons rouges/jaunes reçus en carrière (comme indicateur de sa réputation, ce qui peut influencer les arbitres), etc.

Et les résultats ? Si c'est la discrimination qui vous intéresse, sachez que les 29 équipes participantes ont en moyenne établi que les joueurs de couleur recevaient environ 30 % (ou 1,3 fois) plus de cartons rouges que les autres. Si c'est la métho qui vous intéresse : d'une équipe de recherche à l'autre, le rapport de cote (odds ratio) a varié de 0,89 (les joueurs de couleurs recevaient 11 % moins de cartons que les autres, mais l'écart n'était pas statistiquement significatif) à 2,93 (presque 3 fois plus de cartons pour les joueurs de couleur). Vingt équipes ont trouvé des indices statistiquement significatifs de discrimination, et neuf n'ont pas trouvé de différence significative.

Et tout ça, répétons-le, à partir des mêmes chiffres, des mêmes données de départ. Comment est-ce possible ? C'est que, exposent les auteurs de l'article, les équipes étaient libres de procéder comme elle l'entendait, et que même pour une question presque brutalement directe comme celle-là, il y a une foule de choix méthodologiques à faire. Certaines options sont meilleures que d'autres, mais ce n'est pas toujours facile à discerner — et parfois tout simplement impossible parce que chaque choix vient avec des avantages et des inconvénients.

Par exemple, les teints de peau ont été «cotés» de 1 à 5, mais dans bien des pays, les métisses sont culturellement considérés comme «noirs» — bref, vous êtes «blanc pur» ou «de couleur», mais il n'y a pas vraiment de degrés entre les deux. Alors qu'est-ce que vous faites avec les teints de peau de 1 à 5 ? Vous laissez la gradation telle quelle, au risque de gauchir le résultat final, ou vous décrétez (arbitrairement) que les cotes 1 et 2 sont «blancs» et les 3-5 sont «de couleur» ?

«Comment vous approchez le fait que certains arbitres donnent plus de cartons que d'autres, demandent les auteurs de l'article ? Tenteriez-vous de contrôler pour l'expérience de chaque arbitre ? (...) Est-ce que vous voudriez voir si les cartons rouges sont plus fréquents dans certaines ligues, et si la proportion de joueurs de couleur est la même dans toutes les ligues et à toutes les positions ?»

Ce sont toutes des décisions qui peuvent avoir des effets plus ou moins gros sur le résultat final et dont l'effet cumulatif peut être considérable — et on ne parle pas ici des choix d'«outils» statistiques. Ce que le papier d'Empirical Article fait ressortir, il me semble, c'est à quel point toute (ou presque toute) statistique sociale est le résultat d'une foule de facteurs toujours difficiles à contrôler, et que cela implique forcément une longue de liste de choix méthodologiques. Ce papier-là le fait d'une manière remarquablement rigoureuse et scientifique, et pourrait sans doute, d'ailleurs, étendre ses conclusions à nombre d'autres disciplines que la psychologie, qui ont elle aussi des problèmes de reproductibilité des résultats.

Cela souligne aussi au passage l'importance de la transparence et du partage des données en science. Pas pour rien que l'article a été décrit comme «un des plus importants de ce siècle» et que nombre de chercheurs, sur les réseaux sociaux, ont invité tous les profs de stats à le présenter dans leurs cours.

P.S. La section blogues de notre site web est encore en construction. Pour discuter de ce billet de blogue, rendez-vous sur ma page Facebook.

Précision : une version antérieure de ce texte a été modifiée afin de corriger le titre de la revue savante où l'étude a été publiée.