Les sondages sont-ils truqués ?
Par yves le dimanche, février 25 2007, 23:52 - Information et medias - Lien permanent
Quelques réflexions sur les sondages, en cette période de trop plein.
N'insistez pas je ne répondrai pas à la question contenue dans le titre.
J'ai déjà dit le mal que je pensais des sondages, lorsque, parlant de la publicité, j'avais abordé le problème des pressions sur les individus: la notion de libre-arbitre sert d'excuse aux tenants de la publicité, et elle sert aussi de justification aux défenseurs des sondages. Cette notion montre quelques limites, et les expériences qui l'ont mis en évidence sont célèbres.
Bien sûr, ces expériences ne sont pas transposables directement au vote politique. Le secret de l'isoloir est un élément absent de l'expérience de Asch. Elles constituent toutefois, comme je l'ai écrit, un indice en faveur d'un doute légitime.
Contestée à chaque élection, la manie des sondages a aussi des défenseurs.
La fiabilité et la précision
Les sondages sont, en général de façon implicite, présentés comme fiables, alors que leur mesure est, par nature, imprécise. Commenter un sondage en disant "baisse de Untel", parce qu'il a perdu un point, c'est prétendre que le sondage a une précision supérieure à cette variation.
Premier doute. On parle couramment de 2 à 3 ponts de marge d'erreur. Cette marge, son sens, et l'importance des indécis dans cette imprécision sont le thème de ces deux billets.
Trop constants pour être honnêtes.
Un autre élément de doute est celui de la très faible variation des sondages. Les sondages donnent des résultats proches, que ce soit entre différents instituts ou sur une période rapprochée. On peut le vérifier en regardant les récapitulatifs des sondages pour le TCE. Or les sondages fonctionnent de manière probabiliste. Il devrait y avoir plus de variation.
Détaillons un peu. Imaginez que vous prenez une pièce de monnaie, et que vous la lancez 100 fois en l'air, que vous notez la face qui sort, et vous refaites ce tirage une centaine de fois. Combien de fois pile va-t-il sortir? Si vous répondez 50, vous confondez l'espérance et la réalité expérimentale. 50 devrait etre proche de la moyenne si vous répétez l'expérience un nombre important de fois. Mais Il y a très peu de chance que vous obteniez 50 au premier tirage, et une chance encore plus infime que vous obteniez 50 au quatre premiers tirages consécutivement. Le résultat va montrer des variations importantes.
Voici un graphique donnant mes résultats pour 100 répétitions de l'expérience, simulation à l'aide d'un ordinateur (donc pseudo-aléatoire):

Pour les sondages, le même genre de phénomène devrait se produire. C'est même assez facile à simuler. Considérons une population d'un million de personnes, et répartissons les votes au hasard, de manière à obtenir quelque chose de réaliste. Dix candidats à 10%, 27%; 23%; 8%, 3%, 7%, 6%, 5%, 8% et 3% par exemple. Puis effectuons un tirage de 500 sondés parmis ce million d'électeurs[1] , et notons le résultat. Renouvelons l'expérience une cinquantaine de fois[2]. On obitent facilement ce genre de graphique:

Les sondages ne reflètent pas ce genre de variations. Et pourtant ils devraient. Si les interrogés sont pris au hasard, il y a vraiment peu de chance que deux fois de suite on tombe sur des panels qui répondent de manière proche. Pourtant les sondages varient lentement, et restent constants sur des périodes assez longues.
J'ajoute que me simulation de la situation est idéale: pas d'abstention, pas de refus de répondre aux sondeurs, pas de réponse fausse. La réalité est assez loin de ça.
Les quotas expliqueraient l'écart ?
La méthode utilisée pour cette situation est la méthode aléatoire, dans laquelle l'échantillon est tiré au sort a priori. Ce n'est pas la méthode habituelle utilisée pour effectuer les sondages politiques, parce qu'elle revient cher. Les instituts de sondages utilisent un méthode appelée méthode des quotas, dans laquelle on découpe l'échantillon en fonction de paramètres connus, et on interroge un nombre fixé de personnes dans chaque catégorie. Le principal biais tient au fait que cette fois les candidats ne sont pas choisis aléatoirement. Si un d'entre eux n'est pas là on en cherche un autre dans la meme catégorie. Cette méthode est tellement peu scientifique que les instituts de sondage avouent eux-même etre incapable de donner la marge d'erreur de leurs sondages. Il leur semble juste de dire que cette marge est au pire la même que dans la méthode aléatoire mais personne ne semble en mesure de le prouver. C'est tout de même un peu ennuyeux et assez peu sérieux. Notons que l'INED avoue avoir abandonné cette méthode depuis les années 70.
Je ne peux pas simuler ce qui se passe en cas de changement de sondé, mais je peux simuler un sondage par quotas. Ma population totale découpée en 8 catégories de tailles inégales, parmis lesquelles les votes sont calculés sur des bases différentes afin que chaque catégorie donne des pourcentages différents pour chaque candidat. Le sondage par quotas interroge obligatoirement la même proportion de personnes dans chaque catégorie. Ce sondage est répété 50 fois afin de mesurer les variations. Voici le résultat (attention les pourcentages totaux des candidats ont changé par rapport à la simulation précédente):

Le résultat est le même. Une forte variation des sondages autour de la valeur réelle. La méthode des quotas ne semble vraiment pas donner des résultats plus précis que la méthode aléatoire.
Rectifiés systématiquement.
Troisième doute. Les sondages sont systématiquement redressés. cette pratique est relativement floue, et peut permettre d'excuser n'importe résultat douteux. Pourtant, on entendra plus facilement des explications mettant en cause «les votant qui se sont décidés au dernier moment» qui ont l'avantage de ne pas mettre en cause la pratique des sondages.
On peut quand même légitimement se demander quelle est l'ampleur de ce redressement. Difficile de mesurer l'évolution d'un candidat dont les électeurs n'avouent pas leur choix, comme c'est parait-il le cas à l'extrème droite. Ce billet sur l'interprétation des sondages par la presse nous offre une saisissante image. la question posée n'est pas celle du vote effectif, mais l'écart entre le résultat des élections précédentes et le pourcentage affiché ici est tout de même impressionnant.

De quoi se demander à quel point les sondages peuvent etre prédictifs dans ce genre de cas.
Incohérents ?
J'ai parfois l'impression que certains résultats sont incohérents. J'en ai gardé un exemple assez saisissant en tête. Il s'agit des sondages du traité constitutionnel européen.
Si on se fie à ce tableau sur le moment du choix du vote, les dernières semaines ont vu un plus grand nombre de votants Oui se décider. Mais le récapitualtif des sondages ne reflète guère cette tendance, et indique même pour la fin une tendance inverse, avec une poussé du Non. Sur le mode optimiste on pourrait conclure que les sondages racontent vraiment n'importe quoi, et sur le mode pessimiste, il faut bien se demander s'ils ne sont pas complètement truqués.
Notons que truquer ne signifie pas nécessairement que chaque sondage publié n'est pas effectué et traité correctement. Une façon simple de truquer peut consister, par exemple, à ne publier que certains résultats, en les choisissant soigneusement. Dans la première simulation, la différence entre les deux premiers candidats est de 4%. On peut minimiser cette valeur dans les sondages en choisissant de ne publier que ceux minimisent l'écart.

Conclusion: votez pour vous
Et pas en fonction de ce que vous croyez que les autres vont faire. Le vote utile? Comme c'est toujours en fonction des sondages qu'il se détermine, il vaut mieux l'oublier. Sinon c'est donner une efficacité politique à une information qui devrait avoir la même importance que l'horoscope.
Notons aussi que parler de "chute d'un candidat" ou de décrochage" devant des variations de quelques pourcents est tout simplement impossible. Dans cette simulation, avec un écart fixe de 4% entre les deux premiers candidats, on observe des inversions entre eux, et une amplitude d'écarts allant de -1,35% à 8,44% ! Il n'est donc pas possible de dégager une quelconque tendance sur un petit nombre de sondages. Les commentaires quotidiens sur les évolutions des sondages tiennent plus de la boule de cristal politicienne que de la science statistique.
Et allez lire chez Jean Véronis pour tout savoir de Condorcet et de la conséquence des sondages sur les stratégies des états majors politiques.
Notes
[1] en fait j'ai effectué un sondage en donnant à chaque électeur une chance sur 2000 d'etre sondé. Cela fait varier l'effectif de chaque sondage autour de la moyenne 500, de manière réaliste: les sondages ne sont pas à effectif constant.
[2] à l'aide de l'ordinateur. Il s'agit dont d'un tirage pseudo-aléatoire, l'expérience n'étant là que pour les besoins de l'illustration.





clics
visiteurs uniques