Redressement d’échantillons : exemple et méthodes (1/2)

Illustration du concept de redressement d'un échantillon statistique© Gerd Altmann (Pixabay)

Pourquoi redresser un échantillon et dans quelles conditions ce redressement est-il possible ? Quelles méthodes s’offrent au statisticien ? Des réponses à ces questions, basées sur une illustration concrète, dans cet article en deux parties. Ici la première partie.

Le redressement d’échantillons est une pratique courante dans le domaine des sondages.

Les instituts de sondage les plus renommés y ont recours fréquemment, les médias s’en font notamment l’écho dans les périodes électorales, les sondages politiques sont en effet systématiquement redressés.

Certains clients de Questio font régulièrement appel à nos services pour redresser leurs échantillons.

L’objectif d’un redressement est d’améliorer la représentativité de l’échantillon interrogé sur un certain nombre de critères appelés critères de qualification.

RAPPELS

En théorie, le seul échantillon représentatif (celui qui permet d’extrapoler les résultats d’un sondage à la population toute entière) est l’échantillon tiré aléatoirement.

En pratique, un échantillon ayant la même structure que la population mère sur des critères que l’on connaît de cette population permet de généraliser les réponses obtenues sur les autres critères, à l’ensemble de cette population. C’est l’idée sous-jacente à la méthode des quotas.

Pour redresser un échantillon, il faut donc impérativement disposer de données sur la structure de la population étudiée (données de recensement issues de l’INSEE par exemple, ou données connues par ailleurs). C’est une condition sine qua non.

Le redressement consiste à appliquer des pondérations aux réponses pour augmenter ou réduire le poids des répondants selon qu’ils sont sous représentés ou sur représentés dans l’échantillon obtenu, comparé à la population mère. Cette sous ou sur représentation s’évalue sur les variables de contrôle retenues.

Ces pondérations ou poids sont aussi appelés des coefficients de redressement.

Mais comment détermine-t-on ces pondérations ? Quelles sont les méthodes de redressement ?

questionnaire-pro, logiciel d'enquêtes édité par Questio
Graphiques personnalisables, module de tris croisés, rapport d’enquête ou export des données au choix

Dans cet article, nous allons partir d’un cas client réel traité chez Questio pour illustrer :

  1. dans cette première partie de l’article :

    la problématique qui a conduit à redresser les échantillons
    une première méthode de redressement basée sur des données statistiques, sur deux critères clés de la population, la méthode de Deming et Stephan

  2. dans la seconde partie :

    une deuxième méthode basée sur l’existence de données de calage individuelles qui permet d’augmenter les critères et d’affiner les poids de redressement, la méthode de Deville et Särndal


Avant de commencer, il nous faut introduire la notion de plan de sondage : il s’agit d’un document établi en amont de l’enquête qui précise la méthodologie d’échantillonnage à suivre lors d’une étude quantitative, entre autres la taille de l’échantillon et les caractéristiques des individus à interroger (données socio-démographiques par exemple).

Définition du mot enquête
A LIRE AUSSI

Enquête, sondage, étude de marché, panel, baromètre : définitions
Enquête, sondage, étude de marché, panel, baromètre : donner pour chacun de ces termes une définition admise par tous relève de la gageure tant les approches théoriques et les expériences […] Lire la suite

On redresse généralement des échantillons constitués à partir d’un plan de sondage :

  • si le plan de sondage a été suivi au plus près, les poids de redressement sont très peu différents des poids d’échantillonnage et à la limite le redressement est inutile ;
  • à l’inverse, l’absence de plan de sondage peut conduire à une déformation trop importante de l’échantillon par rapport à la population et donc à des poids de redressement trop importants pour être acceptables.

Mais il peut arriver qu’on redresse des échantillons constitués sans plan de sondage initial, c’est le cas que nous allons voir ici.


La problématique conduisant notre client à redresser ses échantillons

Notre client est une fédération professionnelle qui rassemble les exploitants agricoles d’un secteur d’activité spécifique, à l’échelle d’une région. Chaque année, cette fédération mène une enquête auprès de ses ressortissants sur leurs pratiques de culture.

L’objectif est d’obtenir un maximum de participation de la part des exploitants, non seulement pour avoir une image de l’ensemble des pratiques sur le territoire, mais aussi dans le but de faire adhérer les professionnels à la démarche engagée en faveur de pratiques plus responsables vis-à-vis de l’environnement (tous les participants reçoivent une restitution des résultats personnalisée).

De ce fait, l’échantillon des participants à l’enquête n’est pas contrôlé a priori, il n’y a pas de plan de sondage.

Constaté a posteriori, le taux de sondage global est de l’ordre de 20% (avec des variations modérées d’une année sur l’autre). C’est un taux important mais l’absence de plan de sondage conduit notre client à s’interroger sur la représentativité de l’échantillon obtenu.

Représentativité du sondage
A LIRE AUSSI

Un véritable sondage représentatif ?
La collecte de données sur le web étant devenue si facile et rapide, la notion de sondage est un peu galvaudée. On a tendance à oublier qu’un sondage, ce n’est peut-être pas si simple […] Lire la suite

Dans un premier temps, une étude comparative de la structure de la population et de celle de l’échantillon est conduite sur deux variables : la taille (surface de l’exploitation) et le département. Ce sont les deux critères de redressement pressentis, les autres données étant jugées moins pertinentes ou moins fiables a priori par les experts de la fédération.

Année après année, malgré les efforts de promotion de l’enquête réalisés par l’équipe en charge d’animer le projet, l’échantillon brut des répondants présente des déformations par rapport à l’ensemble des exploitants :

  • certains départements participent davantage que d’autres
  • les petites exploitations sont sous-représentées

REMARQUE SUR LE CRITERE TAILLE

C’est un phénomène fréquemment observé en BtoB. En général, les grandes structures sont à la fois plus sensibilisées aux sujets abordés, disposent des moyens et ressources pour s’engager et répondre aux sollicitations extérieures et, dans le cas précis, sont plus proches de leur fédération et plus impliquées dans ses actions. Il est donc normal d’observer un meilleur taux de participation de leur part.

Le constat étant plus ou moins similaire chaque année, la mise en œuvre d’un redressement s’avère nécessaire pour une exploitation statistique des résultats d’enquête.

Il existe de nombreuses façons de redresser un échantillon. Toutefois les méthodes les plus utilisées sont celles dites de « calage sur marges ». On part des répartitions marginales des individus sur chaque modalité de réponse et le but est de caler l’échantillon sur ces marges par itérations successives.

Les calculs à effectuer pour obtenir les poids ne sont pas complexes en soi mais nécessitent de nombreuses opérations dès lors qu’on prend en compte plusieurs critères de redressement. On fait donc le plus souvent appel à des algorithmes informatiques.


Méthode de Deming et Stephan : une première méthode de redressement basée sur des données statistiques sur deux critères clés

La première année, notre client, la fédération professionnelle, disposait de données statistiques sur la répartition de l’ensemble des exploitants par département et par surface exploitée (par données par tranches) mais pas d’un recensement exhaustif des exploitants avec la superficie exacte exploitée par chacun.

Suite à l’étude comparative, c’est la méthode de Deming et Stephan qui a été choisie parmi les méthodes possibles. Elle permet en effet de calculer des poids de redressement sur la base de données statistiques mais sans recensement exhaustif de la population.

Il s’agit d’une méthode de redressement qui remonte aux années 1940, on peut la qualifier de « basique » mais son efficacité n’est plus à démontrer, ceci dans la mesure où on se limite à deux critères de redressement.

Dans notre cas, deux critères de redressement étant pressentis, l’avantage de la méthode de Deming et Stephan est sa simplicité de mise en œuvre : un tableur de type MS-Excel peut suffire.

La méthode est itérative, les calculs consistent à pondérer, par une succession de règles de 3, les observations qui constituent l’échantillon pour s’approcher au plus près des marges théoriques sur les critères de redressement (les marges théoriques représentent la distribution que devrait avoir l’échantillon sur chacun des critères pour être représentatif).

Partant d’un poids par défaut égal à 1, chaque répondant à l’enquête reçoit le poids de redressement de sa case d’appartenance (département/tranche de surface). La pondération est > 1 si sa case d’appartenance est sous-représentée dans l’échantillon, la pondération est < 1 si sa case est sur-représentée.

Une analyse des pondérations calculées est indispensable pour juger de la qualité du redressement obtenu. Ce type d’analyse porte principalement sur les poids extrêmes.

REMARQUES SUR LES VALEURS DES POIDS DE REDRESSEMENT

En-dessous d’un poids inférieur à 0.5, on réduit beaucoup l’importance des observations faites sur l’échantillon alors que pour les poids supérieurs à 2 on augmente beaucoup l’importance d’un faible nombre d’observations.

En théorie il n’y a pas de limitation à la valeur maximale des poids mais dans la pratique des poids supérieurs à un facteur de 2 peuvent « créer de l’information » de manière non négligeable et il convient d’être prudent. Si les observations sur lesquelles ils sont appliqués sont vraiment représentatives de leur population il n’y a pas de souci mais, si elles sont atypiques, « l’exception risque d’être considérée comme la règle ».

Le poids charnière de 2 ne repose sur aucune justification théorique, c’est un choix empirique de la part de l’analyste des résultats, certains analystes vont jusqu’à 4 ou plus. Rien n’empêche d’accepter des poids supérieurs à 3 en étant conscient de l’implication de ce choix sur les résultats.

Cette première méthode de redressement est simple et basée sur le bon sens. Son inconvénient majeur est d’obtenir un poids par case (ce qui ne tient pas compte de la dispersion des individus à l’intérieur d’une même case) et non un poids individuel.

Il existe une autre méthode, basée sur le même principe, qui a l’avantage d’essayer de trouver une distribution de poids individuels. Sa mise en œuvre nécessite de disposer de données de structure individuelles et l’utilisation de moyens informatiques (algorithme plus complexe).

Dans la seconde partie de cet article nous abordons cette méthode rendue utilisable grâce à la fiabilisation par notre client du fichier de ses ressortissants.


questionnaire-pro est la plate-forme logicielle d’enquêtes en ligne éditée par Questio, pour réaliser des questionnaires sur internet, les diffuser et collecter les réponses de façon autonome, directement sur internet (essai gratuit 30 jours). Questio propose également à ses clients un accompagnement et des prestations de service ou développements sur-mesure.


Cet article vous a intéressé ? Vous avez des questions ou des commentaires à ajouter ? N’hésitez pas à vous exprimer, je m’attache à répondre à toutes les questions.

A propos de Françoise Lafont

Cofondatrice de Questio (éditeur du logiciel questionnaire-pro), consultante et formatrice, je partage dans ce blog mes connaissances théoriques et pratiques dans le domaine des enquêtes et sondages en ligne, auto-diagnostics numériques et protection des données (RGPD).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Résoudre : *
23 − 9 =