Redressement d’échantillons : exemple et méthodes (2/2)

Illustration du concept de redressement d'un échantillon statistique© Gerd Altmann (Pixabay)

Pourquoi redresser un échantillon et dans quelles conditions ce redressement est-il possible ? Quelles méthodes s’offrent au statisticien ? Des réponses à ces questions, basées sur une illustration concrète, dans cet article en deux parties. Ici la seconde partie.

Cet article sur le redressement statistique est constitué de deux parties. Dans la première partie, nous avons abordé les points suivants :

  • en quoi consiste le redressement d’un échantillon d’enquête, et quelques brefs rappels sur la théorie des sondages
  • à quelle problématique récurrente de déformation de l’échantillon un client de notre société Questio est confronté avec son enquête annuelle
  • comment il est possible de redresser un échantillon sur la base de données statistiques sur deux critères de redressement avec une méthode assez simple, la méthode de Deming et Stephan

Dans cette deuxième partie, nous allons présenter une deuxième méthode basée sur l’existence de données de calage individuelles qui permet d’affiner les poids de redressement, la méthode de Deville et Särndal.

Si vous êtes plutôt néophyte sur le sujet, je vous invite à commencer par la lecture du premier article. Si c’est déjà fait, ou si vous maîtrisez déjà le sujet, continuons.

RAPPEL

Notre client est une fédération professionnelle qui rassemble les exploitants agricoles d’un secteur d’activité spécifique, à l’échelle d’une région. Chaque année, cette fédération mène une enquête auprès de ses ressortissants sur leurs pratiques de culture.

L’objectif étant d’obtenir un maximum de participation de la part des exploitants dans le cadre d’une action de sensibilisation, l’échantillon des participants à l’enquête n’est pas contrôlé a priori, il n’y a pas de plan de sondage.

Malgré un taux de sondage global constaté a posteriori assez important (de l’ordre de 20% avec des variations modérées d’une année sur l’autre), l’absence de plan de sondage conduit notre client à s’interroger sur la représentativité de l’échantillon obtenu.

La première année, notre client disposait de données statistiques sur la répartition de l’ensemble des exploitants par département et par surface exploitée (par données par tranches) mais pas d’un recensement exhaustif et fiable des exploitants avec la superficie exacte exploitée par chacun, aussi c’est la méthode de Deming et Stephan qui a été choisie parmi les méthodes possibles (voir la première partie de cet article).


Suite à l’expérience de la première enquête, un travail conséquent ayant été réalisé par notre client pour fiabiliser le fichier de l’ensemble des exploitants de son territoire, les surfaces exploitées sont maintenant connues a priori pour chaque exploitation. Nous disposons donc des données de calage pour chacun des individus de la base de sondage.

Dans ce cas, une autre méthode de « calage sur marges » peut être utilisée, la méthode introduite par Deville et Särndal en 1992.

questionnaire-pro, logiciel d'enquêtes édité par Questio
Graphiques personnalisables, module de tris croisés, rapport d’enquête ou export des données au choix

Méthode de Deville et Särndal : une méthode de redressement d’échantillon basée sur l’existence de données de calage individuelles

La méthode introduite par Deville et Särndal apporte davantage de précision en permettant l’attribution de poids individualisés au lieu des poids par case d’appartenance.

De plus, cette méthode permet potentiellement de caler l’échantillon sur plus de deux critères de redressement. En théorie, il n’y a pas de limite au nombre de critères utilisés. En pratique, il faut tout de même parvenir à faire converger l’algorithme de calcul des poids de redressement.

Comme la méthode de Deming et Stephan vue dans la première partie de cet article, la méthode de Deville et Särndal fonctionne par itérations. A partir d’un poids initial de 1, l’algorithme recherche pour chaque individu de l’échantillon un nouveau poids :

  • qui soit le plus proche possible du poids initial,
  • et tel que les marges du tableau des données redressées soient les plus proches possibles des marges théoriques.

Dans le cas présent, les marges sont constituées d’une part par la distribution des exploitations par département et d’autre part par la somme des surfaces individuelles par département.

Il existe plusieurs variantes de l’algorithme proposé par Deville et Särndal. Il est intéressant de les examiner une à une pour évaluer celle qui est la plus adaptée (c’est d’ailleurs ce que nous avons fait pour notre client) :

  1. Le redressement sur marge avec la méthode linéaire (méthode mathématique classique) peut fournir des poids négatifs, ce qui s’est produit pour notre échantillon. Dans notre cas de figure, ce n’est pas interprétable et nous l’avons écartée.
  2. La méthode du « raking ratio » restitue uniquement des poids positifs mais, pour notre jeu de données, les exploitants avec des surfaces au-delà d’une dizaine d’hectares se voient attribuer des poids proches de 0 et les plus petites surfaces des poids voisins de 3 soit un impact du redressement jugé trop important pour retenir cette solution.
  3. La méthode linéaire tronquée présente l’avantage de limiter l’intervalle de variation des poids en fixant un poids minimal et un poids maximal à ne pas dépasser. C’est la méthode qui a été retenue. (1)

Une fois la méthode choisie, plusieurs tests sont effectués sur les combinaisons de poids limites pour aboutir à une solution satisfaisante, avec une étendue minimale entre le coefficient minimum et le coefficient maximum tout en conservant un nombre de poids aux limites relativement faible.

En effet, la limitation de l’intervalle de variation des poids fixée par l’analyste peut conduire à une accumulation de coefficients aux limites fixées. Accumulation d’autant plus importante que l’échantillon est distordu ou que l’intervalle est réduit.

Il est important de rappeler que, même si en théorie il n’y a pas de limitation à la valeur des poids, en-dessous d’un poids inférieur à 0.5, on réduit beaucoup l’importance des observations faites sur l’échantillon alors que pour les poids supérieurs à 2 on augmente beaucoup l’importance d’un faible nombre d’observations.

C’est un point de vigilance important pour l’analyste des données en charge du redressement de l’échantillon.

Par ailleurs, il faut bien avoir en tête que selon le jeu de données de l’échantillon et les contraintes fixées sur l’étendue de l’intervalle de poids acceptables, l’algorithme de redressement ne converge pas toujours vers une solution.

Le redressement n’est pas une solution miracle a posteriori à tous les problèmes d’échantillonnage !

Tirage aléatoire des boules du Loto
A LIRE AUSSI

Méthodes d’échantillonnage aléatoires et non aléatoires
Les résultats d’une enquête par sondage ne sont extrapolables à la population tout entière que si l’échantillon est représentatif. Or cette représentativité est liée à la méthode d’échantillonnage […] Lire la suite

En conclusion, la procédure de redressement utilisée a permis de trouver une solution à la problématique du client de Questio évoquée dans cet article.

Malgré l’absence de plan de sondage (contrainte intrinsèque dans notre cas de figure), il est impératif d’augmenter la qualité de l’échantillon brut pour fiabiliser les résultats. A cet effet, nous avons mis en place des outils de suivi de l’échantillon au fur et à mesure qu’il se constitue. Ce suivi permet à l’équipe en charge de l’animation du projet chez notre client de concentrer la publicité faite à l’enquête sur les populations les plus déficitaires dans l’échantillon.

En procédant ainsi, il est possible année après année de diminuer l’étendue des poids de redressement, tout en amenant un nombre croissant d’exploitants à participer.


(1) Une quatrième méthode, la méthode logit qui impose elle aussi un poids minimal et un poids maximal à ne pas dépasser, n’a pas été étudiée dans notre cas.

Pour ceux qui souhaitent une vision plus complète et surtout une approche plus technique du calage sur marges, le site lemakistatheux est une mine d’informations utiles sur les méthodes statistiques (malgré quelques coquilles, reconnues par l’auteur).


questionnaire-pro est la plate-forme logicielle d’enquêtes en ligne éditée par Questio, pour réaliser des questionnaires sur internet, les diffuser et collecter les réponses de façon autonome, directement sur internet (essai gratuit 30 jours). Questio propose également à ses clients un accompagnement et des prestations de service ou développements sur-mesure.


Cet article vous a intéressé ? Vous avez des questions ou des commentaires à ajouter ? N’hésitez pas à vous exprimer, je m’attache à répondre à toutes les questions.

A propos de Françoise Lafont

Cofondatrice de Questio (éditeur du logiciel questionnaire-pro), consultante et formatrice, je partage dans ce blog mes connaissances théoriques et pratiques dans le domaine des enquêtes et sondages en ligne, auto-diagnostics numériques et protection des données (RGPD).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *