Déterminer la taille de l’échantillon

Formule de calcul de la taille de l'échantillon© Keerati (FreeDigitalPhotos.net)

Dans toutes les enquêtes quantitatives, la taille de l’échantillon est un facteur déterminant pour obtenir des données fiables. Les spécialistes des sondages font appel à des théories statistiques très complexes pour calculer la taille de l’échantillon en fonction de la marge d’erreur tolérée.

Ce qu’il faut savoir avant tout, c’est que les résultats obtenus sur l’échantillon ne sont extrapolables à la population entière que si l’échantillon est représentatif. Or la représentativité de l’échantillon dépend essentiellement de la méthode d’échantillonnage adoptée : sondage aléatoire ou sondage empirique.

Une fois la méthode choisie, venons-en au calcul de la taille de l’échantillon. Le nombre de personnes qui répondent effectivement à votre questionnaire est déterminant pour vous permettre de préciser dans quelle mesure (niveau de confiance, marge d’erreur) vous pouvez généraliser les résultats du sondage à l’ensemble de la population étudiée.

Méthode des quotas
A LIRE AUSSI

Méthodes d’échantillonnage aléatoires et non aléatoires
Les résultats d’une enquête par sondage ne sont extrapolables à la population tout entière que si l’échantillon est représentatif. Or cette représentativité est liée à la méthode d’échantillonnage appliquée […] Lire la suite

En général, plus il y a de personnes qui participent à l’enquête et plus votre marge d’erreur sera faible. Par exemple, voulez-vous estimer votre taux de clients satisfaits avec une précision de 2% ? Ou de 7% ?

Vous pensez peut-être que plus la population que vous étudiez est grande, et plus il vous faudra interroger de personnes. Ce n’est pas faux même si, en réalité, la taille d’un échantillon n’augmente pas proportionnellement à la taille de la population.


Facteurs à prendre en compte

Avant de vous lancer dans vos calculs, prenez en compte ces deux facteurs que connaissent bien les statisticiens :

  • la taille de la population mère

    Plus la précision recherchée est importante, plus on a besoin d’un échantillon de plus grande taille. Cependant, lorsqu’il s’agit de très grandes populations, la taille de la population n’a pas d’influence sur la taille de l’échantillon. C’est pour cela que les sondages politiques réalisés aux États-Unis sur un échantillon de 1000 personnes ont la même fiabilité que ceux réalisés en France sur un échantillon de même taille.

  • la variabilité des caractéristiques de la population mère

    Plus la population mère qui vous intéresse est diverse et présente des caractéristiques variées, plus il faudra interroger de personnes. A l’inverse, plus cette population est homogène et moins il faudra interroger de personnes. A l’extrême, si toutes les personnes d’une population X gagnent le même salaire, il suffit d’interroger une seule personne pour connaître le salaire moyen de la population ! Évident, non ?


Formule de calcul de la taille de l’échantillon

Voilà la fameuse formule que vous attendez : n = z² x p ( 1 – p ) / m²

n = taille de l’échantillon
z = niveau de confiance selon la loi normale centrée réduite (pour un niveau de confiance de 95%, z = 1.96, pour un niveau de confiance de 99%, z = 2.575)
p = proportion estimée de la population qui présente la caractéristique (lorsque inconnue, on utilise p = 0.5 ce qui correspond au cas le plus défavorable c’est-à-dire la dispersion la plus grande)
m = marge d’erreur tolérée (par exemple on veut connaître la proportion réelle à 5% près)

Cette formule détermine le nombre de personnes n à interroger en fonction de la marge d’erreur m que l’on peut tolérer sur une proportion de réponses p.

Nous retenons ici le calcul d’une proportion qui est très fréquent dans les enquêtes en ligne et sur lequel vous appuierez souvent vos décisions stratégiques. Par exemple, si vous étudiez le marché pour un nouveau produit à lancer, vous investirez pour le mettre en marché si la proportion des répondants intéressés par ce produit est suffisamment grande.

Revenons à nos calculs pour vous montrer en exemples ce que cela donne :

  1. Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5% :
    n = (1.96)² x (0,5)(1-0,5) / (0.05)² = 384.16

  2. Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 7% :
    n = (1.96)² x (0,5)(1-0,5) / (0.07)² = 196

  3. Pour calculer une proportion avec un niveau de confiance de 99% et une marge d’erreur à 2% :
    n = (2.575)² x (0,5)(1-0,5) / (0.02)² = 3218.75

Vous voyez que la taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre, votre budget pour l’enquête et l’ensemble des contraintes opérationnelles (informations disponibles, délais, etc.).

Pour effectuer une étude de marché suffisamment fiable, on admet le plus souvent une marge d’erreur de 5% ce qui nécessite d’obtenir environ 400 réponses. Si votre budget est plus limité, l’étude peut se faire auprès de 200 personnes seulement, mais vos résultats seront moins précis. A vous de voir…



Si cet article vous a plu, dites-le dans les commentaires et partagez-le sans modération !

A propos de Françoise Lafont

Cofondatrice de Questio, éditeur du logiciel questionnaire-pro, je partage dans ce blog mes connaissances théoriques et pratiques dans le domaine des études, enquêtes et sondages en ligne.

10 commentaire(s) sur “Déterminer la taille de l’échantillon

  1. Bonjour,
    d’après la formule ci-dessous, j’ai pas trouve d’où vient la valeur (2.575).
    Pour calculer une proportion avec un niveau de confiance de 99% et une marge d’erreur à 2% :
    n = (2.575)² x (0,5)(1-0,5) / (0.02)² = 3218.75
    – est que z ne change pas lorsque on change le taux de la marge d’erreur de 5% à 7% reste toujour 1.96.
    Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 7% :
    n = (1.96)² x (0,5)(1-0,5) / (0.07)² = 196

    1. Bonjour et merci de votre question. En effet, z est le niveau de confiance tandis que m est la marge d’erreur.

      On trouve la valeur de z dans les tables statistiques de la loi normale (théorie des probabilités). En général, on admet soit un niveau de confiance de 95%, soit un niveau de confiance de 99%. Dans le premier cas la valeur de z est 1.96, dans le deuxième cas c’est 2.575. Pour d’autres niveaux de confiance, consultez les tables statistiques pour trouver z.

      Si vous interrogez un échantillon de 400 répondants environ (exemple n°1) et que vous trouvez une proportion p de répondants prêts à acheter vos produits, vous pourrez dire : “avec 95% de confiance, la proportion de la population prête à acheter mes produits est entre p – 5% et p + 5%”.
      Avec 200 répondants seulement (exemple n°2), vous pourrez dire : “avec 95% de confiance, la proportion de la population prête à acheter mes produits est entre p – 7% et p + 7%”, le niveau de confiance est le même mais la précision est moindre.

      En espérant que c’est plus clair pour vous maintenant !

  2. bonsoir Madame
    j’ai pas compris pourquoi vous n’avez pas utiliser la taille de la population , comment je peux trouver un échantillon d’une population sans connaitre la taille de ma population totale ??
    merci beaucoup

    1. Merci Med pour votre question qui me permet de revenir et d’insister sur un point important : la taille de l’échantillon ne dépend pas de la taille de la population (sauf si celle-ci est très petite), la taille de l’échantillon se définit par rapport au degré de précision recherché et au phénomène que l’on étudie. C’est ce qui apparait dans la formule de calcul ci-dessus. Par exemple si on définit un seuil de confiance de 95% et une marge d’erreur de 2%, cela signifie que l’échantillon permettra d’extrapoler le résultat avec 5% de risques de se tromper de plus ou moins 2%.

      Dans le cas où la population est très petite, la définition d’un échantillon n’a pas de sens statistiquement, on admet en général que la notion d’échantillonnage n’a du sens que pour des populations supérieures à une centaine d’individus.

  3. Bonjour Madame,
    Je tenais à vous remercier pour vos explications clairs, il y’a un point que j’ai malheureusement pas compris. Comment on fait pour trouver p sachant que par exemple pour la question 1 il n’est pas indiqué mais dans le calcul il correspond à 0,5 ? Est ce une valeur stable ? Comment peut on faire pour le déterminée ?
    Merci beaucoup pour votre réponse
    Bonne soirée
    Lila

    1. Bonjour Lila et merci pour votre question sur la valeur de la proportion p que vous cherchez à estimer.

      Par exemple vous cherchez à savoir quelle est la proportion de vos clients intéressée par une livraison des produits à domicile et vous interrogez un échantillon de clients. La formule de calcul vous permet de savoir combien de clients il faut interroger pour estimer p avec un certain niveau de précision.

      Mais la valeur de p elle-même est un facteur de cette formule, d’où un problème puisqu’on ne connait pas encore p. Par précaution, on prend donc la valeur de p la plus défavorable pour le calcul à savoir p=50% autrement dit la dispersion la plus grande.

      Dans l’exemple de la livraison des produits, imaginez que la proportion de clients intéressés est de 20% et refaites le calcul, vous verrez qu’il faut interroger moins de personnes pour avoir la même précision !

    1. En effet, lorsque la taille de la population est très réduite, il faut appliquer un coefficient correcteur à la taille de l’échantillon telle qu’on la calcule ci-dessus. n étant la taille de l’échantillon et N la taille de la population, le coefficient de correction est égal à N / (N+n).

      Exemple pour une population de 100 individus :
      Pour une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5%, on trouve : n = 384,16
      Avec le coefficient correcteur, la taille de l’échantillon devient : n’ = n x N / (N+n) = 384,16 x 100 / (384,16+100) = 79,34
      Il faut donc interroger 80 personnes sur 100 pour obtenir la précision souhaitée ici.

  4. Pour un échantillon de moins de 100 individus (31) cette formule avec coefficient correcteur est elle toujours valable?

    1. Oui, la formule avec coefficient de correction reste valable mais faites le calcul avec une population de 31 individus :

      Pour une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5%, on trouve : n = 384,16
      Avec le coefficient correcteur, la taille de l’échantillon devient : n’ = n x N / (N+n) = 384,16 x 31 / (384,16+31) = 28,68

      Il vous faut interroger 29 personnes sur 31 pour obtenir la précision souhaitée ici. Statistiquement, la notion d’échantillon perd de son sens quand la population devient trop petite. Autant mener l’étude sur la totalité des 31 individus, non ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

− 4 = 4