Déterminer la taille de l’échantillon

Formule de calcul de la taille de l'échantillon© Keerati (FreeDigitalPhotos.net)

Dans toutes les enquêtes quantitatives, la taille de l’échantillon est un facteur déterminant pour obtenir des données fiables. Les spécialistes des sondages font appel à des théories statistiques très complexes pour calculer la taille de l’échantillon en fonction de la marge d’erreur tolérée.

Ce qu’il faut savoir avant tout, c’est que les résultats obtenus sur l’échantillon ne sont extrapolables à la population entière que si l’échantillon est représentatif. Or la représentativité de l’échantillon dépend essentiellement de la méthode d’échantillonnage adoptée : sondage aléatoire ou sondage empirique.

Une fois la méthode choisie, venons-en au calcul de la taille de l’échantillon. Le nombre de personnes qui répondent effectivement à votre questionnaire est déterminant pour vous permettre de préciser dans quelle mesure (niveau de confiance, marge d’erreur) vous pouvez généraliser les résultats du sondage à l’ensemble de la population étudiée.

Méthode des quotas
A LIRE AUSSI

Méthodes d’échantillonnage aléatoires et non aléatoires
Les résultats d’une enquête par sondage ne sont extrapolables à la population tout entière que si l’échantillon est représentatif. Or cette représentativité est liée à la méthode d’échantillonnage appliquée […] Lire la suite

En général, plus il y a de personnes qui participent à l’enquête et plus votre marge d’erreur sera faible. Par exemple, voulez-vous estimer votre taux de clients satisfaits avec une précision de 2% ? Ou de 7% ?

Vous pensez peut-être que plus la population que vous étudiez est grande, et plus il vous faudra interroger de personnes. Ce n’est pas faux même si, en réalité, la taille d’un échantillon n’augmente pas proportionnellement à la taille de la population.


Facteurs à prendre en compte

Avant de vous lancer dans vos calculs, prenez en compte ces deux facteurs que connaissent bien les statisticiens :

  • la taille de la population mère

    Plus la précision recherchée est importante, plus on a besoin d’un échantillon de plus grande taille. Cependant, lorsqu’il s’agit de très grandes populations, la taille de la population n’a pas d’influence sur la taille de l’échantillon. C’est pour cela que les sondages politiques réalisés aux États-Unis sur un échantillon de 1000 personnes ont la même fiabilité que ceux réalisés en France sur un échantillon de même taille.

  • la variabilité des caractéristiques de la population mère

    Plus la population mère qui vous intéresse est diverse et présente des caractéristiques variées, plus il faudra interroger de personnes. A l’inverse, plus cette population est homogène et moins il faudra interroger de personnes. A l’extrême, si toutes les personnes d’une population X gagnent le même salaire, il suffit d’interroger une seule personne pour connaître le salaire moyen de la population ! Évident, non ?


Formule de calcul de la taille de l’échantillon

Voilà la fameuse formule que vous attendez : n = z² x p ( 1 – p ) / m²

n = taille de l’échantillon
z = niveau de confiance selon la loi normale centrée réduite (pour un niveau de confiance de 95%, z = 1.96, pour un niveau de confiance de 99%, z = 2.575)
p = proportion estimée de la population qui présente la caractéristique (lorsque inconnue, on utilise p = 0.5 ce qui correspond au cas le plus défavorable c’est-à-dire la dispersion la plus grande)
m = marge d’erreur tolérée (par exemple on veut connaître la proportion réelle à 5% près)

Cette formule détermine le nombre de personnes n à interroger en fonction de la marge d’erreur m que l’on peut tolérer sur une proportion de réponses p.

Nous retenons ici le calcul d’une proportion qui est très fréquent dans les enquêtes en ligne et sur lequel vous appuierez souvent vos décisions stratégiques. Par exemple, si vous étudiez le marché pour un nouveau produit à lancer, vous investirez pour le mettre en marché si la proportion des répondants intéressés par ce produit est suffisamment grande.

Revenons à nos calculs pour vous montrer en exemples ce que cela donne :

  1. Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5% :
    n = (1.96)² x (0,5)(1-0,5) / (0.05)² = 384.16

  2. Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 7% :
    n = (1.96)² x (0,5)(1-0,5) / (0.07)² = 196

  3. Pour calculer une proportion avec un niveau de confiance de 99% et une marge d’erreur à 2% :
    n = (2.575)² x (0,5)(1-0,5) / (0.02)² = 3218.75

Vous voyez que la taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre, votre budget pour l’enquête et l’ensemble des contraintes opérationnelles (informations disponibles, délais, etc.).

Pour effectuer une étude de marché suffisamment fiable, on admet le plus souvent une marge d’erreur de 5% ce qui nécessite d’obtenir environ 400 réponses. Si votre budget est plus limité, l’étude peut se faire auprès de 200 personnes seulement, mais vos résultats seront moins précis. A vous de voir…



Si cet article vous a plu, dites-le dans les commentaires et partagez-le sans modération !

A propos de Françoise Lafont

Cofondatrice de Questio, éditeur du logiciel questionnaire-pro, consultante et formatrice, je partage dans ce blog mes connaissances théoriques et pratiques dans le domaine des enquêtes et sondages en ligne, auto-diagnostics numériques et protection des données (RGPD).

36 commentaire(s) sur “Déterminer la taille de l’échantillon

  1. Bonjour,
    d’après la formule ci-dessous, j’ai pas trouve d’où vient la valeur (2.575).
    Pour calculer une proportion avec un niveau de confiance de 99% et une marge d’erreur à 2% :
    n = (2.575)² x (0,5)(1-0,5) / (0.02)² = 3218.75
    – est que z ne change pas lorsque on change le taux de la marge d’erreur de 5% à 7% reste toujour 1.96.
    Pour calculer une proportion avec un niveau de confiance de 95% et une marge d’erreur à 7% :
    n = (1.96)² x (0,5)(1-0,5) / (0.07)² = 196

    1. Bonjour et merci de votre question. En effet, z est le niveau de confiance tandis que m est la marge d’erreur.

      On trouve la valeur de z dans les tables statistiques de la loi normale (théorie des probabilités). En général, on admet soit un niveau de confiance de 95%, soit un niveau de confiance de 99%. Dans le premier cas la valeur de z est 1.96, dans le deuxième cas c’est 2.575. Pour d’autres niveaux de confiance, consultez les tables statistiques pour trouver z.

      Si vous interrogez un échantillon de 400 répondants environ (exemple n°1) et que vous trouvez une proportion p de répondants prêts à acheter vos produits, vous pourrez dire : “avec 95% de confiance, la proportion de la population prête à acheter mes produits est entre p – 5% et p + 5%”.
      Avec 200 répondants seulement (exemple n°2), vous pourrez dire : “avec 95% de confiance, la proportion de la population prête à acheter mes produits est entre p – 7% et p + 7%”, le niveau de confiance est le même mais la précision est moindre.

      En espérant que c’est plus clair pour vous maintenant !

      1. Bonsior,
        Je voudrais savoir s’il y a des inconvénients de l’utilisation des formules statique pour definir la taille d’echantillon

  2. bonsoir Madame
    j’ai pas compris pourquoi vous n’avez pas utiliser la taille de la population , comment je peux trouver un échantillon d’une population sans connaitre la taille de ma population totale ??
    merci beaucoup

    1. Merci Med pour votre question qui me permet de revenir et d’insister sur un point important : la taille de l’échantillon ne dépend pas de la taille de la population (sauf si celle-ci est très petite), la taille de l’échantillon se définit par rapport au degré de précision recherché et au phénomène que l’on étudie. C’est ce qui apparait dans la formule de calcul ci-dessus. Par exemple si on définit un seuil de confiance de 95% et une marge d’erreur de 2%, cela signifie que l’échantillon permettra d’extrapoler le résultat avec 5% de risques de se tromper de plus ou moins 2%.

      Dans le cas où la population est très petite, la définition d’un échantillon n’a pas de sens statistiquement, on admet en général que la notion d’échantillonnage n’a du sens que pour des populations supérieures à une centaine d’individus.

  3. Bonjour Madame,
    Je tenais à vous remercier pour vos explications clairs, il y’a un point que j’ai malheureusement pas compris. Comment on fait pour trouver p sachant que par exemple pour la question 1 il n’est pas indiqué mais dans le calcul il correspond à 0,5 ? Est ce une valeur stable ? Comment peut on faire pour le déterminée ?
    Merci beaucoup pour votre réponse
    Bonne soirée
    Lila

    1. Bonjour Lila et merci pour votre question sur la valeur de la proportion p que vous cherchez à estimer.

      Par exemple vous cherchez à savoir quelle est la proportion de vos clients intéressée par une livraison des produits à domicile et vous interrogez un échantillon de clients. La formule de calcul vous permet de savoir combien de clients il faut interroger pour estimer p avec un certain niveau de précision.

      Mais la valeur de p elle-même est un facteur de cette formule, d’où un problème puisqu’on ne connait pas encore p. Par précaution, on prend donc la valeur de p la plus défavorable pour le calcul à savoir p=50% autrement dit la dispersion la plus grande.

      Dans l’exemple de la livraison des produits, imaginez que la proportion de clients intéressés est de 20% et refaites le calcul, vous verrez qu’il faut interroger moins de personnes pour avoir la même précision !

    1. En effet, lorsque la taille de la population est très réduite, il faut appliquer un coefficient correcteur à la taille de l’échantillon telle qu’on la calcule ci-dessus. n étant la taille de l’échantillon et N la taille de la population, le coefficient de correction est égal à N / (N+n).

      Exemple pour une population de 100 individus :
      Pour une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5%, on trouve : n = 384,16
      Avec le coefficient correcteur, la taille de l’échantillon devient : n’ = n x N / (N+n) = 384,16 x 100 / (384,16+100) = 79,34
      Il faut donc interroger 80 personnes sur 100 pour obtenir la précision souhaitée ici.

  4. Pour un échantillon de moins de 100 individus (31) cette formule avec coefficient correcteur est elle toujours valable?

    1. Oui, la formule avec coefficient de correction reste valable mais faites le calcul avec une population de 31 individus :

      Pour une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5%, on trouve : n = 384,16
      Avec le coefficient correcteur, la taille de l’échantillon devient : n’ = n x N / (N+n) = 384,16 x 31 / (384,16+31) = 28,68

      Il vous faut interroger 29 personnes sur 31 pour obtenir la précision souhaitée ici. Statistiquement, la notion d’échantillon perd de son sens quand la population devient trop petite. Autant mener l’étude sur la totalité des 31 individus, non ?

  5. Bonjour et merci pour vos explications,
    Si je me base sur une proportion p estimée de 20% et que la proportion de l’echantillon à l’étude s’avère de 30%, pourrai-je conclure directement? Ou bien faut-il plutôt recalculer la taille de l’échatillon (l’augmenter) en fontion d’une nouvelle proportion p de 30% par exemple et refaire la même chose avec le nouvel échantillon ainsi calculé. Autrement dit, conclure uniquement si la proportion de l’échantillon à l’étude est inférieure à p. Merci

    1. Bonjour Alexandre, la proportion p correspond en effet à la part de la population qui présente la caractéristique étudiée telle qu’on l’estime a priori. Par exemple, dans une étude de marché, on cherche à savoir quelle est la proportion de la population qui consomme la marque X. Si on a une connaissance a priori du marché, ou si on a fait une étude similaire dans le passé, on prend la valeur connue.

      Lorsque p est inconnu a priori, on utilise p = 50% ce qui correspond à la dispersion la plus grande c’est-à-dire le cas où il faut l’échantillon le plus grand pour obtenir la précision souhaitée. Si vous pensez que votre proportion p se situe entre 20% et 30%, je vous conseille de calculer l’échantillon sur 30%, il vous faudra interroger un peu plus de personnes mais vous assurez une précision minimale.

  6. Bonsoir madame. Je travaille sur l’art plastique et je dois interroger les artistes d’une commune ( 223 552 personnes) dont 5 arrondissements. Je ne connais pas l’effectif des artistes. Que dois-je faire?
    Merci d’avance.

    1. Avant de choisir une méthode d’échantillonnage et a fortiori la taille de l’échantillon, un travail préalable consiste à rechercher le maximum d’informations possibles sur la population à étudier, dans votre cas les artistes de la commune.Essayez de mieux les connaître : quels types d’artistes y a-t-il ? comment et où exercent-ils leur art ? sont-ils regroupés à certains endroits ? etc.

      Pour cela, cherchez de la documentation, interviewez des artistes que vous connaissez ou allez dans des lieux d’exposition et questionnez des experts (galeristes, collectionneurs, professeurs d’art…). Ce n’est que quand vous connaîtrez suffisamment la population cible que vous serez en mesure de définir un plan d’échantillonnage pour votre étude. Je suis sûre que les idées vous viendront alors naturellement.

  7. Bonjour Madame,
    Tout d’abord merci pour cet article très informatif et clair.
    Je fais face à une situation suivante par rapport au mémoire – je combine la méthode de questionnaires (une certaine population des salariés) et quelques entretiens avec les acteurs de la problématique (non salariés). Finalité étant comment améliorer des processus à destination des salariés. Pour les questionnaire – on souhaitait “juste” de collecter les tendances générales..

    Sachant que mon échantillon comporte de 20 réponses – comment le présenter dans le texte accompagnant – en dehors qu’il ne soit pas représentatif, on a quand même pu obtenir des avis différents… (je précise qu’on ne connaît pas le nombre de population totale mais elle est très grande.. plusieurs centaines de milliers).
    Finalement je pense ne faire que l’analyse qualitative sur les questions ouvertes… est-ce que cela pourrait être une solution de contournement proposé, ‘y a-t-il un autre?

    Merci beaucoup.

    1. Bonjour, je ne vois pas d’objection à présenter les résultats d’une enquête ne reposant que sur 20 questionnaires complétés, dans un mémoire d’études universitaires. Toutefois vous devez impérativement rappeler au préalable la méthodologie de recueil des données et surtout en expliquer les limites : pas de représentativité statistique donc pas d’extrapolation possible à la population toute entière.

      Désolée de répondre un peu tardivement, votre commentaire étant arrivé par erreur dans la boîte des indésirables, je ne l’avais pas vu passer. Bon succès pour votre mémoire !

  8. Bonjour Madame Lafont,
    je mène deux études sur la covid-19:
    1. En milieu universitaire sur les personnels et étudiants du degré terminal , la population de mon pays est d’environ 80 000 000 d’habitants et le cumul de la population atteinte de la covid-19 est de 9676. Quel sera la taille de mon échantillon dans ce cas?
    2. En milieu communautaire dans les ménages (dans un quartier résidentiel) pour la même population. Quel sera la taille dans ce cas et le saut de pas?

    1. Bonjour, comme il est indiqué plus haut dans cet article, la taille d’un échantillon statistique valable ne dépend pas (ou seulement dans le cas des très petites populations) du nombre d’individus dans la population étudiée. La formule de calcul fait principalement appel à deux paramètres, le niveau de confiance z et la marge d’erreur acceptée m. Ce sont ces deux paramètres qu’il vous faut déterminer a priori pour obtenir le nombre d’individus à interroger.

      Dans le cas des études que vous menez, prenez soin de bien définir en amont l’unité statistique de base, ce qui vous aidera pour la population et l’échantillon. Dans votre premier cas, l’unité statistique étudiée est-elle le membre de l’université (étudiant ou personnel) ou l’habitant du pays ou encore l’individu atteint de la Covid-19 ? Dans votre deuxième cas, l’unité statistique étant le ménage, votre raisonnement et vos calculs doivent prendre en compte le nombre de ménages dans la population/dans l’échantillon.

      En espérant que mes remarques vous seront utiles, et vous souhaitant de trouver des résultants qui feront progresser la lutte contre la maladie.

  9. Merci de l’explication fournie, mais je compte savoir quelle est la formule qu’on utilise pour obtenir proportion estimée de la population qui présente la caractéristique.
    Dans mon cas j’ai la population totale de l’aire de santé et j’ai les populations reparties par village dans cette aire de santé. Merci

    1. Oui, en général, quand on mène une enquête par sondage, c’est justement pour découvrir des informations que l’on n’a pas sur la population étudiée. Imaginons par exemple qu’on cherche la proportion de personnes qui consultent un médecin au moins une fois par an. Il se peut que l’on connaisse cette proportion dans d’autres zones géographiques ou pour des périodes antérieures. Dans ce cas, on peut s’appuyer sur ces informations pour introduire la valeur de p dans la formule. Mais, si on n’a aucune information a priori sur cette proportion, on prendra p = 0,5 car c’est la valeur qui nécessite l’échantillon le plus grand, à précision équivalente. Et qui peut le plus peut le moins ! Toutes choses égales par ailleurs, un échantillon plus grand donnera une estimation plus fiable qu’un échantillon plus petit.

      En résumé, si vous n’avez aucune notion à l’avance de la proportion estimée de la population qui présente la caractéristique, prenez p égal à 50% pour votre calcul de taille d’échantillon.

      1. Bonjour Françoise Lafont
        Merci énormément pour cette explication qui satisfait aussi ma requête. cependant j’ai une autre préoccupation qui est formulée de cette façon:
        Je compte trouver la taille d’échantillon pour mieux mener mon étude sur le nombre des ménages qui consultes la Consultation préscolaire (CPS), j’ai la population totale pour une aire de santé, j’ai également la population par village dans cette aire de santé, est-ce que je peux utiliser directement la population totale de cette aire de santé ou j’utilise carrément le total de la population issue du nombre de ménage attendu? que j’ai obtenu en faisant (population par village divisé par 5,6 (est la taille par d’un ménage selon le standard en République démocratique du Congo)). Ex: Village BOUGE avec comme population 1059 nombre des ménages attendus = 1059 ÷ 5,6 ce qui donne 189 .

        Aussi quelle est la formule qu’on utilise pour obtenir le nombre des ménages retenus pour l’enquête?
        cela nous faciliterai à savoir combien des fiches/ ou nombre des formulaires qu’on peut rendre disponible pour un village.

        Merci pour la précision

        1. Bonjour, si votre étude porte sur le taux de consultation de la CPS par les ménages, alors votre unité statistique de référence est le ménage. Donc vous devez calculer l’échantillon en nombre de ménages. L’idéal serait de disposer des statistiques de ménages par village. Si vous n’en disposez pas, l’approche que vous proposez (utilisant la population du village et la taille moyenne des ménages dans le pays) est pragmatique. Toutefois cette approche suppose que la taille des ménages est identique quel que soit le village ce qui n’est peut-être pas la réalité. Une telle hypothèse est-elle acceptable au regard des objectifs et de la finalité de l’étude ? C’est à vous d’en juger.

    1. Bonjour John, vous devez considérer une population de 165 personnes comme une “petite population” et donc appliquer à la formule le coefficient de correction qui est égal à N / (N+n)n est la taille de l’échantillon et N la taille de la population.

      Exemple pour une population de 165 individus :
      Pour une proportion avec un niveau de confiance de 95% et une marge d’erreur à 5%, on trouve :
      n = 384,16
      Avec le coefficient correcteur, la taille de l’échantillon devient : n’ = n x N / (N+n) = 384,16 x 165 / (384,16+165) = 115,42
      Il faut donc interroger 116 personnes sur 165 pour obtenir la précision souhaitée ici.

      Il ne vous reste plus qu’à refaire le calcul avec le niveau de confiance et la marge d’erreur que vous choisissez !

    1. Bonjour Eloi, merci beaucoup pour vos messages. Je suis ravie de pouvoir apporter des réponses à vos questions dans le domaine des enquêtes et sondages !

      A ma connaissance, il n’y a pas un auteur précisément mais un ensemble de travaux scientifiques, mathématiques en l’occurrence, menés au fil du temps et qui ont abouti à la théorie des probabilités. S’agissant de la recherche des meilleurs estimateurs statistiques, on s’appuie sur la loi normale. Plusieurs auteurs peuvent être considérés comme les pères de la loi normale, parmi lesquels le mathématicien allemand Gauss et le français Laplace.

      Pour aller plus loin, vous trouverez dans Wikipedia un article détaillé sur l’histoire des probabilités. Bonne lecture !

  10. Bonjour Madame, je vous remercie tout d’abord pour votre effort et ce travail qui nous aide énormément.
    Ma question est la suivante : j’ai un travail qui consiste sur la comparaison d’effet d’un aliment sur la croissance de poisson. La population et de 400 poissons dans chaque bassins. Quelle est la taille de l’échantillon ? Merci

    1. Bonjour Outmane, votre question nous éloigne du sujet de ce blog qui est dédié aux concepteurs d’enquêtes et sondages (études de marché, enquêtes de satisfaction, etc.) pour lesquels on interroge des individus en leur posant des questions via un questionnaire. Ce qui n’est pas le cas de vos poissons… 😉

      Toutefois, la formule de calcul de la taille de l’échantillon basée sur la théorie des probabilités reste valable. Comme je l’indique dans l’article, et aussi en réponse à plusieurs commentaires précédents, cette taille ne dépend pas de la taille de la population étudiée mais bien du degré de précision que vous souhaitez obtenir via l’échantillonnage. Définissez le niveau de confiance souhaité et la marge d’erreur tolérée, et vous pourrez appliquer la formule ! Vous souhaitant bon courage pour vos travaux.

  11. Bonjour madame, j’ai trouvé votre présentation très intéressante. Pour ma part, je souhaite tirer un échantillon de centre de santé, sur une base de 190, avec l’intervalle de confiance de 95% et une marge d’erreur de 5%. J’ai suivi la démarche et je suis arrivé à un échantillon de 127 centre de santé. Pour moi, je trouve que cet échantillon est encore grand par rapport aux ressources disponibles pour mener l’étude. Je voudrai avoir un échantillon correspondant à au plus 1/3 des centre de santé. Quelles sont les autres possibilités? Merci d’avance pour votre réponse.

    1. Bonjour Alfred, merci pour votre commentaire et votre question.

      Si pour des raisons pratiques liées aux ressources disponibles, vous ne pouvez interroger qu’un tiers des 190 centres de santé, soit une soixantaine de centres, la précision de vos résultats sera nécessairement moins bonne. Gardez l’intervalle de confiance et inversez la formule pour calculer la marge d’erreur en fonction de la taille réelle de votre échantillon.

      Il vous faudra tenir compte de cette marge d’erreur dans l’analyse des réponses, notamment si vous souhaitez extrapoler à la population totale les résultats statistiques obtenus sur l’échantillon.

      1. J’ai bien reçu votre réponse et vous en remercie et surtout félicitations pour cette initiative. Bonne journée de travail à vous.

    1. Bonjour et merci pour votre question, Jean Paul.

      Dans la formule de calcul de la taille de l’échantillon n, la taille de la population n’intervient pas donc ce n’est pas grave si elle est inconnue ou connue de façon approximative.

      C’est uniquement dans le cas des “petites populations” qu’il faut appliquer un coefficient correcteur pour la prendre en compte. Et là, en effet, il faut connaître la taille de la population pour déterminer le coefficient correcteur. Ce qui est généralement le cas quand on étudie une population de petite taille.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

− 2 = 1