La post-codification des réponses aux questions ouvertes (méthode traditionnelle ou text mining)

Codification a posteriori ou post-codage© surasaki (FreeDigitalPhotos.net)

Avant l’essor des outils informatiques puissants, les créateurs d’enquêtes utilisaient la post-codification, une méthode manuelle et laborieuse pour exploiter statistiquement les réponses aux questions ouvertes. Bien que des solutions automatiques de ‘text mining’ existent aujourd’hui, il est important de comprendre ces méthodes traditionnelles pour saisir l’évolution des pratiques.

Pour exploiter statistiquement les réponses aux questions ouvertes, la post-codification (aussi appelée codification a posteriori, post-codage ou recodage) a longtemps été une étape incontournable de l’analyse des résultats d’enquête dans les instituts de sondage ainsi que les cabinets d’étude ou les services études des entreprises.

C’est à la base une tâche manuelle un peu longue et fastidieuse qui consiste à regrouper les réponses dans des catégories homogènes. Cette technique était une étape indispensable pour rendre les réponses plus facilement interprétables en les regroupant dans des catégories homogènes.

Pourquoi post-codifier ?

La post-codification permet de transformer les réponses libres aux questions ouvertes en résultats synthétiques comparables à ceux des questions fermées.

En d’autres termes, une question ouverte peut offrir les mêmes avantages statistiques qu’une question fermée, comme la possibilité de réaliser des tris à plat ou des tris croisés avec d’autres questions. Ceci sans imposer une grille de réponses pré-établie aux répondants.

Cependant, ce processus a un prix : le temps important que nécessite le travail de post-codage.

Voyons dans un premier temps comment mettre en oeuvre la méthode manuelle puis nous aborderons les logiciels de text mining qui sont apparus dans les années 2000.

questionnaire-pro, logiciel d'enquêtes édité par Questio
Nombreux types de questions pour s’adapter à tous les besoins de recueil de réponses par questionnaire

1. La post-codification manuelle

Concrètement, la méthode consiste à lire les réponses une à une, de manière à regrouper les réponses obtenues dans des catégories homogènes pour dénombrer les thèmes ou idées qui apparaissent de façon récurrente.

Idéalement, on retient de 5 à 10 catégories, pas davantage. Par commodité, on les enregistre et on les numérote au sein d’une table de codification.

Pour créer ces catégories, on débute par un petit échantillon de questionnaires et on analyse les réponses. Pour chacune d’elles, on se pose la question : faut-il créer une nouvelle catégorie dans la table ou la réponse s’apparente-t-elle à une catégorie déjà créée ?

Au début, chaque réponse ou presque conduit à créer une catégorie dans la table. Puis, en général, on commence à trouver plusieurs fois des réponses formulées différemment mais qui sont similaires. Le nombre de questionnaires dépouillés dans cette phase s’avère suffisant dès lors qu’on n’ajoute plus de nouvelle catégorie.

Équilibre entre avantages et inconvénients
A LIRE AUSSI

Avantages et inconvénients des questions ouvertes
Les questions ouvertes, en permettant de recueillir les avis des répondants de façon détaillée, peuvent être très utiles dans les questionnaires. Elles ont beaucoup d’avantages mais aussi (hélas!) […] Lire la suite

Une fois la table de codification établie, il reste à dépouiller de façon systématique la totalité des réponses, une à une. Une façon d’accélérer le processus consiste utiliser un outil informatique comme un tableur (MS-Excel), ce qui permet d’avoir les réponses libres dans une colonne et d’inscrire dans la colonne suivante le numéro affecté d’après la table de codification.

Les statistiques de réponses par modalité (tris à plat) sont obtenus quasi instantanément.

Néanmoins, même avec ce type d’outil, le post-codage a un inconvénient majeur : cela devient vite un travail long et fastidieux à réaliser, particulièrement pour les enquêtes avec un grand nombre de réponses !

De plus, cette méthode manuelle souffre (ou plutôt souffrait, car on ne l’utilise plus guère) de plusieurs limitations majeures :

  • manque de fiabilité

    L’interprétation de celui qui effectue le travail de codification influe sur le résultat, introduisant un biais subjectif. Rien ne garantit en effet que la catégorie dans laquelle on range la réponse donnée soit bien celle que le répondant aurait choisie si on lui avait présenté la question sous forme de question fermée.

  • perte d’information

    Les indications apportées par le vocabulaire et la syntaxe utilisés par le répondant disparaissent. Les réponses les plus rares sont éliminées. On observe un appauvrissement du contenu.
    De plus, si les réponses sont longues et très hétéroclites, la codification sera moins pertinente que si les données sont assez homogènes et les réponses courtes.

Illustration de l'analyse de données statistiques
A LIRE AUSSI

Approfondir l’analyse de résultats d’enquête ou sondage
La philosophie de Questio est de mettre à la portée de tous, néophytes ou expérimentés, une solution professionnelle pour leurs enquêtes et sondages en ligne. C’est dans cet esprit […] Lire la suite

2. Les solutions de text mining

Avec l’arrivée de technologies plus avancées dans les années 2000, des logiciels de text mining ont permis d’automatiser une partie du processus de codification. On traduit text mining par « fouille de texte » en français mais je ne pense pas que ce terme soit réellement utilisé.

Ces outils proposent des solutions plus rapides et plus objectives, en éliminant les biais humains et en fournissant des visualisations comme des nuages de mots.

Cependant, l’accès à ces solutions reste limité à ceux disposant de budgets et de ressources conséquents.

Voici un aperçu des principaux logiciels de text mining qui ont marqué le domaine (j’en parle ici d’autant plus librement que la plateforme questionnaire-pro développée par notre société n’inclut aucune fonctionnalité de ce type) :

  • RapidMiner est un logiciel open-source initialement développé en 2006. Il permet de traiter de grands volumes de texte et d’extraire des informations précieuses comme les thèmes abordés et les sentiments exprimés. L’outil a évolué pour intégrer plus d’outils d’analyse de données et de machine learning mais la partie text mining reste accessible et utile.

  • KNIME est une plateforme open-source d’analyse de données, créée en 2004, avec des mises à jour régulières. Ses capacités de text mining s’étendent désormais aux applications de machine learning et d’intelligence artificielle.

  • Lancé par SAS (un éditeur reconnu de logiciels d’analyse) dans les années 2000, SAS Text Miner a été l’un des outils phares pour les grandes entreprises cherchant à analyser leurs données textuelles. Il est toujours disponible, bien que d’autres outils plus modernes de la suite SAS aient pris le relais pour répondre à des besoins plus complexes et de plus gros volumes de données.

  • Spécialement conçu pour analyser les réponses aux enquêtes, IBM SPSS Text Analytics for Surveys a été développé par IBM dans les années 2000 pour structurer les réponses aux questions ouvertes en détectant des thèmes et des tendances.

  • WordStat est l’un des précurseurs, avec une première version sortie en 1998. Conçu pour l’analyse quantitative de texte et l’analyse de contenu, ce logiciel est toujours disponible et largement utilisé dans de nombreux secteurs pour l’analyse des verbatims : pour analyser les réponses aux enquêtes, mais aussi pour la recherche académique et les études de marché.

  • La solution de text mining de Lexalytics (Semantria), sortie en 2011, analyse les textes en masse via une API et un plugin Excel. Le logiciel utilise des algorithmes sophistiqués pour détecter des thèmes, opinions et sentiments.

Les logiciels de text mining ont joué un rôle crucial dans l’analyse des données textuelles avant l’essor des outils d’intelligence artificielle générative. Aujourd’hui, bon nombre de ces logiciels continuent d’exister et d’évoluer.

Cependant, avec l’émergence des outils comme ChatGPT ou autres, les approches traditionnelles de text mining se sont enrichies de nouvelles capacités. Les logiciels historiques ont soit intégré des technologies d’IA, soit été supplantés par des solutions plus intuitives et puissantes.


questionnaire-pro est la plate-forme d’enquêtes en ligne développée et hébergée en France par Questio, pour programmer des questionnaires sur internet, collecter et exploiter les réponses de façon autonome et automatisée (logiciel de type SaaS, essai gratuit 30 jours).

Questio propose également à ses clients un accompagnement et des prestations de service ou développements sur-mesure ainsi qu’un module d’auto-diagnostic digital.


Cet article vous a intéressé ? Vous avez des questions d’ordre général ou des commentaires à ajouter ? N’hésitez pas à vous exprimer, je m’attache à répondre à toutes les demandes.

A propos de Françoise Lafont

Cofondatrice de Questio (éditeur du logiciel questionnaire-pro), consultante et formatrice, je partage dans ce blog mes connaissances théoriques et pratiques dans le domaine des enquêtes et sondages en ligne, auto-diagnostics numériques et protection des données (RGPD).

2 commentaire(s) sur “La post-codification des réponses aux questions ouvertes (méthode traditionnelle ou text mining)

  1. Bonjour.
    Cela fait longtemps que j’ai pratiqué une activité d’enquête. Ni participé à un codage. En lisant ce document, ça m’a rafraîchis la mémoire. Et sûrement en continuant à lire vos pubications très riches de connaissances, je pourrais m’engager de nouveaux dans les enquêtes avec un peu de recyclage. C’est édifiant.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *