Les études
quantitatives
8 mai 2006
I. Les 2
grandes stratégies d’études quantitatives
1. Le
recensement qui a pour but de dénombrer
Il
consiste à interroger individuellement toute une population
Il
nécessite des moyens matériels, humains et financiers d’autant
plus important que la population est grande Les
résultats sont longs à exploiter et à publier
Le recensement n’est donc utilisé
que lorsque la population est de taille réduite
(exemple : étude des acheteurs très profilés, études
internes primaires, etc.).
2. Le sondage
qui a pour but d’estimer
Le sondage est une enquête
effectuée sur un sous ensemble ou échantillon de la population
dont on veut connaître les caractéristiques, les opinions, les
attitudes, les comportements passés et ou les intentions
d’achat. La validité de l’estimation dépend d’un grand nombre
de facteur.
II. Les
méthodes d’échantillonnage
Elles permettent de constituer un
échantillon d’une population mère également appelée population
de référence ou univers. Il existe 2 grandes méthodes
d’échantillonnage :
Les
méthodes probabilistes qui consistent à tirer au sort
l’échantillon dans la population à étudier, donnant à chacun
des éléments de celle-ci une probabilité connue non nulle,
d’être sélectionnée. Les
méthodes non probabiliste : qui reposent sur un choix
raisonné d’individus de la population en respectant les règles
fixées à l’avance, concernant les caractéristiques
individuelles (quotas) et/ou les lieux d’enquête et/ou le
moment d’enquête, etc.
A. Les méthodes
probabilistes
Ce sont les règles qui permettent
de calculer la marge d’erreur de destination à certains seuils
de conscience. Il existe plusieurs méthodes
probabilistes :
le sondage aléatoire simple
le sondage en grappes
le sondage aréolaire
le sondage a plusieurs degrés
le sondage stratifié, proportionnel ou non Elles nécessitent
une base de sondage, c’est-à-dire une liste exhaustive des
éléments constituant la population : individu, éléments
ou unité de sondages (grappe, zone géographique, etc.
a. Les sondages
aléatoires simples ou sondages au hasard
À partir de la base de sondage de
la population, un tirage au sort est organisé donnant à chaque
individu de la population une probabilité égale non nulle,
d’être interrogé. Il existe de nombreuses méthodes du tirage
au sort. Les deux plus utilisées actuellement sont :
l’utilisation de logiciels de nombre au hasard
le tirage systématique
Méthodes |
Avantages |
Inconvénients |
Utilisation d’un logiciel de nombre ou hasard |
La société détentrice du fichier le fait
généralement |
- La nécessité de numéroter tous les individus du
fichier En
cas de taux de réponse faible |
Tirage systématique |
La simplicité : une suite arithmétique dans la
raison est égale à N/n |
- le biais éventuel en cas de classement des
individus dans le fichier : zone PCS
etc. |
Exemple d’un
tirage systématique :
On retient chacun N/ième individus
de la base de sondage. La population est de 100 000 individus.
On souhaite interroger sans individus, le taux de sondage n/N
est à 1/1000e. Quand il ressort à nombre entre un et
1000 : supposons 465. On interroge les individus dont le
numéro d’identifier en sont 465, 1465, 2465, 3465, 4465,...,99
465.
b. Le sondage
en grappes
Cette méthode d’échantillonnage
probabiliste consiste à tirer au sort, dans une base de
sondages d’unités de sondage, un certain nombre (au moins 30)
de grappes d’éléments statistiques, appelés grappes et
interroger tous les individus. Exemple de gras :
un ménage est une grappe de personnes physiques
une entreprise est une grappe de salariés
une association est une grappe de membres
Le sondage en grappes est utilisé
dans deux cas :
lorsqu’il existe pas de base de sondage d’individus éléments
mais qu’il existe une base de sondage de grappes (unités de
sondage) : annuaire des entreprises, annuaire de
téléphone, annuaire des associations, etc.
lorsqu’on veut réduire nos coûts d’administration des
questionnaires induits par la dispersion des personnes
interrogées
Exemple : en interrogeant
quatre personnes par ménage, en moyenne et il n’y aura que 250
points d’enquête pour interroger un échantillon de 1000
individus, au lieu de 1000 lieux d’enquêtes dans un sondage
aléatoire simple.
Avantages |
Inconvénients |
- le grand nombre de bases de sondages de grappes
disponibles la
moindre contrainte légale relative à l’informatique, aux
fichiers, et aux libertés la
réduction des coûts de dispersion géographique |
- en cas d’effet de grappes, l’effet psychologique
de ressemblance des individus appartenant à une même
grappe pousse soit à choisir une autre méthode
d’échantillonnage, soit à n’interroger qu’un individu
par grappe (date anniversaire) |
c. Le sondage
aréolaire
Cette méthode probabiliste
consiste :
A découper le territoire de
l’enquête en zones géographiques (bâtiments, quartiers, rues,
communes, rues, zones rurales, etc.) A tirer au sort au moins
30 de ces zones Puis à interroger tous les individus de la
population à étudier, vivants dans chacune des zones
sélectionnées.
Avantages |
Inconvénients |
- la possession d’un véritable fichier nominatif
n’est pas nécessaire la
facilité d’utilisation y compris dans des pays ayant peu
de statistiques démographique (âge, sexe, etc, ...) |
- la difficulté d’interroger tous les individus
d’une même zone : absences, refus de répondre, trop
grand nombre, etc,... le
découpage des zones dont la densité démographique est
comparable pour éviter des sur représentation de
certaines zones. |
Le sondage aréolaire est souvent
combiné avec une méthode d’échantillonnage empirique,
notamment avec la méthode des quotas.
d. Le sondage à
plusieurs degrés
Cette méthode probabiliste
consiste à effectuer à différents niveaux successifs, un
tirage au sort. On tire au sort dans une base de sondage
centralisatrice des unités de sondage primaires, dans celle si
on tire des unités de sondage secondaires et ainsi de suite,
jusqu’au tirage au sort des individus éléments (personnes
physiques ou morales) à interviewer. Pour respecter la loi des
grands nombres, à chaque nouveau tirage, il faut tirer au sort
au minimum 30 unités ou éléments. Exemple : on tire au
sort 30 départements sur les 95 que compte la France
métropolitaine, sur les 30 départements tirés, on tire au sort
35 communes, et dans les 1050 communes tirées (30x35) on
interroge le maire ou son représentant délégué au sport.
Avantages |
Inconvénients |
- facilité de l’organisation des tirages successifs
utilisation
des découpages administratifs ou géographiques ou autres
(escaliers, etc.) réduction
des coûts de dispersion |
- le nombre de tirages est généralement limité à 2
pour ne pas interroger trop d’individus (30x30=900)
le
risque de choisir des niveaux qui biaisent les résultats
(ex : les zones rurales, plus nombreuses que les
urbaines ont plus de chance d’être tirées au
sort) |
La fixation de la taille minimale
d’un échantillon probabiliste :
Dans le domaine probabiliste, la taille de la population mère
n’a pas d’incidence sur la taille de l’échantillon, sauf
lorsque le taux de sondage n/N est > ou égal à 1/7 (soit
14.3%)
Plus la taille de l’échantillon augmente plus la précision de
k’estimation croît, donc plus le tirage d’erreur diminue.
Plus la taille augmente, plus le coût du sondage est élevé
plus le budget d’enquête nécessaire augmente.
Donc la fixation de la taille d’un
échantillon dépend :
du budget de l’étude (voir les méthodes budgétaires et les
coûts unitaires des questionnaires remplies)
de la marge d’erreur que le chargé de l’étude accepte de
commettre dans son estimation, à un certain seuil de confiance
qu’il a lui-même choisi.
Le taux de sondage n/N auquel on arrive et qui nous place soit
dans le cas d’un sondage non exhaustif soit dans celui d’un
sondage dit exhaustif.
La variable à estimer : une proportion (%) ou une moyenne
(variance).
La fixation de la taille minimale
d’un sondage probabiliste, non exhaustif dont le but est
d’estimer un %.
Les conditions de calcul :
un
échantillon probabiliste de préférence un sondage aléatoire
simple un
échantillon probabiliste d’au moins 30 individus une
population de grande taille, donc avec à priori un taux de
sondage n/N < 1/7e
Taille minimale : n =
(t²pq)/e²
e = marge d’erreur que j’accepte
de commettre dans mon seuil de confiance. Où : t est un
coefficient dont la valeur dépend du seuil de confiance choisi
par le chargé d’études.
Extrait du
tableau de la loi normale
|Seuil de confiance|Valeur t|
|68%|Souvent arrondi à 1| |90%|1.645 arrondis à 1.65|
|95%|1.96 souvent arrondi à 2| |98%|2.33| |99%|2.567 parfois
arrondi à 2.7|
p est la fréquence observée du
caractère dans l’échantillon, cela peut paraître paradoxal, p
étant à estimer grâce au sondage. q = 1 - p
2 exemples de
fixation de la taille minimale d’un échantillon en vue
d’estimer une proportion (%).
1er
cas Un gérant de salles de cinémas souhaite estimer
le % de spectateurs achetant des boissons et autre produits
alimentaires (pop corn, glaces, bonbons, ...) dans l’enceinte
de son multiplexe. 1e cas : il fait une pré enquête, ou
enquête pilote, auprès de 50 spectateurs et a trouvé que p=
34%. Il choisit un seuil de confiance de 95% d’où t = 1.96. Il
accepte une marge d’erreur e, dans son estimation de p, de
5%.
n = (1.96²x0.34x.66)/0.05² d’où
n=345
2e cas
Il n’a pas fait une pré enquête avec sa place donc dans la
situation la plus défavorable
n = (1.96²x0.5x0.5)/0.05² d’où n =
385
Question : a-t-il fait
reconnaître en réalisant avec une enquête pilote auprès de 50
spectateurs ? L’enquête pilote lui a-t-il permis
d’améliorer sa méthodologie d’enquête ?
2 exemples de
fixation de la taille minimale d’un échantillon en vue
d’estimer une moyenne
Le gérant de salles de cinéma
souhaite cette fois estimer le montant moyen des achats de
boissons et autres produits alimentaires (pop-corn, glace...)
dans l’enceinte de son multiplex. Il accepte de commettre une
erreur e 1€. Il réalise une enquête pilote auprès de 50
visiteurs qui lui permet de constater que :
les achats vont de zéro à 60€, d’où une étendue de la
distribution de 60 €
les achats suivent une loi normale
Une propriété de cette loi permet
d’estimer l’écart type : Estimation de l’écart type égal
à l’étendue de la distribution/6 Ecart type = 60/6 soit 10
d’où la variance V(x) = 10² V(x) = 100
Taille minimale de l’échantillon =
(t² V(x))/e²
n= (1.96² x 100)/1² soit une
taille minimale de 384.16 individus La détermination de la
taille minimale d’un échantillon d’un sondage dit
« exhaustif » Les conditions de calcul :
un échantillon probabiliste : de préférence, un sondage
aléatoire simple
un échantillon de moins de 30 individus
un échantillon relativement grand par rapport à la petitesse
de la taille de la population mère donc avec à priori un taux
de sondage n/N > ou égal à 1/7 (soit 14.3%). Une méthode de
calcul en 3 étapes
Etape 1 : la détermination de
la taille minimale sans tenir compte de l’incidence de la
taille de la population mère. Exemple : un coiffeur veut
estimer le taux de satisfaction de ses 1500 clients. Il
souhaite une précision de 3% pour un seuil de confiance de 95%
(avec t=2). Taille minimale : n = (2x0.5x0.5)/0.03² soit
n=1 111
Etape 2 : calcul du taux de
sondage Taux de sondage n/N = 1111/1500 le taux de sondage est
égal à 74% donc supérieur à 1/7
Etape 3 : nouveau calcul de
la taille minimale en tenant compte de l’incidence de la
petitesse de N. n’ = (n x N)/(n + N) soit n’ = (1 111 x 1
500)/(1 111 + 1 500) d’où n’ = 639
Exemple : Sondage
probabiliste : oui 46% non 54%. Dépend du seuil de
confiance
e= +- 1.96√(0.54x.46/800 ) = e =
+- 3.45 I = [54 ;3.45] I = [p-e ;p+e]
I=[50.55 ;57.45] e’ = 1.4 x e e’ = 4.83 I quotat 3.45
x 1.4 = 4.83
B. Les méthodes
empiriques
Elles reposent sur le choix
raisonné d’individus de la population en respectant les règles
fixées à l’avance, concernant les caractéristiques des
individus (quotas) et/ou lieux d’enquête et/ou les moments
d’enquête, etc. Echantillon profilé, qualifié
(caractéristique).
Avantages |
Inconvénients |
- pas de tirage au sort donc pas de base de sondage
nécessaire pas
de risque de dispersion géographique trop important
un
moindre coût de mise en place = gain de temps |
- la représentation de l’échantillon est toujours
contestable validité
de l’estimation dépend du respect des règles donc du
sérieux des enquêteurs pas
de possibilité de calculer la marge d’erreur de
l’estimation (à moins d’utiliser les formules
probabilistes avec ou sans
correction) |
Les méthodes empiriques les plus
utilisées sont :
Méthodes |
Règles à respecter concernant : |
La méthode des quotas |
Le profil, les caractéristiques des sondés |
La méthode des itinéraires |
L’itinéraire que le sondeur doit suivre :
chemin, voie, heure et point d’enquête |
Echantillonnage sur place |
Les lieux et heures d’enquêtes |
Exemple de combinaison de
plusieurs méthodes d’échantillon. Pour une enquête auprès des
automobilistes dans l’agglomération de Montpellier :
1 - on recense les stations
d’essence 2 - on tire au sort celles qui seront des points
d’enquêtes (achat sur place) 3 - on impose aux enquêteurs de
suivre un itinéraire précis : commencer le lundi à
9h ; aller à telle autre à 11h ; le mardi après midi
aller dans telle station service puis en soirées à telle autre
des 21h à 24h. On fixe à chaque point d’enquête, le nombre de
personnes à interroger (méthode des itinéraires). 4 - on donne
à chaque enquêteur un plan de travail qui correspond au plan
de sondage par quotas (méthode par quotas).
Répartition de la population par sexe |
Répartition des automobiles par types de moteur |
Nombre de sondages précis n = 1000 |
Plan de travail pour chacun des 10 enquêteurs de
l’équipe contrôlé par un inspecteur |
Homme 46% |
Diesel 73% |
460 hommes 340 femmes |
46 hommes 54 femmes |
Femmes 54% |
Essence 27% |
730 voitures de moteur diesel 270 d’essence |
73 conducteurs de voitures à diesel 27 conducteurs à
essence |
La fixation de la taille d’un
échantillon d’un sondage empirique. Plusieurs méthodes de
détermination de la taille réelle selon la méthode
d’échantillon empirique utilisée dans le cas d’un échantillon
par quotas sont souvent utilisées :
la méthode par croisements souhaités
la méthode de Kish
a. Par
croissements souhaités
Soit elle repose sur la nécessité
d’interroger un certain nombre d’individus d’un certain
profil, Soit elle d’impose en raison du but à atteindre par le
sondage : l’existence d’une dépendance entre 2 caractères
dans un tableau croisé (par exemple le sexe et l’équipement en
tel matériel).
Lors d’une 1ère étape, la méthode
consiste à anticiper le(s) tableau(x) croisé(s) que l’on
souhaite établir et analyser grâce au sondage, puis à définir
l’effectif minimum d’une des cases d’un tableau croisé :
Exemple d’une étude sur les comptes bancaires dans les couples
dans laquelle nous voulons au moins 30 femmes ayant un compte
séparé.
Sexe/compte |
Compte joint |
Compte séparé |
Hommes |
|
Femmes |
|
30 (cases la + difficile à
obtenir) |
Dans une 2ème étape, grâce à une
étude documentaire ou interne, le % de chacune des modalités
souhaitées est recherché : détenteur d’un compte séparé
20%, femme 50%.
Dans une 3ème étape, il suffit de
calculer la taille nécessaire n = (taille de la case) / (%
lignes x % colonnes) = 30/(0.2 x 0.5) = 300
Dans une 4e étape facultative on
construit le tableau des effectifs théoriques
Sexe/compte |
Compte joint |
Compte séparé |
Total |
hommes |
120 |
30 |
150(50%) |
femmes |
120 |
30 |
150(50%) |
Total |
240 (80%) |
60 (20%) |
300 |
Cela permet éventuellement
d’améliorer le plan de sondage par quotas. On vérifie que les
effectifs théoriques sont > à 5 (au mieux à 10) pour
pouvoir utiliser ultérieurement le test du Khi2.
b. La méthode
de Kish
Appliquée à la fixation de la
taille d’un sondage par quotas. On part du principe de la
marge d’erreur d’un sondage par quotas est plus forte que
celle d’un sondage probabiliste. Certains la calculent en
utilisant le coefficient de Kish de 1.4 Marge d’erreur
véritable e’ = marge d’erreur acceptée x 1.4
Donc dans le cadre d’un sondage
par quotas, si le chargé d’étude se fixe une marge d’erreur de
e’, elle serait dans le domaine probabiliste de e = e’/1.4 Il
peut alors s’arranger le droit d’utiliser la formule de calcul
de la taille minimale d’un échantillon d’un sondage
aléatoire : N = (t²pq)/e² ou n = (t² V(x))/e² Exemple. Un
chargé d’étude opte pour la méthode par quotas mais souhaite
une estimation avec une marge d’erreur de 3ù pour un seuil de
confiance de 95%.
Pour utiliser la formule
probabiliste il recalcule e en tenant compte de la correction
de Kish. e = 0.03/1.4 soit d’où e = 2.14% n=1/0.0214² soit n=
2184 p= ½ q= 1-1/2 95% seuil de confiance avec t=1.96=2 n =
(2² x 0.5 x 0.5)/e² n= 1/e²
C. Les méthodes
d’administration des questionnaires
Mode d’administration Avantages
Inconvénients Coût moyen unitaire HT
A domicile sur RDV ou sur le lieu
de travail -questionnaire long (1 à 2h) questions
délicates sur le fond et la forme informations
nombreuses et riches échantillon
nominatif, souvent probabiliste voir aléatoire simple prise
de RDV difficile nécessité
de posséder un fichier nominatif coût
très élevé du questionnaire 60 à 150 euros le questionnaire
rempli, saisi, traité et analysé. Coût variable selon le
profit de la population
A domicile sans RDV -questionnaire
assez long (moins d’1 heure) et riche échantillon
aréolaire ou à plusieurs degrés Taux de non réponses assez
élevé : refus, absence etc. risque
de biais (selon les heures de passage etc). 30 à 60 euros
HT
Dans la rue ou dans les lieux
publics : sorties de métro, d’un point de vent, d’un
spectacle etc. -rapidité économique
réponse
à chaud échantillon
aréolaire à plusieurs degrés ou sur place avec ou sans quotas
-questionnaire court et simple représentativité
non garantie bidonnage
possible contrôle
des enquêteurs 20 à 30 euros HT Parfois moins. 10 euros dans
un mobile home 30 à 45 euros
En salle -rapidité économique
possibilité
de test après diffusion ou démonstration en publique garantie
d’obtenir des réponses questionnaires
en plusieurs longueurs -se greffer sur un évènement ou
le créer représentativité
non garantie : population présente non conforme à la
population à étudier
15 à 45 euros HT voire plus en cas
de création d’un évènement
Par voie postale Avantages :
coût
en cas de dispersion géographique de l’échantillon échantillon
nominatif, probabiliste questions
précises Inconvénients : faiblesse
du taux de réponse : 5% en moyenne représentativité
de l’échantillon d’arrivée non garantie Coûts : 30 à 60
euros HT le questionnaire rempli et traité.
Par téléphone Avantages :
échantillon
nominatif, probabiliste ou quotas (quand on le souhaite)
possibilité
de rappels successifs : qualité de l’échantillon taux
de réponse assez élevé : 30 à 40% rapidité
selon le nombre de télé enquêteurs Inconvénients :
questionnaire
court et simple à moins de prendre RDV filtrage
des appels : secrétaires ou répondeurs Coût : De 35
à 75 euros selon le profil. Moins avec les centres d’appel
dans les pays à bas salaires. Variante : sondage
automatique 1 à 5 euros.
Par Internet Questionnaire adressé
par courrier Avantages : échantillon
nominatif donc probabiliste possibilité
de relance successives : qualité de l’échantillon
taux
de réponse assez élevé (panel) rapidité
saisie
et résultats instantanés faible
coût y compris à l’international Inconvénients peu
de question des
questions simples bien
rédigées et ordonnées toute
la population à étudier n’est pas forcément équipée Coût De 50
centimes à 3 euros voir des exemples sur www.etude-enquete.com
avec des tarifs en fonction du nombre de questions posées et
de la taille de l’échantillon
D. Les méthodes
budgétaires de détermination de la taille d’un
échantillon
2 cas de figure : 1. En cas de sous-traitance de l’enquête pas
sondage
Taille de l’échantillon = (budget
de l’enquête)/(coût au questionnaire) Exemple : 1
commanditaire a un budget de 5 000 euros. Selon le mode
d’administration qu’il choisira, la taille de l’échantillon
sera :
Mode |
Coût unitaire |
Taille de l’échantillon |
A domicile sur RDV |
100€ |
20 |
Dans la rue |
25€ |
200 |
Par voie postale |
40€ |
125 |
Par téléphone |
50€ |
100 |
Par Internet -courriel |
1€ |
5000 |
2. En cas de
réalisation du sondage en interne
Il suffit de prévoir tous les
outils fixes et variables correspondant a toutes les tâches
nécessaires à la réalisation d’un sondage de la préparation à
la rédaction du rapport d’études.
Taille = (budget - coûts fixes)/
(coût variable par questionnaire)
Exemple pour un budget de 20 000€
HT
Tâche |
Nature du coût |
Montant HT |
-préparation de l’étude ; objectif, infos
utilisables, population, période d’enquête rédaction
du projet d’enquête : méthode d’échantillonnage,
taille minimale de l’échantillon |
Fixe Fixe |
1000€ 1000€ |
-préparation du plan de sondage rédaction
et test de questionnaire formation
des enquêteurs coût
d’administration coût
de contrôle des enquêteurs |
Fixe Fixe Fixe Variable Variable |
1000€ 1000€ 750€ 15€ 1.5€ |
Saisie informatique Traitement de stock Evolution
des résultats |
Variable Fixe fixe |
3.5€ 750€ 250€| |Interprétation
des résultats, rédaction du rapport final| fixe| 2 000€|
|Préparation orale| fixe |250€|
Coûts fixes = 8 000€ Coûts
variables = 20€ Taille de l’échantillon = (20 000-8 000)/20 =
600
La vérification de la validité de
l’échantillon d’arrivée par le test d’ajustement du
Khi2 : 1 - Vérifier la conformité d’un échantillon par
quotas. Il s’agit de comparer la distribution observée avec la
distribution théorique en utilisant le test d’ajustement du
Khi2
Khi2 calculé = (∑(Oi-Ti)² / Ti
Oi est l’effectif observé Ti est
l’effectif théorique ou attendu (n x pi > S)
Exemple : un échantillon
d’arrivée de 391 personnes est-il conforme aux quotas de PCS
de la population mère du département de l’Hérault
PCS |
effectif |
Fréquence pi |
Oi |
Ti |
Agriculteurs |
4 316 |
0.0143 |
3 |
5.59 |
Artisans-commerçants |
15 044 |
1.0496 |
33 |
19.51 |
Professions supérieures |
13 120 |
0.0435 |
65 |
17.01 |
Autres |
268 940 |
0.8923 |
290 |
348.89 |
Total |
301 420 |
1 391 |
391 |
|
Fréquence = effectif total / total
Ti = Pi x 391
Khi2 calculé = (3-5.59)²/5.59 +
(33-19.51)²/19.51 + (65-17.01)²/17.01 + (280-348.89)²/348.89 =
155.85
ddl = m-1 ddl : degré de
liberté m = modalités d’où ddl = 3
Khi2 critique = 7.81 au seuil de
risque de 5% (seuil de confiance de 95%, Khi2 calculé qui suit
la loi de Pearson). Donc Khi2 calculé > Khi2 critique (ou
calculé) : Ajustement
rejeté L’échantillon
d’arrivée mériterait un redressement
[ Imprimer
cet article ] [ Haut
]
|