Title: Pr
1Cours de statistiques Licence Pro Animation 2010
- 2011
Bruno GACHASSIN
2Organisation des 4 séances
5 janvier . Travail à partir dun
questionnaire . Définitions, échelles de
variable . Mode,
27 janvier . Représentation graphique .
Moyenne, médiane, écart-type . Salle
informatique utilisation dExcel (formules,
graphique, manipulations diverses)
28 janvier . Evaluation n1 . Khi2
15 mars . Khi2 . Questions / révision .
Evaluation n2
3(No Transcript)
4A quoi servent les statistiques?
- Organiser, présenter et décrire des données.
- Vérifier des relations entre variables.
- Tester des hypothèses
- Généraliser à une population, des
caractéristiques observées sur des échantillons. - Faire de bonnes prévisions.
5Définition la statistique
Il existe tellement de définitions différentes de
la statistique quon pourrait presque en faire
une étude statistique. Ainsi, Raymond DUMAS,
dans son ouvrage "L'entreprise et la
statistique", datant de 1967, en dénombre-t-il
déjà une centaine.
La statistique est une méthode scientifique qui
consiste à réunir des données chiffrées sur des
ensembles nombreux, puis à analyser, à commenter
et à critiquer ces données. Il ne faut pas
confondre la statistique qui est la science
définie ci-dessus et une statistique qui est un
ensemble de données chiffrées sur un sujet précis.
6Deux branches distinctes
La statistique au sens large comprend deux
branches.
Statistique descriptive Organisation,
présentation et analyse des données relatives à
une population, un échantillon, en mettant les
points importants en évidence.
Statistique inférentielle Elle permet de
généraliser à de grands ensembles d'éléments les
conclusions tirées des résultats obtenus avec des
ensembles beaucoup plus restreints appelés
échantillons.
Population ?
Echantillon
Inférence
7La statistique, quelle soit descriptive ou
inférentielle, est employée dans toutes les
sciences, ainsi que dans la vie quotidienne.
8La population
En statistique, la population désigne un ensemble
dunités. Ces unités sont des êtres vivants ou
des objets concrets ou abstraits. Le terme
"individu" est souvent employé comme synonyme du
terme "unité ", même lorsque l'on étudie des
populations non humaines.
La première information statistique que l'on tire
d'une population est le nombre de ses individus,
que nous désignerons par n.
À titre d'exemple, voici la liste des 35 élèves
d'une classe. Ahmed, Alexandre, Antoine, Sandra,
Hugo, Anne, Jeannot, Sara, Karim, Chloé, Kim,
Loïck, Leila, Laurène, Lucas, Ludovic, Marine,
Maxime, Valentine, Pauline, Paul, Pedro, Pierre,
Quentin, Thomas , Nadia, Valentin, Vim, Lara,
Flora, Clément, Rudy, Michael, Alison, Aline
Ces 35 élèves sont les individus qui composent
notre population (n 35). Cette population de 35
individus peut schématiquement être représentée
par ce diagramme
9 Individu en latin ce qui est indivisible .
Un individu
Les ensembles étudiés sont appelés population.
Les éléments de la population sont appelés
individus. La population est étudiée selon une ou
plusieurs variables (ou caractères).
10- Attention!!
- Une population doit être définie avec précision,
cest totalement différent de considérer - les salariés des structures socio-culturelles de
Midi-Pyrénées - Les salariés des structures socio-culturelles de
France - Les animateurs socio-culturels de Midi-Pyrénées
- Les assistant(e)s sociaux expérimentés de
Toulouse - Des salariés de lanimation socio-culturelle.
11Léchantillon
On parle déchantillon dune population quand les
individus sont tirées au sort ou choisies par une
méthode qui permet dassurer la représentativité
de léchantillon par rapport à la population
totale.
Le diagramme ci-après représente la population
statistique d'une classe de 35 élèves. Supposons
que l'on y choisisse, par tirage au sort, 6
élèves. Ces 6 élèves constituent alors un
échantillon. Cet échantillon représente 17 de
la population (6/35).
12- PopulationEnsemble de référence
Remarquons qu'un échantillon peut être considéré
comme une population en elle-même, quoique
beaucoup plus petite que la population dont il
est extrait. En tant que population, il peut
faire l'objet d'une étude statistique dont les
conclusions, sous certaines conditions, sont
susceptibles dêtre étendues à la population
toute entière. (C'est l'objet de la statistique
inférentielle.)
13Attention!!
Il faut distinguer l'échantillon du sous-ensemble
de la population obtenu par un classement ou
"découpage" des individus au moyen de certains
critères.
Nous pouvons ainsi diviser la population des 35
élèves en deux sous-ensembles, par exemple les
garçons et les filles. On aura alors le schéma
suivant
14Organisation des données / Variables
Pour étudier une population, on procède à un
classement des individus au moyen de certains
critères appelés variables. Les variables sont
les caractéristiques que lon observe sur chacun
des individus de la population.
Tableau à double entrée . Lignes ?
individus . Colonnes ? variables
Sujets / Variables V1 V2 V3
1
2
3
15Exemple de la classe de 35 élèves
Dans la classe de 35 élèves, pour chaque élève,
différentes caractéristiques ont été recueillies
le prénom, le nombre de frères et soeurs, la
taille, ainsi que le résultat dun test
danglais.
16Mise en page avec le logiciel Excel
Prénom Sexe Taille (cm) Nombre de frères et soeurs Résultat testd'anglais
1 Lara F 168 1 D
2 Chloé F 163 2 D
3 Flora F 161 4 B
4 Sara F 165 1 B
5 Kim G 165 0 A
6 Leila F 168 2 B
7 Sandra F 161 2 D
8 Pauline F 163 1 C
9 Anne F 165 3 A
10 Laurène F 165 1 C
11 Lucas G 170 3 C
12 Quentin G 175 1 D
13 Valentine F 168 1 A
14 Clément G 165 0 B
15 Hugo G 170 1 C
16 Marine F 170 0 C
17 Valentin G 170 1 B
18 Aline F 170 1 B
19 Alison F 165 1 C
20 Nadia F 163 0 D
21 Rudy G 163 1 A
22 Jeannot G 170 4 C
23 Pedro G 175 2 B
24 Ahmed G 175 4 A
25 Pierre G 180 2 C
26 Michael G 170 2 C
27 Alexandre G 175 5 B
28 Loick G 175 1 A
29 Antoine G 180 0 C
30 Thomas G 180 1 B
31 Ludovic G 180 1 A
32 Karim G 182 1 C
33 Paul G 175 3 B
34 Maxime G 182 2 C
35 Vim G 180 0 D
17Les différents types de variables / la modalité
La variable est une propriété que tous les
individus dun échantillon possède même si sa
modalité est différente (ex le sexe dune
population tout le monde à un sexe, mais la
modalité est différente F ou M, ex lâge,
etc).
N Questionnaire Pôle d'activité Ancienneté Dernière formation Info formation Intérêt formation Milieu Sexe Age
1 Animation 18 1 oui - rural H 46
2 Acc Social 13 3 oui - urbain H 38
3 Accueil 1 2 je ne sais pas rural F 20
4 Acc Social 18 4 oui -- urbain H 53
5 Animation 6 2 non rural F 29
6 Administratif 17 4 oui - rural F 42
7 Accueil 3 2 oui urbain F 22
8 Animation 8 3 non urbain H 30
9 Acc Social 14 4 oui rural F 41
10 Administratif 9 3 oui urbain H 31
Chaque colonne est une variable. Mais
183 types (échelles) de variables
Échelle nominale
Échelle ordinale
Échelle dintervalle
19Echelle NOMINALE Echelle ORDINALE Echelle dINTERVALLE
Les variables ne sont pas mesurables. Ce sont des noms, des sigles, des codes. Pas de hiérarchie entre les modalités de la variable. Il ny a pas de quantité. Attention, même si les modalités sont des codes numériques, les opérations sur les modalités nont aucun sens. Hiérarchie entre les modalités de la variable. Cette hiérarchie est admise par toute personne à qui cette question est posée. Il y a une idée de quantité mais pas mesurable en intervalles égaux. Cest le cas de tous les caractères qualitatifs dont les modalités sont des opinions. Linstrument de mesure nous garantit des intervalles égaux. On est autorisé à calculer la moyenne !
20Les échelles de mesure
- Les échelles nominales
- Modalités catégories non hiérarchisées, visée
descriptive - Exemple un constructeur dautomobiles a demandé
à un échantillon de 220 individus de faire part
de leur préférence de couleur de voiture. Les
résultats quil obtient sont les suivants - Autres exemples le sexe, la CSP, le département
de naissance, etc. - Les modalités peuvent être nominales ou numériques
Couleur Blanc Noir Rouge Bleu Vert Marron Gris Jaune Autre Total
Effectifs 43 30 15 32 30 20 28 12 10 220
21Les échelles de mesure
- Les échelles ordinales modalités de la variable
hiérarchisées - Exemple
- Dans un questionnaire portant sur les loisirs, on
a demandé à 102 personnes de répondre à la
question suivante allez-vous à lopéra.. - Jamais. Rarement. Quelquefois. Assez souvent.
Souvent. Régulièrement - Résultats sous une forme ordonnée
(bon/moyen/mauvais) ou sous une forme de
classement (premier, deuxième, troisième, etc.)
22Les échelles de mesure
- Les échelles dintervalle linstrument de
mesure garantie des intervalles égaux entre les
modalités - Exemple la taille, lâge, la température, etc.
23Echelle dintervalle
Echelle ordinale
Echelle nominale
Hiérarchie entre les modalités de la variable
admise par toute personne à qui cette question
est posée
Pas de hiérarchie entre les modalités de la
variable
Linstrument de mesure garantit des intervalles
égaux.
La taille
Lâge
On est autorisé à utiliser la moyenne
Effectifs 75 hommes, 25 femmes
Variance
La moyenne nest pas autorisée
Pourcentages hommes, 25 femmes, 75
Médiane
Ecart type
Quantiles (médiane, déciles, centiles)
Histogrammes
Secteurs angulaires
24Rappel sur les pourcentages
Le pourcentage est le rapport dun sous-ensemble
à son ensemble ramené à 100. Un est une façon
d'exprimer une proportion ou une fraction dans un
ensemble. P
n effectif de la modalité considérée
n
X 100
N effectif total de la population
N
25Représentations graphiques
26Echelle
27Biais (1)
28Biais (2)
29Transformations déchelle
Un seul sens possible ! Echelle dintervalle ?
échelle ordinale ? échelle nominale On perd
chaque fois de linformation ! Exemple Les
résultats de fin dannée dun groupe délèves (en
)
Élèves A B C D E F G H I
intervalle 26 32 38 44 50 56 62 68 74
ordinale lt 35 de 35 et 49 De 50 à 65 gt 65
nominale échec réussite
30Statistiques descriptives indicateurs de
tendance centrale et de dispersion
- Echelle dintervalles Moyenne, variance,
écart-type, mode, médiane, écart
semi-interquartile, étendue. - Echelles ordinales Médiane, écart
semi-interquartile, étendue, mode. - Echelle nominale mode.
31Définitions simples
Le mode d'une série est la valeur ou la modalité
qui revient le plus fréquemment. Exemples
Soit la série 8, 4, 4, 3, 4, 3, 8, 2,5 La
valeur la plus fréquente de cette série est 4. Le
mode est donc égal à 4. L'effectif associé à ce
mode est 3.
Létendue est la différence entre la valeur la
plus élevée et la valeur la plus basse. Exemple
Les fréquentations par journée de latelier
poterie depuis la rentrée 10 5 16 7 20
9 11 R 20 5 15
32Moyenne arithmétique indice de tendance centrale
Somme de toutes les valeurs
Prononcer mu
Nombre de valeurs
POPULATION
ECHANTILLON
Somme de toutes les valeurs
Prononcer x barre
Nombre de valeurs
33LA VARIANCE ET LECART TYPE
Voici les scores sur 20 (échelles dintervalles)
de deux groupes A et B
Groupe A 10 - 12 - 8 - 9 - 11
Ces deux groupes ont pour moyenne 10
Groupe B 3 - 17 - 2 - 18 - 19 - 1
10
11
12
9
8
Groupe A
Dispersion
Groupe B
1
2
3
17
18
19
D i s p e r s i o n
LA MOYENNE (indice de tendance centrale) NE DIT
RIEN DE LA DISPERSION DES VALEURS
Deux outils vont être associés à la moyenne pour
donner à voir la dispersion des données La
variance et lécart type.
34Variance
Lidée consiste à inventer un indice qui donne
une idée des écarts à la moyenne.
Ecart à la moyenne élevé au carré
Variance
Cest la moyenne des carrés des écarts à la
moyenne.
Cette formule est équivalente à
35Variance
Exemple pour le groupe A
10
11
12
9
8
17
18
19
1
2
3
Groupe B
36Variance et Ecart-type
Rappel des diverses formules que vous utiliserez
La variance
Lécart type
3710
11
12
9
8
Dispersion
Variance du groupe A 2,5
Groupe B
1
2
3
17
18
19
D i s p e r s i o n
Variance du groupe B 77,6
A la lecture de ces deux variances on voit que la
dispersion du groupe B est plus importante que
celle du groupe A. Mais ces calculs ayant été
obtenus par des élévations au carré, il est
difficile de percevoir lordre de grandeur des
variances.
Groupe A variance 2,5 Ecart type Groupe
B variance 77,6 Ecart type
38La médiane
La médiane, cest une valeur qui occupe la place
du milieu lorsquon énumère la totalité des
valeurs du groupe, soit dans lordre croissant,
soit dans lordre décroissant.
13 - 15 - 12 - 9 - 7 -
17 - 18
7 - 9 - 12 - 13 - 15 -
17 - 18
Valeurs
Rangs
1 2 3 4 5
6 7
50 de leffectif du groupe a une note supérieure
ou égale à la médiane 50 de leffectif du groupe
a une note inférieure ou égale à la médiane
39Les principes des tests statistiques
Les statistiques inférentielles
Les tests permettent de comparer des statistiques
mesurées (moyenne, variance, effectifs, etc.) sur
des échantillons de données (comparaison de deux
échantillons, comparaison de plusieurs
échantillons, comparaison échantillon/population)
Comparaisons de deux moyennes Test t de student
Comparaisons de deux variances Le F de Snédecor
Comparaison de proportions dindividus (effectifs) Le chi2
Comparaison de plus de deux moyennes ANOVA
La corrélation entre deux variables Le r de pearson, etc.
Comparaison de rangs Le U de Mann Withney, Wilcoxon, Friedman ,etc.
40Utilisation du Khi2
- Nous allons utiliser le test du Khi2 pour
- Comparer la distribution observée dans un
échantillon statistique à une distribution
théorique. - Exemple un dé est-il pipé? Comparaison du
résultat dune série de tirage au résultat
théorique (chaque face doit avoir la même
fréquence dapparition). - Apprécier lexistence ou non dune relation
entre deux variables au sein dune population. - Exemple Les salariés qui ont le plus
dancienneté sont-ils davantage intéressés que
les salariés débutants pour recevoir de la
documentation sur la formation continue? - Attention!! Une relation nest pas une causalité.
41Principes des tests statistiques
Hypothèse nulle (H0) les différences entre les
mesures effectuées sont uniquement dues à leffet
du hasard (5 derreur).
Accepter H0, cest dire que les différences ne
sont pas suffisantes. Le lien entre les deux
variables nest pas significatif. Rejeter H0,
cest dire que les différences sont suffisantes.
Le lien entre les deux variables est significatif.
42Principes des tests statistiques
Echantillons indépendants comparaison de
groupes de sujets différents
Echantillons appariés comparaison de paires de
sujets, plan expérimental avant/après
43Comparaison de données catégorielles ou nominales
le test du Chi2
1. Comparaison dune fréquence et dune norme
Exemple Un fabriquant teste trois type de
nourriture pour des souris. Pendant 50 jours, il
propose aux mêmes souris ces trois type de
nourriture. Le tableau suivant résume le choix
des souris. Peut-on affirmer que les souris
préfèrent un de ces produits ?
H0 à .05, les choix des souris ne sont pas
significativement différents de choix au hasard
44ddl k-1
À .05, Chi2 théorique 5.99 À .001, chi2
théorique 13.81 H0 est rejetée à .001 car chi2
observé gt chi2 théorique Avec moins dune chance
sur 1000 de se tromper, on peut affirmer que ces
souris préfèrent la nourriture A.
45Comparaison de données catégorielles ou nominales
le test du Chi2
2. Comparaison de deux variables nominales,
échantillons indépendants
Exemple Au cours dune enquête sur les loisirs,
un jeune chercheur souhaite savoir sil y a un
lien entre le sexe et la préférence pour des
loisirs particuliers. Au cours de son étude, il
demande ainsi à des hommes et à des femmes sils
préfèrent aller au cinéma ou au théâtre. il
obtient les réponses suivantes
Théâtre Cinéma Total
Hommes 20 55 75
Femmes 50 44 94
Total 70 99 196
Tableau de contingence
46H0 à .05, les réponses des hommes ne diffèrent
pas significativement de celles des femmes.
Théâtre Cinéma Total
Hommes 20 55 75
Femmes 50 44 94
Total 70 99 196
47Comparaison de données catégorielles ou nominales
le test du Chi2
3. Comparaison de deux variables nominales,
échantillons appariés
Exemple Dans une étude de docimologie, on
analyse les résultats des examens dentrée à
Polytechnique et à Normale. On ne considère que
les résultats des 300 candidats ayant présenté
ces deux examens à la fois 60 ont été reçus
uniquement à Normale, 44 uniquement à
Polytechnique et 16 aux deux. Peut-on conclure
que les deux examens sont de même difficulté ? On
reconstitue le tableau de contingence
Ecole Polytechnique Ecole Polytechnique
Réussite Echec
Ecole Normale Réussite 16 60
Ecole Normale Echec 44 180
48Ecole Polytechnique Ecole Polytechnique
Réussite Echec
Ecole Normale Réussite 16 60
Ecole Normale Echec 44 180
H0 A .05, il ny a pas de différence
significative dans les résultats (réussite/échec)
des deux types dexamen (Polytechnique/Normale)
Chi2 Mac Nemar (60-44)-1)2/60 44 1,81
On conserve lhypothèse nulle car chi2 observé
est lt au chi2 théorique (3, 84 à .05)
49Une référence intéressante Statistique pour
psychologues, cours et exercices de Nicolas
Guéguen (2006), édition Dunod. Côte BU centrale
150.727 GUE 4ème étage Nord