Title: INF L14 Initiation aux statistiques
1INF L14Initiation aux statistiques
4 Classement et cumul
2Classement des modalités
CAT EFFECTIF
ADJ 307
ADV 349
CONJ 305
DET 792
INTERJ 4
NOM 1093
NUM 16
PREP 539
PRO 632
VERBE 896
Total 4933
Non classées pas très lisible...
3Classement des modalités
CAT EFFECTIF
NOM 1093
VERBE 896
DET 792
PRO 632
PREP 539
ADV 349
ADJ 307
CONJ 305
NUM 16
INTERJ 4
Total 4933
Classement par fréquences décroissantes
4Classement des modalités
CAT EFFECTIF
NOM 1093
VERBE 896
DET 792
PRO 632
PREP 539
ADV 349
ADJ 307
CONJ 305
NUM 16
INTERJ 4
Total 4933
Polygone de fréquences
5Classement des modalités
CAT EFFECTIF
NOM 1093
VERBE 896
DET 792
PRO 632
PREP 539
ADV 349
ADJ 307
CONJ 305
NUM 16
INTERJ 4
Total 4933
Diagramme en secteurs
6Rangs
RANG CAT EFFECTIF
1 NOM 1093
2 VERBE 896
3 DET 792
4 PRO 632
5 PREP 539
6 ADV 349
7 ADJ 307
8 CONJ 305
9 NUM 16
10 INTERJ 4
7Rangs
Rang Forme Fréq.
1 de 239
2 le 153
3 l' 125
4 la 119
5 et 95
6 est 88
7 que 83
8 d' 82
9 les 79
10 il 62
11 un 61
12 a 58
13 qui 53
14 du 52
15 une 51
16 des 48
17 en 47
18 à 46
19 qu' 46
20 ne 43
21 dans 40
22 on 37
23 plus 34
... ... ...
Quand les modalités sont très nombreuses, on
utilise plutôt les rangs sur laxe des abscisses
(X), par exemple de 10 en 10, 100 en 100, etc.
8Changement déchelle
Lorsque les modalités sont très nombreuses et les
fréquences très inégales on peut utiliser un
changement déchelle des axes (coordonnées
logarithmiques).
9Loi de Zipf
Approximativement rang x fréquence constante
- George Zipf (1935) sest aperçu que cette
relation rang-fréquence était une propriété de
tous les textes.
10Exemples
11Fréquences cumulées
CAT EFFECTIF
NOM 1093
VERBE 896
DET 792
PRO 632
PREP 539
ADV 349
ADJ 307
CONJ 305
NUM 16
INTERJ 4
Total 4933
Etape 1 Classement par fréquences décroissantes
12Fréquences cumulées
CAT EFFECTIF CUMUL
NOM 1093 1093
VERBE 896 1989
DET 792 2781
PRO 632 3413
PREP 539 3952
ADV 349 4301
ADJ 307 4608
CONJ 305 4913
NUM 16 4929
INTERJ 4 4933
Total 4933 4933
13Fréquences cumulées
CAT EFFECTIF CUMUL CUMUL
NOM 1093 1093 22,2
VERBE 896 1989 40,3
DET 792 2781 56,4
PRO 632 3413 69,2
PREP 539 3952 80,1
ADV 349 4301 87,2
ADJ 307 4608 93,4
CONJ 305 4913 99,6
NUM 16 4929 99,9
INTERJ 4 4933 100,0
Total 4933 4933 100,0
Idem, expression en pourcentages
14Exemple
- Petit Prince
- 15351 occurrences
- 2414 formes
- Rappel loi de Zipf
15Fréquences cumulée
- Environ
- 50 mots 50
- 1000 mots 90
Vocabulaire fondamental
16Agrandissement
17Mots les plus fréquents
Rang Forme Cumul Rang Forme Cumul
1 LE 3,0 27 EN 37,4
2 DE 5,7 28 QU' 38,1
3 IL 8,2 29 ME 38,8
4 JE 10,4 30 QUI 39,5
5 ET 12,3 31 POUR 40,1
6 UN 14,2 32 BIEN 40,8
7 EST 16,0 33 AI 41,4
8 LES 17,7 34 SE 41,9
9 LA 19,1 35 A 42,5
10 PETIT 20,4 36 S' 43,0
11 PAS 21,6 37 COMME 43,5
12 À 22,8 38 MOI 44,0
13 NE 24,0 39 SI 44,5
14 PRINCE 25,1 40 DU 45,0
15 L' 26,2 41 ON 45,5
16 QUE 27,3 42 SUR 45,9
17 D' 28,3 43 ELLE 46,4
18 TU 29,3 44 ÉTAIT 46,8
19 J' 30,3 45 VOUS 47,2
20 C' 31,3 46 DANS 47,7
21 UNE 32,3 47 LUI 48,1
22 DIT 33,3 48 PLANÈTE 48,5
23 N' 34,2 49 PLUS 48,9
24 MAIS 35,1 50 MON 49,3
25 DES 36,0 51 ÇA 49,6
26 CE 36,8 52 TOUT 50,0
18Antidictionnaire
- Mots outils
- Mots grammaticaux
- Présents dans tous les textes
- Parmi les plus fréquents
19Exemple
a A à afin ah ai aie aient aies ailleurs ainsi
ait alentour alias allais allaient allait allons
allez alors Ap. Apr. après après-demain arrière as
assez attendu au aucun aucune au-dedans au-dehors
au-delà au-dessous au-dessus au-devant ...
20Programme Dico
21 22On voit apparaître les mots-clés du texte
23Termes à retenir
- Rang
- Coordonnées logarithmiques
- Loi de Zipf
- Fréquences cumulées