Les M - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Les M

Description:

La notion de distribution de fr quence. La distinction entre type et ... Je mange la pizza au fromage. Pas de fr quences, toutes donn es ont la m me importance. ... – PowerPoint PPT presentation

Number of Views:59
Avg rating:3.0/5.0
Slides: 37
Provided by: dil91
Category:
Tags: agisse | les

less

Transcript and Presenter's Notes

Title: Les M


1
Les Méthodes Quantitatives
  • Données qualitatives et quantitatives
  • La notion de distribution de fréquence
  • La distinction entre type et token
  • Les n-grammes

2
Données qualitatives
  • Exemple jugement de grammaticalité des
    phrases
  • Je mange la pizza avec le fromage.
  • Je mange la pizza au fromage.
  • Pas de fréquences, toutes données ont la même
    importance.
  • Exemples se trouvent dans un corpus ou sont
    obtenues de façon naturelle.
  • Beaucoup dattention aux détails
  • Les conclusions tirées sur la base dun
    échantillon qualitatif ne sappliquent pas à
    toute la population avec certitude, car on ne
    recherche pas des exemples représentatifs de la
    population.

3
Données quantitatives
  • Exemple
  • comptage des fréquences des verbes dans un
    corpus français.
  • Les données sont classées, comptées, résumées
    avec des statistiques.
  • Les données nont pas toutes la même importance.
  • Les données à basse fréquence sont souvent
    considérées comme moins importantes (mais
    sont-elles moins nombreuses?).
  • Les données sont des échantillons, donc les
    généralisations sappliquent à toute la
    population avec un certain degré de certitude.

4
La classification
L'approche la plus simple à la manipulation des
données textuelles avec une méthode quantitative
est de les classifier/classer. Dans ce cours,
nous allons voir deux exemples de problèmes TALN
formalisés en tant que problèmes de
classification. - classification binaire
attachement du syntagme prépositionnel -
classification multiple classes des verbes
5
Tokens, types et distributions
Pour classer des occurrences (les tokens), il
faut d'abord établir un schéma, qu'on appelle une
classification (les types). Une fois la
classification établie, on peut classer chaque
occurrence selon un type. Chaque type aura alors
un certain nombre d'effectifs. L'ensemble des
comptages d'effectifs de la classification
s'appelle une distribution. Exemple 1 Si les
vocables du langage sont les types de données, et
les occurrences des mots, les tokens, alors il
s'agit d'une distribution des fréquences des
mots. Par exemple, la phrase suivante La
fille a vu son père, mais le père n'a pas vu la
fille. a la distribution suivante type a
fille la le mais n' pas père son vu fréq.
2 2 2 1 1 1 1 2 1
1
6
Tokens, types et distributions
Exemple 2 Soit une classification dont les types
sont les étiquettes des parties du discours
(partsofspeech tags ou POS tags en anglais).
Les tokens sont les mots dans un texte. Alors, il
s'agit d'une distribution d'étiquettes. Par
exemple, voici la distribution des 15 étiquettes
les plus fréquentes dans le corpus Brown,
étiqueté avec les étiquettes du Penn Treebank
1. 161397 NN 6. 58262 , 11. 46684
VBD 2. 136714 IN 7. 55912 NNS 12. 38097
CC 3. 116454 DT 8. 55645 . 13. 36887
VB 4. 76586 JJ 9. 52037 RB 14. 29435
VBN 5. 62020 NNP 10. 47303 PRP 15. 26135
TO
7
Tokens, types et distributions
Exemple 3 Si les mots et les signes de
ponctuation sont les types de la classification,
et leurs occurrences les tokens de la
classification, alors il s'agit d'une
distribution de lexèmes. Ou un dictionnaire des
fréquences. Par exemple, voici un extrait de la
distribution des mots et signes de ponctuation
dans le corpus Brown
1. 69836 the 7. 23157 a 66. 1961
said 2. 58260 , 8. 21314 in 70. 1815
about 3. 49249 . 9. 10777 that 80. 1600
time 4. 36365 of 10. 10182 is 89. 1332
man 5. 28826 and 11. 9968 was 93. 1292
like 6. 26126 to 12. 9801 he 99. 1125
made
8
Questions
Quel sont les mots les plus fréquents du
français? Quel sont les parties du discours les
plus fréquentes en français? Quels sont les mots
significatifs les plus fréquents du
français? Pourquoi cela nous intéresse?
9
Linguistique et statistique
  • Historiquement, les premiers à avoir abordé les
    aspects quantitatifs du langage sont sans doute
    les cryptographes et les sténographes.
  • Les cryptographes ont dû établir des tables de
    fréquences de lettres
  • C'est au sténographe Baptiste Estoup que l'on
    doit les premières observations connues sur les
    fréquences relatives des mots dans un texte.

Extrait de la section Linguistique et Statistique
de l'Encyclopaedia Universalis version 3.0 sur
CD-ROM.
10
Loi de Zipf
Si l'on dresse une table de l'ensemble des mots
différents d'un texte quelconque, classés par
ordre de fréquences décroissantes, on constate
que la fréquence d'un mot est inversement
proportionnelle à son rang dans la liste, ou,
autrement dit, que le produit de la fréquence de
n'importe quel mot par son rang est constant, ce
que traduit la formule f r C, où f est la
fréquence et r le rang. La loi de Zipf stipule
donc que la fréquence du second mot le plus
fréquent est la moitié de celle du premier, la
fréquence du troisième mot le plus fréquent, son
tiers, etc. Cette égalité, qui n'est vraie qu'en
approximation, est indépendante des locuteurs,
des types de textes et des langues. Il semble
ainsi qu'il s'agisse véritablement d'un trait
général des énoncés linguistiques. Cette
constatation, n'est pas isolée, mais n'est que la
première de toute une série d'autres.
Extrait de la section Linguistique et Statistique
de l'Encyclopaedia Universalis version 3.0 sur
CD-ROM.
11
Exemple
Pour le deuxième paragraphe du texte précédant,
on a la distribution suivante. On indique le
rang, la fréquence et le mot.
16 1 son 16 1 moitié 16 1 pas 16
1 premier 16 1 locuteurs 16 1 loi
16 1 mais 16 1 première 16 1
s'agisse 16 1 second 16 1 semble 16
1 qu'en 16 1 qu'il 16 1 qui
1 8, 2 4 de 2 4 des 2
4. 2 4 la 6 3 n'est 6 3 du
8 2 fréquent 8 2 mot 8 2 plus
8 2 est 8 2 fréquence 8 2 le
8 2 que 8 2 Cette
16 1 donc 16 1 linguistiques 16 1
tiers 16 1 toute 16 1 trait 16 1
stipule 16 1 série 16 1 textes 16
1 troisième 16 1 véritablement 16 1
égalité 16 1 énoncés 16 1 types 16
1 une 16 1 vraie
16 1 général 16 1 isolée 16 1
langues 16 1 indépendante 16 1 Il 16
1 d'autres 16 1 d'un 16 1
constatation 16 1 approximation 16 1
celle 16 1 ainsi 16 1 et 16 1 etc
16 1 La 16 1 Zipf
12
Exemple
Remarques il y a 88 mots au total. le mot le
plus fréquent apparaît 8 fois, le deuxième 4
fois, il y a 42 mots qu'on trouve une seule fois
(hapax legomena)
13
Autres phénomènes de fréquence
La fréquence relative des catégories
grammaticales, bien que variant d'un individu ou
d'un texte à l'autre, est stable. C'est ainsi
qu'en français les mots outils (articles,
pronoms, conjonctions, prépositions) représentent
50 de n'importe quel texte, l'autre moitié étant
constituée par les mots pleins (substantifs,
verbes, adjectifs, adverbes). On peut noter que
dans le dictionnaire cette proportion est tout
autre, les mots outils ne représentant que 0,5
du lexique total.
Extrait de la section Linguistique et Statistique
de l'Encyclopaedia Universalis version 3.0 sur
CD-ROM.
14
Autres phénomènes de fréquence
La fréquence des mots d'une langue dans le
discours est liée à leur structure phonique en
particulier, le nombre de phonèmes d'un mot
dépend de son rang. On peut ainsi observer une
tendance générale de toutes les langues, selon
laquelle plus un mot est fréquent, plus il est
court (c'est-à-dire moins son  coût de
production  est élevé). Cela apparaît bien dans
le phénomène général d'abrègement des mots longs
dont la fréquence a tendance à augmenter dans le
discours tronquements ( cinématographe 
devient  cinéma  et  ciné ), sigles
(S.N.C.F., U.R.S.S.), auxquels on peut rattacher
certains phénomènes de substitution
( contremaître  devient  singe , etc.).
Extrait de la section Linguistique et Statistique
de l'Encyclopaedia Universalis version 3.0 sur
CD-ROM.
15
URL génial
http//users.info.unicaen.fr/giguet/java/zipf.htm
l
16
MORALE
17
Les n-grammes
De la même façon que nous sommes intéressés aux
distributions des fréquences des mots
individuels, nous sommes aussi, même plus,
intéressés à récolter les distributions des
fréquences des séquences à deux, trois, quatre
mots à la fois.
18
Les n-grammes
  • Un n-gramme (néologisme à partir des termes
     bigramme ,  trigramme , etc.) est une
    séquence de taille fixée d'un texte.
  • Exemples
  • Les n-grammes des mots sont toutes les séquences
    de n mots dans le corpus.
  • le chat mange la souris
  • bigrammes (n-grammes de longueur 2)
  • (le chat) (chat mange) (mange la) (la souris)
  • trigrammes (n-grammes de longueur 3)
  • (le chat mange) (chat mange la) (mange la
    souris)

19
Les n-grammes
  • À quoi servent les n-grammes?
  • À travers les distributions des n-grammes on
    arrive à approximer certaines régularités
    langagières. Par exemple,
  • voisins d'un mot dans un texte
  • classification distributionnelle (syntaxique)
    des mots
  • représentation d'un document
  • représentation d'une langue

20
Les n-grammes
  • Les unités de comptage ne sont pas nécessairement
    les mots.
  • Les spécialistes de parole s'occupent de
    n-grammes de phonèmes.
  • Ou encore en syntaxe les bigrammes de catégorie
    morpho-syntaxique sont des couples du type
    (Nom-Verbe) ou (Adjectif-Nom), parmi d'autre,
    indiquant combien de fois un nom est suivi d'un
    verbe dans le corpus, ou un adjectif suivi d'un
    nom.
  • En cryptographie on s'occupe dunigrammes, de
    bigrammes et de trigrammes de lettres.

21
Chiffrer un message
Un des moyens les plus simples de chiffrer un
message est de remplacer chaque lettre par une
autre (ou un autre symbole). Par sa simplicité et
par sa force, ce système a dominé la technique
des écritures secrètes pendant tout le premier
millénaire. Il a résisté aux cryptanalystes
jusqu'à ce que le savant arabe Abu Yusuf Ya'qub
ibn Is-haq ibn as-Sabbah Oòmran ibn Ismaïl
al-Kindi (ouf!) mette au point, au IXème siècle,
une technique appelée analyse des fréquences.
Al-Kindi rédige sa méthode dans son plus
important traité intitulé Manuscrit sur le
déchiffrement des messages cryptographiques.
C'est le premier manuscrit connu faisant mention
des fréquences d'apparition des lettres. Il
explique que la façon d'élucider un message
crypté, si nous savons dans quelle langue il est
écrit, est de nous procurer un autre texte en
clair dans la même langue, de la longueur d'un
feuillet environ, et de compter alors les
apparitions de chaque lettre. Ensuite, nous nous
reportons au texte chiffré que nous voulons
éclaircir et relevons de même ses symboles. Nous
remplaçons le symbole le plus fréquent par la
lettre première (la plus fréquente du texte
clair), le suivant par la deuxième, le suivant
par la troisième, et ainsi de suite jusqu'à ce
que nous soyons venus à bout de tous les symboles
du cryptogramme à résoudre .
Référence http//www.ars-cryptographica.com/sta
t/
22
Les distributions de n-grammes
Les systèmes de chiffrement simples sont
facilement cassable par une méthode d'analyse de
fréquences des lettres, car pour chaque langue,
certaines lettres sont beaucoup plus utilisées
que d'autres.
23
Les distributions dunigrammes
Voici pour le français, l'anglais, l'allemand et
l'espagnol les fréquences d'apparition des
lettres.
Référence http//www.ars-cryptographica.com/sta
t/
24
Identificateurs des langues
Arrive-t-on à identifier une langue avec
seulement les fréquences de n-grammes? Essayons!
25
Les distributions de bigrammes
Voici pour trois langues inconnues, les
fréquences d'apparition des 10 bigrammes les plus
fréquents Bigrammes ES DE LE EN
RE NT ON ER TE EL
Nombres 3318 2409 2366 2121 1885 1694
1646 1514 1484 1382 Bigrammes TH
HE IN ER AN RE ES ON ST
NT Nombres 3020 2496 2078 1821 1676
1467 1345 1318 1290 1267 Bigrammes EN
ER CH DE TE ND EI
IE IN GE Nombres 3956 3818
2647 2386 2167 1990 1935 1702 1579 1521
26
Les distributions de trigrammes
Voici pour trois langues inconnues, les
fréquences d'apparition des 10 trigrammes les
plus fréquents Trigrammes ENT LES EDE
DES QUE AIT LLE SDE ION EME Nombres
900 801 630 609 607 542 509
508 477 472 Trigrammes THE AND ING
ENT ION NTH TER INT OFT THA Nombres
2069 819 607 487 428 381
367 357 355 355 Trigrammes DER ICH
EIN NDE SCH DIE TEN END CHE
UND Nombres 1025 959 939 812
812 804 662 611 607 586
27
Les distributions de bi- et trigrammes en français
Voici pour le français, les fréquences
d'apparition des 10 bigrammes et des 10
trigrammes les plus fréquents Bigrammes ES
DE LE EN RE NT ON ER
TE EL Nombres 3318 2409 2366 2121
1885 1694 1646 1514 1484 1382 Trigrammes
ENT LES EDE DES QUE AIT LLE SDE
ION EME Nombres 900 801 630 609
607 542 509 508 477 472
Référence http//www.ars-cryptographica.com/sta
t/
28
Les distributions de n-grammes en français
Tous les tableaux de la page précédente ont été
construits en comptant les fréquences dans un
texte français de 100'000 lettres composé de
textes de Gustave Flaubert (20'600 lettres), de
Jules Verne (19'438) et de trois articles de
l'Encyclopedia Universalis, le premier consacré à
Bruges (8'182), le deuxième à l'artillerie
(25'078) et le dernier à la population (26'702).
Référence http//www.ars-cryptographica.com/sta
t/
29
Les distributions de bi- et trigrammes en anglais
Voici pour l'anglais, les fréquences d'apparition
des 10 bigrammes et des 10 trigrammes les plus
fréquents Bigrammes TH HE IN
ER AN RE ES ON ST
NT Nombres 3020 2496 2078 1821 1676 1467
1345 1318 1290 1267 Remarques les 52
(sur 676) bigrammes les plus fréquents,
représentent plus de la moitié de toutes les
occurrences. Trigrammes THE AND ING
ENT ION NTH TER INT OFT THA Nombres
2069 819 607 487 428 381 367
357 355 355 Si les espaces entre les mots
ont été conservés (ce qui n'est généralement pas
le cas) on peut aussi utiliser les informations
suivantes Les mots de deux lettres les plus
fréquents sont of, to, in, it, is, be, as, at,
so, we, he, by, or, on, do, if, me, my, up, an,
go, no, us, am. Les mots de trois lettres les
plus fréquents sont the et and.
Référence http//www.ars-cryptographica.com/sta
t/
30
Les distributions de n-grammes en anglais
Tous les tableaux de la page précédente ont été
construits en comptant les fréquences dans un
texte anglais de 100'000 lettres composé de
textes d'Edgar Allan Poe (24'541 lettres),
d'Arthur Conan Doyle (14'153) et de quatre
articles de l'Encyclopédie Encarta 95, le premier
consacré à New York (13'100), le deuxième à la
Bible (19'405), le troisième aux baleines (9'083)
et le dernier au transport ferroviaire (19'718).
Référence http//www.ars-cryptographica.com/sta
t/
31
Les distributions de bi- et trigrammes en allemand
Voici pour l'allemand, les fréquences
d'apparition des 10 bigrammes et des 10
trigrammes les plus fréquents Bigrammes
EN ER CH DE TE ND EI
IE IN GE Nombres 3956
3818 2647 2386 2167 1990 1935 1702 1579
1521 Trigrammes DER ICH EIN NDE SCH
DIE TEN END CHE UND Nombres 1025
959 939 812 812 804 662 611
607 586 On reconnaît les articles  der ,
 die ,  ein . Il est à noter que  das  ne
vient qu'en 43ème position avec 255 occurrences
seulement.
Référence http//www.ars-cryptographica.com/sta
t/
32
Les distributions de n-grammes en allemand
Tous les tableaux de la page précédente ont été
construits en comptant les fréquences dans un
texte allemand de 100'000 lettres composé d'un
texte de Franz Kafka (28'188 lettres), d'un texte
historique consacré à Gilberte de Courgenay
(17'845) et de trois articles trouvés sur le web,
le premier consacré à la découverte de la planète
Pluton (24'165), le deuxième à Yvan le Terrible
(24'560) et le dernier aux éléphants d'Afrique
(5'242). Le symbole  ß  a été remplacé
systématiquement par  ss .
Référence http//www.ars-cryptographica.com/sta
t/
33
Effectifs et proportions
On a vu que les simples comptages sont très
utiles pour l'investigation quantitative des
données textuelles. Mais ils ne sont pas
suffisants. Par exemple, on ne peut pas les
utiliser pour faire de comparaisons. Il faut
alors utiliser les fréquences relatives ou
proportions. Exemple Nous voudrions savoir si le
mot anglais boot est utilisé avec la même
fréquence en anglais parlé et anglais écrit. Nous
avons accès à un corpus de 500'000 mots d'anglais
écrit mais seulement 50'000 d'anglais parlé. En
comptant les effectifs, nous trouvons 50
occurrences dans le corpus parlé et 500
occurrence dans le corpus écrit. La conclusion
est clairement que la fréquence d'utilisation de
boot est la même dans les deux modalités, car la
proportion des cas est égale.
34
Significance testing
Significance tests allow us to determine whether
or not a finding is the result of a genuine
difference between two (or more) items, or
whether it is just due to chance. For example,
suppose we are examining the Latin versions of
the Gospel of Matthew and the Gospel of John and
we are looking at how third person singular
speech is represented. Specifically we want to
compare how often the present tense form of the
verb "to say" is used ("dicit") with how often
the perfect form of the verb is used ("dixit"). A
simple count of the two verb forms in each text
produces the following results dicit dixit joh
n 46 107 matthew 118 119 From these figures
is looks as if John uses the present form
("dicit") proportionally more often than Matthew
does, but to be more certain that this is not
just due to co-incidence, we need to perform a
further calculation - the significance
test. There are several types of significance
test available to the corpus. Here we will only
examine the chi-squared test as it is the most
commonly used significance test in corpus
linguistics. This is a non-parametric test which
is easy to calculate, even without a computer
statistics package, and can be used with data in
2 X 2 tables, such as the example above. However,
it should be noted that the chi-squared test is
unreliable where very small numbers are involved
and should not therefore be used in such cases.
Also, proportional data (percentages etc) can not
be used with the chi-squared test.
Référence http//www.ling.lancs.ac.uk/monkey/ih
e/linguistics/corpus3/3sig.htm
35
Significance testing
The test compares the difference between the
actual frequencies (the observed frequencies in
the data) with those which one would expect if no
factor other than chance had been operating (the
expected frequencies). The closer these two
results are to each other, the greater the
probability that the observed frequencies are
influenced by chance alone. Having calculated the
chi-squared value (we will omit this here and
assume it has been done with a computer
statistical package) we must look in a set of
statistical tables to see how significant our
chi-squared value is (usually this is also
carried out automatically by computer). We also
need one further value - the number of degrees of
freedom which is simply (number of columns in
the frequency table - 1) x (number of rows in the
frequency table - 1) In the example above this is
equal to (2-1) x (2-1) 1. We then look at the
table of chi-square values in the row for the
relevant number of degrees of freedom until we
find the nearest chi-square value to the one
which is calculated, and read off the probability
value for that column. The closer to 0 the value,
the more significant the difference is - i.e. the
more unlikely that it is due to chance alone. A
value close to 1 means that the difference is
almost certainly due to chance. In practice it is
normal to assign a cut-off point which is taken
to be the difference between a significant result
and an "insignificant" result. This is usually
taken to be 0.05 (probability values of less than
0.05 are written as "p lt 0.05" and are assumed to
be significant.)
Référence http//www.ling.lancs.ac.uk/monkey/ih
e/linguistics/corpus3/3sig.htm
36
Résumé du cours
  • Données qualitatives vs quantitatives
  • quantitatives attention au détail, même
    importance
  • qualitative résumé, échantillonnage,
    représentativité
  • Classification on établit un schéma (les
    types), et on classes les instances (tokens).
  • Distribution des tokens par type
  • Loi de Zipf le produit entre le rang et la
    fréquence est constant
  • Les n-grammes en tant quunités linguistiques,
    les distributions de n-grammes
  • Fréquence relative pour normaliser échantillons
    de tailles différentes
Write a Comment
User Comments (0)
About PowerShow.com