Title: Apprentissage automatique des morphologies: Pourquoi et comment
1Apprentissage automatique des morphologies
Pourquoi et comment
- John Goldsmith
- Université de Chicago
- Projet MoDyCo / CNRS
2Merci
- Introduction Remarques générales sur une
perspective empiriste, et sur ses implications
pour la linguistique. - Lapprentissage automatique de la structure
morphologique, implémenté dans un logiciel.
3Une citation de Syntactic Structures,Noam
Chomsky 1957
- The strongest requirement that could be placed on
the relation between a theory of linguistic
structure and particular grammars is that the
theory must provide a practical and mechanical
method for actually constructing the grammar,
given a corpus of utterances. Let us say that
such a theory provides us with a discovery
procedure.
4grammar
corpus
5- A weaker requirement would be that the theory
must provide a practical and mechanical method
for determining whether or not a grammar proposed
for a given corpus is, in fact, the best grammar
of the language from which the corpus is drawn (a
decision procedure).
6yes/no
corpus
grammar
7- An even weaker requirement would be that given a
corpus and given two proposed grammars G1 and G2,
the theory must tell us which is the better
grammar....an evaluation procedure.
8G1
"G1" or "G2"
G2
corpus
9- The point of view adopted here is that it is
unreasonable to demand of linguistic theory that
it provide anything more than a practical
evaluation procedure for grammars. That is, we
adopt the weakest of the three positions
described above...
10- I think that it is very questionable that this
goal is attainable in any interesting way, and I
suspect that any attempt to meet it will lead
into a maze of more and more elaborate and
complex analytic procedures that will fail to
provide answers for many important questions
about the nature of linguistic structure. I
believe that by lowering our sights.
11- lowering oursights to the more modest goal of
developing an evaluation procedure for grammars
we can focus attention more clearly on truly
crucial problems...The correctness of this
judgment can only be determined by the actual
development and comparison of theories of these
various sorts.
12- Notice, however, that the weakest of these three
requirements is still strong enough to guarantee
significance for a theory that meets it. There
are few areas of science in which one would
seriously consider the possibility of developing
a general, practical, mechanical method for
choosing among several theories, each compatible
with the available data. - Noam Chomsky, Syntactic Structures 1957
132. Lapprentissage automatique de la grammaire
- Plan général
- Un corpus C
- Une famille de grammaires possibles G
- Une façon de mesurer la relation entre un corpus
C et une grammaire particulière g - Complexité de g (indépendamment du corpus)
- La complexité du corpus selon grammaire g.
- Notre but est de minimiser la somme de ces deux
éléments. (MDL Longueur de déscription
minimale). Nous en revenons!
14Plus contrètement
- Une heuristique initiale (amorce) qui prend un
corpus comme input et en crée une grammaire
préliminaire (sans doute trop simple). - Une série de heuristiques de modifie la
grammaire. - Une facon dappeler la mesure du slide précédent
est-ce que la modification est pour le meilleur?
(MDL)
15Corpus
Nous choississons un corpus naturel dune langue
naturelle (5,000- 1,000,000 mots)
16Corpus
Nous introduisons le corpus à la heuristique
bootstrap
Heuristique amorce
17Corpus
Heuristique amorce
Cela nous donne une morphologie, qui nest pas
forcément très bonne.
morphologie
18Corpus
Heuristique amorce
Nous lenvoyons aux heuristiques incrémentielles.
morphologie
Heuristiques incrémentieles
19Corpus
Sortie une morphologie modifiée
Heuristique amorce
morphologie
morphologie modifiée
Heuristiques incrémentieles
20Corpus
Est-ce que la modification est un amélioration?
Notre expression MDL donne la réponse.
Heuristique amorce
morphologie
morphologie modifiée
Heuristiques incrémentieles
21Corpus
Sil sagit dune amélioration,elle remplace la
vieille morphologie.
Heuristique amorce
morphologie modifiée
morphologie
Poubelle
22Corpus
Send it back to the incremental heuristics
again...
Heuristique amorce
morphologie modifiée
Heuristiques incrémentieles
23Continuez jusquau moment où il nexiste
plus daméliorations à tester.
morphologie
morphologie modifiée
Heuristiques incrémentieles
24Reprise
- Nous avons vu la méthode algorithmique.
- Pour chaque domaine linguistique, il nous faut
préciser - La heuristique amorce
- Les heuristiques incrémentielles
- Le modéle MDL (Longueur de déscription minimale).
251. Lheuristique amorce
- Elle se fait en deux temps
- Elle trouve des coupures potentielles en
utilisant une suggestion de Zellig Harris. - Elle acceptent une coupure potentielle si et
seulement si elle fait partie dune signature
propre.
26Zellig Harrissuccessor frequency
- Successor frequency of jum 2
- jum p (jump, jumping, jumps, jumped, jumpy)
- b (jumble)
- Successor frequency of jump5
- e (jumped)
- i (jumping)
- jump s (jumps)
- y (jumpy)
- (jump)
27Zellig HarrisSuccessor Frequency
coupure prévue
19 9 6 3 1 3 1
1
a c c e p t i n g
able ing
lerate (accelerate) nted (accented)
ident (accident) laim (acclaim) omodate
(accomodate) reditated (accredited) used
(accused)
28Zellig Harris Successor frequency
d dead f deaf l deal n dean t death
prédictions fausses
a
18
a
e
5
d
b debate, debuting c decade, december,
decide d dedicate, deduce, deduct e
deep f
9
i
e defeat, defend, defer i deficit, deficiency
r defraud
3
bonnes prédictions
o
29Zellig HarrisSuccessor frequencies
9 18 11 6 4 1 2 1 1 2
1 1
c o n s e r v a t i
v e s
incorrecte
correcte
incorrecte
30Problèmes
- Si 2 suffixes commencent par le même
phoneme/lettre
is
ais
donn
donna
it
ait
NULL
a
Analyse basée sur successor frequency
31Amorce B Signatures
- Nous acceptons la dernière coupure dans chaque
mot - Racine (potentiel) suffixe (potentiel)
- Avec chaque racine (potentiel) nous associons
lensemble de ses suffixes (potentiels)
32Signatures
- Toutes les racines qui possèdent le même ensemble
de suffixes forment lensemble de racines dans
une signature
33Finite state automaton (FSA)
jump
NULL
ed
walk
ing
34Signature propre
- Une signature propre contient au moins deux
racines et au moins deux suffixes. - Nous gardons (maintenant) seulement les
signatures propres, et jetent les autres.
(Certaines dentres elles vont revenir plus tard.)
35Reprise
- Pour chaque domaine linguistique, il nous faut
préciser - La heuristique amorce
- Les heuristiques incrémentielles
- Le modéle MDL (Longueur de déscription minimale).
36Exemples
37Reprise
- Pour chaque domaine linguistique, il nous faut
préciser - La heuristique amorce
- Les heuristiques incrémentielles
- Le modéle MDL (Longueur de déscription minimale).
38Modèle MDL
- La longueur de déscription se compose de deux
termes - La longueur de la grammaire, en bits
- La quantité dinformation dans le corpus qui
nest pas expliquée totalement par la grammaire,
en bits - Ici, grammaire morphologie
39- La longueur de la grammaire, en bits
-
- La quantité dinformation dans le corpus qui
nest pas expliquée totalement par la grammaire,
en bits - Lidée centrale une analyse extrait toujours des
redondances. Par exemple
40Longueur de description (version naïve!)
Corpus jump, jumps, jumping laugh, laughed,
laughing sing, sang, singing the, dog, dogs
totale 62 lettres
Analyse Racines jump laugh sing sang dog (20
lettres) Suffixes s ing ed (6 lettres) Non
analysés the (3 lettres) totale 29 lettres.
41- Pour decrire le corpus, il vaut mieux extraire un
lexicon structuré, et décrire le corpus à travers
la structure du lexicon.
42Pourquoi minimiser?
- Si la longueur de la grammaire est trop longue,
on risque overfitting la grammaire décrit le
message, non pas le système qui a crée le
message. - Si la description des données est trop longue, on
risque de ne pas avoir capté des généralisations
inhérentes dans les données.
43Essence of MDL
44Mesurer la longueur de la morphologie
- La morphologie est composée de trois composantes
- Une liste de racines
- Une liste daffixes
- Une list de signatures.
- Nous calculons dabord (1) et (2).
45La longueur dune liste de morphèmes
- La longueur dune list (de longueur N) de
morphèmes - log N S longueur de chaque morphème
- La longueur dun morphème m
- logm S -1 log2 freq de chaque lettre
- log m S -1 log2 freq de chaque lettre,
donné la lettre précédente - autrement dit
46(No Transcript)
47Mesurer la longueur de la morphologie
- La morphologie est composée de trois composantes
- Une liste de racines
- Une liste daffixes
- Une list de signatures.
- Nous calculons (3).
48Nous remplaçons chaque morphème par un pointeur
au morphème, qui coûte moins cher (en bits). La
longueur optimale dun pointeur est basé sa
fréquence -log2 fréquence(m). Une signature
consiste de deux listes de pointers, et nous
sommes en mesure de tout mesurer
49LInformation contenue dans toutes les signatures
50Source plus profonde de MDL
- Le but de tout sysème rationel est de trouver le
meilleur explication des observations. - On interprète ceci dans un contexte probabiliste
Trouver lanalyse la plus probable, étant données
les faits.
51La règle de Bayes
h hypothèse D données. Trouver lhypothèse
la plus probable trouver celle dans le produit
de sa probabilité et de la probabilité quelle
donne aux données est maximale.
52(No Transcript)
53- Nous pouvons maintenant regarder le
fonctionnement de cet algorithme.
54http//Linguistica.uchicago.edu
55(No Transcript)
56(No Transcript)
57(No Transcript)
58(No Transcript)
59Conclusion
- Comment définir ce type danalyse linguistique?
- Aucun linguiste générative à lheure actuelle ne
lidentifierait comme une analyse générative. - Et pourtant
- Cest une interprétation empiriste du programme
original générativiste.
60(No Transcript)