Apprentissage automatique des morphologies: Pourquoi et comment - PowerPoint PPT Presentation

1 / 60
About This Presentation
Title:

Apprentissage automatique des morphologies: Pourquoi et comment

Description:

The strongest requirement that could be placed on the relation between a theory ... qui co te moins cher (en bits). La longueur optimale d'un pointeur est bas ... – PowerPoint PPT presentation

Number of Views:171
Avg rating:3.0/5.0
Slides: 61
Provided by: johngol
Category:

less

Transcript and Presenter's Notes

Title: Apprentissage automatique des morphologies: Pourquoi et comment


1
Apprentissage automatique des morphologies
Pourquoi et comment
  • John Goldsmith
  • Université de Chicago
  • Projet MoDyCo / CNRS

2
Merci
  • Introduction Remarques générales sur une
    perspective empiriste, et sur ses implications
    pour la linguistique.
  • Lapprentissage automatique de la structure
    morphologique, implémenté dans un logiciel.

3
Une citation de Syntactic Structures,Noam
Chomsky 1957
  • The strongest requirement that could be placed on
    the relation between a theory of linguistic
    structure and particular grammars is that the
    theory must provide a practical and mechanical
    method for actually constructing the grammar,
    given a corpus of utterances. Let us say that
    such a theory provides us with a discovery
    procedure.

4
grammar
corpus
5
  • A weaker requirement would be that the theory
    must provide a practical and mechanical method
    for determining whether or not a grammar proposed
    for a given corpus is, in fact, the best grammar
    of the language from which the corpus is drawn (a
    decision procedure).

6
yes/no
corpus
grammar
7
  • An even weaker requirement would be that given a
    corpus and given two proposed grammars G1 and G2,
    the theory must tell us which is the better
    grammar....an evaluation procedure.

8
G1
"G1" or "G2"
G2
corpus
9
  • The point of view adopted here is that it is
    unreasonable to demand of linguistic theory that
    it provide anything more than a practical
    evaluation procedure for grammars. That is, we
    adopt the weakest of the three positions
    described above...

10
  • I think that it is very questionable that this
    goal is attainable in any interesting way, and I
    suspect that any attempt to meet it will lead
    into a maze of more and more elaborate and
    complex analytic procedures that will fail to
    provide answers for many important questions
    about the nature of linguistic structure. I
    believe that by lowering our sights.

11
  • lowering oursights to the more modest goal of
    developing an evaluation procedure for grammars
    we can focus attention more clearly on truly
    crucial problems...The correctness of this
    judgment can only be determined by the actual
    development and comparison of theories of these
    various sorts.

12
  • Notice, however, that the weakest of these three
    requirements is still strong enough to guarantee
    significance for a theory that meets it. There
    are few areas of science in which one would
    seriously consider the possibility of developing
    a general, practical, mechanical method for
    choosing among several theories, each compatible
    with the available data.
  • Noam Chomsky, Syntactic Structures 1957

13
2. Lapprentissage automatique de la grammaire
  • Plan général
  • Un corpus C
  • Une famille de grammaires possibles G
  • Une façon de mesurer la relation entre un corpus
    C et une grammaire particulière g
  • Complexité de g (indépendamment du corpus)
  • La complexité du corpus selon grammaire g.
  • Notre but est de minimiser la somme de ces deux
    éléments. (MDL Longueur de déscription
    minimale). Nous en revenons!

14
Plus contrètement
  • Une heuristique initiale (amorce) qui prend un
    corpus comme input et en crée une grammaire
    préliminaire (sans doute trop simple).
  • Une série de heuristiques de modifie la
    grammaire.
  • Une facon dappeler la mesure du slide précédent
    est-ce que la modification est pour le meilleur?
    (MDL)

15
Corpus
Nous choississons un corpus naturel dune langue
naturelle (5,000- 1,000,000 mots)
16
Corpus
Nous introduisons le corpus à la heuristique
bootstrap
Heuristique amorce
17
Corpus
Heuristique amorce
Cela nous donne une morphologie, qui nest pas
forcément très bonne.
morphologie
18
Corpus
Heuristique amorce
Nous lenvoyons aux heuristiques incrémentielles.
morphologie
Heuristiques incrémentieles
19
Corpus
Sortie une morphologie modifiée
Heuristique amorce
morphologie
morphologie modifiée
Heuristiques incrémentieles
20
Corpus
Est-ce que la modification est un amélioration?
Notre expression MDL donne la réponse.
Heuristique amorce
morphologie
morphologie modifiée
Heuristiques incrémentieles
21
Corpus
Sil sagit dune amélioration,elle remplace la
vieille morphologie.
Heuristique amorce
morphologie modifiée
morphologie
Poubelle
22
Corpus
Send it back to the incremental heuristics
again...
Heuristique amorce
morphologie modifiée
Heuristiques incrémentieles
23
Continuez jusquau moment où il nexiste
plus daméliorations à tester.
morphologie
morphologie modifiée
Heuristiques incrémentieles
24
Reprise
  • Nous avons vu la méthode algorithmique.
  • Pour chaque domaine linguistique, il nous faut
    préciser
  • La heuristique amorce
  • Les heuristiques incrémentielles
  • Le modéle MDL (Longueur de déscription minimale).

25
1. Lheuristique amorce
  • Elle se fait en deux temps
  • Elle trouve des coupures potentielles en
    utilisant une suggestion de Zellig Harris.
  • Elle acceptent une coupure potentielle si et
    seulement si elle fait partie dune signature
    propre.

26
Zellig Harrissuccessor frequency
  • Successor frequency of jum 2
  • jum p (jump, jumping, jumps, jumped, jumpy)
  • b (jumble)
  • Successor frequency of jump5
  • e (jumped)
  • i (jumping)
  • jump s (jumps)
  • y (jumpy)
  • (jump)

27
Zellig HarrisSuccessor Frequency
coupure prévue
19 9 6 3 1 3 1
1
a c c e p t i n g
able ing
lerate (accelerate) nted (accented)
ident (accident) laim (acclaim) omodate
(accomodate) reditated (accredited) used
(accused)
28
Zellig Harris Successor frequency
d dead f deaf l deal n dean t death
prédictions fausses
a
18
a
e
5
d
b debate, debuting c decade, december,
decide d dedicate, deduce, deduct e
deep f
9
i
e defeat, defend, defer i deficit, deficiency
r defraud
3
bonnes prédictions
o
29
Zellig HarrisSuccessor frequencies
9 18 11 6 4 1 2 1 1 2
1 1
c o n s e r v a t i
v e s
incorrecte
correcte
incorrecte
30
Problèmes
  • Si 2 suffixes commencent par le même
    phoneme/lettre

is
ais
donn
donna
it
ait
NULL
a
Analyse basée sur successor frequency
31
Amorce B Signatures
  • Nous acceptons la dernière coupure dans chaque
    mot
  • Racine (potentiel) suffixe (potentiel)
  • Avec chaque racine (potentiel) nous associons
    lensemble de ses suffixes (potentiels)

32
Signatures
  • Toutes les racines qui possèdent le même ensemble
    de suffixes forment lensemble de racines dans
    une signature

33
Finite state automaton (FSA)
jump
NULL
ed
walk
ing
34
Signature propre
  • Une signature propre contient au moins deux
    racines et au moins deux suffixes.
  • Nous gardons (maintenant) seulement les
    signatures propres, et jetent les autres.
    (Certaines dentres elles vont revenir plus tard.)

35
Reprise
  • Pour chaque domaine linguistique, il nous faut
    préciser
  • La heuristique amorce
  • Les heuristiques incrémentielles
  • Le modéle MDL (Longueur de déscription minimale).

36
Exemples
  • Bientôt --

37
Reprise
  • Pour chaque domaine linguistique, il nous faut
    préciser
  • La heuristique amorce
  • Les heuristiques incrémentielles
  • Le modéle MDL (Longueur de déscription minimale).

38
Modèle MDL
  • La longueur de déscription se compose de deux
    termes
  • La longueur de la grammaire, en bits
  • La quantité dinformation dans le corpus qui
    nest pas expliquée totalement par la grammaire,
    en bits
  • Ici, grammaire morphologie

39
  • La longueur de la grammaire, en bits
  • La quantité dinformation dans le corpus qui
    nest pas expliquée totalement par la grammaire,
    en bits
  • Lidée centrale une analyse extrait toujours des
    redondances. Par exemple

40
Longueur de description (version naïve!)
Corpus jump, jumps, jumping laugh, laughed,
laughing sing, sang, singing the, dog, dogs
totale 62 lettres
Analyse Racines jump laugh sing sang dog (20
lettres) Suffixes s ing ed (6 lettres) Non
analysés the (3 lettres) totale 29 lettres.
41
  • Pour decrire le corpus, il vaut mieux extraire un
    lexicon structuré, et décrire le corpus à travers
    la structure du lexicon.

42
Pourquoi minimiser?
  • Si la longueur de la grammaire est trop longue,
    on risque overfitting la grammaire décrit le
    message, non pas le système qui a crée le
    message.
  • Si la description des données est trop longue, on
    risque de ne pas avoir capté des généralisations
    inhérentes dans les données.

43
Essence of MDL
44
Mesurer la longueur de la morphologie
  • La morphologie est composée de trois composantes
  • Une liste de racines
  • Une liste daffixes
  • Une list de signatures.
  • Nous calculons dabord (1) et (2).

45
La longueur dune liste de morphèmes
  • La longueur dune list (de longueur N) de
    morphèmes
  • log N S longueur de chaque morphème
  • La longueur dun morphème m
  • logm S -1 log2 freq de chaque lettre
  • log m S -1 log2 freq de chaque lettre,
    donné la lettre précédente
  • autrement dit

46
(No Transcript)
47
Mesurer la longueur de la morphologie
  • La morphologie est composée de trois composantes
  • Une liste de racines
  • Une liste daffixes
  • Une list de signatures.
  • Nous calculons (3).

48
Nous remplaçons chaque morphème par un pointeur
au morphème, qui coûte moins cher (en bits). La
longueur optimale dun pointeur est basé sa
fréquence -log2 fréquence(m). Une signature
consiste de deux listes de pointers, et nous
sommes en mesure de tout mesurer
49
LInformation contenue dans toutes les signatures
50
Source plus profonde de MDL
  • Le but de tout sysème rationel est de trouver le
    meilleur explication des observations.
  • On interprète ceci dans un contexte probabiliste
    Trouver lanalyse la plus probable, étant données
    les faits.

51
La règle de Bayes
h hypothèse D données. Trouver lhypothèse
la plus probable trouver celle dans le produit
de sa probabilité et de la probabilité quelle
donne aux données est maximale.
52
(No Transcript)
53
  • Nous pouvons maintenant regarder le
    fonctionnement de cet algorithme.

54
http//Linguistica.uchicago.edu
55
(No Transcript)
56
(No Transcript)
57
(No Transcript)
58
(No Transcript)
59
Conclusion
  • Comment définir ce type danalyse linguistique?
  • Aucun linguiste générative à lheure actuelle ne
    lidentifierait comme une analyse générative.
  • Et pourtant
  • Cest une interprétation empiriste du programme
    original générativiste.

60
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com