Traduction statistique base de segments discontinus lastiques - PowerPoint PPT Presentation

1 / 32
About This Presentation
Title:

Traduction statistique base de segments discontinus lastiques

Description:

Traduction statistique base de segments discontinus lastiques ... a: alignement, cad ensemble de bi-segments qui forment un ' recouvrement ' de (f, ... – PowerPoint PPT presentation

Number of Views:48
Avg rating:3.0/5.0
Slides: 33
Provided by: wwwliumUn
Category:

less

Transcript and Presenter's Notes

Title: Traduction statistique base de segments discontinus lastiques


1
Traduction statistique à base de segments
discontinus élastiques
Nicola Cancedda XRCE, Marc Dymetman XRCE,
Eric Gaussier UJF, Cyril Goutte NRC
Journée ATALA Traduction Automatique
Paris, 1er Décembre 2007
1
2
Point de départ système Matrax
  • Système de TA statistique à base de segments
    discontinus
  • Un segment est une suite de mots et
    (éventuellement) d interstices  gaps
  • rendre justice
  • switch ? ? off
  • Un bi-segment est un couple de segments
  • lt ne ? plus does not ? ? ? anymore gt
  • Corpus bilingue aligné ? banque de bi-segments
    fréquences observées
  • Motivation ces unités de traduction sont plus
     réutilisables  que des bi-segments continus
    tels que switch the light off, switch the
    computer off, etc.

3
Point de départ système Matrax
  • Système de TA statistique à base de segments
    discontinus
  • Un segment est une suite de mots et
    (éventuellement) d interstices  gaps
  • rendre justice
  • switch ? ? off
  • Un bi-segment est un couple de segments
  • lt ne ? plus does not ? ? ? anymore gt
  • Cependant, le nombre dinterstices associé à un
    bi-segment est fixe
  • Il est possible de trouver dans la banque de
    bi-segments la configuration suivante
  • lt éteindre switch ? ? off gt, freq 5
  • lt éteindre switch ? ? ? ? off gt, freq 3
  • avec lt éteindre switch ? ? ? off gt non
    représenté dans la banque

4
Bi-segments élastiques
  • Motivations
  • Lisser les statistiques empiriques du corpus
  • Factoriser au décodage les bi-segments qui
    diffèrent uniquement par la taille des
    interstices
  • Formellement
  • Bi-signature lt ne ... plus does ... not ...
    anymore gt
  • gs1
    gt1 gt2
  • gs1 entier représentant la taille du premier
    interstice source
  • gt1 entier représentant la taille du premier
    interstice cible
  • Distribution de probabilité

5
Hypothèses sur la distribution (1)
  • Les tailles des interstices sont indépendantes
    entre elles
  • La taille de chaque interstice suit une
    distribution de Poisson
  • Il suffit donc de préciser ?i (resp ?j) pour
    complètement définir la distribution dun
    interstice

(Poisson Distribution from Wikipedia)
6
Hypothèses sur la distribution (2)
  • Remarques
  • Un seul paramètre à estimer pour chaque
    interstice ? robustesse de lestimation
  • ?i 0 ? contiguité forcée des mots
    correspondants
  • variance moyenne ? moins linterstice moyen est
    grand, moins on accepte de déviations de la
    moyenne ( e.g. ne ... pas vs. switch ... off )

(Poisson Distribution from Wikipedia)
7
Apprentissage des bi-segments élastiques
  • Point de départ banque de bi-segments
    discontinus  rigides  de MATRAX (voir Simard et
    al, 2005, Goutte et al, 2004)
  • lt ne ? plus does not ? anymore gt freq 3
  • lt ne ? plus does not ? ? anymore gt freq 2
  • lt ne ? ? ? plus does not ? ? ? ? anymore gt
    freq 1
  • lt ne ? ? ? ? plus does not ? ? ? anymore gt
    freq 1
  • Pour une bi-signature donnée, on calcule la
    moyenne pour chaque interstice
  • lt ne 1.7 plus does 0 not 2.0 anymore gt
  • On considère ensuite que la  fréquence
    virtuelle  dun bi-segment de la forme
  • lt ne gs1 plus does gt2 not gt3 anymore gt
  • est

8
Modèle
  • Modèle log-linéaire standard
  • f source, e cible
  • a alignement, cad ensemble de bi-segments qui
    forment un  recouvrement  de (f,e)
  • hm fonction-attribut (prédéfinie)
  • ?m paramètre (à estimer)
  • Zf facteur de normalisation
  • Principe du décodage trouver (e,a) qui maximise
    Pr(e,af)

9
Alignements
  • Exemple

Pierre
ne
mange
plus
de
fromage
1
2
3
4
Pierre
does
eat
cheese
anymore
not
f Pierre ne mange plus de fromage e Pierre
does not eat cheese anymore a lt Pierre
Pierre gt, lt ne 1 plus does 0 not 2 anymore gt ,
lt de 0 fromage cheese gt , lt mange
eat gt
10
Attributs
  • Six fonction-attributs communes avec MATRAX
  • htl(e) modèle de langue tri-gramme
  • hgc(a) nombre total dinterstices de
    lalignement
  • hreord(a) mesure de réordonnancement
    (distorsion)
  • hbc(a) nombre de bi-segments utilisés
  • hwc(e) nombre de mots cibles utilisés
  • hcomp(a) mesure de compositionalité lexicale
    de chaque bi-segment
  • Deux fonctions-attributs spécifiques à
    lélasticité
  • hbs(a) mesure de probabilité des bi-signatures
  • helast(a) mesure délasticité des
    bi-signatures
  • où gapsizes(ak) est le vecteur des interstices
    dans ak et où Pr(gapsizes(ak)) est calculé à base
    des Poissons

Note chaque attribut a de plus une heuristique
associée
11
Décodage non-élastique (Matrax)
  • Le décodage commence avec une phrase source

Je
ne
veux
plus
danser
le
tango
12
Décodage non-élastique (Matrax)
  • On commence par choisir un bi-segment ltJe I gt,
    qui remplit la première position possible dans la
    cible

Je
ne
veux
plus
danser
le
tango
1a
I
13
Décodage standard dans Matrax
  • On évalue lhypothèse de traduction partielle
    obtenue

Une sorte dheuristique de recherche de type A
Je
ne
veux
plus
danser
le
tango
score 6.1
1a
I
14
Décodage non-élastique (Matrax)
  • Plusieurs hypothèses sont en concurrence

Je
ne
veux
plus
danser
le
tango
1a
1b
score 3.2
I
No
more
15
Décodage standard dans Matrax
  • Le score de la première hypothèse était meilleur,
    donc on la considère en priorité

Je
ne
veux
plus
danser
le
tango
1a
score 6.1
I
16
Décodage non-élastique (Matrax)
  • Chaque hypothèse est étendue par laddition dun
    nouveau bi-segment

Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.8
?
?
?
I
do
not
anymore
Nombre dinterstices fixé !
17
Décodage standard dans Matrax
  • Chaque hypothèse est étendue par laddition dun
    nouveau bi-segment

Je
veux
danser
le
tango
ne
plus
1a
2a
2c
score 4.7
?
?
?
I
do
not
anymore
dance
18
Décodage non-élastique (Matrax)
  • Chaque hypothèse est étendue par laddition dun
    nouveau bi-segment

Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.8
?
?
?
I
do
not
anymore
19
Décodage standard dans Matrax
Je
danser
le
tango
ne
plus
veux
1a
2a
3a
score 5.5
?
?
?
I
do
not
anymore
want
20
Décodage non-élastique (Matrax)
  • Une hypothèse de traduction est complète si tous
    les mots sources sont couverts et sil ne reste
    pas dinterstices dans la cible

Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 5.1
Résultat
I
do
not
want
anymore
to
tango
21
Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
score 6.1
I
TAMPON ?
22
Principe du décodage élastique
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.6
I
do
TAMPON
not
anymore
0
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
23
Principe du décodage élastique
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.6
I
do
not
0
TAMPON
anymore
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
24
Principe du décodage élastique
Je
danser
le
tango
ne
plus
veux
1a
2a
3a
score 5.5
?
I
do
not
want
0
TAMPON
anymore
1
lt ne 1.7 plus does 0 not 2.0 anymore gt
25
Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 5.3
I
do
not
want
to
0
TAMPON
tango
anymore
2
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
26
Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
0
0
TAMPON
anymore
3
lt ne 1.7 plus does 0 not 2.0 anymore gt
27
Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
0
0
TAMPON
anymore
3
lt ne 1.7 plus does 0 not 2.0 anymore gt
28
Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
anymore
0
0
3
TAMPON ?
lt ne 1.7 plus does 0 not 2.0 anymore gt
29
Expériences
  • Simulation de bi-segments élastiques par
    bi-segments rigides
  • Si ltne 1.7 plus does 0 not 2.0 anymoregt est un
    bi-segment élastique, on approxime chaque
    distribution de Poisson --- e.g. Poisson2.0(n)
    --- par une distribution PoissonSansQueueNiTête2.0
    qui est nulle sur tout n, sauf pour un nombre
    fini de ns représentant 80 de la masse de
    Poisson2.0
  • Pour une bi-signature donnée, on obtient un
    (petit) ensemble de bi-segments rigides qui
    approxime la distribution élastique
  • On utilise ensuite le décodeur standard de Matrax
    (non-élastique!)

30
Exemple 80 de la masse de Poisson4.0
31
Expériences
  • Hansards Français-Anglais
  • Corpus Apprentissage (pour les bi-segments) 930K
    phrases
  • Corpus Développement (pour les ?s) 800 phrases
  • Corpus Test 500 phrases

Nombre initial de bi-segments rigides 3300
K Après simulation de lélasticité 14600 K
Pas damélioration notable -(
32
Conclusions
  • Extension du modèle de Matrax
  • Bi-segments discontinus rigides ? bi-segments
    discontinus élastiques
  • Lissage de la distribution empirique des
    interstices
  • Proposition dun modèle de décodeur élastique
  • Expériences à partir dune implémentation
    partielle de lidée
  • Décodeur non-elastique, mais bi-segments tiennent
    compte du lissage probabiliste
  • Résultats ne montrent pas damélioration nette.
    Explications ?
  • Les bi-segments rigides originels sont fortement
    bruités (?)
  • Poisson nest pas optimale (e.g. distribution
    géométrique plus adaptée ?)
  • Couple français-anglais mal choisi pour
    illustrer lapproche (?)
  • Le décodeur non-élastique est noyé par la
    multiplication des variantes dune même
    bi-signature, alors quun vrai décodeur
    élastique factorise toutes ces variantes (?)
Write a Comment
User Comments (0)
About PowerShow.com