Title: Traduction statistique base de segments discontinus lastiques
1Traduction statistique à base de segments
discontinus élastiques
Nicola Cancedda XRCE, Marc Dymetman XRCE,
Eric Gaussier UJF, Cyril Goutte NRC
Journée ATALA Traduction Automatique
Paris, 1er Décembre 2007
1
2Point de départ système Matrax
- Système de TA statistique à base de segments
discontinus - Un segment est une suite de mots et
(éventuellement) d interstices gaps - rendre justice
- switch ? ? off
- Un bi-segment est un couple de segments
- lt ne ? plus does not ? ? ? anymore gt
- Corpus bilingue aligné ? banque de bi-segments
fréquences observées - Motivation ces unités de traduction sont plus
réutilisables que des bi-segments continus
tels que switch the light off, switch the
computer off, etc.
3Point de départ système Matrax
- Système de TA statistique à base de segments
discontinus - Un segment est une suite de mots et
(éventuellement) d interstices gaps - rendre justice
- switch ? ? off
- Un bi-segment est un couple de segments
- lt ne ? plus does not ? ? ? anymore gt
- Cependant, le nombre dinterstices associé à un
bi-segment est fixe - Il est possible de trouver dans la banque de
bi-segments la configuration suivante - lt éteindre switch ? ? off gt, freq 5
- lt éteindre switch ? ? ? ? off gt, freq 3
- avec lt éteindre switch ? ? ? off gt non
représenté dans la banque
4Bi-segments élastiques
- Motivations
- Lisser les statistiques empiriques du corpus
- Factoriser au décodage les bi-segments qui
diffèrent uniquement par la taille des
interstices - Formellement
- Bi-signature lt ne ... plus does ... not ...
anymore gt - gs1
gt1 gt2 - gs1 entier représentant la taille du premier
interstice source - gt1 entier représentant la taille du premier
interstice cible -
- Distribution de probabilité
5Hypothèses sur la distribution (1)
- Les tailles des interstices sont indépendantes
entre elles -
- La taille de chaque interstice suit une
distribution de Poisson - Il suffit donc de préciser ?i (resp ?j) pour
complètement définir la distribution dun
interstice -
(Poisson Distribution from Wikipedia)
6Hypothèses sur la distribution (2)
- Remarques
- Un seul paramètre à estimer pour chaque
interstice ? robustesse de lestimation - ?i 0 ? contiguité forcée des mots
correspondants - variance moyenne ? moins linterstice moyen est
grand, moins on accepte de déviations de la
moyenne ( e.g. ne ... pas vs. switch ... off ) -
(Poisson Distribution from Wikipedia)
7Apprentissage des bi-segments élastiques
- Point de départ banque de bi-segments
discontinus rigides de MATRAX (voir Simard et
al, 2005, Goutte et al, 2004) - lt ne ? plus does not ? anymore gt freq 3
- lt ne ? plus does not ? ? anymore gt freq 2
- lt ne ? ? ? plus does not ? ? ? ? anymore gt
freq 1 - lt ne ? ? ? ? plus does not ? ? ? anymore gt
freq 1 - Pour une bi-signature donnée, on calcule la
moyenne pour chaque interstice - lt ne 1.7 plus does 0 not 2.0 anymore gt
- On considère ensuite que la fréquence
virtuelle dun bi-segment de la forme - lt ne gs1 plus does gt2 not gt3 anymore gt
- est
8Modèle
- Modèle log-linéaire standard
- f source, e cible
- a alignement, cad ensemble de bi-segments qui
forment un recouvrement de (f,e) - hm fonction-attribut (prédéfinie)
- ?m paramètre (à estimer)
- Zf facteur de normalisation
- Principe du décodage trouver (e,a) qui maximise
Pr(e,af)
9Alignements
Pierre
ne
mange
plus
de
fromage
1
2
3
4
Pierre
does
eat
cheese
anymore
not
f Pierre ne mange plus de fromage e Pierre
does not eat cheese anymore a lt Pierre
Pierre gt, lt ne 1 plus does 0 not 2 anymore gt ,
lt de 0 fromage cheese gt , lt mange
eat gt
10Attributs
- Six fonction-attributs communes avec MATRAX
- htl(e) modèle de langue tri-gramme
- hgc(a) nombre total dinterstices de
lalignement - hreord(a) mesure de réordonnancement
(distorsion) - hbc(a) nombre de bi-segments utilisés
- hwc(e) nombre de mots cibles utilisés
- hcomp(a) mesure de compositionalité lexicale
de chaque bi-segment - Deux fonctions-attributs spécifiques à
lélasticité - hbs(a) mesure de probabilité des bi-signatures
- helast(a) mesure délasticité des
bi-signatures -
- où gapsizes(ak) est le vecteur des interstices
dans ak et où Pr(gapsizes(ak)) est calculé à base
des Poissons
Note chaque attribut a de plus une heuristique
associée
11Décodage non-élastique (Matrax)
- Le décodage commence avec une phrase source
Je
ne
veux
plus
danser
le
tango
12Décodage non-élastique (Matrax)
- On commence par choisir un bi-segment ltJe I gt,
qui remplit la première position possible dans la
cible
Je
ne
veux
plus
danser
le
tango
1a
I
13Décodage standard dans Matrax
- On évalue lhypothèse de traduction partielle
obtenue
Une sorte dheuristique de recherche de type A
Je
ne
veux
plus
danser
le
tango
score 6.1
1a
I
14Décodage non-élastique (Matrax)
- Plusieurs hypothèses sont en concurrence
Je
ne
veux
plus
danser
le
tango
1a
1b
score 3.2
I
No
more
15Décodage standard dans Matrax
- Le score de la première hypothèse était meilleur,
donc on la considère en priorité
Je
ne
veux
plus
danser
le
tango
1a
score 6.1
I
16Décodage non-élastique (Matrax)
- Chaque hypothèse est étendue par laddition dun
nouveau bi-segment
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.8
?
?
?
I
do
not
anymore
Nombre dinterstices fixé !
17Décodage standard dans Matrax
- Chaque hypothèse est étendue par laddition dun
nouveau bi-segment
Je
veux
danser
le
tango
ne
plus
1a
2a
2c
score 4.7
?
?
?
I
do
not
anymore
dance
18Décodage non-élastique (Matrax)
- Chaque hypothèse est étendue par laddition dun
nouveau bi-segment
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.8
?
?
?
I
do
not
anymore
19Décodage standard dans Matrax
Je
danser
le
tango
ne
plus
veux
1a
2a
3a
score 5.5
?
?
?
I
do
not
anymore
want
20Décodage non-élastique (Matrax)
- Une hypothèse de traduction est complète si tous
les mots sources sont couverts et sil ne reste
pas dinterstices dans la cible
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 5.1
Résultat
I
do
not
want
anymore
to
tango
21Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
score 6.1
I
TAMPON ?
22Principe du décodage élastique
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.6
I
do
TAMPON
not
anymore
0
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
23Principe du décodage élastique
Je
veux
danser
le
tango
ne
plus
1a
2a
score 5.6
I
do
not
0
TAMPON
anymore
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
24Principe du décodage élastique
Je
danser
le
tango
ne
plus
veux
1a
2a
3a
score 5.5
?
I
do
not
want
0
TAMPON
anymore
1
lt ne 1.7 plus does 0 not 2.0 anymore gt
25Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 5.3
I
do
not
want
to
0
TAMPON
tango
anymore
2
0
lt ne 1.7 plus does 0 not 2.0 anymore gt
26Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
0
0
TAMPON
anymore
3
lt ne 1.7 plus does 0 not 2.0 anymore gt
27Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
0
0
TAMPON
anymore
3
lt ne 1.7 plus does 0 not 2.0 anymore gt
28Principe du décodage élastique
Je
ne
veux
plus
danser
le
tango
1a
2a
3a
4a
score 4.8
I
do
not
want
to
tango
anymore
0
0
3
TAMPON ?
lt ne 1.7 plus does 0 not 2.0 anymore gt
29Expériences
- Simulation de bi-segments élastiques par
bi-segments rigides - Si ltne 1.7 plus does 0 not 2.0 anymoregt est un
bi-segment élastique, on approxime chaque
distribution de Poisson --- e.g. Poisson2.0(n)
--- par une distribution PoissonSansQueueNiTête2.0
qui est nulle sur tout n, sauf pour un nombre
fini de ns représentant 80 de la masse de
Poisson2.0 - Pour une bi-signature donnée, on obtient un
(petit) ensemble de bi-segments rigides qui
approxime la distribution élastique - On utilise ensuite le décodeur standard de Matrax
(non-élastique!)
30Exemple 80 de la masse de Poisson4.0
31Expériences
- Hansards Français-Anglais
- Corpus Apprentissage (pour les bi-segments) 930K
phrases - Corpus Développement (pour les ?s) 800 phrases
- Corpus Test 500 phrases
Nombre initial de bi-segments rigides 3300
K Après simulation de lélasticité 14600 K
Pas damélioration notable -(
32Conclusions
- Extension du modèle de Matrax
- Bi-segments discontinus rigides ? bi-segments
discontinus élastiques - Lissage de la distribution empirique des
interstices - Proposition dun modèle de décodeur élastique
- Expériences à partir dune implémentation
partielle de lidée - Décodeur non-elastique, mais bi-segments tiennent
compte du lissage probabiliste - Résultats ne montrent pas damélioration nette.
Explications ? - Les bi-segments rigides originels sont fortement
bruités (?) - Poisson nest pas optimale (e.g. distribution
géométrique plus adaptée ?) - Couple français-anglais mal choisi pour
illustrer lapproche (?) - Le décodeur non-élastique est noyé par la
multiplication des variantes dune même
bi-signature, alors quun vrai décodeur
élastique factorise toutes ces variantes (?)