Title: Les Donnes Textuelles
1Les Données Textuelles
- Qu'est-ce qu'un corpus, corpus équilibré, monitor
corpus, corpus de référence, exemples
dutilisation - Exemples de corpus textuels le British National
Corpus - PAROLE
Français, Le Monde - Les corpus étiquetés et analysés
- - corpus syntaxiques Penn Treebank
www.cis.upenn.edu/treebank - Corfrans
www-rali.iro.umontreal.ca/corfrans - NEGRA corpus
- -corpus sémantiques Framenet
www.icsi.berkeley.edu/framenet - PropBank
2Corpus
- Définition Une collection quelconque de plus
d'un texte - Propriétés représentatif, de taille finie,
lisible par une machine - Référence standard
- Utilisations Lexicographieétablir si un verbe
est transitif - Utilisations Développement de
grammairedéterminer la couverture de la
grammaire, les erreurs les plus fréquentes.
3Corpus équilibrés
- En principe, une collection de plus d'un texte
peut être appelée un corpus. Cependant, le terme
corpus possède en général des connotations plus
spécifiques. - Le corpus doit être représentatif. Afin quune
collection de textes soit représentative, elle
doit être échantillonnée de façon équilibrée. La
méthode la plus utilisée est la méthode
d'échantillonnage stratifiée, où l'on crée une
collection équilibrée de textes distribués
uniformément à travers les genres (roman,
journal, discours politique, etc.) et les
modalités (écrite, orale) qui intéressent. - Le corpus doit être de taille finie définie à
l'avance. On parle alors de corpus fermé.
D'habitude, les corpus sont des collections des
textes fixées à l'avance, afin d'assurer que
l'équilibre et la représentativité soient
respectés. - Un corpus doit être électronique
(machinereadable) pour permettre des recherches
et des manipulations rapides à large échelle.
4Corpus équilibrés
- D'un point de vue statistique, on peut considérer
un corpus comme un échantillon d'une population
(d'événements langagiers). - Comme tout échantillon, un corpus est passible de
deux types d'erreurs statistiques qui menacent la
généralité des résultats - l'incertitude (random error)
- la déformation (bias error)
- L'incertitude survient quand un échantillon est
trop petit pour représenter avec précision la
population réelle. - Une déformation se produit quand les
caractéristiques d'un échantillon sont
systématiquement différentes de celles de la
population que cet échantillon a pour objectif de
refléter.
5Exemples derreurs
Incertitude Un extrait de 2 000 mots d'une
interview de F. Mitterrand par Y. Mourousi ne
permet pas d'extrapoler et d'en tirer des
conclusions sur le français mitterrandien ou sur
l'interaction journaliste-homme politique.
Déformation Si on utilise que les articles de
la seule rubrique Économie du Monde, quel que
soit le volume textuel rassemblé, on risque de
déboucher sur une image déformée du français
employé par ce journal.
6Échantillonnage
- Pour atteindre une diversité maximale de
situations de communication dans un corpus de
référence on procède souvent à une démarche
d'échantillonnage. - L'échantillonnage touche à la fois
- le choix des documents à intégrer et
- la partie de ces documents à conserver.
- On essaye d'équilibrer en taille les échantillons
retenus -- de taille limitée (de 2'000 à 40'000
mots) --, et à ne pas retenir des empans de texte
continus, de manière à ne pas risquer de
sur-représenter des lieux du texte aux
caractéristiques particulières (l'introduction
par exemple). - Ce saucissonnage rend par contre impossible
l'étude des changements de corrélations de traits
linguistiques au fil des textes (étude
longitudinale).
7Corpus de contrôle (monitor corpus)
- Il existe aussi un autre type de corpus, le
corpus de contrôle, qui n'est pas de taille
finie, mais plutôt il croit au fur et à mesure. - Un corpus de contrôle est un corpus auquel on
ajoute tout le temps des textes. C'est un corpus
ouvert. Cela est très utile en lexicographie pour
chercher les néologismes, mais on ne peut plus
garantir que le corpus restera équilibré. La
recherche scientifique courante où l'on utilise
le Web en tant que corpus rentre dans ce cas de
figure.
8Corpus de référence
- On parle de corpus de référence lorsque un corpus
devient représentatif de la langue - à un certain
moment historique, - - pour une certaine langue,
- - dans une certaine modalité.
- Un corpus de référence est conçu pour fournir
une information en profondeur sur une langue. Il
vise à être suffisamment grand pour représenter
toutes les variétés pertinentes de cette langue
et son vocabulaire caractéristique, de manière à
pouvoir servir de base à des grammaires, des
dictionnaires et d'autres usuels fiables. Il
s'agit donc d'associer étroitement deux
caractéristiques - une taille suffisante et la diversité des usages
représentés. - Par exemple, le Brown Corpus est le corpus de
référence de l'anglais Américain écrit, le
British National Corpus est le corpus de
référence de l'anglais Britannique écrit et oral.
9Utilisations en lexicographie
- Les lexicographes ont utilisées des corpus, ou
des ensembles de citations, bien avant que la
linguistique de corpus ne se développe (voir par
exemple le célèbre dictionnaire de Samuel
Johnson, de même que lOxford English
Dictionary). - À présent, l'existence de larges collections de
textes et la possibilité de les consulter et
manipuler très rapidement est en train de changer
la pratique de la lexicographie. - D'habitude, les lexicographes compilent les
entrées d'un dictionnaire sur la base de leurs
propres intuitions et d'une collection d'exemples
qu'ils collectent à la main (ils utilisent des
fiches d'exemples). Un corpus peut ajouter de
l'information supplémentaire.
10Utilisations en lexicographie
- Par exemple, Atkins and Levin se sont occupés de
certaines verbes dans la même classes que le
verbe shake (trembler). - Elles ont consulté le LDOCE (Oxford's Advanced
Learner's Dictionary) et COBUILD. Les deux
dictionnaires indiquaient que les verbes quake et
quiver sont toujours intransitifs (n'ont pas de
COD). Par contre, si on consulte un corpus de 50
millions de mots, on trouvera que les deux verbes
peuvent être utilisés dans la forme transitive.
11Utilisations en théorie linguistique
- Les corpus sont important pour la recherche
linguistique au niveau des phrases et de la
syntaxe, car, d'un côté, ils fournissent des
informations quantitatives, et, de l'autre côté,
ils sont des réservoirs d'exemples naturels de
l'usage de la langue. Ils peuvent être utilisés
comme ressources pour tester une théorie
grammaticale donnée. - Pour illustrer le deuxième point, voici un
exemple.
12Corpus et théorie linguistique
- Sampson (1987) analysa manuellement un ensemble
de syntagmes nominaux. Il arriva à la conclusion
qu'une grammaire générative ne pouvait pas être
utilisée pour analyser des données textuelles,
car il y a trop de constructions différentes. - Taylor,Grover et Briscoe (1989) contredirent
cette hypothèse, à l'aide d'un analyseur
syntaxique, basée sur une grammaire. Leur
analyseur marche correctement dans 96.88 de
cas. Les cas incorrectes sont facilement
analysable comme lacune de couverture de la
grammaire, et ils ne sont pas de cas isolés. - La conclusion est que une grammaire générative
peut, en principe, rendre compte des phénomènes
naturels des données textuelles.
13Le British National Corpus
Plusieurs projets de constitution de corpus de
référence ont été menés à bien aux États-Unis
corpus Brown et en Angleterre corpus
Lancaster-Oslo/Bergen (LOB). Rappel Il s'agit
d'associer étroitement deux caractéristiques une
taille suffisante la diversité des usages
représentés. Le BNC compte 100 millions de mots
étiquetés. Il mêle oral (10 ) et écrit (textes
de fiction à partir de 1960 et textes
informatifs à partir de 1975).
14The British National Corpus les usages
En ce qui concerne l'écrit, les variables prises
en compte sont le domaine (textes informatifs et
textes de fiction), le support (livres,
périodiques, discours), la datation et la
diffusion (sélection parmi les listes des
meilleures ventes, celles de prix littéraires,
les indications de prêts en bibliothèque, etc.).
L'accent mis sur la diffusion réelle certifie la
représentation d'usages majeurs de l'anglais.
Pour l'oral, des conversations spontanées ont
été recueillies à partir d'un échantillonnage
démographique en termes d'âge, de sexe, de groupe
social et de région. Ont été également intégrées
des transcriptions d'interactions orales typiques
dans divers domaines affaires (réunions, prises
de parole syndicales, consultations médicales ou
légales) éducation et information (cours et
conférences, informations radio-télévisées)
prises de parole publiques (sermons, discours
politiques, discours parlementaires et légaux)
loisirs (commentaires sportifs, réunions de
clubs).
15The British National Corpus la taille
Le corpus compte 100106008 de mots, et il
occupe 1,5 gigaoctets despace disque. Pour vous
donner une perspective, si on imprimait le corpus
en petite police sur papier très fin (comme livre
de poche) il occuperait 10 mètres détagère. (Un
livre de poche habituel consiste en 250 pages
pour chaque centimètre dépaisseur, et il a 400
mots par page.) Si on le lisait à haute voix, à
la vitesse plutôt rapide de 150 mots par minute,
8 heures par jour, 365 jours par an, il nous
faudrait un peu plus de 4 ans pour le lire
entièrement. Il y a 6 million 250 milles phrase
dans le corpus. La segmentation et létiquetage
ont été fait automatiquement avec le tagger
stochastique CLAWS développé à luniversité de
Lancaster. On utilise 65 partie du discours.
16The British National Corpus exemple
ltpgt lts n"38"gtltw VVG-NN1gtRaising ltw NN1gtmoney ltw
PRPgtfor ltw DPSgtyour ltw AJ0-NN1gtfavourite ltw
NN1gtcharity ltw VM0gtcan ltw VBIgtbe ltw AJ0gtfunltc
PUNgt. lts n"39"gtltw PNPgtYou ltw VM0gtcan ltw VDIgtdo
ltw PNPgtit ltw PRP-AVPgton ltw DPSgtyour ltw DT0gtown ltw
CJCgtor ltw PNPgtyou ltw VM0gtcan ltw VVIgtget ltw
AV0gttogether ltw PRPgtwith ltw NN1gtfamily ltw CJCgtand
ltw NN2gtfriendsltc PUNgt. lts n"40"gtltw EX0gtThere ltw
VBZgtis ltw AT0gtno ltw NN1gtlimit ltw PRPgtto ltw
AT0gtthe ltw NN1gtnumber ltw PRFgtof ltw NN2gtways ltw
TO0gtto ltw VVIgtraise ltw NN1gtmoneyltc PUNgt. lts
n"41"gtltw CJSgtWhether ltw AT0gtthe ltw AJ0gtfinal ltw
NN1gttotal ltw VBZgtis ltw NN0gtpound5 ltw CJCgtor ltw
NN0gtpound5,000ltc PUNgt, ltw PNPgtit ltw VBZgtis ltw
DT0gtall ltw AV0gtvery ltw AV0gtmuch ltw
VVN-VVDgtneededltc PUNgt. lt/pgt
17Autres Corpus pour l'anglais
The Bank of English http//titania.cobuild.colli
ns.co.uk/boe_info.html http//titania.cobuild.col
lins.co.uk/direct_info.html The International
Corpus of English (ICE) http//www.ucl.ac.uk/engl
ish-usage/ice.htm
18Corpus français (projet PAROLE)
- Différemment du BNC, les récents projets de
constitution de corpus en France reposent plutôt
sur l'assemblage de données préexistantes. - Exemple corpus réalisé dans le cadre du projet
européen Parole (1996-1998). - Objectif pour 12 langues, dont le français,
fournir - un corpus de 20 millions de mots,
- datant pour l'essentiel (80 au moins)
d'après 1980. - 250 000 mots étiquetés et vérifiés quant à
la partie du discours, - 50 000 mots vérifiés quant à l'ensemble des
traits attribués. - Le corpus devait provenir pour 60 de
journaux, - pour 30 de livres,
- pour 10 de périodiques
- (les 10 restant pouvant relever de diverses
provenances).
19Corpus français (projet PAROLE)
- Les 20 093 099 mots obtenus se répartissent à
l'issue du projet en - 2 025 964 mots de transcriptions de débats au
parlement européen, - 3 267 409 mots d'une trentaine d'ouvrages de
disciplines variées - (en sciences humaines) fournis par
CNRS-Éditions, - 942 963 mots provenant des notes de
vulgarisation de la revue CNRS Info - et d'articles sur la communication de la
revue Hermès - 13 856 763 mots correspondant à 25 654 articles
provenant du choix - aléatoire de numéros entiers parmi ceux
des années - 1987, 1989, 1991, 1993 et 1995
du journal Le Monde. - Les données rassemblées sont variées, mais pas
représentatives des emplois principaux du
français un seul journal, quotidien. La presse
régionale, les hebdomadaires, la presse
spécialisée sont absents, ainsi que les langages
techniques et scientifiques. Néanmoins, très
utile en pratique.
20Corpus français (projet SILFIDE)
- Cette perspective d'assemblage est explicite dans
le projet SILFIDE (Serveur Interactif sur la
Langue Française, son Identité, sa Diffusion et
son Étude) de l'AUPELF-UREF (pour 1996-2000) où
il s'agit de rendre accessibles des ressources et
des outils linguistiques pré-existants dans un
cadre logiciel unifié.
21Corpus Français
University of Virginia Electronic Text Centre
Corpus téléchargeables dans plusieurs langues (y
compris le français) http//etext.lib.virginia.ed
u/uvaonline.html Corpus lexicaux québécois (Onze
corpus (entre autres, le Trésor de la langue
française au Québec) http//www.spl.gouv.qc.ca/ba
nque/banque.html Corpus 56 56 articles de
journaux (français, canadiens, suisses) http//ta
ctweb.chass.utoronto.ca/french/corp_dat.htm InaLF
Institut National de la Langue
Française http//www.inalf.fr/produits.html
22Corpus arborés
Une collection de textes permet d'engendrer de
multiples corpus distincts. Chacun de ces corpus
peut donner lieu à des annotations variées
étiquetage morpho-syntaxique, projection de
catégories sémantiques, lemmatisation, etc.
Description de corpus arborés http//www.u-gren
oble3.fr/idl/cursus/enseignants/tutin/corpus.htm h
ttp//treebanks/linguist/jussieu/index.html
23Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et
1992 (1ère phase). Cest un corpus annoté
denviron 4.5 millions de mots danglais-américain
. Lensemble de ce corpus a presque entièrement
été analysé par arbres. http//www.cis.upenn.edu/
treebank/ Composition résumés du Département
dénergie (230'000 mots)
articles du Dow Jones Newswire (3 mos de mots
dont 1 mo arboré)
bulletins du Département dagriculture (80'000
mots) bibliothèque de
textes américains (105'000 mots)
messages MUC-3 (infos sur les terroristes
en Amérique du Sud) (112K mots)
phrases dATIS (phrases spontanées
transcrites) (20'000 mots)
phrases prononcées en radio (10'000 mots)
Brown Corpus réétiqueté
(1200000 mots) phrases
des manuels IBM (90'000 mots)
24Étiquetage du Penn Treebank
Le Penn Treebank est en fait un corpus
semi-automatisé car létiquetage et la
parenthétisation sont automatiquement analysés,
mais ensuite corrigés par des annotateurs
humains. Létiquetage du Penn Treebank est basé
sur celui du Brown Corpus qui comportait 87
étiquettes simples. Le nombre détiquettes a été
réduit en éliminant les redondances (c'est-à-dire
en tenant compte des informations lexicales et
syntaxiques), on arrive ainsi à 48 étiquettes (36
étiquettes des parties du discours et 12 autres
pour la ponctuation et les symboles monétaires.
) Lorsque les annotateurs ne réussissent pas à
désambiguïser, ils ont la possibilité de combiner
deux étiquettes. Ainsi, les décisions arbitraires
sont évitées.
25Étiquetage du Penn Treebank
Exemples Le nombre détiquettes a été réduit. On
a éliminé les distinctions que lon peut déduire
en tenant compte des 1) informations lexicales
2) informations
syntaxiques. (1) Brown PTB sing/VB am/BE
sing/VB am/VB sang/VBD was/BEDZ
sang/VBD was/VBD (2) conjonctions de
subordination et prépositions reçoivent la même
étiquette IN, car les conjonctions précèdent
toujours une phrase tandis que les prépositions
précèdent des SN.
26Étiquetage du Penn Treebank
Le jeu d'étiquette code la fonction grammatical
si possible afin de faciliter une analyse
syntaxique ultérieure. Exemple
Brown PTB the one/CD the one/NN the
ones/NNS the ones/NNS the fallen/JJ leaf
the fallen/VBN leaf
27Étiquetage du Penn Treebank
1ère phase l'étiquetage automatique Cet
étiquetage est réalisé par PARTS, un algorithme
développé par les laboratoires ATT. Il s'agit en
fait d'une version modifiée de l'étiquetage du
Brown Corpus, puis de plusieurs étiqueteurs. Le
taux d'erreurs est de 7.9. 2e phase la
correction manuelle Cette correction est réalisée
simplement avec une souris en positionnant le
curseur sur une étiquette fausse et en entrant
l'étiquette souhaitée. Cette donnée entrée
automatiquement est vérifiée afin de voir si elle
appartient bien à la liste d'étiquettes. Si elle
est valide, elle est ajoutée à la paire
mot-étiquette séparée par un astérisque.
L'étiquette fausse n'est pas supprimée afin
d'identifier les erreurs produites à l'étiquetage
automatique des parties du discours. (Dans la
version de distribution du corpus, les étiquettes
fausses de l'étape automatique sont supprimées.)
28Parenthétisation du Penn Treebank
3e phase la parenthétisation automatique
(réalisé par Fidditch) Fidditch est un analyseur
développé par Donald Hindle (d'abord à
l'université de Pennsylvanie, puis aux
laboratoires de l'ATT), qui est utilisé pour
fournir une analyse initiale. Cet algorithme
laisse beaucoup de constituants non rattachés qui
sont étiquetés "?". Il s'agit des syntagmes
prépositionnels, des propositions relatives et
des compléments circonstanciels. À ce niveau-là,
on n'a pas encore véritablement d'arbre, mais
plutôt plusieurs fragments d'arbres. 4e phase
la parenthétisation simplifiée automatiquement
Les représentations sont simplifiées et aplaties
par la suppression des étiquettes de parties du
discours, des nuds lexicaux non-branchés et de
certains nuds.
29Parenthétisation du Penn Treebank
5e phase La correction du parenthétisation Cette
correction est aussi réalisée à l'aide d'une
souris. Les annotateurs collent tout d'abord les
fragments ensemble, ils corrigent les analyses
incorrectes et effacent certaines structures. La
correction des structures parenthétisées est plus
difficile à réaliser que la correction de
l'étiquetage des parties du discours. Comme on
veut que le Penn Treebank contienne seulement des
structures certaines , il y a deux façons
d'annoter les structures incertaines
l'étiquette de constituant X et le
"pseudo-attachement". L'étiquette de
constituant X est utilisé si un annotateur est
sûr qu'une séquence de mots est un constituant
majeur, mais pas sûr de sa catégorie syntaxique.
Dans ces cas, l'annotateur parenthèse seulement
la séquence et l'étiquette X. Le
"pseudo-attachement" est utilisé pour annoter
"les ambiguïtés permanentes prévisibles".
L'annotateur indique cela quand une structure est
globalement ambiguë même donnée dans un contexte.
30Exemple d'arbres du Penn Treebank phase 3
( (S (NP (ADJP Battle-tested industrial)
managers) (? here) (? always)
(VP buck)) (? (PP up (NP nervous
newcomers))) (? (PP with (NP the
tale (PP of (NP
the (ADJP first))))))
(? (PP of (NP their countrymen)))
(? (S (NP ) to (VP visit
(NP Mexico)))) (? ,) (? (NP a
boatload (PP of (NP
warriors)) (VP blown (?
ashore) (NP 375 years)))) (?
ago) (? .))
Battle-tested industrial managers here always
buck up nervous newcomers with the tale of the
first of their countrymen to visit Mexico a
boatload of warriors blown ashore 375 years ago
31Exemple d'arbres du Penn Treebank phase 5
( (S (NP Battle-tested industrial managers
here) always (VP buck up
(NP nervous newcomers) (PP with
(NP the tale (PP of
(NP (NP the (ADJP
first (PP of
(NP their
countrymen))) (S (NP
) to
(VP visit
(NP Mexico))))
, (NP (NP a boatload
(PP of
(NP (NP warriors)
(VP-1 blown
ashore
(ADVP (NP 375
years)
ago))))) (VP-1
pseudo-attach)))))))) .)
32Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été
réalisée concernant deux modes d'annotation
- l'étiquetage manuel des annotateurs ont
étiqueté des textes
entièrement non annotés, à la main
- la "correction" ils ont vérifié et
corrigé la production de PARTS. Ce test a montré
que l'étiquetage manuel est deux fois plus long
que la simple correction (44 min/1000 mots contre
20 minutes) avec deux fois plus de taux de
désaccord (7.2 contre 3.5) et un taux d'erreurs
50 plus élevé. En ce qui concerne la
structure, les annotateurs peuvent corriger la
structure pleine fournie par Fidditch à une
vitesse moyenne d'environ 375 m/h après 3
semaines et d'environ 475 m/h après 6 semaines.
La réduction à une représentation plus
squelettique augmente la productivité de
l'annotateur d'environ 100 à 200 mots/heure.
Après 3 ou 4 mois d'entraînement, les annotateurs
produisent environ 750, voire même pour certains
plus de 1000 mots/heure. Le taux d'erreurs de la
version finale est estimé à environ 1 .
33Corfrans corpus arboré en français
L'absence de corpus annoté pour la syntaxe freine
le développement dapplications linguistiques, et
empêche les chercheurs en linguistique
informatique dévaluer ou danalyser leurs
outils. L'équipe TaLaNa dirigée par A.Abeillé à
lUniversité Paris 7 a entrepris depuis 1996 la
construction dun corpus textuel annoté pour la
syntaxe, en collaboration avec le LATL (Genève)
et le RALI (Montréal). Objectif produire un
corpus électronique annoté pour la syntaxe en
français, de taille moyenne, et qui représente
les principales difficultés grammaticales
rencontrées en français normé
34Corfrans corpus arboré en français
Annotation morpho-syntaxique denvirons 400000
mots avec plusieurs variétés de français
(présentés dans le Monde, le Hansard,
lhebdo). Marquage syntaxique automatique avec
lanalyseur Shallow parseur développé par A.
Kinyon qui annote les frontières en minimisant
les cas de rattachement (il se base sur les mots
fonctionnels pour déterminer les frontières de
constituants). Correction manuelle des erreurs
commises lors de lanalyse. Un outil daide à la
correction pour les annotateurs a été
conçu. Définition dun standard dannotation en
constituants qui évite les syntagmes vides, les
syntagmes discontinus qui posent problème lors de
la réalisation darbres syntaxiques. Évaluation
et enrichissement du corpus, dans le but de faire
le point sur les besoins et les outils des
producteurs et utilisateurs de corpus.
35Corfrans corpus arboré en français
Comment léquipe gère-t-elle le problème de la
discontinuité de la négation ? Ex Jean ne
veut pas venir ne pas pourrait éventuellement
être adverbe continu car il existe des phrases
comme Jean préfère ne pas venir mais pour une
discontinuité avec dautre mots négatifs je ne
veux voir personne on ne peut pas faire un
constituant ne personne car elle ne se trouve
jamais dans une séquence je préfère ne
personne voir. Il ny aura donc pas de syntagmes
discontinues.
36Corfrans corpus arboré en français
Les solutions Ladverbe négatif "ne" fait
toujours parti du noyau verbal par contre les
forclusifs (mots négatifs pas, jamais, rien )
ne sont pas rattaché au VN sauf sils sont entre
lauxiliaire et le participe passé. Ex Je
ltVNgt ne veux lt/VNgt pas ltVPinfgt ltVNgt venir lt/VNgt
lt/VPinfgt Jean ltVNgt nest pas venu lt/VNgt
Je ltVNgt nai ltNPgt rien Pro lt/NPgt vu lt/VNgt
Ladverbe composé ne-pas (ne-plus, ne-jamais) ne
fait pas parti du VN avec infinitif Ex Je ltVNgt
veux lt/VNgt ltVPinfgt ne-pas Ad ltVNgt venir lt/VNgt
lt/VPinfgt
37Corfrans corpus arboré en français
- Les conséquences de ce projet
- Ce projet va permettre
- une mise à disposition de la communauté
francophone dun corpus de référence annoté et
corrigé pour la syntaxe - dévaluer les analyseurs des équipes
partenaires - dobtenir une documentation détaillée sur les
annotations attendues pour les principales
constructions rencontrées dans les textes mais
négligées dans les grammaires.
38Negr_at_ Corpus
Corpus arborés de l'allemand http//www.coli.uni-
sb.de/sfb378/negra-corpus/negra-corpus.html 355,0
96 tokens (20,602 phrases) tirés du quotidien
allemand Frankfurter Rundschau (Multilingual
Corpus 1 de la European Corpus Initiative). Le
corpus est étiqueté et arboré. Le corpus est
entièrement codé dans une base de données SQL.
Les arbres peuvent avoir des branches croisées.
Si l'on désire, on peut transformer les branches
croisés en trace et obtenir le même format du
Penn Treebank.
39Negr_at_ Corpus
Différents types d'information dans le
corpus Part-of-Speech Tags -- Stuttgart-Tübingen-
Tagset (STTS) Analyse Morphologique (60,000
tokens) Catégories syntaxiques et fonction
grammaticales
40Negr_at_ Corpus exemple
(CS (S-CJ (PPER-SB Sie)
(VVFIN-HD gehen)
(CNP-OA (NP-CJ
(ADJA-NK gewagte)
(NN-NK Verbindungen)
) (KON-CD
und) (NN-CJ Risiken)
) (PTKVZ-SVP ein)
) (, ,) (S-CJ
(VVFIN-HD versuchen) (VP-OC
(NP-OA
(PPOSAT-NK ihre)
(NN-NK Möglichkeiten)
) (VVIZU-HD
auszureizen) ) )
(. .)
41Les corpus étiquetés sémantiques
42Framenet
The Berkeley FrameNet project is creating an
on-line lexical
resource for English,
based on frame semantics and
supported by corpus evidence. The
aim is to document the range of semantic and
syntactic combinatory possibilities (valences) of
each word in each of its senses, through manual
annotation of example sentences and automatic
capture and organization of the annotation
results. So far, 7500 lexical units based
130000 sentences have been annotated. The
FrameNet database is in a platform-independent
format, and can be displayed and queried via the
web and other interfaces.
43Framenet basic concepts
A lexical unit is a pairing of a word with a
meaning. Typically, each sense of a polysemous
word belongs to a different semantic frame, a
script-like structure of inferences that
characterize a type of situation, object, or
event. Each frame contains a predicates and
what are called frame elements (FEs) -
participants and props in the frame whose
linguistic expressions are syntactically
connected to the target word.
44Framenet Annotation example
Revenge frame Definition An Avenger performs
some Punishment on an Offender as a response to
an earlier action, the Injury, that was inflicted
on an Injured_party. The Avenger need not be
identical to the Injured_party but needs to
consider the prior action of the Offender a
wrong. Importantly, the punishment of the
Offender by the Avenger is seen as justified by
individual or group opinion rather than by law.
Frame elements in the Revenge frame are Avenger,
Punishment, Offender, Injury, and Injured_party.
45Framenet Annotation example
Lexical units in this frame include avenge.v,
avenger.n, get even.v, retaliate.v,
retaliation.n, retribution.n, retributive.a,
retributory.a, revenge.v, revenge.n,
revengeful.a, revenger.n, vengeance.n,
vengeful.a, and vindictive.a. Some example
sentences with the lexical unit avenge are given
here. His brothers Avenger avenged him
Injured_party. With this, El Cid Agent at
once avenged the death of his son Injury.
Hook Avenger tries to avenge himself
Injured_party on Peter Pan Offender by
becoming a second and better father Punishment.
46Framenet Annotation example
Here goes a screen dump
47Framenet Annotation easy cases
Annotation is easiest when all and only the core
frame elements (the conceptually necessary
participants of the frame that a syntactic
governor evokes) find syntactic expression in the
sentence as separate immediate syntactic
dependents of the governor.
48Framenet Annotationnot so easy cases
Non-core frame elements are conceptually not
necessary in the sense that they do not uniquely
characterize the frame. Thus, for most frames
standing for events or processes, Time and Place
frame elements are not core, and therefore may
not always be annotated. Similarly, actions
often have a Purpose that the Agent intends to
accomplish by performing the action indicated by
the target word. However, having a purpose
doesn't usually distinguish types of actions and
so Purpose is often a non-core frame element, as
in the following example They wake you up to
give you a sleeping pill Purpose.
49Framenet Annotationmissing frame elements
Sometimes FEs that are conceptually salient do
not show up as lexical or phrasal material in the
sentence chosen for annotation. They are however
annotated to indicate omissibility
conditions. Constructional Null Instantiation
(CNI) Constructionally omitted constituents
(also called structurally omitted) have their
omission licensed by a grammatical construction
in which the target word appears and are
therefore more or less independent of the LU.
Cases of CNI include the omitted subject of
imperative sentences, the omitted agent of
passive sentences, the omitted subjects of
independent gerunds and infinitives (PRO), and so
on. In each of the following two examples, the FE
Avenger is tagged with the symbol CNI.
50Framenet Annotationmissing frame lements
- Family feuds last for generations, and slurs on
honor Injury are avenged by murder Punishment
. CNI Avenger - Get even with her Offender for this Injury
CNI Avenger - In addition, we use CNI for missing objects in
instructional imperatives such as exemplified
below, even though in this case the omission is
not dependent on a particular construction, but
rather on a genre. - Cook on low heat until done. CNI Food
- Tie together loosely. CNI Items
51Framenet Annotationmissing frame elements
Definite Null Instantiation (DNI) Cases of
definite null (also called anaphoric)
instantiation are those in which the missing
element must be something that is already
understood in the linguistic or discourse
context. In the following example, the Offender
is not expressed overtly in the syntax, but its
referent has to be known in the context. The
monkey Avenger avenged himself Injured_party
by growing to the size of a giant and setting
fire to the city Punishment. Offender DNI
52Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI) The
indefinite cases (sometimes also referred to as
existential) are illustrated by the missing
objects of verbs like eat, sew, bake, drink,
etc., that is, cases in which these ordinarily
transitive verbs can be spoken of as used
intransitively. Molly rarely eats alone Granny
begins baking about a month before Christmas Jo
even drinks heavily on weeknights. There are
often special interpretations of the
existentially understood missing objects for
example, with eat the missing entity is likely to
be a meal, with bake it is likely to be
flour-based foods, with drink it is likely to be
alcoholic beverages, etc.
53Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI)
continued There is no need to retrieve or
construct a specific discourse referent. For
example, in the Revenge frame, all lexical units
happen to allow the frame element Punishment to
be omitted under indefinite null instantiation.
He took it out on Scarlet in the same way as he
Avenger avenged himself Injured_party on her
Offender for the pressures at work and the
demands of his first wife Injury . INI
Punishment Note that usually verbs in a frame
differ in this respect. For instance, while eat
allows its object to be omitted, devour does not,
even though they are both in the Ingestion frame.
54Framenet Annotationframe element conflation
In some cases, information about two frame
elements is expressed in a single constituent, a
situation we call conflation. For instance, in
the Revenge frame, the Injured_party may be
contained as a possessive in the phrase that
realizes the Injury frame element as seen in the
following example He Avenger avenged Pedro
's death Injury by taking out the poker-faced
Guards Officer Punishment. In this example, the
possessive Pedro's realizes the frame element
Injured_party, the person who suffered the
Injury. Also, We ousted Jones as mayor vs. We
ousted the mayor, where the direct object stands
for both the office and the incumbent.
55Proposition Bankall following transparencies on
Proposition Bank from web page of ACE
projecthttp//www.cis.upenn.edu/mpalmer/project_
pages/ACE.htmdirectorProfessor Martha
PalmerUniversity of Pennsylvaniasoon to move
to University of Colorado
56Proposition Bank
How much can current statistical NLP systems be
made more domain-independent without prohibitive
costs, either in terms of engineering or
annotation? The Proposition Bank is designed as a
broad-coverage resource to facilitate the
development of more general systems. It focuses
on the argument structure of verbs, and provides
a complete corpus annotated with semantic
roles. Correctly identifying the semantic roles
of the sentence constituents is a crucial part of
interpreting text, for information extraction
machine translation or automatic
summarization. http//www.cis.upenn.edu/mpa
lmer/project_pages/ACE.htm
57PropBank
The Proposition Bank project takes a practical
approach to semantic representation, adding a
layer of predicate-argument information, or
semantic roles, to the syntactic structures of
the Penn Treebank. The resulting resource can
be thought of as shallow, in that it does not
represent coreference, quantification, and many
other higher-order phenomena, but also broad,
in that it covers every verb in the corpus and
allows representative statistics to be
calculated. http//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
58Proposition Bank From Sentences to
Propositionshttp//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
meet(Somebody1, Somebody2)
. . .
When Powell met Zhu Rongji on Thursday they
discussed the return of the spy
plane. meet(Powell, Zhu) discuss(Powell,
Zhu, return(X, plane))
59Capturing semantic roleshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm
SUBJ
- George broke ARG1 the laser pointer.
- ARG1 The windows were broken by the hurricane.
- ARG1 The vase broke into pieces when it toppled
over.
SUBJ
SUBJ
60A TreeBanked Sentencehttp//www.cis.upenn.edu/mp
almer/project_pages/ACE.htm
S
VP
NP-SBJ
Analysts
NP
S
VP
NP-SBJ
T-1
would
NP
PP-LOC
61The same sentence, PropBankedhttp//www.cis.upenn
.edu/mpalmer/project_pages/ACE.htm
have been expecting
Arg1
Arg0
Analysts
62Frames File Example expect
Roles Arg0 expecter Arg1 thing
expected Example Transitive, active
Portfolio managers expect further declines in
interest rates. Arg0
Portfolio managers REL
expect Arg1 further
declines in interest rates http//www.cis.upenn.ed
u/mpalmer/project_pages/ACE.htm
63Frames File example give
- Roles
- Arg0 giver
- Arg1 thing given
- Arg2 entity given to
- Example double object
- The executives gave the chefs a standing
ovation. - Arg0 The executives
- REL gave
- Arg2 the chefs
- Arg1 a standing
ovation - http//www.cis.upenn.edu/mpalmer/project_pages/AC
E.htm
64Word Senses in PropBank
- Orders to ignore word sense not feasible for 700
verbs - Mary left the room
- Mary left her daughter-in-law her pearls in her
will - Frameset leave.01 "move away from"
- Arg0 entity leaving
- Arg1 place left
- Frameset leave.02 "give"
- Arg0 giver
- Arg1 thing given
- Arg2 beneficiary
http//www.cis.upenn.edu/mpalmer/project_pages/AC
E.htm
65Annotation procedurehttp//www.cis.upenn.edu/mpal
mer/project_pages/ACE.htm
- PTB II - Extraction of all sentences with given
verb - Create Frame File for that verb Paul Kingsbury
- (3100 lemmas, 4400 framesets,118K predicates)
- Over 300 created automatically via VerbNet
- First pass Automatic tagging (Joseph
Rosenzweig) - http//www.cis.upenn.edu/josephr/TIDES/index.html
lexicon - Second pass Double blind hand correction
-
Paul Kingsbury - Tagging tool highlights discrepancies Scott
Cotton - Third pass Solomonization (adjudication)
- Betsy Klipple, Olga Babko-Malaya
66Trends in Argument Numberinghttp//www.cis.upenn.
edu/mpalmer/project_pages/ACE.htm
- Arg0 agent
- Arg1 direct object / theme / patient
- Arg2 indirect object / benefactive / instrument
/ attribute / end state - Arg3 start point / benefactive / instrument /
attribute - Arg4 end point
- Per word vs frame level more general?
67Additional tags http//www.cis.upenn.edu/mpalmer/
project_pages/ACE.htm(arguments or adjuncts?)
- Variety of ArgMs (Arggt4)
- TMP - when?
- LOC - where at?
- DIR - where to?
- MNR - how?
- PRP -why?
- REC - himself, themselves, each other
- PRD -this argument refers to or modifies another
- ADV others
68Inflection http//www.cis.upenn.edu/m
palmer/project_pages/ACE.htm
- Verbs also marked for tense/aspect
- Passive/Active
- Perfect/Progressive
- Third singular (is has does was)
- Present/Past/Future
- Infinitives/Participles/Gerunds/Finites
- Modals and negations marked as ArgMs
69Frames Multiple Framesetshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm
- Framesets are not necessarily consistent between
different senses of the same verb - Framesets are consistent between different verbs
that share similar argument structures,
(like FrameNet) -
- Out of the 787 most frequent verbs
- 1 FrameNet 521
- 2 FrameNet 169
- 3 FrameNet - 97 (includes light verbs)
70Ergative/Unaccusative Verbs http//www.cis.upenn.e
du/mpalmer/project_pages/ACE.htm
- Roles (no ARG0 for unaccusative verbs)
- Arg1 Logical subject, patient, thing rising
- Arg2 EXT, amount risen
- Arg3 start point
- Arg4 end point
- Sales rose 4 to 3.28 billion from 3.16 billion.
The Nasdaq composite index added 1.01 to
456.6 on paltry volume.
71Actual data for leave http//www.cis.upenn.edu/m
palmer/project_pages/ACE.htm
- http//www.cs.rochester.edu/gildea/PropBank/Sort/
- Leave .01 move away from Arg0 rel Arg1 Arg3
- Leave .02 give Arg0 rel Arg1 Arg2
- sub-ARG0 obj-ARG1 44
- sub-ARG0 20
- sub-ARG0 NP-ARG1-with obj-ARG2 17
- sub-ARG0 sub-ARG2 ADJP-ARG3-PRD 10
- sub-ARG0 sub-ARG1 ADJP-ARG3-PRD 6
- sub-ARG0 sub-ARG1 VP-ARG3-PRD 5
- NP-ARG1-with obj-ARG2 4
- obj-ARG1 3
- sub-ARG0 sub-ARG2 VP-ARG3-PRD 3
72PropBank/FrameNet http//www.cis.upenn.edu/mpalm
er/project_pages/ACE.htm
Buy Arg0 buyer Arg1 goods Arg2
seller Arg3 rate Arg4 payment
Sell Arg0 seller Arg1 goods Arg2
buyer Arg3 rate Arg4 payment
More generic, more neutral maps readily to
VN,TR Rambow,
et al, PMLB03
73Annotator accuracy ITA 84http//www.cis.upenn.
edu/mpalmer/project_pages/ACE.htm
74Résumé du cours
- Corpus collection de plus dun texte
- Propriétés représentatif, de taille finie,
électronique - Types de corpus équilibré par échantillonnage
- de contrôle
- référence
- Utilisations lexicographie, théorie linguistique
- données dentraînement pour apprentissage
automatique - Exemples de corpus
- de référence British National Corpus
- arboré Penn Treebank, Corfrans, Negr_at_
- sémantique FrameNet PropBank