Title: Traitement Automatique des Langues et Ingnierie terminologique
1Traitement Automatique des Langues et Ingénierie
terminologique
2Avant de commencer le secrétaire
- Confident (plus utilisé aujourdhui)
- Employé qui écrit les lettres (et par extension
réalise dautres tâches pour la personne qui
lemploie) - Secrétaire dambassade ou du gouvernement écrit
les dépêches - Manuel contenant des modèles de lettres
- Bureau sur lequel on écrit et dans lequel on
serre des papiers - Oiseau de lordre des rapaces
3Avant de commencer ISO
- International Organization for Standardization
- Création le 23 février 1947
- Réseau dinstituts nationaux de normalisation de
156 pays (1 membre par pays) - Secrétariat central basé à Genève
- Sigle
- Issu de langlais pour éviter les variantes (OIN
en français) - Mot dérivé du grec isos signifiant égal
- Organisation non gouvernementale
- Adresse www.iso.org
4Avant de commencer possibles lemmatisations de
sommes
- Nom féminin somme
- Addition
- Montant
- Charge portée par un animal (ex. bête de somme)
- Nom masculin somme
- Court moment de sommeil
- Verbe
- Être
- Sommer
- Signifier à quelquun, dans les formes établies,
quil doit faire telle ou telle chose - Faire la somme, le total de plusieurs quantités
5Avant de commencer exemple de concordancier
- Lexico (actuellement version 3)
- Développé par le SYLED (Univ. Paris 3)
- Possibilités
- Concordancier
- Segments répétés
- Statistiques par parties
- Recherche de groupes de formes
- Dictionnaire des termes par fréquence
- Etc.
- Version démo
- http//www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lex
icoWWW/ - Lexico 2 est gratuit
6Interface de Lexico 3
7Outils de traitement automatique des langues pour
la construction de ressources terminologiques
- Ressource terminologique (RT)
- Une description du vocabulaire utilisé par une
communauté dindividus dans le cadre dune
pratique (un métier) - Exploitée dans une application daccès à
linformation - Le contenu et le mode de description dune RT
dépendent de lapplication cible. - Double pertinence
- Une RT constitue une représentation des
connaissances du domaine. - Une RT est une ressource pour un système
informatique de traitement de linformation
8Modèles de connaissances et points de vue
- Postulat
- Soit un domaine .
- Il nexiste pas UN modèle de connaissances
(ressource terminologique, ontologie) pour ce
domaine. - Il y a autant de modèles que de type
dapplications la construction dun modèle de
connaissances est guidée par un point de vue,
celui de lapplication cible. - Cependant, il est possible de définir une
approche commune - Théorie, méthodes, outils informatiques (dont
outils de traitement automatique des langues)
9Ressources terminologiques exemples
- Application classiques ( papier )
- Dictionnaire spécialisé pour ingénieur débutant
ou étudiant - Lexique pour les traducteurs spécialisés
- Thesaurus pour les bases documentaires
- Index thématique pour ouvrage papier
- Applications informatiques
- Thesaurus électronique pour système dindexation
automatique - Lexique bilingue pour système daide à la
traduction - Lexique sémantique pour système dextraction
dinformation - Réseau lexical pour système de recherche
dinformation - Index hypertextuel pour documentation
électronique - Ontologie pour système à base de connaissances
10Ressource terminologique éléments de base
- Des termes
- Simples (mots)
- Complexes (groupe de mot)
- Des relations
- est_un, is_a, générique-spécifique
- voir aussi
- Autres relations sémantiques , conceptuelles
- définitions
- Problème comment trouver ces termes et ces
relations
11Partir des textes
- Les textes, sources dinformation
- Le vocabulaire partagé par les membres dune
communauté de praticiens se trouve dans les
textes quelle produit et/ou utilise. - Dans certains domaines (médecine, droit, ), les
connaissances ne sont accessibles que par leur
expression linguistique. - Partir des textes pour mieux y retourner
- Quand lapplication qui exploite la RT est un
système de traitement de linformation textuelle. - Autres sources
- Les experts, les spécialistes
- Les ressources terminologiques existantes
12Construire un corpus
- Corpus
- Ensemble de textes que lanalyste rassemble pour
élaborer la RT - Type de textes
- Documentation technique
- Transcription dentretiens
- Articles scientifiques, ...
- Construire le corpus est une tâche délicate
- Le corpus est construit en fonction de
lapplication cible - Recours aux experts
13Construire un corpus
- Importance du balisage
- Marquer les différentes parties
- Pour mener des analyses constrastives
- Termes présents uniquement dans telle ou telle
partie (titres, conclusions, etc.) - Termes repartis sur lensemble du corpus
- ()
14Livre I Des personnes Titre I Des droits
civilsChapitre II Du respect du corps
humain Article 16 La loi assure la primauté de
la personne, interdit toute atteinte à la dignité
de celle-ci et garantit le respect de l'être
humain dès le commencement de sa vie. Article
16-1 Chacun a droit au respect de son corps. Le
corps humain est inviolable. Le corps humain, ses
éléments et ses produits ne peuvent faire l'objet
d'un droit patrimonial.
ltCCIVILL-TIT_chap-IIgt Du respect du corps
humain ltCCIVILL-16gt La loi assure la primauté de
la personne, interdit toute atteinte à la dignité
de celle-ci et garantit le respect de l'être
humain dès le commencement de sa vie.
ltCCIVILL-16-1gt Chacun a droit au respect de son
corps. Le corps humain est inviolable. Le corps
humain, ses éléments et ses produits ne peuvent
faire l'objet d'un droit patrimonial.
15Utiliser des outils informatiques
- La masse des documents à analyser rend impossible
une approche entièrement manuelle. - Si (puisque) les documents sont sous format
électronique, on peut (il faut) utiliser des
outils informatiques - Outils de base comptage de mots,
concordances - Outils linguistiques traitement automatique
des langues
16Outils de Traitement Automatique des Langues (TAL)
- TAL discipline à lintersection de la
linguistique et de linformatique - informatique linguistique ou linguistique
informatique - Objectif
- Mettre au point des systèmes de traitement de
linformation textuelle (écrit, oral) - Qui manipulent, mettent en uvre, exploitent des
connaissances de type linguistique - liées à ce qui fait quune langue naturelle est
une langue naturelle - Applications historiques
- Traduction automatique, traduction assistée par
ordinateur - Correction orthographique, correction grammaticale
17Traitements de type linguistique
- Les outils effectuent des traitements de type
linguistique (vs. statistique) - catégorie grammaticale
- nom, verbe, adjectif,
- variation morphologique
- genre et nombre pour les noms, les adjectifs
- personne, temps, voie pour les verbes
- groupe syntaxique
- syntagme nominal
- syntagme verbal
- relation syntaxique
- sujet de verbe, complément de verbe
morphologie syntaxe (sémantique)
18Outils de TAL pour la construction de ressources
terminologiques à partir de textes
- Deux tâches essentielles
- 1) Extraction de candidats termes
- 2) Extraction de relations candidates
- Ces tâches sont réalisées le plus souvent
conjointement - Les outils proposent, la personne (terminologue,
ingénieur, spécialiste) qui construit la
ressource terminologique dispose, et modélise - Il ne sagit pas de construction automatique
19Cadre méthodologique
Spécialistes
Ressources existantes
Domaine
Textes
outils
Analyste
Ressource terminologique
Application
Utilisateur
20Extraction de candidats termes exemple
Articles du livre Ingénierie des connaissances
(Charlet et al. 2000)
Syntagmes nominaux
Noms
connaissance 1757 modèle 924 système
839 concept 771 domaine 713 problème
561 méthodes 530 type 514 cas
513 relation 490 exemple 482 objets
467 niveau 459 tâche 451 terme 436
acquisition des connaissances 133 base de
connaissances 128 résolution de
problème 123 modèle conceptuel 122 ingénierie
des connaissances 105 point de vue
98 système d'information 87 modèle
d'expertise 55 représentation des
connaissances 53 génie logiciel 46 candidat
terme 46 structure prédicative 42 gestion
des connaissances 41 méthode de résolution de
problèmes 40 modélisation des connaissances 40
21Extraction de candidats termes complexes
- Deux techniques simples, basées sur la structure
interne des unités - patrons élémentaires
- NOM de NOM
- NOM ADJ
- ADJ NOM
- Expression maximale
- ADJ? NOM NOM ADJ de NOM ADJ
() cet outil est un logiciel dextraction de
termes complexes qui ()
logiciel dextraction extraction de termes termes
complexes
logiciel dextraction de termes complexes
22Extraction de candidats termes complexes
- Limites analyse étroite
- Sur-génération, sous-génération, pas de
structuration - Restrictif quant aux structures
- Prépositions autres que de , déterminants
- Syntagmes verbaux
- Nécessité dune analyse syntaxique large
- ? Syntex
23SYNTEX un analyseur syntaxique de corpus pour
la construction de ressources lexicales
spécialisées
- En entrée un corpus étiqueté
- Dans chaque phrase, à chaque mot est associée une
étiquette morphosyntaxique - En sortie 1) un corpus analysé syntaxiquement
- Dans chaque phrase, Syntex pose des relations de
dépendance syntaxique (sujet, complément dobjet,
épithète, ) entre les mots - En sortie 2) un réseau de syntagmes
- 1) De chaque phrase, Syntex extrait des syntagmes
(verbaux, nominaux, adjectivaux) - 2) Pour lensemble du corpus, Syntex construit un
réseau de syntagmes structuré par les relations
Tête et Expansion
241) Analyse syntaxique
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
252) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
262) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
27Utilisation des résultats construction de
ressources terminologiques
- Le réseau de syntagmes est utilisé
- par un analyste (terminologue, expert, ingénieur,
) - pour construire une ressource terminologique
(thesaurus, terminologie, ontologie, ) - sur un domaine spécialisé (métier, pratique)
- pour une application cible (traduction
automatique, recherche dinformation, ) - Syntex traite des corpus spécialisés
- Exemples
- documentation technique
- textes juridiques
- compte rendus médicaux
- articles scientifiques
28Etudes menées en ergonomie linguistique à laide
de loutil Syntex (1)
- Contexte projets détudiants Master Pro
Ergonomie Cognitive et Ingénierie Linguistique
(Univ. Toulouse le Mirail) - Sujets
- Analyse des expressions de la subjectivité dans
la rédaction des rapports daccidents et
dincidents davions - Etudier la manière dont sont exprimées les
circonstances de laccident (ou incident) liées à
la subjectivité du pilote et des personnes
impliquées (états mentaux, sentiments,
connaissance). - Analyse linguistique des rapports du bureau
enquêtes accidents une étude de lexpertise des
pilotes daéronefs - Etudier la relation entre le niveau
dexpertise des pilotes (novices vs experts) et
la nature et les causes de lévénement.
29Etudes menées en ergonomie linguistique à laide
de loutil Syntex (2)
- Classification des évènements et des causes dans
laviation civile - Etudier les possibles liens qui existent entre
les différents types dévènements et leurs causes
suivant le type daéronef concerné. - Exercice Analyse du lien (des liens) qui
existe(nt) entre les causes et la gravité des
accidents et incidents aériens. - Constituer une typologie des causes des accidents
et incidents, une typologie des conséquences - Quelques pistes
- Typologie des causes causes humaines, causes
techniques, causes météorologiques - Typologie des conséquences dégâts matériels,
dégâts humains
30Pour finir Information sur le M2 Pro Ergonomie
Cognitive et Ingénierie Linguistique
- Adresse du Master
- http//www.univ-tlse2.fr/fi/diplomes/masters-pro/m
2/ecil.html - Contenu
- Apprentissage, formation multimédia ergonomie
cognitive systèmes H-M production, gestion et
exploitation de documents textuels approche
intégrée des systèmes socio-techniques outils
et méthodes projet analyse du travail projet
conception (conception dun outil) gestion de
carrière apprentissage de techniques
professionnelles - Stage en entreprise confrontation à la réalité
des besoins