Title: La linguistique textuelle
1La linguistique textuelle à lorée du numérique
- Jean-Marie Viprey
- Maison des Sciences de lHomme de Franche-Comté
- UMR Bases Corpus Langages CNRS-Nice
- jean-marie.viprey_at_univ-fcomte.fr
2La linguistique textuelle à lorée du numérique
- Jean-Marie Viprey
- 1996 Thèse de IIIème cycle Dynamique du
vocabulaire des Fleurs du mal - Dir. Jean Peytard
- Jury Jean-Michel Adam, Etienne Brunet, Claude
Condé, Pierre Malandain, Jean-Philippe Massonie - 2002 HDR
- Jury Jean-Michel Adam, Claude Blum, Claude
Condé, Georges Molinié, André Salem, Max
Silberztein - Linguistique informatique
- Linguistique textuelle
- Philologie
- Statistique
- Statistique textuelle
- Stylistique littéraire
- __________________________________________________
___________
3Lausanne, 2004
- Sciences du Texte
- et Analyse de Discours
- Adam J.-M. Heidmann U. (2005). Sciences du
texte et analyse de discours. Slatkine
4J.-M. Adam, 2005
- Introduction à l
- Analyse Textuelle du Discours
- ATD
Adam J.-M. (1997). Linguistique textuelle des
genres de discours aux textes. Nathan Adam J.-M.
(2005). La linguistique textuelle introduction
à lanalyse textuelle des discours. Colin
5Redéfinir le texte ?
- Le texte est-il le véritable objet de la
linguistique ? - (Rastier
Sens et textualité 1989)
Rastier François 1989 Sens et textualité,
Paris, Hachette
6Redéfinir le texte ?
- Si oui, la linguistique textuelle naurait guère
lieu dêtre. La linguistique serait constamment
textuelle - Le texte est-il lobjet de la linguistique
textuelle ?
7Redéfinir le texte ?
- Lobjet de la linguistique textuelle, telle
quelle sest développée historiquement, cest l
énoncé suivi. - cf Halliday Hasan, Weinrich, le premier
Rastier, Adam 1999. - Le principal point dappui de la LT historique,
cest la critique de la linguistique de la phrase - cf Benveniste 1974.
Benveniste E. (1974) Problèmes de linguistique
générale. Gallimard.
8Redéfinir le texte ?
- Malgré lautorité de la tradition grammaticale,
tout engage la linguistique à prendre les textes
pour objet elle affronte alors des phénomènes
dune tout autre échelle, en vraie grandeur
pourrait-on dire. - Rastier (2001 13)
- (souligné par nous)
Rastier François 2001 Arts et sciences du
texte, Paris, Seuil
9Redéfinir le texte ?
- un texte est une suite linguistique empirique
attestée, produite dans une pratique sociale
déterminée, et fixée sur un support quelconque. - Rastier (2001 21)
Objectivité, écologie, empirie
10Redéfinir le texte ?
- Un texte est-il un être ?
- Avons-nous intérêt à lui donner une définition
ontique ? - Par qui/quoi est-il attesté ?
11Redéfinir le texte ?
- Textuel(le)(s)
- Textualité(s)
- Dimension(s) textuelle(s)
- Configuration(s) textuelle(s)
12Redéfinir le texte ?
- Déficit philologique
- de lAnalyse du Discours
- gtgtgtgt
- Analyse Textuelle du Discours
13Redéfinir le texte ?
- Le texte serait un DISPOSITIF construit pour être
une voie daccès au discours quil matérialise,
non pas a priori ou par production , mais par
construction.
14Redéfinir le texte ?
- Ainsi, il nest pas produit par le discours.
Il est construit en vue de permettre un accès
second à lactivité discursive (accès répétable
et/ou critique, (re)mise en discours, ordinaire
ou savante)
15Redéfinir le texte ?
- Adam à partir de 1999 et surtout de 2004 modifie
le positionnement de la LT. - La phrase nest pas un constituant du texte.
- Certains constituants ne sont pas des phrases,
voire pas des organisations verbales. - Surtout il y a (au moins) un palier
intermédiaire.
16Redéfinir le texte ?
- Texte (étymologiquement parlant)
- assemblage, couture, configuration
17Redéfinir le texte ?
- Texte (étymologiquement parlant)
- assemblage, couture, configuration
- de phrases ?
18Redéfinir le texte ?
- Texte (étymologiquement parlant)
- assemblage, couture, configuration
- de phrases ?
- dénoncés
- (plurisémiotiques miniatures, tableaux )
19Redéfinir le texte ?
- Texte (étymologiquement parlant)
- assemblage, couture, configuration
- dénoncés
- eux-mêmes assemblés dans des documents
- (plurisémiotiques miniatures, tableaux, touches
sonores des livres pour enfants notes de bas de
pages, liens intertextuels, listes, figures)
20Redéfinir le texte ?
- Ainsi la séquence pourrait être considérée comme
un cas particulier, un type dénoncé - (partie logico-rhétorique)
- assemblé selon un type de modalité
(séquentielle).
21Redéfinir le texte ?
- Question fréquemment posée
- (dans loptique lexicométrique, notamment)
- Le titre fait-il partie du texte ? Et les notes
de bas de page ?...
22Redéfinir le texte ?
- Question fréquemment posée
- (dans loptique lexicométrique, notamment)
- Le titre fait-il partie du texte ? Et les notes
de bas de page ?... - - Oui, et du document aussi. Mais ce sont des
énoncés distincts. - (comme peuvent lêtre, selon les angles
dapproche, les répliques des personnages en
discours direct, mais aussi des parties
successives que toute analyse est susceptible de
distinguer) - (et nous ne sommes plus ici dans une optique
strictement lexicométrique !)
23Redéfinir le texte ?
- Les variantes
- En édition scientifique
- indication/indexation, dans lappareil critique,
- de lieux où deux documents divergent
- variation écrasée , décontextualisée
- (cf Adam 2005, Paveau-Sarfaty 2006)
24Redéfinir le texte ?
- Les variantes
- En édition scientifique
- indication/indexation, dans lappareil critique,
de lieux où deux documents divergent - variation écrasée , décontextualisée
- en droit
- Mise en parallèle de N documents du texte
considéré, et observation de cette variation en
multi-contexte
25Redéfinir le texte ?
- Même chose à propos de tous les aspects de cette
variation ramifiée quest le texte - réécritures, intertexte, traduction
- bien sûr mais aussi
26Redéfinir le texte ?
- Même chose à propos de tous les aspects de cette
variation ramifiée quest le texte - réécritures, intertexte, traduction
- bien sûr mais aussi
- transcription de loral, productions colingues
- sans oublier
27Redéfinir le texte ?
- Même chose à propos de tous les aspects de cette
variation ramifiée quest le texte - réécritures, intertexte, traduction
- bien sûr mais aussi
- transcription de loral, productions colingues
- sans oublier
- feuilleton, séries, rubriques de presse,
performances théâtrales, tests de lecture
28Redéfinir le texte ?
- Conclusion ?
- Un texte serait une constellation de documents
eux-mêmes constitués d énoncés agencés. - Constellation ouverte.
29Redéfinir le texte ?
- Foucault (Dits et écrits 1994 708)
- Jappellerai archive, non pas la totalité des
textes qui ont été conservés par une civilisation
mais le jeu des règles qui déterminent dans
une culture lapparition et la disparition des
énoncés, leur rémanence et leur effacement, leur
existence paradoxale dévénements et de choses - Cité par Paveau Serfati (2005 199)
30Redéfinir le texte ?
- Foucault (Dits et écrits 1994 708)
- Jappellerai archive, non pas la totalité des
textes qui ont été conservés par une civilisation
mais le jeu des règles qui déterminent dans
une culture lapparition et la disparition des
énoncés, leur rémanence et leur effacement, leur
existence paradoxale dévénements et de choses - Cité par Paveau Serfati (2005 199)
- Où lon peut lire (sans solliciter à lexcès) que
le texte ne vaut (en AD) quen tant quil
(recueille) sertit lénoncé (authentique objet de
la quête de sens et dhistoire), - configure et archive ses rapports avec lensemble
des autres énoncés.
Paveau M.-A., Sarfati G.E. 2003 Les grandes
théories de la linguistique, Paris, Colin
31Redéfinir le texte ?
32Redéfinir le texte ?
- TEXTE / CORPUS ?
- TEXTE / BASE / CORPUS !
33Redéfinir le texte ?
- TEXTE / CORPUS ?
- TEXTE / BASE / CORPUS !
- Habert, Nazarenko, Salem ( 1997 11)
- Nous employons le mot corpus dans une acception
restreinte empruntée à J.Sinclair (1996 4)
un corpus est une collection de données
langagières qui sont sélectionnées et organisées
selon des critères linguistiques explicites pour
servir d échantillon du langage . A cette
aune, nombre de ressources textuelles perdent
cette dénomination. Il sagit souvent de
collections ou de rassemblements de textes
électroniques plutôt que de corpus à proprement
parler.
Habert Benoît, Nazarenko Adeline, Salem André
1997 Les linguistiques de corpus, Paris, Colin.
34Redéfinir le texte ?
- TEXTE / CORPUS ?
- TEXTE / BASE / CORPUS !
- Habert, Nazarenko, Salem
- (Les linguistiques de corpus. 1997 11)
- Nous employons le mot corpus dans une acception
restreinte empruntée à J.Sinclair (1996 4)
un corpus est une collection de données
langagières qui sont sélectionnées et organisées
selon des critères linguistiques explicites pour
servir d échantillon du langage . A cette
aune, nombre de ressources textuelles perdent
cette dénomination. Il sagit souvent de
collections ou de rassemblements de textes
électroniques plutôt que de corpus à proprement
parler.
35Redéfinir le texte ?
- Le texte est donc un élément constitutif
darchive, matérialisable dans une base sous
forme de documents reliés abstraitement et/ou
matériellement. - Son principe constitutif est dordre culturel
(mythe, loi, rite, histoire, biographie,
didactique, etc)
36Redéfinir le texte ?
- Le corpus est un prélèvement darchive, constitué
dénoncés. - Son principe constitutif est dordre
hypothético-déductif ou mieux dit réflexif - (Guilhaumou, Mayaffre)
Mayaffre D. (2002) Les corpus réflexifs entre
architextualité et hypertextualité in Corpus
n1. Guilhaumou J. (2002) Le corpus en analyse
de discours. Perspective historique ibid. Revue
Corpus en ligne http//corpus.revues.org/sommair
e49.html
37Redéfinir le texte ?
38Redéfinir le texte ?
- La textualité ?
- Lensemble des aspects de cet agencement
dénoncés en un texte, qui en font une unité
cohésive et cohérente - texture (H H) ?
Halliday m.a.k., Hasan Ruqaiya 1976 Cohesion in
English, London, Longman
39Redéfinir le texte ?
- La textualité ?
- Lensemble des aspects de cet agencement
dénoncés en un texte, qui en font une unité
cohésive et cohérente - texture (H H) ?
- Oui, à condition den faire une lecture critique
- Un texte nest pas directement constitué de
phrases ( If a passage of English containing
more than one sentence is perceived as a text
C.i.E. 2) - souligné par nous
40Redéfinir le texte ?
- La textualité ?
- Lensemble des aspects de cet agencement
dénoncés en un texte, qui en font une unité
cohésive et cohérente - texture (H H) ?
- Oui, à condition den faire une lecture critique
- Un texte nest pas directement constitué de
phrases ( If a passage of English containing
more than one sentence is perceived as a text
C.i.E. 2) - La texture ne relève pas intrinsèquement des
ressources propres à une langue particulière - ( What we are investigating are the resources
that English has for creating texture. ibid.) - souligné par nous
41Redéfinir le texte ?
- Excursus
- Langue et discours,
- langue(s) et texte(s)
- R.Balibar (1983, 85, 93)
42Redéfinir le texte ?
- La textualité ?
- Les rapports entre les divers documents du texte
relève en droit de la textualité, tout autant que
les rapports entre énoncés dans lhypothèse dun
texte simple (à un document).
43Redéfinir le texte ?
- La textualité ?
- Le texte ainsi défini est un champ.
- Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de ces
unités entre elles.
44Redéfinir le texte ?
- La textualité ?
- Le texte ainsi défini est un champ.
- Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de ces
unités entre elles. - Cest ce que, relisant Rastier (1989) nous avons
projeté dappliquer aux unités de très petite
dimension, mots (Viprey 1997) et phonèmes
(Viprey 1998) notamment.
45Redéfinir le texte ?
- La textualité ?
- Le texte ainsi défini est un champ.
- Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de ces
unités entre elles. - Un mot (une occurrence) interagit certes avec
lénoncé (perspective distributionnelle
classique , Harris). - Mais linteraction productrice de sens sexerce
et sanalyse au niveau du texte, comme masse
et comme configuration .
46Redéfinir le texte ?
- La textualité ?
- Le texte ainsi défini est un champ.
- Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de ces
unités entre elles. - Un mot (une occurrence) interagit certes avec
lénoncé (perspective distributionnelle
classique , Harris). - Mais linteraction productrice de sens sexerce
et sanalyse au niveau du texte, comme masse
et comme configuration . - Cest ce que nous avions cru pouvoir nommer
texture, négligeant lemploi HH et leffet de
traduction pour HH texture désigne lensemble
des effets de champ - The concept of TEXTURE is entirely appropriate to
express the property of being a text (C.i.E.
2)
47Redéfinir le texte ?
- La textualité ?
- Le texte ainsi défini est un champ.
- Cela règle son rapport (multilatéral) à ses
unités de toute échelle et les rapports de ces
unités entre elles. - Un mot (une occurrence) interagit certes avec
lénoncé (perspective distributionnelle
classique , Harris). - Mais linteraction productrice de sens sexerce
et sanalyse au niveau du texte, comme masse
et comme configuration . - Cest ce que nous avions cru pouvoir nommer
texture, négligeant lemploi HH et leffet de
traduction pour HH texture désigne lensemble
des effets de champ - The concept of TEXTURE is entirely appropriate to
express the property of being a text (C.i.E.
2) - macro/méso/micro textualité ?
48Redéfinir le texte ?
- Quest-ce quun texte à lère numérique ?
- ou bien
- Que nous dit lère numérique du statut du
texte ?
49Brève histoire (très orientée !) de
linformatisation des textes
- EXCURSUS
- A toute origine , la discrétisation graphique.
- cf Goody 1997 et 2007
50Brève histoire (très orientée !) de
linformatisation des textes
- Aux origines de linformatique moderne
des problèmes despace - Codage sur un octet (8 bits)
- pas de distinction majuscules/minuscules,
caractères accentués/non accentués - perte de la disposition spatiale et de la mise en
forme des caractères
51Brève histoire (très orientée !) de
linformatisation des textes
- Mais aussi (surtout ?)
- élimination de tout élément de complexité
textuelle - Choix de lédition
- Délimitation texte / péritexte (élimination
de ce dernier) - Valorisation de la seule surface graphique
- De ce point de vue, TLF et Saint-Cloud -
par exemple - se rejoignent
- (et lensemble des entreprises de lépoque)
52Brève histoire (très orientée !) de
linformatisation des textes
- Facteurs dévolution
- sur fond de lévolution technologique
- La demande liée au traitement de texte
- Mise en forme et interopérabilité gt RTF
- La demande liée au Web et à lhypertexte
- Navigabilité (viabilisation) gt HTML, XML.
53Brève histoire (très orientée !) de
linformatisation des textes
- Facteurs dévolution
- sur fond de lévolution technologique
- La demande liée au traitement de texte
- Mise en forme et interopérabilité gt RTF
- La demande liée au Web et à lhypertexte
- Navigabilité (viabilisation) gt HTML, XML.
- Paradoxe ces évolutions atteignent TARDIVEMENT
le domaine encore inconstitué et innommé où vont
se rencontrer les sciences et techniques du texte
54Brève histoire (très orientée !) de
linformatisation des textes
- Facteurs dévolution
- sur fond de lévolution technologique
- La demande liée au traitement de texte
- Mise en forme et interopérabilité gt RTF
- La demande liée au Web et à lhypertexte
- Navigabilité (viabilisation) gt HTML, XML.
- Paradoxe ces évolutions atteignent TARDIVEMENT
le domaine encore inconstitué et innommé où vont
se rencontrer les sciences et techniques du
texte - Exemple les immenses ressources des grandes
bibliothèques publiques sont longtemps numérisées
et mises en ligne en mode image (PDF) à
lexclusion du mode texte (Gallica-BNF).
55Brève histoire (très orientée !) de
linformatisation des textes
- Facteurs dévolution
- sur fond de lévolution technologique
- La demande liée au traitement de texte
- Mise en forme et interopérabilité gt RTF
- La demande liée au Web et à lhypertexte
- Navigabilité (viabilisation) gt HTML, XML.
- Paradoxe ces évolutions atteignent TARDIVEMENT
le domaine encore inconstitué et innommé où vont
se rencontrer les sciences et techniques du
texte - Exemple les immenses ressources des grandes
bibliothèques publiques sont longtemps numérisées
et mises en ligne en mode image (PDF) à
lexclusion du mode texte (Gallica-BNF). - et leur océrisation contrôlée nest toujours pas
considérée comme une priorité des politiques
publiques.
56Brève histoire (très orientée !) de
linformatisation des textes
- Text Encoding Initiative (TEI)
http//www.tei-c.org/index.xml
57Brève histoire (très orientée !) de
linformatisation des textes
- Text Encoding Initiative (TEI)
- Représentation XML exhaustive, standardisée,
cumulative, interopérable, coopérative.
58Brève histoire (très orientée !) de
linformatisation des textes
- Un document TEI comporte
- Un en-tête (header) dédié aux métadonnées
communes - Instanciation, autorités, signatures, déclaration
DTD - Un corps (body) dédié au stockage des énoncés et
de leurs annotations fines. - La répartition de lannotation entre en-tête et
corps est souple - de même que la segmentation du texte en documents
TEI.
59Brève histoire (très orientée !) de
linformatisation des textes
lttitlegtltw forme"Au" lemme"À_prep" gtltw forme
lemme"le_artdef" flex"ms"gtAu ltw forme"Lecteur"
lemme"lecteur_sm" flex"s"gtLecteurlt/titlegtltBRgtltBR
gt ltversegtltw forme"La" lemme"le_artdef"
flex"fs"gtLa ltw forme"sottise"
lemme"sottise_sf" flex"s"gtsottiseltpct forme","
lemme"vrgl"gt, ltw forme"l'" lemme"le_artdef"
flex"xs"gtl'ltw forme"erreur" lemme"erreur_sf"
flex"s"gterreurltpct forme"," lemme"vrgl"gt, ltw
forme"le" lemme"le_artdef" flex"ms"gtle ltw
forme"péché" lemme"péché_sm" flex"s"gtltpct
forme"," lemme"vrgl"gt, ltw forme"la"
lemme"le_artdef" flex"fs"gtla ltw forme"lésine"
lemme"lésine_sf" flex"s"gtlésineltpct forme","
lemme"vrgl"gt,ltformat d'appel de note vers
Pichon-Pléiadegtlt/versegt
60Brève histoire (très orientée !) de
linformatisation des textes
- Philologie numérique
- Préparation et établissement des documents TEI
décrivant un manuscrit (une paléographie), une
édition, une annotation, un ensemble de signets, - dans la perspective de leur intégration à un
réseau de documents pouvant - être reliés à la définition informatique (par
adresses, arborescente) dun texte - être critiqués et commentés par dautres
- être identifiés (historicisés)
- être explorés en corpus
61Applications
- Pôle Archive, Bases, Corpus
- Développement DIATAG établissement et
annotation de textes en français moderne et
contemporain - Développement ASTARTEX environnement danalyse
textuelle et dexploration assistée - Ressources textuelles (acquisition
préparation) - Base Presse comtoise 1850-1950
- Base Aveux de détenus politiques en RD de
Guinée sous Sékou Touré - Base Socialisme utopique Proudhon, Fourier,
Considérant - Base Claudel théâtre, poésie,
correspondance - Base Presse vernaculaire contemporaine en
Région commandite Europe-Région - Base Littérature orale des phnong du Cambodge
- Base Presse coloniale francophone en
Indochine -
62Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - historique
- La MSHE de Franche-Comté et ses tutelles
financières le SGAR - Commandite / mise à lépreuve
- pourquoi notre région, copieusement arrosée de
fonds structurants européens, vote-t-elle à 57
non au referendum TCE de mai 2005 ?
63Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - historique
- La MSHE de Franche-Comté et ses tutelles
financières le SGAR - Commandite / mise à lépreuve
- pourquoi notre région, copieusement arrosée de
fonds structurants européens, vote-t-elle à 57
non au referendum TCE de mai 2005 ? - Notre réponse (proposition du pôle ABC)
- A côté dun sondage classique dopinion,
- un volet d analyse du discours de presse.
- Recueillir lensemble des publications déposées
au dépôt légal régional entre avril 2004 et mai
2006 - Les océriser, les disposer en une base textuelle
- Constituer un corpus détude et le soumettre à
une analyse exploratoire débouchant sur quelques
conclusions - Inscrire cette opération dans une durée (suivi
des représentations)
64Applications excursus qui na rien à voir
?...
- Bien souvent, dans le contexte universitaire
contemporain, les moyens réduits nous conduisent
à réduire (provisoirement) la base projetée aux
dimensions du corpus adapté à lenquête en cours
(commande institutionnelle, publication, thèse)
65Applications excursus qui na rien à voir
?...
- Bien souvent, dans le contexte universitaire
contemporain, les moyens réduits nous conduisent
à réduire (provisoirement) la base projetée aux
dimensions du corpus adapté à lenquête en cours
(commande institutionnelle, publication, thèse) - Ce nest pas une raison pour le théoriser .
66Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
- 942 titres de presse déposés (base)
- 282 titres filtrés par mots-clés
- 692 articles de longueurs variables (corpus)
67Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
- 692 fichiers PDF océrisés, corrigés, instanciés
68Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
- 692 fichiers balisés mot à mot (pseudo xml)
69Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
- 316 500 mots (occurrences, tokens)
- 20 800 formes graphiques (types)
- Opération de lemmatisation (étiquetage lexical et
morphologique) - Alternance
- dapplications automatiques de ressources
(dictionnaires et scripts de levée contextuelle
dambiguïtés graphiques) - de phases de décision interactive pour les cas
indécidables par automates - Maintenance et enrichissement des ressources
linguistiques - (système DiaTag)
70Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
71Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - corpus
- 310 000 occurrences
- 13 800 lemmes (types)
72Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - Une comparaison exogène une base
contemporaine (2002) de 5 quotidiens nationaux
dinformation générale sur 5 mois 30 millions
de mots. Non lemmatisée. - Occurrences, puis écarts-réduits à
léquidistribution.
Muller Ch. (1992). Initiation aux méthodes de la
statistique linguistique. Champion
73Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - Une comparaison endogène la distribution
dun item lexical repéré comme mot-clé parmi
les parties structurelles du corpus. - Perspective discursive. Ouvre sur
linterprétation.
74Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - Le tableau de la distribution générale des
vocables dans les sous-corpus par groupes
dénonciateurs se présente comme suit. - LAnalyse Factorielle des Correspondances (AFC)
permet de classer les profils des lignes et des
colonnes dun tel tableau, et de projeter cette
classification en un nuage de points (ici, un
nuage dans lespace 3D dune boule, repris en
planisphère). - Lebart L. Salem A. (1994). Statistique
textuelle. Dunod - Cibois Ph. (1994). LAnalyse factorielle. PUF
75Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - Une comparaison endogène généralisée la
distribution dun grand nombre ditems lexicaux
parmi les parties structurelles du corpus. (AFC
projection 3 facteurs)
76Applications
- Représentations de lEurope à travers la presse
vernaculaire en Franche-Comté - Une comparaison endogène généralisée la
distribution dun grand nombre ditems lexicaux
parmi les parties structurelles du corpus. Zoom.
77PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- On peut exprimer le vocabulaire comme liste
des vocables (avec indication de leur fréquence). - On peut même utiliser ce dictionnaire
élémentaire comme répertoire (cliquable en
hypertexte).
78PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- On peut exprimer le vocabulaire comme liste
des vocables (avec indication de leur fréquence). - On peut même utiliser ce dictionnaire
élémentaire comme répertoire (cliquable en
hypertexte). - Mais on peut aussi concevoir quun vocable est
une série doccurrences. - Il détermine une série de contextes (phrases
e.g.) - Cette série de contextes est une espèce
particulière - - et particulièrement intéressante -
- de sous-ensemble textuel.
79PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- Nous pouvons déterminer si, dans le contexte
total discontinu dun vocable, tel autre
vocable est significativement plus présent que
dans lensemble du texte. - (écart-réduit gt 2)
80PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- Nous pouvons déterminer, pour un vocable, quels
- sont ses cooccurrents les plus forts.
- (exemple concurrence_SF)
81PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- Nous pouvons généraliser cette observation, en
comparant les profils de cooccurrence des
principaux vocables dun ensemble textuel. - On recueille les données dans une matrice
lignes/colonnes
82PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- LAnalyse Factorielle des Correspondances (AFC)
permet de classer les profils cooccurrentiels et
de projeter cette classification en un nuage de
points (ici, un nuage dans lespace 3D dune
boule, repris en planisphère)
83PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- La proximité (angulaire) des points du nuage est
une fonction approchée de leur parenté de profil
(micro-)distributionnel . - Cette proximité définit ce que nous nommons
ISOTROPIE.
84PAUSE
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- L ISOTROPIE, rapport d équivalence
distributionnelle au sens harrissien, structure
le vocabulaire en éclairant la signification (en
contexte) ditems lexicaux pluri-occurrents. - Elle donne à la fois un aperçu thématique sur
lensemble et un aperçu sémantique sur le
détail. - Elle soppose conceptuellement à l ISOTOPIE,
avec laquelle elle peut opérationnellement être
en rapport de complémentarité.
85Est-ce réellement encore une PAUSE ?
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- Plus sophistiqué.
- On peut repérer dans le nuage les items
sur-employés dans une partie discursive du
corpus. Ici, en bleu, les vocables privilégiés
par les syndicats dagriculteurs (princ.
Confédération Paysanne )
86Est-ce réellement encore une PAUSE ?
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- On peut même affecter 4 couleurs distinctes aux
vocables privilégiés par les 4 principaux
groupes énonciateurs.
87Est-ce réellement encore une PAUSE ?
- Structures textuelles non séquentielles.
- Quest-ce que le vocabulaire (vs lexique) ?
- Quest-ce quun vocable (vs lexème)
- Ce nest pas toujours le cas, mais ici la
structure isotropique est fortement homologue de
la répartition par groupes dénonciateurs. - Ce fut même un élément-clé de notre rapport
dinterprétation.
88Révisons
- Profils micro-distributionnels
89Révisons
- Profils micro-distributionnels
- Comparaison par paires deux profils voisins.
90Révisons
- Profils micro-distributionnels
- Comparaison par paires deux profils opposés.
91Révisons
- Analyse multidimensionnelle (AFC) de lisotropie.
- (plan des 2 premiers facteurs)
92Avançons
- Une autre application le lexique en discours.
- Eléments de description lexicologique dun
vocable REGARD,Nm - Balzac,
- La Comédie humaine
93Avançons
- Une autre application
- le lexique en discours.
- Balzac,
- La Comédie humaine
Viprey 2005A
94Avançons
- Une autre application
- le lexique en discours.
95Avançons
- Une autre application le lexique en discours.
- Eléments de description lexicologique
différentielle dun vocable REGARD,Nm éclairé
par REGARDER,V - Balzac,
- La Comédie humaine
96Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Un grand corpus, ce peut être des
centaines de millions de mots (étude dun
discours de presse) mais aussi bien 300 000
mots sils se répartissent dans 700 articles
parfois très fastidieux (notre exemple au service
du SGAR de Franche-Comté).
97Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Traiter un grand corpus, cest bien sûr
une question statistique. On fait monter ses
régularités, ses saillances, on le
cartographie. Cela, en vue dune meilleure
pénétration dun discours. La question souvent
éludée en sciences humaines, cest le choix des
attestations. Lexpertise de lexpert se mord un
peu la queue
98Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Certains logiciels prétendent extraire les
phrases les plus représentatives, fabriquer des
résumés, le tout automatiquement ( boîtes
noires ). Lambition dune ATD outillée est
daider le chercheur à explorer son corpus au
plus près de ses compétences et de ses
hypothèses, par un retour au texte aussi
plénier que possible. Par lalternance des
états de texte (plein texte, dictionnaires,
listes, cartes, formules de requête)
99Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Lambition dune ATD outillée est de
VIABILISER les corpus en vue dun travail
constitutif, descriptif, réflexif et
interprétatif élargi et approfondi. Cette
ambition se rencontre avec le développement des
concepts et des techniques de l HYPERTEXTE, dont
HTML et XML sont les langages. Hyperbase depuis
quinze ans, Astartex-DiaTag plus modestement,
préfigurent cet environnement un peu intégral
où se rejoignent le philologue et lherméneute.
100Bibliographie
La bibliographie est donnée en notes sur les
diapositives, à lexception des références de
lauteur, qui suivent ? 2008 avec Virginie
Lethier (coordonnateurs) Semen n25, Le Discours
de presse au XIXème siècle pratiques
socio-discursives émergentes. Besançon, Presses
Universitaires de Franche-Comté ? 2008 avec
Virginie Lethier Annotation linguistique de
corpus vers lexhaustivité par la convialité.
in JADT09, 9èmes Journées internationales
d'Analyse statistique des Données Textuelles.
Lyon, Presses Universitaires de Lyon ? 2006
(coordonnateur) JADT06 , 8èmes Journées
internationales d'Analyse statistique des Données
Textuelles. Besançon, Presses Universitaires de
Franche-Comté. ? 2006 Philologie numérique et
herméneutique intégrative in Sciences du texte
et analyse de discours enjeux dune
interdisciplinarité dir. Jean-Michel Adam Ute
Heidman. Genève Slatkine (pp. 51-68) ? 2006
About Labbés intertextual distance in
Journal of Quantitatie Linguistics vol.13 n 2-3
Août-Décembre 2006, Routledge (pp.164-284) ? 2006
un de ces syntagmes qui in Corpus n5,
Corpus et stylistique, 2006, CNRS-UNSA. ? 2006
Quelle place pour les sciences des textes dans
lAnalyse de Discours in Semen n 21 Catégories
pour lanalyse du discours politique, Besançon,
Presses Universitaires de Franche-Comté
(pp.167-182) ? 2006 Ergonomiser la
visualisation AFC dans un environnement
dexploration textuelle une projection
géodésique in JADT06, 8èmes Journées
internationales d'Analyse statistique des Données
Textuelles. Besançon, Presses Universitaires de
Franche-Comté. ? 2005 Méthodes pour la lecture
des corpus in Sémantique et corpus dir. Anne
Condamines. Hermès ? 2005 Structure non
séquentielle du texte in Langages n 161,
Unité(s) du texte dir. Dominique Legallois.
Paris Larousse. (pp. 65-82) ? 2002 Analyses
textuelles et hypertextuelles des Fleurs du mal -
Champion, Paris. ? 1997 Dynamique du vocabulaire
des Fleurs du mal - Champion, Paris. (Prix
International de la Fondation Paul-Robert 1998).