La linguistique textuelle - PowerPoint PPT Presentation

About This Presentation
Title:

La linguistique textuelle

Description:

jean-marie.viprey_at_univ-fcomte.fr. La linguistique textuelle l'or e ... 1996 Th se de III me cycle : Dynamique du vocabulaire des Fleurs du mal ... – PowerPoint PPT presentation

Number of Views:1478
Avg rating:3.0/5.0
Slides: 101
Provided by: UFRSLHS
Category:

less

Transcript and Presenter's Notes

Title: La linguistique textuelle


1
La linguistique textuelle à lorée du numérique
  • Jean-Marie Viprey
  • Maison des Sciences de lHomme de Franche-Comté
  • UMR Bases Corpus Langages CNRS-Nice
  • jean-marie.viprey_at_univ-fcomte.fr

2
La linguistique textuelle à lorée du numérique
  • Jean-Marie Viprey
  • 1996 Thèse de IIIème cycle Dynamique du
    vocabulaire des Fleurs du mal
  • Dir. Jean Peytard
  • Jury Jean-Michel Adam, Etienne Brunet, Claude
    Condé, Pierre Malandain, Jean-Philippe Massonie
  • 2002 HDR
  • Jury Jean-Michel Adam, Claude Blum, Claude
    Condé, Georges Molinié, André Salem, Max
    Silberztein
  • Linguistique informatique
  • Linguistique textuelle
  • Philologie
  • Statistique
  • Statistique textuelle
  • Stylistique littéraire
  • __________________________________________________
    ___________

3
Lausanne, 2004
  • Sciences du Texte
  • et Analyse de Discours
  • Adam J.-M. Heidmann U. (2005). Sciences du
    texte et analyse de discours. Slatkine

4
J.-M. Adam, 2005
  • Introduction à l
  • Analyse Textuelle du Discours
  • ATD

Adam J.-M. (1997). Linguistique textuelle des
genres de discours aux textes. Nathan Adam J.-M.
(2005). La linguistique textuelle introduction
à lanalyse textuelle des discours. Colin
5
Redéfinir le texte ?
  • Le texte est-il le véritable objet de la
    linguistique ?
  • (Rastier
    Sens et textualité 1989)

Rastier François 1989  Sens et textualité,
Paris, Hachette
6
Redéfinir le texte ?
  • Si oui, la linguistique textuelle naurait guère
    lieu dêtre. La linguistique serait constamment
    textuelle
  • Le texte est-il lobjet de la linguistique
    textuelle ?

7
Redéfinir le texte ?
  • Lobjet de la linguistique textuelle, telle
    quelle sest développée historiquement, cest l
    énoncé suivi.
  • cf Halliday Hasan, Weinrich, le premier
    Rastier, Adam 1999.
  • Le principal point dappui de la LT historique,
    cest la critique de la linguistique de la phrase
  • cf Benveniste 1974.

Benveniste E. (1974) Problèmes de linguistique
générale. Gallimard.
8
Redéfinir le texte ?
  • Malgré lautorité de la tradition grammaticale,
    tout engage la linguistique à prendre les textes
    pour objet elle affronte alors des phénomènes
    dune tout autre échelle, en vraie grandeur
    pourrait-on dire.
  • Rastier (2001 13)
  • (souligné par nous)

Rastier François 2001  Arts et sciences du
texte, Paris, Seuil
9
Redéfinir le texte ?
  • un texte est une suite linguistique empirique
    attestée, produite dans une pratique sociale
    déterminée, et fixée sur un support quelconque.
  • Rastier (2001 21)

Objectivité, écologie, empirie
10
Redéfinir le texte ?
  • Un texte est-il un  être  ?
  • Avons-nous intérêt à lui donner une définition
     ontique  ?
  • Par qui/quoi est-il  attesté  ?

11
Redéfinir le texte ?
  • Textuel(le)(s)
  • Textualité(s)
  • Dimension(s) textuelle(s)
  • Configuration(s) textuelle(s)

12
Redéfinir le texte ?
  • Déficit philologique
  • de lAnalyse du Discours
  • gtgtgtgt
  • Analyse Textuelle du Discours

13
Redéfinir le texte ?
  • Le texte serait un DISPOSITIF construit pour être
    une voie daccès au discours quil matérialise,
    non pas a priori ou par  production , mais par
    construction.

14
Redéfinir le texte ?
  • Ainsi, il nest pas  produit  par le discours.
    Il est construit en vue de permettre un accès
    second à lactivité discursive (accès répétable
    et/ou critique, (re)mise en discours, ordinaire
    ou savante)

15
Redéfinir le texte ?
  • Adam à partir de 1999 et surtout de 2004 modifie
    le positionnement de la LT.
  • La phrase nest pas un constituant du texte.
  • Certains constituants ne sont pas des phrases,
    voire pas des organisations verbales.
  • Surtout il y a (au moins) un palier
    intermédiaire.

16
Redéfinir le texte ?
  • Texte (étymologiquement parlant)
  • assemblage, couture, configuration

17
Redéfinir le texte ?
  • Texte (étymologiquement parlant)
  • assemblage, couture, configuration
  • de phrases ?

18
Redéfinir le texte ?
  • Texte (étymologiquement parlant)
  • assemblage, couture, configuration
  • de phrases ?
  • dénoncés
  • (plurisémiotiques miniatures, tableaux )

19
Redéfinir le texte ?
  • Texte (étymologiquement parlant)
  • assemblage, couture, configuration
  • dénoncés
  • eux-mêmes assemblés dans des documents
  • (plurisémiotiques miniatures, tableaux, touches
    sonores des livres pour enfants notes de bas de
    pages, liens intertextuels, listes, figures)

20
Redéfinir le texte ?
  • Ainsi la séquence pourrait être considérée comme
    un cas particulier, un type dénoncé
  • (partie logico-rhétorique)
  • assemblé selon un type de modalité
    (séquentielle).

21
Redéfinir le texte ?
  • Question fréquemment posée
  • (dans loptique lexicométrique, notamment)
  •  Le titre fait-il partie du texte ? Et les notes
    de bas de page ?... 

22
Redéfinir le texte ?
  • Question fréquemment posée
  • (dans loptique lexicométrique, notamment)
  •  Le titre fait-il partie du texte ? Et les notes
    de bas de page ?...
  • - Oui, et du document aussi. Mais ce sont des
    énoncés distincts. 
  • (comme peuvent lêtre, selon les angles
    dapproche, les répliques des personnages en
    discours direct, mais aussi des parties
    successives que toute analyse est susceptible de
    distinguer)
  • (et nous ne sommes plus ici dans une optique
    strictement lexicométrique !)

23
Redéfinir le texte ?
  • Les variantes
  • En édition scientifique
  • indication/indexation, dans lappareil critique,
  • de lieux où deux documents divergent
  • variation  écrasée , décontextualisée
  • (cf Adam 2005, Paveau-Sarfaty 2006)

24
Redéfinir le texte ?
  • Les variantes
  • En édition scientifique
  • indication/indexation, dans lappareil critique,
    de lieux où deux documents divergent
  • variation  écrasée , décontextualisée
  • en droit 
  • Mise en parallèle de N documents du texte
    considéré, et observation de cette variation en
    multi-contexte

25
Redéfinir le texte ?
  • Même chose à propos de tous les aspects de cette
    variation ramifiée quest le texte
  • réécritures, intertexte, traduction
  • bien sûr mais aussi

26
Redéfinir le texte ?
  • Même chose à propos de tous les aspects de cette
    variation ramifiée quest le texte
  • réécritures, intertexte, traduction
  • bien sûr mais aussi
  • transcription de loral, productions colingues
  • sans oublier

27
Redéfinir le texte ?
  • Même chose à propos de tous les aspects de cette
    variation ramifiée quest le texte
  • réécritures, intertexte, traduction
  • bien sûr mais aussi
  • transcription de loral, productions colingues
  • sans oublier
  • feuilleton, séries, rubriques de presse,
    performances théâtrales, tests de lecture

28
Redéfinir le texte ?
  • Conclusion ?
  • Un texte serait une constellation de documents
    eux-mêmes constitués d énoncés agencés.
  • Constellation ouverte.

29
Redéfinir le texte ?
  • Foucault (Dits et écrits 1994 708)
  •  Jappellerai archive, non pas la totalité des
    textes qui ont été conservés par une civilisation
    mais le jeu des règles qui déterminent dans
    une culture lapparition et la disparition des
    énoncés, leur rémanence et leur effacement, leur
    existence paradoxale dévénements et de choses 
  • Cité par Paveau Serfati (2005 199)

30
Redéfinir le texte ?
  • Foucault (Dits et écrits 1994 708)
  •  Jappellerai archive, non pas la totalité des
    textes qui ont été conservés par une civilisation
    mais le jeu des règles qui déterminent dans
    une culture lapparition et la disparition des
    énoncés, leur rémanence et leur effacement, leur
    existence paradoxale dévénements et de choses 
  • Cité par Paveau Serfati (2005 199)
  • Où lon peut lire (sans solliciter à lexcès) que
    le texte ne vaut (en AD) quen tant quil
    (recueille) sertit lénoncé (authentique objet de
    la quête de sens et dhistoire),
  • configure et archive ses rapports avec lensemble
    des autres énoncés.

Paveau M.-A., Sarfati G.E. 2003  Les grandes
théories de la linguistique, Paris, Colin
31
Redéfinir le texte ?
  • TEXTE / CORPUS ?

32
Redéfinir le texte ?
  • TEXTE / CORPUS ?
  • TEXTE / BASE / CORPUS !

33
Redéfinir le texte ?
  • TEXTE / CORPUS ?
  • TEXTE / BASE / CORPUS !
  • Habert, Nazarenko, Salem ( 1997 11)
  • Nous employons le mot corpus dans une acception
    restreinte empruntée à J.Sinclair (1996 4)
     un corpus est une collection de données
    langagières qui sont sélectionnées et organisées
    selon des critères linguistiques explicites pour
    servir d échantillon du langage . A cette
    aune, nombre de ressources textuelles perdent
    cette dénomination. Il sagit souvent de
    collections ou de rassemblements de textes
    électroniques plutôt que de corpus à proprement
    parler.

Habert Benoît, Nazarenko Adeline, Salem André
1997  Les linguistiques de corpus, Paris, Colin.
34
Redéfinir le texte ?
  • TEXTE / CORPUS ?
  • TEXTE / BASE / CORPUS !
  • Habert, Nazarenko, Salem
  • (Les linguistiques de corpus. 1997 11)
  • Nous employons le mot corpus dans une acception
    restreinte empruntée à J.Sinclair (1996 4)
     un corpus est une collection de données
    langagières qui sont sélectionnées et organisées
    selon des critères linguistiques explicites pour
    servir d échantillon du langage . A cette
    aune, nombre de ressources textuelles perdent
    cette dénomination. Il sagit souvent de
    collections ou de rassemblements de textes
    électroniques plutôt que de corpus à proprement
    parler.

35
Redéfinir le texte ?
  • Le texte est donc un élément constitutif
    darchive, matérialisable dans une base sous
    forme de documents reliés abstraitement et/ou
    matériellement.
  • Son principe constitutif est dordre culturel
    (mythe, loi, rite, histoire, biographie,
    didactique, etc)

36
Redéfinir le texte ?
  • Le corpus est un prélèvement darchive, constitué
    dénoncés.
  • Son principe constitutif est dordre
    hypothético-déductif ou mieux dit réflexif
  • (Guilhaumou, Mayaffre)

Mayaffre D. (2002)  Les corpus réflexifs entre
architextualité et hypertextualité  in Corpus
n1. Guilhaumou J. (2002)  Le corpus en analyse
de discours. Perspective historique  ibid. Revue
Corpus en ligne http//corpus.revues.org/sommair
e49.html
37
Redéfinir le texte ?
  • La textualité ?

38
Redéfinir le texte ?
  • La textualité ?
  • Lensemble des aspects de  cet  agencement
    dénoncés en un texte, qui en font une unité
    cohésive et cohérente
  • texture (H H) ?

Halliday m.a.k., Hasan Ruqaiya 1976  Cohesion in
English, London, Longman
39
Redéfinir le texte ?
  • La textualité ?
  • Lensemble des aspects de  cet  agencement
    dénoncés en un texte, qui en font une unité
    cohésive et cohérente
  • texture (H H) ?
  • Oui, à condition den faire une lecture critique
  • Un texte nest pas  directement  constitué de
    phrases ( If a passage of English containing
    more than one sentence is perceived as a text
    C.i.E. 2)
  • souligné par nous

40
Redéfinir le texte ?
  • La textualité ?
  • Lensemble des aspects de  cet  agencement
    dénoncés en un texte, qui en font une unité
    cohésive et cohérente
  • texture (H H) ?
  • Oui, à condition den faire une lecture critique
  • Un texte nest pas  directement  constitué de
    phrases ( If a passage of English containing
    more than one sentence is perceived as a text
    C.i.E. 2)
  • La texture ne relève pas intrinsèquement des
    ressources propres à une langue particulière
  • ( What we are investigating are the resources
    that English has for creating texture. ibid.)
  • souligné par nous

41
Redéfinir le texte ?
  • Excursus
  • Langue et discours,
  • langue(s) et texte(s)
  • R.Balibar (1983, 85, 93)

42
Redéfinir le texte ?
  • La textualité ?
  • Les rapports entre les divers documents du texte
    relève en droit de la textualité, tout autant que
    les rapports entre énoncés dans lhypothèse dun
    texte  simple  (à un document).

43
Redéfinir le texte ?
  • La textualité ?
  • Le texte ainsi défini est un champ.
  • Cela règle son rapport (multilatéral) à ses
    unités de toute échelle et les rapports de ces
    unités entre elles.

44
Redéfinir le texte ?
  • La textualité ?
  • Le texte ainsi défini est un champ.
  • Cela règle son rapport (multilatéral) à ses
    unités de toute échelle et les rapports de ces
    unités entre elles.
  • Cest ce que, relisant Rastier (1989) nous avons
    projeté dappliquer aux unités de très petite
    dimension, mots (Viprey 1997) et  phonèmes 
    (Viprey 1998) notamment.

45
Redéfinir le texte ?
  • La textualité ?
  • Le texte ainsi défini est un champ.
  • Cela règle son rapport (multilatéral) à ses
    unités de toute échelle et les rapports de ces
    unités entre elles.
  • Un mot (une occurrence) interagit certes avec
    lénoncé (perspective distributionnelle
     classique , Harris).
  • Mais linteraction productrice de sens sexerce
    et sanalyse au niveau du texte, comme  masse 
    et comme  configuration .

46
Redéfinir le texte ?
  • La textualité ?
  • Le texte ainsi défini est un champ.
  • Cela règle son rapport (multilatéral) à ses
    unités de toute échelle et les rapports de ces
    unités entre elles.
  • Un mot (une occurrence) interagit certes avec
    lénoncé (perspective distributionnelle
     classique , Harris).
  • Mais linteraction productrice de sens sexerce
    et sanalyse au niveau du texte, comme  masse 
    et comme  configuration .
  • Cest ce que nous avions cru pouvoir nommer
    texture, négligeant lemploi HH et leffet de
    traduction pour HH texture désigne lensemble
    des effets de champ
  • The concept of TEXTURE is entirely appropriate to
    express the property of being a text (C.i.E.
    2)

47
Redéfinir le texte ?
  • La textualité ?
  • Le texte ainsi défini est un champ.
  • Cela règle son rapport (multilatéral) à ses
    unités de toute échelle et les rapports de ces
    unités entre elles.
  • Un mot (une occurrence) interagit certes avec
    lénoncé (perspective distributionnelle
     classique , Harris).
  • Mais linteraction productrice de sens sexerce
    et sanalyse au niveau du texte, comme  masse 
    et comme  configuration .
  • Cest ce que nous avions cru pouvoir nommer
    texture, négligeant lemploi HH et leffet de
    traduction pour HH texture désigne lensemble
    des effets de champ
  • The concept of TEXTURE is entirely appropriate to
    express the property of being a text (C.i.E.
    2)
  • macro/méso/micro textualité ?

48
Redéfinir le texte ?
  • Quest-ce quun texte à lère numérique ?
  • ou bien
  • Que nous dit lère numérique du statut du
    texte ?   

49
Brève histoire (très orientée !) de
linformatisation des  textes 
  • EXCURSUS
  • A toute  origine , la discrétisation graphique.
  • cf Goody 1997 et 2007

50
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Aux  origines  de linformatique  moderne 
    des problèmes despace
  • Codage sur un octet (8 bits)
  • pas de distinction majuscules/minuscules,
    caractères accentués/non accentués
  • perte de la disposition spatiale et de la mise en
    forme des caractères

51
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Mais aussi (surtout ?)
  • élimination de tout élément de complexité
    textuelle
  •  Choix  de lédition
  • Délimitation texte /  péritexte  (élimination
    de ce dernier)
  • Valorisation de la seule surface graphique
  • De ce point de vue, TLF  et  Saint-Cloud  -
    par exemple
  • se rejoignent
  • (et lensemble des entreprises de lépoque)

52
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Facteurs dévolution
  • sur fond de lévolution technologique
  • La demande liée au traitement de texte
  • Mise en forme et interopérabilité gt RTF
  • La demande liée au Web et à lhypertexte
  • Navigabilité (viabilisation) gt HTML, XML.

53
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Facteurs dévolution
  • sur fond de lévolution technologique
  • La demande liée au traitement de texte
  • Mise en forme et interopérabilité gt RTF
  • La demande liée au Web et à lhypertexte
  • Navigabilité (viabilisation) gt HTML, XML.
  • Paradoxe ces évolutions atteignent TARDIVEMENT
    le domaine encore inconstitué et innommé où vont
    se rencontrer les sciences et techniques du texte

54
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Facteurs dévolution
  • sur fond de lévolution technologique
  • La demande liée au traitement de texte
  • Mise en forme et interopérabilité gt RTF
  • La demande liée au Web et à lhypertexte
  • Navigabilité (viabilisation) gt HTML, XML.
  • Paradoxe ces évolutions atteignent TARDIVEMENT
    le domaine encore inconstitué et innommé où vont
    se rencontrer les sciences et techniques du
    texte
  • Exemple les immenses ressources des grandes
    bibliothèques publiques sont longtemps numérisées
    et mises en ligne en mode image (PDF) à
    lexclusion du mode texte (Gallica-BNF).

55
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Facteurs dévolution
  • sur fond de lévolution technologique
  • La demande liée au traitement de texte
  • Mise en forme et interopérabilité gt RTF
  • La demande liée au Web et à lhypertexte
  • Navigabilité (viabilisation) gt HTML, XML.
  • Paradoxe ces évolutions atteignent TARDIVEMENT
    le domaine encore inconstitué et innommé où vont
    se rencontrer les sciences et techniques du
    texte
  • Exemple les immenses ressources des grandes
    bibliothèques publiques sont longtemps numérisées
    et mises en ligne en mode image (PDF) à
    lexclusion du mode texte (Gallica-BNF).
  • et leur océrisation contrôlée nest toujours pas
    considérée comme une priorité des politiques
    publiques.

56
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Text Encoding Initiative (TEI)

http//www.tei-c.org/index.xml
57
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Text Encoding Initiative (TEI)
  • Représentation XML exhaustive, standardisée,
    cumulative, interopérable, coopérative.

58
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Un document TEI comporte
  • Un en-tête (header) dédié aux métadonnées
    communes
  • Instanciation, autorités, signatures, déclaration
    DTD
  • Un corps (body) dédié au stockage des énoncés et
    de leurs annotations fines.
  • La répartition de lannotation entre en-tête et
    corps est souple
  • de même que la segmentation du texte en documents
    TEI.

59
Brève histoire (très orientée !) de
linformatisation des  textes 
lttitlegtltw forme"Au" lemme"À_prep" gtltw forme
lemme"le_artdef" flex"ms"gtAu ltw forme"Lecteur"
lemme"lecteur_sm" flex"s"gtLecteurlt/titlegtltBRgtltBR
gt ltversegtltw forme"La" lemme"le_artdef"
flex"fs"gtLa ltw forme"sottise"
lemme"sottise_sf" flex"s"gtsottiseltpct forme","
lemme"vrgl"gt, ltw forme"l'" lemme"le_artdef"
flex"xs"gtl'ltw forme"erreur" lemme"erreur_sf"
flex"s"gterreurltpct forme"," lemme"vrgl"gt, ltw
forme"le" lemme"le_artdef" flex"ms"gtle ltw
forme"péché" lemme"péché_sm" flex"s"gtltpct
forme"," lemme"vrgl"gt, ltw forme"la"
lemme"le_artdef" flex"fs"gtla ltw forme"lésine"
lemme"lésine_sf" flex"s"gtlésineltpct forme","
lemme"vrgl"gt,ltformat d'appel de note vers
Pichon-Pléiadegtlt/versegt
60
Brève histoire (très orientée !) de
linformatisation des  textes 
  • Philologie numérique
  • Préparation et établissement des documents TEI
    décrivant un manuscrit (une paléographie), une
    édition, une annotation, un ensemble de signets,
  • dans la perspective de leur intégration à un
    réseau de documents pouvant
  • être reliés à la définition informatique (par
    adresses, arborescente) dun texte
  • être critiqués et commentés par dautres
  • être identifiés (historicisés)
  • être explorés en corpus

61
Applications
  • Pôle Archive, Bases, Corpus
  • Développement DIATAG établissement et
    annotation de textes en français moderne et
    contemporain
  • Développement ASTARTEX environnement danalyse
    textuelle et dexploration assistée
  • Ressources textuelles (acquisition
    préparation)
  • Base  Presse comtoise 1850-1950 
  • Base  Aveux de détenus politiques en RD de
    Guinée sous Sékou Touré 
  • Base  Socialisme utopique Proudhon, Fourier,
    Considérant 
  • Base  Claudel théâtre, poésie,
    correspondance 
  • Base  Presse vernaculaire contemporaine en
    Région commandite Europe-Région 
  • Base  Littérature orale des phnong du Cambodge 
  • Base  Presse coloniale francophone en
    Indochine 

62
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • historique
  • La MSHE de Franche-Comté et ses tutelles
    financières le SGAR
  • Commandite / mise à lépreuve
  •  pourquoi notre région, copieusement arrosée de
    fonds structurants européens, vote-t-elle à 57
    non au referendum TCE de mai 2005 ? 

63
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • historique
  • La MSHE de Franche-Comté et ses tutelles
    financières le SGAR
  • Commandite / mise à lépreuve
  •  pourquoi notre région, copieusement arrosée de
    fonds structurants européens, vote-t-elle à 57
    non au referendum TCE de mai 2005 ? 
  • Notre réponse (proposition du pôle ABC)
  • A côté dun sondage classique dopinion,
  • un volet d analyse du discours de presse.
  • Recueillir lensemble des publications déposées
    au dépôt légal régional entre avril 2004 et mai
    2006
  • Les océriser, les disposer en une base textuelle
  • Constituer un corpus détude et le soumettre à
    une analyse exploratoire débouchant sur quelques
    conclusions
  • Inscrire cette opération dans une durée (suivi
    des représentations)

64
Applications excursus  qui na rien à voir
?...
  • Bien souvent, dans le contexte universitaire
    contemporain, les moyens réduits nous conduisent
    à réduire (provisoirement) la base projetée aux
    dimensions du corpus adapté à lenquête en cours
    (commande institutionnelle, publication, thèse)

65
Applications excursus  qui na rien à voir
?...
  • Bien souvent, dans le contexte universitaire
    contemporain, les moyens réduits nous conduisent
    à réduire (provisoirement) la base projetée aux
    dimensions du corpus adapté à lenquête en cours
    (commande institutionnelle, publication, thèse)
  • Ce nest pas une raison pour le  théoriser .

66
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus
  • 942 titres de presse déposés (base)
  • 282 titres  filtrés  par mots-clés
  • 692 articles de longueurs variables (corpus)

67
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus
  • 692 fichiers PDF océrisés, corrigés, instanciés

68
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus
  • 692 fichiers balisés  mot à mot  (pseudo xml)

69
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus
  • 316 500  mots  (occurrences, tokens)
  • 20 800 formes graphiques (types)
  • Opération de lemmatisation (étiquetage lexical et
    morphologique)
  • Alternance
  • dapplications automatiques de ressources
    (dictionnaires et scripts de levée contextuelle
    dambiguïtés graphiques)
  • de phases de décision interactive pour les cas
    indécidables par automates
  • Maintenance et enrichissement des ressources
    linguistiques
  • (système DiaTag)

70
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus

71
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • corpus
  • 310 000 occurrences
  • 13 800 lemmes (types)

72
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • Une comparaison  exogène  une base
    contemporaine (2002) de 5 quotidiens nationaux
    dinformation générale sur 5 mois 30 millions
    de mots. Non lemmatisée.
  • Occurrences, puis écarts-réduits à
    léquidistribution.

Muller Ch. (1992). Initiation aux méthodes de la
statistique linguistique. Champion
73
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • Une comparaison  endogène  la distribution
    dun item lexical repéré comme  mot-clé  parmi
    les parties structurelles du corpus.
  • Perspective discursive. Ouvre sur
    linterprétation.

74
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • Le tableau de la distribution générale des
    vocables dans les sous-corpus par groupes
    dénonciateurs se présente comme suit.
  • LAnalyse Factorielle des Correspondances (AFC)
    permet de classer les profils des lignes et des
    colonnes dun tel tableau, et de projeter cette
    classification en un nuage de points (ici, un
    nuage dans lespace 3D dune boule, repris en
    planisphère).
  • Lebart L. Salem A. (1994). Statistique
    textuelle. Dunod
  • Cibois Ph. (1994). LAnalyse factorielle. PUF

75
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • Une comparaison  endogène  généralisée la
    distribution dun grand nombre ditems lexicaux
    parmi les parties structurelles du corpus. (AFC
    projection 3 facteurs)

76
Applications
  • Représentations de lEurope à travers la presse
     vernaculaire  en Franche-Comté
  • Une comparaison  endogène  généralisée la
    distribution dun grand nombre ditems lexicaux
    parmi les parties structurelles du corpus. Zoom.

77
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • On peut  exprimer  le vocabulaire comme liste
    des vocables (avec indication de leur fréquence).
  • On peut même utiliser ce  dictionnaire
    élémentaire  comme répertoire (cliquable en
    hypertexte).

78
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • On peut  exprimer  le vocabulaire comme liste
    des vocables (avec indication de leur fréquence).
  • On peut même utiliser ce  dictionnaire
    élémentaire  comme répertoire (cliquable en
    hypertexte).
  • Mais on peut aussi concevoir quun vocable est
    une série doccurrences.
  • Il détermine une série de contextes (phrases
    e.g.)
  • Cette série de contextes est une espèce
    particulière
  • - et particulièrement intéressante -
  • de  sous-ensemble  textuel.

79
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • Nous pouvons déterminer si, dans le contexte
    total discontinu dun vocable, tel autre
    vocable est significativement plus présent que
    dans lensemble du texte.
  • (écart-réduit gt 2)

80
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • Nous pouvons déterminer, pour un vocable, quels
  • sont ses cooccurrents les plus forts.
  • (exemple concurrence_SF)

81
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • Nous pouvons généraliser cette observation, en
    comparant les profils de cooccurrence des
    principaux vocables dun ensemble textuel.
  • On recueille les données dans une matrice
    lignes/colonnes

82
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • LAnalyse Factorielle des Correspondances (AFC)
    permet de classer les profils cooccurrentiels et
    de projeter cette classification en un nuage de
    points (ici, un nuage dans lespace 3D dune
    boule, repris en planisphère)

83
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • La proximité (angulaire) des points du nuage est
    une fonction approchée de leur parenté de profil
     (micro-)distributionnel .
  • Cette proximité définit ce que nous nommons
    ISOTROPIE.

84
PAUSE
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • L ISOTROPIE, rapport d équivalence
    distributionnelle au sens harrissien, structure
    le vocabulaire en éclairant la signification (en
    contexte) ditems lexicaux pluri-occurrents.
  • Elle donne à la fois un aperçu  thématique  sur
    lensemble et un aperçu  sémantique  sur le
    détail.
  • Elle soppose conceptuellement à l ISOTOPIE,
    avec laquelle elle peut opérationnellement être
    en rapport de complémentarité.

85
Est-ce réellement encore une PAUSE ?
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • Plus sophistiqué.
  • On peut repérer dans le nuage les items
    sur-employés dans une partie discursive du
    corpus. Ici, en bleu, les vocables privilégiés
    par les syndicats dagriculteurs (princ.
    Confédération Paysanne )

86
Est-ce réellement encore une PAUSE ?
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • On peut même affecter 4 couleurs distinctes aux
    vocables privilégiés par les 4 principaux
    groupes énonciateurs.

87
Est-ce réellement encore une PAUSE ?
  • Structures textuelles non séquentielles.
  • Quest-ce que le vocabulaire (vs lexique) ?
  • Quest-ce quun vocable (vs lexème)
  • Ce nest pas toujours le cas, mais ici la
    structure isotropique est fortement homologue de
    la répartition par groupes dénonciateurs.
  • Ce fut même un élément-clé de notre rapport
    dinterprétation.

88
Révisons
  • Profils micro-distributionnels

89
Révisons
  • Profils micro-distributionnels
  • Comparaison par paires deux profils voisins.

90
Révisons
  • Profils micro-distributionnels
  • Comparaison par paires deux profils opposés.

91
Révisons
  • Analyse multidimensionnelle (AFC) de lisotropie.
  • (plan des 2 premiers facteurs)

92
Avançons
  • Une autre application le lexique en discours.
  • Eléments de description lexicologique dun
    vocable REGARD,Nm
  • Balzac,
  • La Comédie humaine

93
Avançons
  • Une autre application
  • le lexique en discours.
  • Balzac,
  • La Comédie humaine

Viprey 2005A
94
Avançons
  • Une autre application
  • le lexique en discours.

95
Avançons
  • Une autre application le lexique en discours.
  • Eléments de description lexicologique
    différentielle dun vocable REGARD,Nm éclairé
    par REGARDER,V
  • Balzac,
  • La Comédie humaine

96
Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Un  grand  corpus, ce peut être des
centaines de millions de mots (étude dun
discours de presse) mais aussi bien 300 000
mots sils se répartissent dans 700 articles
parfois très fastidieux (notre exemple au service
du SGAR de Franche-Comté).
97
Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
?  Traiter  un grand corpus, cest bien sûr
une question statistique. On fait monter ses
régularités, ses saillances, on le
cartographie. Cela, en vue dune meilleure
pénétration dun discours. La question souvent
éludée en sciences humaines, cest le choix des
attestations. Lexpertise de lexpert se mord un
peu la queue
98
Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Certains logiciels prétendent extraire les
phrases les plus représentatives, fabriquer des
résumés, le tout automatiquement ( boîtes
noires ). Lambition dune ATD  outillée  est
daider le chercheur à explorer son corpus au
plus près de ses compétences et de ses
hypothèses, par un  retour au texte  aussi
plénier que possible. Par lalternance des
 états de texte  (plein texte, dictionnaires,
listes, cartes, formules de requête)
99
Généralisons
CONSTITUER, TRAITER LIRE LES GRANDS CORPUS
? Lambition dune ATD  outillée  est de
VIABILISER les corpus en vue dun travail
constitutif, descriptif, réflexif et
interprétatif élargi et approfondi. Cette
ambition se rencontre avec le développement des
concepts et des techniques de l HYPERTEXTE, dont
HTML et XML sont les langages. Hyperbase depuis
quinze ans, Astartex-DiaTag plus modestement,
préfigurent cet environnement un peu  intégral 
où se rejoignent le philologue et lherméneute.
100
Bibliographie
La bibliographie est donnée en notes sur les
diapositives, à lexception des références de
lauteur, qui suivent ? 2008 avec Virginie
Lethier (coordonnateurs) Semen n25, Le Discours
de presse au XIXème siècle  pratiques
socio-discursives émergentes. Besançon, Presses
Universitaires de Franche-Comté ? 2008 avec
Virginie Lethier Annotation linguistique de
corpus  vers lexhaustivité par la convialité.
in JADT09, 9èmes Journées internationales
d'Analyse statistique des Données Textuelles.
Lyon, Presses Universitaires de Lyon ? 2006
(coordonnateur) JADT06 , 8èmes Journées
internationales d'Analyse statistique des Données
Textuelles. Besançon, Presses Universitaires de
Franche-Comté. ? 2006  Philologie numérique et
herméneutique intégrative  in Sciences du texte
et analyse de discours  enjeux dune
interdisciplinarité dir. Jean-Michel Adam Ute
Heidman. Genève  Slatkine (pp. 51-68) ? 2006
 About Labbés intertextual distance  in
Journal of Quantitatie Linguistics vol.13 n 2-3
Août-Décembre 2006, Routledge (pp.164-284) ? 2006
 un de ces syntagmes qui  in Corpus n5,
Corpus et stylistique, 2006, CNRS-UNSA. ? 2006
 Quelle place pour les sciences des textes dans
lAnalyse de Discours  in Semen n 21 Catégories
pour lanalyse du discours politique, Besançon,
Presses Universitaires de Franche-Comté
(pp.167-182) ? 2006  Ergonomiser la
visualisation AFC dans un environnement
dexploration textuelle  une projection
géodésique  in JADT06, 8èmes Journées
internationales d'Analyse statistique des Données
Textuelles. Besançon, Presses Universitaires de
Franche-Comté. ? 2005  Méthodes pour la lecture
des corpus  in Sémantique et corpus dir. Anne
Condamines. Hermès ? 2005  Structure non
séquentielle du texte  in Langages n 161,
Unité(s) du texte dir. Dominique Legallois.
Paris  Larousse. (pp. 65-82) ? 2002 Analyses
textuelles et hypertextuelles des Fleurs du mal -
Champion, Paris. ? 1997 Dynamique du vocabulaire
des Fleurs du mal - Champion, Paris. (Prix
International de la Fondation Paul-Robert 1998).
Write a Comment
User Comments (0)
About PowerShow.com