Hacia un modelo ling - PowerPoint PPT Presentation

About This Presentation
Title:

Hacia un modelo ling

Description:

... 1 1 1 1 1 1 Se evaluaron las visitas a un servicio de urgencias hospitalarias mediante un Protocolo de Adecuaci n de Urgencias Hospitalarias, ... – PowerPoint PPT presentation

Number of Views:93
Avg rating:3.0/5.0
Slides: 46
Provided by: Unitatd
Learn more at: https://nlp.lsi.upc.edu
Category:

less

Transcript and Presenter's Notes

Title: Hacia un modelo ling


1
Hacia un modelo lingüístico de resumen
automático de artículos médicos en español
Iria da Cunha Fanego 2008
  • Codirigida por Leo Wanner y M. Teresa Cabré
    CastellvíPrograma de doctorado
  • Ciències del Llenguatge i Lingüística Aplicada
    (2002-2004)
  • Institut Universitari de Lingüística Aplicada
  • Universitat Pompeu Fabra

2
Guión de la presentación
  1. Introducción
  2. Estado de la cuestión
  3. El artículo médico
  4. Marco teórico
  5. Corpus
  6. Análisis del corpus
  7. Desarrollo del modelo de resumen
  8. Implementación del modelo
  9. Aplicación del modelo y resultados
  10. Evaluación
  11. Conclusiones
  12. Líneas de trabajo futuro

3
Tema de la tesis
Introducción
  • En esta tesis se propone una metodología para
    desarrollar un modelo de resumen automático
    basado en información lingüística de varios
    tipos.
  • El modelo intenta simular la manera de resumir
    de los especialistas de un ámbito, en concreto,
    de la medicina.
  • Mediante este modelo pueden obtenerse resúmenes
    de diferentes longitudes y características, es
    decir, resúmenes adaptados según las necesidades
    de cada uno.

4
Definición y parámetros de elaboración del resumen
Introducción
a condensed version of a source document having
a recognizable genre and a very specific purpose
to give the reader an exact and concise idea of
the contents of the source (Saggion y Lapalme
2002) an abbreviated, accurate representation
of the contents of a document, preferably
prepared by its author(s) for publication with
it (ANSI)
Fuente Único documento / Varios documentos
Fuente Dominio específico / Ámbito general
Fuente Texto monolingüe / Texto multilingüe
Resultado Resumen por extracción / Resumen por abstracción
Resultado Resumen neutral / Resumen evaluativo
Propósito del resumen Resumen informativo / Resumen indicativo
Propósito del resumen Necesidades del autor / Necesidades del usuario
Propósito del resumen Destinatario experto / Destinatario lego
5
Objetivos de la tesis
Introducción
  • 1. Analizar los resúmenes que los profesionales
    de un dominio especializado realizan de sus
    textos e identificar las estrategias que emplean
    de cara a desarrollar un modelo de resumen por
    extracción que las aplique.
  • 2. Formalizar las estrategias empleadas por los
    especialistas mediante alguna estructura
    lingüística.
  • 3. Encontrar un modo de integración de estas
    estrategias.
  • 4. Implementar una parte del modelo de resumen.
  • 5. Desarrollar un método de anotación lingüística
    eficaz para compensar la parte del modelo que no
    se pueda implementar por completo.
  • 6. Constatar que es necesario explotar diversas
    informaciones lingüísticas de los textos para
    llegar a un resumen adecuado.

6
Hipótesis o ideas de partida
Introducción
  • 1. Los profesionales de un dominio emplean
    técnicas específicas para resumir sus textos
    especializados diferentes a las utilizadas para
    resumir discurso general.
  • 1.1. Estas técnicas se pueden formalizar mediante
    reglas que formen parte de un modelo de resumen
    automático que las aplique.
  • 2. La utilización de un solo tipo de información
    lingüística o solamente de la estadística no es
    suficiente para llegar a un resumen adecuado y
    deben integrarse informaciones lingüísticas de
    varios tipos para poder llegar a una completa
    representación de los textos y a un posterior
    resumen de los mismos información textual,
    léxica, discursiva y sintáctico-comunicativa.

7
Estado de la cuestión
Frecuencias de palabras Títulos Posición de
fragmentos Palabras o frases clave Técnicas
estadísticas Aprendizaje automático
Nivel superficial
Cadenas léxicas Correferencia / detección de
anáforas Máxima de Relevancia Marginal
Nivel medio
Técnicas para resumen automático
Rhetorical Structure Theory Estructura retórica
no jerárquica Rasgos superficiales de la
estructura discursiva
Nivel profundo
Superficiales Superficiales detección de
anáforas conectores discursivos Cadenas léxicas
estructura retórica Pragmática retórica
Combinación de técnicas lingüísticas
8
Estado de la cuestión
Swales 1981 Graetz 1985 Fluck 1988 Kaplan et al.
1994 Ciapuscio 1998
Resumen manual
Textos especializados en general
Luhn 1959 Lehmam 1995 Saggion y Lapalme 2000
Pollock y Zamora 1975 Abracos y Lopes
1997 Teufel y Moens 2002 Farzindar et al. 2004
Resumen automático
  • Resumen
  • de textos
  • especializados

Resumen manual
Swales 1981 Salager-Meyer 1990
Textos médicos
Damianos et al. 2002 Johnson et al.
2002 Gaizauskas et al. 2001 Lenci et al. 2002
Kan 2003
Resumen automático
9
Estructura y contenido
El artículo médico
10
Resumen del autor como punto de referencia
El artículo médico
11
El artículo médico
Contenido A M1 M2 M3 M4 M5 M6 L1 L2 L3 L4 L5 L6
Entre el 20 y el 80 de las visitas a los servicios de urgencias hospitalarios son inapropiadas. 1 1 1 1 1 1 1 1 1 1 1 1 0
Se evaluaron las visitas a un servicio de urgencias hospitalarias mediante un Protocolo de Adecuación de Urgencias Hospitalarias, previamente validado. 1 1 1 1 1 1 1 1 1 1 1 1 0
El 37,9 de las visitas fueron inapropiadas 1 1 1 1 1 1 1 0 0 1 1 0 1
y más frecuentes en la población pediátrica. 1 1 1 1 1 1 1 1 1 1 1 1 1
Los pacientes enviados por un médico, con traumatismos o proceso quirúrgico visitaron las urgencias más adecuadamente. 1 1 1 1 1 1 1 1 1 1 0 1 1
La adecuación de las visitas al servicio de urgencias se relaciona con el tipo de enfermedad. 1 0 0 0 0 0 0 0 0 0 0 0 0
12
El artículo médico
Multidimensional Scaling
13
El artículo médico
Clustering no supervisado
14
El artículo médico
  • Conclusiones generales
  • Los profesionales médicos adoptan estrategias
    diferentes en la selección de los contenidos
    relevantes para sus resúmenes a las empleadas por
    profesionales de otros ámbitos.
  • Los profesionales de un colectivo tienden a
    seleccionar los mismos fragmentos de contenido
    para sus resúmenes.
  • Los resúmenes realizados por profesionales pueden
    emplearse para extraer criterios sobre cómo debe
    resumirse un texto especializado de un
    determinado ámbito y como punto de referencia
    para una posterior evaluación de un modelo de
    resumen.
  • Conclusiones específicas
  • El resumen incluye información de los 4 apartados
    del artículo.
  • El resumen suele incluir información numérica en
    los apartados de Pacientes y métodos y
    Resultados.
  • El resumen no incluye definiciones, datos
    históricos, o referencias a trabajos previos o
    relacionados.
  • El apartado de Discusión del resumen no es más
    extenso que los otros.

15
Cómo obtener un resumen adecuado
Marco teórico
  • El desarrollo de un modelo de resumen debe
    fundamentarse en diversos aspectos lingüísticos
  • Estructura textual del documento
  • Unidades léxicas representativas
  • Estructura discursiva
  • Estructura sintáctica
  • Estructura comunicativa

16
Cómo obtener un resumen adecuado
Marco teórico
  • El desarrollo de un modelo de resumen debe
    fundamentarse en diversos aspectos lingüísticos
  • Estructura textual del documento
  • Unidades léxicas representativas
  • Estructura discursiva
  • Estructura sintáctica
  • Estructura comunicativa

Rhetorical Structure Theory (RST)
17
Cómo obtener un resumen adecuado
Marco teórico
  • El desarrollo de un modelo de resumen debe
    fundamentarse en diversos aspectos lingüísticos
  • Estructura textual del documento
  • Unidades léxicas representativas
  • Estructura discursiva
  • Estructura sintáctica
  • Estructura comunicativa

Rhetorical Structure Theory (RST)
Teoría Sentido-Texto (TST)
18
Marco teórico
  • 1. Rhetorical Structure Theory (Mann y Thompson
    1988)
  • Teoría discursiva de organización del texto.
  • Estructura jerárquica.
  • Patrones núcleo-satélites.
  • Relaciones discursivas Elaboración, Evidencia,
    Propósito, Condición, Contraste, etc.

19
Marco teórico
  • 2. Teoría Sentido-Texto (Melcuk 1988, 2001)
  • Estructura sintáctica profunda de dependencias
    (elementos actanciales, elementos atributivos,
    apenditivos y coordinativos).
  • Estructura comunicativa (tema / rema).

20
Corpus
  • Subcorpus de referencia
  • 50 artículos médicos 50 resúmenes (Medicina
    Clínica / CT del IULA).
  • 3 condiciones
  • artículos originales,
  • temas de actualidad (cáncer, sida, alcoholismo,
    anorexia, etc.),
  • publicación entre 1992 y 2002.
  • Subcorpus de contraste
  • Subcorpus de contraste para la 1ª evaluación
  • 5 artículos originales,
  • 5 resúmenes de los autores,
  • 5 resúmenes por extracción realizados por 5
    médicos.
  • Subcorpus de contraste para la evaluación final
  • 10 artículos originales,
  • 10 resúmenes de los autores,
  • 10 resúmenes por extracción realizados por 3
    médicos,
  • 10 resúmenes por abstracción redactados por 3
    médicos.

21
Análisis de los artículos y los resúmenesdel
corpus de referencia
Análisis del corpus
  1. Estructura textual.
  2. Unidades léxicas (indicadoras de relevancia o de
    no relevancia).
  3. Estructura discursiva y sintáctico-comunicativa.

Para averiguar las estrategias presumiblemente
empleadas por los especialistas a la hora de
resumir los textos de su ámbito.
22
I. Análisis de la estructura textual
Análisis del corpus
  • Análisis de los subtítulos de los artículos
    médicos y de los resúmenes del subcorpus de
    referencia con el objetivo de constatar que ambos
    siguen la estructura IMRD (Swales 1981).
  • 2. Análisis de la relevancia de determinados
    fragmentos teniendo en cuenta su posición dentro
    del texto (Edmunson 1969 Hovy y Lin 1997, 1999).

Apartado del artículo Selección basada en posición
Fundamento 3 últimas oraciones
Pacientes y métodos 2 primeras oraciones
Resultados 2 primeras oraciones
Discusión 3 primeras o 3 últimas oraciones
23
II. Análisis de unidades léxicas
Análisis del corpus
  • Análisis de unidades léxicas indicadoras de
    relevancia
  • Unidades léxicas nominales objetivo, objeto,
    propósito
  • Unidades léxicas verbales realizar, estudiar,
    presentar, analizar
  • Unidades léxicas incluidas en el título del
    artículo (Luhn 1959).
  • Formas verbales en 1ª persona del plural (Torii y
    Vijay-Shanker 2005).
  • Unidades numéricas en Pacientes y métodos y
    Resultados.
  • Análisis de unidades léxicas indicadoras de no
    relevancia
  • Unidades léxicas que ser refieran a datos
    estadísticos o computacionales (Ejs. ELISA, SPSS,
    ANOVA).
  • Unidades léxicas que ser refieran a tablas o
    figuras (Ejs. Tabla 1, Figuras 7 y 8).
  • Unidades léxicas que ser refieran a definiciones
    (Ejs. se define como, definición).
  • Unidades léxicas que ser refieran a trabajos
    previos o relacionados (Ejs. et al, otros
    autores).

24
III. Análisis de la estructura discursiva y
sintáctico-comunicativa
Análisis del corpus
  • Análisis de la estructura discursiva (RST).
  • Análisis de la estructura sintáctica (TST).
  • Análisis de la estructura comunicativa (TST).
  • Metodología de análisis
  • analizar las estructuras discursivas,
    sintácticas y comunicativas existentes en los
    artículos del subcorpus de referencia,
  • observar qué fragmentos de los artículos
    originales incluyen los médicos en sus resúmenes,
  • comprobar si en esas informaciones se dan
    regularidades en la estructura discursiva,
    sintáctica y/o comunicativa.

25
Análisis del corpus
FUNDAMENTO (del artículo) En la enfermedad
isquémica coronaria (EIC) se han descrito
diferentes alteraciones en la circulación
sistémica del sistema hemostático, existiendo muy
poca información de los posibles cambios que
pueden acontecer en la circulación coronaria,
cerca de la lesión trombótica y sus diferencias
con las alteraciones encontradas a nivel
periférico.1 La angioplastia transluminal
percutánea coronaria (ATPC) ha supuesto un
importante avance en el tratamiento de la EIC.2
La ATPC generalmente ocasiona una dilatación del
diámetro coronario, bien por dilatación directa
del fragmento arterial estenosado, o bien por
fractura de la placa de ateroma.3 La alteración
de la pared vascular ocasionada con este
procedimiento puede exponer a la circulación
nuevas superficies, como subendotelio, placa
aterosclerótica o pared media vascular,
aumentando el riesgo de formación de trombos.4
En este sentido, es conocido el riesgo de
oclusión arterial aguda o tardía tras la ATPC,5
aunque existen pocos datos que documenten los
cambios hemostáticos in situ ocasionados por esta
técnica.6 Nos planteamos este trabajo con el
doble objetivo de investigar si en los enfermos
con EIC existen diferencias en distintas
variables hemostáticas al efectuar sus
determinaciones en la sangre obtenida del seno
coronario (SC) respecto a la obtenida de la
circulación periférica (CP), así como los
posibles cambios que la ATPC pudiera producir en
la hemostasia en ambos lugares.7
Satélite de Background
Núcleo de Background
FUNDAMENTO (del resumen) Se comparan las
variaciones hemostáticas en el seno coronario
(SC) y en la circulación periférica (CP) en los
pacientes con enfermedad isquémica coronaria
(EIC), y se evalúa el efecto de la angioplastia
transluminal percutánea (ATPC).
26
Análisis del corpus
Regularidades discursivas y sintáctico-comunicativ
as
  • A) Se eliminan los satélites de Concesión,
    Reformulación, Resultado, Justificación y
    Circunstancia.
  • B) Se eliminan los núcleos de Interpretación y
    Evidencia.
  • C) No se separan los satélites de Condición y
    Resumen de sus núcleos.
  • D) No se separan los núcleos de Contraste, Unión,
    Lista y Secuencia.
  • E) Se eliminan los elementos apenditivos.
  • F) Se eliminan los satélites de Elaboración
    correspondientes a elementos atributivos (en
    concreto, explicativos).
  • G) Se eliminan los satélites de Elaboración
    referentes al tema de su núcleo.
  • H) No se eliminan los satélites de Elaboración
    referentes al rema de su núcleo.

27
Desarrollo del modelo de resumen
Texto original
1) Nivel textual
? Aplicación de reglas textuales división del
texto en apartados y puntuación de oraciones
? Aplicación de reglas léxicas puntuación de
oraciones ? Aplicación de reglas léxicas
eliminación de oraciones (o fragmentos de
oraciones)
2) Nivel léxico
Fase I
3) Nivel discursivo y sintáctico-comunicativo
? Aplicación de reglas discursivo-sintáctico-comun
icativas (DISICO) propuesta de oraciones y/o
fragmentos de oraciones candidatos a ser
eliminados
? Aplicación de reglas de puntuación de oraciones

Fase II
Resumen
28
Desarrollo del modelo de resumen
  • Formalización de reglas textuales
  • IF sentence s is one of the 3 last sentences of
    the Introduction section
  • THEN Ds Ds ds
  • Formalización de reglas basadas en unidades
    léxicas
  • IF sentence s contains a verbal form in 1st
    person plural
  • THEN Ds Ds ds
  • IF sentence s contains definition or introduction
    d of a new concept c
  • THEN IF d appears in parentheses
  • THEN ELIMINATE the parenthesis from s
  • ELSE IF Secs.rem gt 1 ELIMINATE s
    from Secs.rem
  • Formalización de reglas DISICO
  • IF S is satellite of a BACKGROUND relation B
  • THEN IF SecSAT.rem gt 1 ELIMINATE S

29
Estado de la cuestón
Desarrollo del modelo de resumen
  • Métodos de evaluación de resúmenes

Clasificación extraída de Amigó (2006).
30
Estado de la cuestión
Desarrollo del modelo de resumen
  • Métodos de evaluación de resúmenes

ROUGE Distancia Euclidiana
Clasificación extraída de Amigó (2006).
31
1ª evaluación del modelo
Desarrollo del modelo de resumen
  • Comparación 5 resúmenes de nuestro modelo 5
    resúmenes de los autores 5 resúmenes de 3
    médicos 5 resúmenes baseline.
  • ROUGE
  • Distancia Euclidiana

ROUGE (media) ROUGE-2 ROUGE-SU-4
nuestro modelo 0,6570 0,6321
baseline 0,2980 0,2646
Médico 1

Vector 71
Médico 3
Modelo
Médico 2
Autor
Vector 60
32
Implementación del modelo
  • Reglas textuales y léxicas implementación en
    Perl.
  • Reglas DISICO
  • Problemas carencia de analizadores discursivos y
    comunicativos,
  • limitaciones de los
    analizadores sintácticos de dependencias.
  • Solución ofrecer al resumidor los textos ya
    etiquetados.
  • 1. Etiquetaje lingüístico oracional resumen por
    extracción.
  • Uso de una base de datos.
  • Implementación de las reglas del modelo SQL.
  • 2. Etiquetaje lingüístico intraoracional resumen
    por extracción compresión.
  • Diseño de un conjunto de etiquetas XML en 3
    niveles.
  • Diseño de una DTD (Document Type Definition).
  • Implementación de las reglas del modelo Perl.
  • Diseño de una interfaz de aplicación de las
    reglas.

33
Implementación del modelo
Resumen por extracción compresión
Resumen por extracción
Texto original
34
Implementación del modelo
35
Implementación del modelo
36
Implementación del modelo
Texto original
? segmentador_medico.pl división del texto en 4
apartados
? score.pl puntuación de oraciones ?
eliminacion.pl eliminación de oraciones
? segmentador oracional IULA ? lematizador
TreeTagger
? PhpMyAdmin etiquetaje discursivo
semiautomático a nivel oracional
? oralingmod.pl resumen por extracción mediante
reglas DISICO
? Interfaz web DISICO / sumcompleto.pl resumen
por compresión mediante reglas DISICO
? Oxygen XML Editor etiquetaje discursivo
semiautomático a nivel intraoracional
Determinación del número de oraciones de cada
apartado se emplea la puntuación de oraciones
(obtenida por score.pl)
Resumen
37
Aplicación del modelo y resultados
  • Anotadores
  • Etiquetaje discursivo oracional de los 10
    textos del subcorpus de
  • contraste realizado por 5 personas.
  • Anotación XML intraoracional de los 10
    resúmenes por extracción previamente obtenidos
    realizada por nosotros.
  • Características de los resúmenes
  • Resúmenes de 11 oraciones (DISICO_1a extracción
    / DISICO_1b extracción compresión).
  • Nº de oraciones por cada apartado
    Fundamento 2 or.

  • Pacientes y métodos 3 or.

  • Resultados 4 or.

  • Discusión 2 or.
  • b) Resúmenes de 11 oraciones como máximo
    (DISICO_2a extracción / DISICO_2b extracción
    compresión).
  • Oraciones obtenidas por las reglas de
    eliminación y las DISICO.
  • Si el nº de oraciones obtenidas en algún
    apartado es mayor que el establecido ? se aplican
    las reglas de puntuación hasta llegar al nº de
    oraciones establecidas en ese apartado.

38
Evaluación del modelo
ROUGE (media) ROUGE (media) ROUGE (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6680 0,6483
DISICO_1b 0,6503 0,6272
DISICO_2a 0,6427 0,6209
DISICO_2b 0,6257 0,6016
baseline 0,1965 0,1988
Ms-Word 0,2579 0,2614
  • Evaluación con ROUGE
  • Resúmenes candidatos
  • 1. resúmenes de nuestro modelo
  • (DISICO_1a, DISICO_1b, DISICO_2a,
    DISICO_2b),
  • 2. resúmenes baseline,
  • 3. resúmenes Ms-Word Autosummarize.
  • Resúmenes de referencia
  • 1. resúmenes de los autores de los artículos,
  • 2. resúmenes por extracción de 3 médicos,
  • 3. resúmenes por abstracción de 3 médicos.

ROUGE Jackknife (media) ROUGE Jackknife (media) ROUGE Jackknife (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6650 0,6463
DISICO_1b 0,6523 0,6270
DISICO_2a 0,6469 0,6253
DISICO_2b 0,6272 0,6028
baseline 0,1976 0,2000
Ms-Word 0,2600 0,2637
39
Evaluación del modelo
Resúmenes DISICO_1a (11 oraciones por
extracción)
  • Evaluación con la
  • Distancia Euclidiana
  • Comparación entre
  • resúmenes DISICO_1a / DISICO_2a,
  • resúmenes de los autores de los artículos,
  • resúmenes por extracción de 3 médicos,
  • resúmenes baseline,
  • resúmenes del Ms-Word Autosummarize.



Resúmenes DISICO_2a (máx. 11 oraciones por
extracción)

39
40
Restrictions of the model
Model Evaluation
  • General restriction costly adaptation to other
    areas (although feasible).
  • Restriction with regard to coherence it does
    not include anaphora resolution.
  • Restrictions of the rules of the model (we
    carry out 2 tasks)
  • a. We count and analyze the sentences from
    the DISICO_1a summaries that are not selected at
    least by 3 doctors 5 sentences.
  • 4 of these errors are solved in DISICO_2a
    summaries.
  • b. We count and analyze the sentences from
    the DISICO_1a summaries that are selected at
    least by 3 doctors, but not by our model 7
    sentences.
  • In general isolated cases that we do not
    consider relevant.
  • Exception multinuclear relation of List.
  • Mechanisms that are not inherent to the
    rhetorical structure of the text are needed
    in order to explain why one nucleus of a
    multinuclear relation is considered important by
    humans. (Marcu 2000)

41
Conclusions linked with the hypothesis
Conclusions
  • Hypothesis 1. Professionals from a domain use
    specific techniques to summarize specialized
    texts that are different to the ones used to
    summarize general speech.Confirmed by the
    doctor-linguist experiment and by the final
    evaluation with Euclidean Distance.Hypothesis
    1.1. These techniques can be formalized in the
    form of rules that are part of a model of
    automatic summarization applying them.Confirmed
    by the analysis of the strategies used by authors
    when writing their summaries and by their later
    formalisation in the rules included in the
    proposed summarization model.
  • Hypothesis 2. The use of a single type of
    linguistic information is not enough to obtain an
    adequate summary, so linguistic information of
    several types must be integrated
    ....Confirmed by the linguistic analysis of
    the articles and the summaries of the
    specialists, and by finding that there are
    regularities in the textual structure, in the use
    of certain lexical units, and in the discourse
    and syntactic-communicative structure.

42
General conclusions
Conclusions
  • The linguistic model of summarization that we
    suggest in the thesis is valid because it obtains
    good results in its evaluation gt
  • our work provides a relevant contribution to the
    state of the art on automatic summarization in
    Spanish, specifically, on specialized texts.
  • The summaries written by specialists of an area
    (in our case, medicine) can be taken as a point
    of reference for the development and the
    evaluation of a model of automatic
    summarization.In short, all goals formulated at
    the beginning of the thesis have been fulfilled.

43
Conclusions beyond the thesis
Conclusions
  • However, is linguistics enough to provide the
    best summaries?
  • experiments (da Cunha et al. 2007) show that a
    combination of linguistic and statistical
    techniques further optimizes the quality of the
    summaries.
  • We designed an hybrid summarizer that includes 3
    summarizers
  • CORTEX (Torres-Moreno et al. 2002) based on
    Vector Space Model.
  • ENERTEX (Fernández et al. 2007) based on
    statistical physics.
  • DISICOSUM based on linguistics.
  • We evaluated it with ROUGE and we observed that
    the results of this hybrid summarizer are better
    than the results of any of the other 3
    summarizers.

44
Lines of Future Work
  • 1. Application of the summarization model to a
    higher quantity of medical articles.
  • 2. Adaptation of the summarization model to other
    genres of the medical domain and to other
    specialized domains.
  • 3. Development of a discourse parser to integrate
    it in our summarizer (using machine learning
    techniques).
  • 4. Continuation with the research about the
    benefits of the combination of statistical and
    linguistic techniques.

45
Hacia un modelo lingüístico de resumen
automático de artículos médicos en español
Iria da Cunha Fanego 2008
  • Codirigida por Leo Wanner y M. Teresa Cabré
    CastellvíPrograma de doctorado
  • Ciencias del Lenguaje y Lingüística Aplicada
    (2002-2004)
  • Institut Universitari de Lingüística Aplicada
  • Universitat Pompeu Fabra
Write a Comment
User Comments (0)
About PowerShow.com