Title: Hacia un modelo ling
1Hacia un modelo lingüístico de resumen
automático de artículos médicos en español
Iria da Cunha Fanego 2008
- Codirigida por Leo Wanner y M. Teresa Cabré
CastellvíPrograma de doctorado - Ciències del Llenguatge i Lingüística Aplicada
(2002-2004) - Institut Universitari de Lingüística Aplicada
- Universitat Pompeu Fabra
2Guión de la presentación
- Introducción
- Estado de la cuestión
- El artículo médico
- Marco teórico
- Corpus
- Análisis del corpus
- Desarrollo del modelo de resumen
- Implementación del modelo
- Aplicación del modelo y resultados
- Evaluación
- Conclusiones
- Líneas de trabajo futuro
3Tema de la tesis
Introducción
- En esta tesis se propone una metodología para
desarrollar un modelo de resumen automático
basado en información lingüística de varios
tipos. - El modelo intenta simular la manera de resumir
de los especialistas de un ámbito, en concreto,
de la medicina. - Mediante este modelo pueden obtenerse resúmenes
de diferentes longitudes y características, es
decir, resúmenes adaptados según las necesidades
de cada uno.
4Definición y parámetros de elaboración del resumen
Introducción
a condensed version of a source document having
a recognizable genre and a very specific purpose
to give the reader an exact and concise idea of
the contents of the source (Saggion y Lapalme
2002) an abbreviated, accurate representation
of the contents of a document, preferably
prepared by its author(s) for publication with
it (ANSI)
Fuente Único documento / Varios documentos
Fuente Dominio específico / Ámbito general
Fuente Texto monolingüe / Texto multilingüe
Resultado Resumen por extracción / Resumen por abstracción
Resultado Resumen neutral / Resumen evaluativo
Propósito del resumen Resumen informativo / Resumen indicativo
Propósito del resumen Necesidades del autor / Necesidades del usuario
Propósito del resumen Destinatario experto / Destinatario lego
5Objetivos de la tesis
Introducción
- 1. Analizar los resúmenes que los profesionales
de un dominio especializado realizan de sus
textos e identificar las estrategias que emplean
de cara a desarrollar un modelo de resumen por
extracción que las aplique. - 2. Formalizar las estrategias empleadas por los
especialistas mediante alguna estructura
lingüística. - 3. Encontrar un modo de integración de estas
estrategias. - 4. Implementar una parte del modelo de resumen.
- 5. Desarrollar un método de anotación lingüística
eficaz para compensar la parte del modelo que no
se pueda implementar por completo. - 6. Constatar que es necesario explotar diversas
informaciones lingüísticas de los textos para
llegar a un resumen adecuado.
6Hipótesis o ideas de partida
Introducción
- 1. Los profesionales de un dominio emplean
técnicas específicas para resumir sus textos
especializados diferentes a las utilizadas para
resumir discurso general. - 1.1. Estas técnicas se pueden formalizar mediante
reglas que formen parte de un modelo de resumen
automático que las aplique. - 2. La utilización de un solo tipo de información
lingüística o solamente de la estadística no es
suficiente para llegar a un resumen adecuado y
deben integrarse informaciones lingüísticas de
varios tipos para poder llegar a una completa
representación de los textos y a un posterior
resumen de los mismos información textual,
léxica, discursiva y sintáctico-comunicativa.
7Estado de la cuestión
Frecuencias de palabras Títulos Posición de
fragmentos Palabras o frases clave Técnicas
estadísticas Aprendizaje automático
Nivel superficial
Cadenas léxicas Correferencia / detección de
anáforas Máxima de Relevancia Marginal
Nivel medio
Técnicas para resumen automático
Rhetorical Structure Theory Estructura retórica
no jerárquica Rasgos superficiales de la
estructura discursiva
Nivel profundo
Superficiales Superficiales detección de
anáforas conectores discursivos Cadenas léxicas
estructura retórica Pragmática retórica
Combinación de técnicas lingüísticas
8Estado de la cuestión
Swales 1981 Graetz 1985 Fluck 1988 Kaplan et al.
1994 Ciapuscio 1998
Resumen manual
Textos especializados en general
Luhn 1959 Lehmam 1995 Saggion y Lapalme 2000
Pollock y Zamora 1975 Abracos y Lopes
1997 Teufel y Moens 2002 Farzindar et al. 2004
Resumen automático
- Resumen
- de textos
- especializados
Resumen manual
Swales 1981 Salager-Meyer 1990
Textos médicos
Damianos et al. 2002 Johnson et al.
2002 Gaizauskas et al. 2001 Lenci et al. 2002
Kan 2003
Resumen automático
9Estructura y contenido
El artículo médico
10Resumen del autor como punto de referencia
El artículo médico
11El artículo médico
Contenido A M1 M2 M3 M4 M5 M6 L1 L2 L3 L4 L5 L6
Entre el 20 y el 80 de las visitas a los servicios de urgencias hospitalarios son inapropiadas. 1 1 1 1 1 1 1 1 1 1 1 1 0
Se evaluaron las visitas a un servicio de urgencias hospitalarias mediante un Protocolo de Adecuación de Urgencias Hospitalarias, previamente validado. 1 1 1 1 1 1 1 1 1 1 1 1 0
El 37,9 de las visitas fueron inapropiadas 1 1 1 1 1 1 1 0 0 1 1 0 1
y más frecuentes en la población pediátrica. 1 1 1 1 1 1 1 1 1 1 1 1 1
Los pacientes enviados por un médico, con traumatismos o proceso quirúrgico visitaron las urgencias más adecuadamente. 1 1 1 1 1 1 1 1 1 1 0 1 1
La adecuación de las visitas al servicio de urgencias se relaciona con el tipo de enfermedad. 1 0 0 0 0 0 0 0 0 0 0 0 0
12El artículo médico
Multidimensional Scaling
13El artículo médico
Clustering no supervisado
14El artículo médico
- Conclusiones generales
- Los profesionales médicos adoptan estrategias
diferentes en la selección de los contenidos
relevantes para sus resúmenes a las empleadas por
profesionales de otros ámbitos. - Los profesionales de un colectivo tienden a
seleccionar los mismos fragmentos de contenido
para sus resúmenes. - Los resúmenes realizados por profesionales pueden
emplearse para extraer criterios sobre cómo debe
resumirse un texto especializado de un
determinado ámbito y como punto de referencia
para una posterior evaluación de un modelo de
resumen. - Conclusiones específicas
- El resumen incluye información de los 4 apartados
del artículo. - El resumen suele incluir información numérica en
los apartados de Pacientes y métodos y
Resultados. - El resumen no incluye definiciones, datos
históricos, o referencias a trabajos previos o
relacionados. - El apartado de Discusión del resumen no es más
extenso que los otros.
15Cómo obtener un resumen adecuado
Marco teórico
- El desarrollo de un modelo de resumen debe
fundamentarse en diversos aspectos lingüísticos - Estructura textual del documento
- Unidades léxicas representativas
- Estructura discursiva
- Estructura sintáctica
- Estructura comunicativa
16Cómo obtener un resumen adecuado
Marco teórico
- El desarrollo de un modelo de resumen debe
fundamentarse en diversos aspectos lingüísticos - Estructura textual del documento
- Unidades léxicas representativas
- Estructura discursiva
- Estructura sintáctica
- Estructura comunicativa
Rhetorical Structure Theory (RST)
17Cómo obtener un resumen adecuado
Marco teórico
- El desarrollo de un modelo de resumen debe
fundamentarse en diversos aspectos lingüísticos - Estructura textual del documento
- Unidades léxicas representativas
- Estructura discursiva
- Estructura sintáctica
- Estructura comunicativa
Rhetorical Structure Theory (RST)
Teoría Sentido-Texto (TST)
18Marco teórico
- 1. Rhetorical Structure Theory (Mann y Thompson
1988) - Teoría discursiva de organización del texto.
- Estructura jerárquica.
- Patrones núcleo-satélites.
- Relaciones discursivas Elaboración, Evidencia,
Propósito, Condición, Contraste, etc.
19Marco teórico
- 2. Teoría Sentido-Texto (Melcuk 1988, 2001)
- Estructura sintáctica profunda de dependencias
(elementos actanciales, elementos atributivos,
apenditivos y coordinativos). - Estructura comunicativa (tema / rema).
20Corpus
- Subcorpus de referencia
- 50 artículos médicos 50 resúmenes (Medicina
Clínica / CT del IULA). - 3 condiciones
- artículos originales,
- temas de actualidad (cáncer, sida, alcoholismo,
anorexia, etc.), - publicación entre 1992 y 2002.
- Subcorpus de contraste
- Subcorpus de contraste para la 1ª evaluación
- 5 artículos originales,
- 5 resúmenes de los autores,
- 5 resúmenes por extracción realizados por 5
médicos. - Subcorpus de contraste para la evaluación final
- 10 artículos originales,
- 10 resúmenes de los autores,
- 10 resúmenes por extracción realizados por 3
médicos, - 10 resúmenes por abstracción redactados por 3
médicos.
21Análisis de los artículos y los resúmenesdel
corpus de referencia
Análisis del corpus
- Estructura textual.
- Unidades léxicas (indicadoras de relevancia o de
no relevancia). - Estructura discursiva y sintáctico-comunicativa.
Para averiguar las estrategias presumiblemente
empleadas por los especialistas a la hora de
resumir los textos de su ámbito.
22I. Análisis de la estructura textual
Análisis del corpus
- Análisis de los subtítulos de los artículos
médicos y de los resúmenes del subcorpus de
referencia con el objetivo de constatar que ambos
siguen la estructura IMRD (Swales 1981). - 2. Análisis de la relevancia de determinados
fragmentos teniendo en cuenta su posición dentro
del texto (Edmunson 1969 Hovy y Lin 1997, 1999).
Apartado del artículo Selección basada en posición
Fundamento 3 últimas oraciones
Pacientes y métodos 2 primeras oraciones
Resultados 2 primeras oraciones
Discusión 3 primeras o 3 últimas oraciones
23II. Análisis de unidades léxicas
Análisis del corpus
- Análisis de unidades léxicas indicadoras de
relevancia - Unidades léxicas nominales objetivo, objeto,
propósito - Unidades léxicas verbales realizar, estudiar,
presentar, analizar - Unidades léxicas incluidas en el título del
artículo (Luhn 1959). - Formas verbales en 1ª persona del plural (Torii y
Vijay-Shanker 2005). - Unidades numéricas en Pacientes y métodos y
Resultados. - Análisis de unidades léxicas indicadoras de no
relevancia - Unidades léxicas que ser refieran a datos
estadísticos o computacionales (Ejs. ELISA, SPSS,
ANOVA). - Unidades léxicas que ser refieran a tablas o
figuras (Ejs. Tabla 1, Figuras 7 y 8). - Unidades léxicas que ser refieran a definiciones
(Ejs. se define como, definición). - Unidades léxicas que ser refieran a trabajos
previos o relacionados (Ejs. et al, otros
autores).
24III. Análisis de la estructura discursiva y
sintáctico-comunicativa
Análisis del corpus
- Análisis de la estructura discursiva (RST).
- Análisis de la estructura sintáctica (TST).
- Análisis de la estructura comunicativa (TST).
- Metodología de análisis
- analizar las estructuras discursivas,
sintácticas y comunicativas existentes en los
artículos del subcorpus de referencia, - observar qué fragmentos de los artículos
originales incluyen los médicos en sus resúmenes, - comprobar si en esas informaciones se dan
regularidades en la estructura discursiva,
sintáctica y/o comunicativa.
25Análisis del corpus
FUNDAMENTO (del artículo) En la enfermedad
isquémica coronaria (EIC) se han descrito
diferentes alteraciones en la circulación
sistémica del sistema hemostático, existiendo muy
poca información de los posibles cambios que
pueden acontecer en la circulación coronaria,
cerca de la lesión trombótica y sus diferencias
con las alteraciones encontradas a nivel
periférico.1 La angioplastia transluminal
percutánea coronaria (ATPC) ha supuesto un
importante avance en el tratamiento de la EIC.2
La ATPC generalmente ocasiona una dilatación del
diámetro coronario, bien por dilatación directa
del fragmento arterial estenosado, o bien por
fractura de la placa de ateroma.3 La alteración
de la pared vascular ocasionada con este
procedimiento puede exponer a la circulación
nuevas superficies, como subendotelio, placa
aterosclerótica o pared media vascular,
aumentando el riesgo de formación de trombos.4
En este sentido, es conocido el riesgo de
oclusión arterial aguda o tardía tras la ATPC,5
aunque existen pocos datos que documenten los
cambios hemostáticos in situ ocasionados por esta
técnica.6 Nos planteamos este trabajo con el
doble objetivo de investigar si en los enfermos
con EIC existen diferencias en distintas
variables hemostáticas al efectuar sus
determinaciones en la sangre obtenida del seno
coronario (SC) respecto a la obtenida de la
circulación periférica (CP), así como los
posibles cambios que la ATPC pudiera producir en
la hemostasia en ambos lugares.7
Satélite de Background
Núcleo de Background
FUNDAMENTO (del resumen) Se comparan las
variaciones hemostáticas en el seno coronario
(SC) y en la circulación periférica (CP) en los
pacientes con enfermedad isquémica coronaria
(EIC), y se evalúa el efecto de la angioplastia
transluminal percutánea (ATPC).
26Análisis del corpus
Regularidades discursivas y sintáctico-comunicativ
as
- A) Se eliminan los satélites de Concesión,
Reformulación, Resultado, Justificación y
Circunstancia. - B) Se eliminan los núcleos de Interpretación y
Evidencia. - C) No se separan los satélites de Condición y
Resumen de sus núcleos. - D) No se separan los núcleos de Contraste, Unión,
Lista y Secuencia. - E) Se eliminan los elementos apenditivos.
- F) Se eliminan los satélites de Elaboración
correspondientes a elementos atributivos (en
concreto, explicativos). - G) Se eliminan los satélites de Elaboración
referentes al tema de su núcleo. - H) No se eliminan los satélites de Elaboración
referentes al rema de su núcleo.
27Desarrollo del modelo de resumen
Texto original
1) Nivel textual
? Aplicación de reglas textuales división del
texto en apartados y puntuación de oraciones
? Aplicación de reglas léxicas puntuación de
oraciones ? Aplicación de reglas léxicas
eliminación de oraciones (o fragmentos de
oraciones)
2) Nivel léxico
Fase I
3) Nivel discursivo y sintáctico-comunicativo
? Aplicación de reglas discursivo-sintáctico-comun
icativas (DISICO) propuesta de oraciones y/o
fragmentos de oraciones candidatos a ser
eliminados
? Aplicación de reglas de puntuación de oraciones
Fase II
Resumen
28Desarrollo del modelo de resumen
- Formalización de reglas textuales
- IF sentence s is one of the 3 last sentences of
the Introduction section - THEN Ds Ds ds
- Formalización de reglas basadas en unidades
léxicas - IF sentence s contains a verbal form in 1st
person plural - THEN Ds Ds ds
- IF sentence s contains definition or introduction
d of a new concept c - THEN IF d appears in parentheses
- THEN ELIMINATE the parenthesis from s
- ELSE IF Secs.rem gt 1 ELIMINATE s
from Secs.rem - Formalización de reglas DISICO
- IF S is satellite of a BACKGROUND relation B
- THEN IF SecSAT.rem gt 1 ELIMINATE S
29Estado de la cuestón
Desarrollo del modelo de resumen
- Métodos de evaluación de resúmenes
Clasificación extraída de Amigó (2006).
30Estado de la cuestión
Desarrollo del modelo de resumen
- Métodos de evaluación de resúmenes
ROUGE Distancia Euclidiana
Clasificación extraída de Amigó (2006).
311ª evaluación del modelo
Desarrollo del modelo de resumen
- Comparación 5 resúmenes de nuestro modelo 5
resúmenes de los autores 5 resúmenes de 3
médicos 5 resúmenes baseline. - ROUGE
- Distancia Euclidiana
ROUGE (media) ROUGE-2 ROUGE-SU-4
nuestro modelo 0,6570 0,6321
baseline 0,2980 0,2646
Médico 1
Vector 71
Médico 3
Modelo
Médico 2
Autor
Vector 60
32Implementación del modelo
- Reglas textuales y léxicas implementación en
Perl. - Reglas DISICO
- Problemas carencia de analizadores discursivos y
comunicativos, - limitaciones de los
analizadores sintácticos de dependencias. - Solución ofrecer al resumidor los textos ya
etiquetados. - 1. Etiquetaje lingüístico oracional resumen por
extracción. - Uso de una base de datos.
- Implementación de las reglas del modelo SQL.
- 2. Etiquetaje lingüístico intraoracional resumen
por extracción compresión. - Diseño de un conjunto de etiquetas XML en 3
niveles. - Diseño de una DTD (Document Type Definition).
- Implementación de las reglas del modelo Perl.
- Diseño de una interfaz de aplicación de las
reglas.
33Implementación del modelo
Resumen por extracción compresión
Resumen por extracción
Texto original
34Implementación del modelo
35Implementación del modelo
36Implementación del modelo
Texto original
? segmentador_medico.pl división del texto en 4
apartados
? score.pl puntuación de oraciones ?
eliminacion.pl eliminación de oraciones
? segmentador oracional IULA ? lematizador
TreeTagger
? PhpMyAdmin etiquetaje discursivo
semiautomático a nivel oracional
? oralingmod.pl resumen por extracción mediante
reglas DISICO
? Interfaz web DISICO / sumcompleto.pl resumen
por compresión mediante reglas DISICO
? Oxygen XML Editor etiquetaje discursivo
semiautomático a nivel intraoracional
Determinación del número de oraciones de cada
apartado se emplea la puntuación de oraciones
(obtenida por score.pl)
Resumen
37Aplicación del modelo y resultados
- Anotadores
- Etiquetaje discursivo oracional de los 10
textos del subcorpus de - contraste realizado por 5 personas.
- Anotación XML intraoracional de los 10
resúmenes por extracción previamente obtenidos
realizada por nosotros. - Características de los resúmenes
- Resúmenes de 11 oraciones (DISICO_1a extracción
/ DISICO_1b extracción compresión). - Nº de oraciones por cada apartado
Fundamento 2 or. -
Pacientes y métodos 3 or. -
Resultados 4 or. -
Discusión 2 or. - b) Resúmenes de 11 oraciones como máximo
(DISICO_2a extracción / DISICO_2b extracción
compresión). - Oraciones obtenidas por las reglas de
eliminación y las DISICO. - Si el nº de oraciones obtenidas en algún
apartado es mayor que el establecido ? se aplican
las reglas de puntuación hasta llegar al nº de
oraciones establecidas en ese apartado.
38Evaluación del modelo
ROUGE (media) ROUGE (media) ROUGE (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6680 0,6483
DISICO_1b 0,6503 0,6272
DISICO_2a 0,6427 0,6209
DISICO_2b 0,6257 0,6016
baseline 0,1965 0,1988
Ms-Word 0,2579 0,2614
- Evaluación con ROUGE
- Resúmenes candidatos
- 1. resúmenes de nuestro modelo
- (DISICO_1a, DISICO_1b, DISICO_2a,
DISICO_2b), - 2. resúmenes baseline,
- 3. resúmenes Ms-Word Autosummarize.
- Resúmenes de referencia
- 1. resúmenes de los autores de los artículos,
- 2. resúmenes por extracción de 3 médicos,
- 3. resúmenes por abstracción de 3 médicos.
ROUGE Jackknife (media) ROUGE Jackknife (media) ROUGE Jackknife (media)
ROUGE ROUGE-2 ROUGE-4
DISICO_1a 0,6650 0,6463
DISICO_1b 0,6523 0,6270
DISICO_2a 0,6469 0,6253
DISICO_2b 0,6272 0,6028
baseline 0,1976 0,2000
Ms-Word 0,2600 0,2637
39Evaluación del modelo
Resúmenes DISICO_1a (11 oraciones por
extracción)
- Evaluación con la
- Distancia Euclidiana
- Comparación entre
- resúmenes DISICO_1a / DISICO_2a,
- resúmenes de los autores de los artículos,
- resúmenes por extracción de 3 médicos,
- resúmenes baseline,
- resúmenes del Ms-Word Autosummarize.
Resúmenes DISICO_2a (máx. 11 oraciones por
extracción)
39
40Restrictions of the model
Model Evaluation
- General restriction costly adaptation to other
areas (although feasible). - Restriction with regard to coherence it does
not include anaphora resolution. - Restrictions of the rules of the model (we
carry out 2 tasks) - a. We count and analyze the sentences from
the DISICO_1a summaries that are not selected at
least by 3 doctors 5 sentences. - 4 of these errors are solved in DISICO_2a
summaries. -
- b. We count and analyze the sentences from
the DISICO_1a summaries that are selected at
least by 3 doctors, but not by our model 7
sentences. - In general isolated cases that we do not
consider relevant. - Exception multinuclear relation of List.
-
- Mechanisms that are not inherent to the
rhetorical structure of the text are needed
in order to explain why one nucleus of a
multinuclear relation is considered important by
humans. (Marcu 2000)
41Conclusions linked with the hypothesis
Conclusions
- Hypothesis 1. Professionals from a domain use
specific techniques to summarize specialized
texts that are different to the ones used to
summarize general speech.Confirmed by the
doctor-linguist experiment and by the final
evaluation with Euclidean Distance.Hypothesis
1.1. These techniques can be formalized in the
form of rules that are part of a model of
automatic summarization applying them.Confirmed
by the analysis of the strategies used by authors
when writing their summaries and by their later
formalisation in the rules included in the
proposed summarization model. - Hypothesis 2. The use of a single type of
linguistic information is not enough to obtain an
adequate summary, so linguistic information of
several types must be integrated
....Confirmed by the linguistic analysis of
the articles and the summaries of the
specialists, and by finding that there are
regularities in the textual structure, in the use
of certain lexical units, and in the discourse
and syntactic-communicative structure.
42General conclusions
Conclusions
- The linguistic model of summarization that we
suggest in the thesis is valid because it obtains
good results in its evaluation gt - our work provides a relevant contribution to the
state of the art on automatic summarization in
Spanish, specifically, on specialized texts. - The summaries written by specialists of an area
(in our case, medicine) can be taken as a point
of reference for the development and the
evaluation of a model of automatic
summarization.In short, all goals formulated at
the beginning of the thesis have been fulfilled.
43Conclusions beyond the thesis
Conclusions
- However, is linguistics enough to provide the
best summaries? - experiments (da Cunha et al. 2007) show that a
combination of linguistic and statistical
techniques further optimizes the quality of the
summaries. - We designed an hybrid summarizer that includes 3
summarizers - CORTEX (Torres-Moreno et al. 2002) based on
Vector Space Model. - ENERTEX (Fernández et al. 2007) based on
statistical physics. - DISICOSUM based on linguistics.
- We evaluated it with ROUGE and we observed that
the results of this hybrid summarizer are better
than the results of any of the other 3
summarizers.
44Lines of Future Work
- 1. Application of the summarization model to a
higher quantity of medical articles. - 2. Adaptation of the summarization model to other
genres of the medical domain and to other
specialized domains. - 3. Development of a discourse parser to integrate
it in our summarizer (using machine learning
techniques). - 4. Continuation with the research about the
benefits of the combination of statistical and
linguistic techniques.
45Hacia un modelo lingüístico de resumen
automático de artículos médicos en español
Iria da Cunha Fanego 2008
- Codirigida por Leo Wanner y M. Teresa Cabré
CastellvíPrograma de doctorado - Ciencias del Lenguaje y Lingüística Aplicada
(2002-2004) - Institut Universitari de Lingüística Aplicada
- Universitat Pompeu Fabra