Modelos de Texto Estructurado M. Andrea Rodr - PowerPoint PPT Presentation

About This Presentation
Title:

Modelos de Texto Estructurado M. Andrea Rodr

Description:

Title: Bases de Espaciales Andrea Rodr guez Tastets Universidad de Concepci n CIW - Universidad de Chile http://www.inf.udec.cl/~andrea Author – PowerPoint PPT presentation

Number of Views:76
Avg rating:3.0/5.0
Slides: 20
Provided by: 9127101
Category:

less

Transcript and Presenter's Notes

Title: Modelos de Texto Estructurado M. Andrea Rodr


1
Modelos de Texto Estructurado M. Andrea
Rodríguez TastetsDIIC - Universidad de
Concepciónhttp//www.inf.udec.cl/andrea
2
Modelos
U s e r T a s k
Retrieval Adhoc Filtering
Browsing
3
Introducción
  • Respuesta a consultas basadas en palabras claves
    considera que los documentos son planos, i.e.,
    una palabra en el título tiene el mismo peso que
    una palabra en el cuerpo del documento.
  • La estructura de los documentos es una pieza
    adicional de información de la cual se puede
    obtener ventaja.
  • Por ejemplo, palabras en el título y subtítulo
    pueden tener un peso mayor.

4
Introducción
  • Considere la siguiente necesidad de información
  • Retrieve all documents which contain a page in
    which the string atomic holocaust appears in
    italic in the text surrounding a Figure whose
    label contains the word earth
  • La consulta correspondiente puede ser
  • same-page( near(atomic holocaust, Figure(
    label( earth ))))

5
Definición Básica
  • Match point la posición en el texto de una
    secuencia de palabras que iguala la consulta
  • Consulta atomic holocaust in Hiroshima
  • Doc dj contiene 3 líneas con este string
  • Entonces, doc dj contiene 3 match points
  • Region una porción contigua del texto
  • Node un componente estructural del texto tal
    como un capítulo, sección, etc..

6
Listas No sobrepuestas
  • Basado en Burkowski, 1992.
  • Idea divide el texto en regiones no superpuestas
    las cuales son coleccionadas en una lista
  • Existen muchas formas de dividir el texto en
    partes no superpuestas que producen múltiples
    listas
  • una lista de capítulos
  • una lista de secciones
  • una lista de subsecciones
  • Regiones de texto desde listas pueden superponerse

7
Listas No sobrepuestas
L0
Capítulo
L1
Sección
L2
Subsección
L3
8
Listas No sobrepuestas
  • Implementación
  • archivo invertido simple que combina texto y
    regiones de texto
  • cada entrada de este archivo invertido está
    asociada a la lista de regiones de texto
  • listas de regiones de texto pueden mezclarse con
    listas de palabras claves

9
Listas No sobrepuestas
  • Regiones no se sobreponen, lo cual limita las
    consultas que se pueden preguntar
  • Tipos de consultas
  • seleccione una región que contenga una palabra
    dada
  • seleccione una región A que no contenga una
    región B (regiones A y B pertenecen a distintas
    listas)
  • seleccione una región que no esté contenida en
    ninguna otra región

10
Conclusiones
  • El modelo de listas no superpuestas es simple y
    permite implementaciones eficientes
  • Pero, permite un conjunto limitado de tipos de
    consultas
  • El modelo no incluye ninguna herramienta para
    ranking de documentos por grado de similaridad a
    la consulta
  • Qué significa similaridad estructural?

11
Nodos Proximales
  • Basado en Navarro and Baeza-Yates, 1997
  • Idea definir estructuras de indexación
    jerárquicas independientes sobre el mismo texto.
  • Cada una de estas jerarquías está compuesta de
    capítulos, secciones, párrafos,etc..
  • Múltiples jerarquías pueden ser definidos
  • Dos jerarquías pueden referirse a regiones que se
    sobreponen

12
Definiciones
  • Cada estructura de indexación está compuesta de
  • capítulos
  • secciones
  • subsecciones
  • párrafos
  • líneas
  • Cada uno de estos componentes es llamado nodo
  • Cada nodo está asociado a una región de texto

13
Nodos Proximales
Capítulo
Secciones
Subsecciones
Subsubsecciones
holocaust
10
256
48,324
14
Nodos Proximales
  • Puntos claves
  • En el índice jerárquico, un nodo puede estar
    contenido dentro de otro nodo
  • Pero, dos nodos de una misma jerárquica no se
    sobreponen
  • La lista invertida por palabras claves
    complementa el índice jerárquico
  • La implementación es más compleja que la de lista
    no superpuestas

15
Nodos Proximales
  • Consultas son expresiones regulares
  • búsqueda por strings
  • referencias a componentes estructurales
  • combinación de esto
  • El modelo es una compromiso entre expresividad y
    eficiencia
  • Consultas son simples pero pueden ser procesadas
    eficientemente
  • Es un model más expresivo que las lista no
    superpuestas

16
Nodos Proximales
  • Consulta encuentre las secciones, las
    subsecciones y las subsubsecciones que contengan
    la palabra holocaust
  • (section) with (holocaust)
  • Procesamiento de consulta simple
  • Atraviese la lista invertida por holocaust y
    determine todos los puntos de igualdad (match
    points)
  • Use los match points para buscar en el índice
    jerárquico por los componentes estructurales

17
Nodos Proximales
  • Consulta (section) with (holocaust)
  • Procesamiento de consulta sofisticado
  • obtenga la primera entrada en la lista invertida
    por holocaust
  • use este match point para buscar en el índice
    jerárquico por los componentes estructurales
  • El componente de matching más interno uno más
    pequeño
  • Evaluar si el componente más interno incluye la
    segunda entrada en la lista invertida por
    holocaust
  • Si es así, evaluar la tercera entrada y así
    sucesivamente
  • Esto permite evaluar eficientemente los nodos
    cercanos (o proximales)

18
Conclusiones
  • El modelo permite la formulación de consultas que
    son más sofisticadas de las permitidas por el
    modelo de listas no superpuestas
  • Para acelerar el procesamiento de consulta, nodos
    cercanos son inspeccionados
  • Tipos de consultas que son consultadas pueden
    estar limitadas (todos los nodos en la respuesta
    deben venir de la misma jerarquía de índice)
  • El modelo refleja un compromiso entre
    expresividad y eficiencia

19
Modelo de Browsing
  • Exploración de documentos
  • Tipos de browsing
  • flat se explora un espacio plano (ej. espacio de
    documentos como puntos en un espacio
    n-dimensional)
  • Guiado por estructura directorios que agrupan
    jerárquicamente documentos.
  • Hypertext es una estructura de navegación
    interactiva de alto nivel. Consiste de nodos los
    cuales están correlacionados por enlaces
    dirigidos en una estructura de grafo.
Write a Comment
User Comments (0)
About PowerShow.com