BUSCADORES - PowerPoint PPT Presentation

1 / 92
About This Presentation
Title:

BUSCADORES

Description:

El concepto de b squeda surge desde el principio de la computaci n ... transferirlo de un sitio a otro, visualizarlo, modificar el contenido, etc tera. ... – PowerPoint PPT presentation

Number of Views:1362
Avg rating:3.0/5.0
Slides: 93
Provided by: hostin7
Category:

less

Transcript and Presenter's Notes

Title: BUSCADORES


1
BUSCADORES
  • Dr. Felipe Rolando Menchaca García
  • CIC-IPN
  • fmenchac_at_ipn.mx

2
AGENDA
  • Concepto de Búsqueda
  • Evolución
  • Indexado e Índices
  • Metadatos
  • Búsqueda de texto
  • Indexado de sonidos o imágenes
  • Herramientas de Búsqueda - Arañas y Robots de
    Búsqueda
  • Técnicas de Búsqueda

3
BÚSQUEDA CONCEPTO
4
Origen del Concepto de Búsqueda
  • El concepto de búsqueda surge desde el principio
    de la computación
  • Junto con los sistemas de archivos y las bases de
    datos
  • La estructura de estos recursos se diseñó para
    facilitar la búsqueda y recuperación de
    información

Base de Datos
  • Son famosos algoritmos como los de búsqueda
    dicotómica y por funciones hash

5
Búsqueda
  • Así, el concepto de búsqueda está íntimamente
    ligado al de ordenamiento e indexado de la
    información
  • Se busca con base en el orden en que está
    estructurada la información.
  • Los índices o indexados son archivos ordenados
    ligados a los registros de la base de datos

6
Evolución
7
MANEJO DE BASES DE DATOS
  • Son cuatro las fases principales de operación de
    las bases de datos
  • La construcción mediante la inserción de los
    datos
  • El ordenamiento y/o indexado de los datos
  • La búsqueda y localización
  • La recuperación para consulta o modificación

8
Búsquedas Indexadas
  • La búsqueda y localización de información
    almacenada en bases de datos se hizo posible
    gracias a la estructura ordenada de la base de
    datos y a la indexación que permitió diversificar
    las formas de los ordenamientos y por lo tanto de
    las búsquedas.
  • En la primera fase de evolución de las bases de
    datos se trabajó en formas de estructuración que
    permitieran facilitar estas búsquedas. Así llego
    a convertirse en un estándar de facto el modelo
    relacional y el lenguaje SQL.

9
Búsqueda en Redes
  • Con la gran incidencia de Internet, en todos los
    ámbitos del quehacer de la humanidad. Las
    búsquedas de información en la red se han vuelto
    algo muy importante y cotidiano.

10
Búsquedas en Redes de Bibliotecas
  • Las redes de bibliotecas surgen de la
    modernización y automatización de las
    bibliotecas.
  • El software de bibliotecas como ISIS, OpenISIS,
    Aleph, SIABUC, etc., hizo que se popularizara el
    intercambio de información y el trabajo
    colaborativo entre las bibliotecas, con búsquedas
    de información en toda la red.
  • El estándar de interoperabilidad entre
    bibliotecas Z.39.50 permitió intercambiar
    registros y hacer búsquedas globales

11
Búsquedas en Internet
  • En Internet, buscamos información sobre un tema
    concreto y es difícil acceder a una página que la
    contenga, simplemente activando vínculos.
  • Como solución a este problema surgieron los
    buscadores, arañas y robots de búsqueda.
  • Un buscador es una servicio cuya oferta es la
    consulta a una base de datos, que guarda e
    interrelaciona direcciones de páginas Web con
    contenidos.

12
Búsquedas en Internet
  • Su uso facilita la obtención de un listado de
    páginas Web que contienen información sobre el
    tema que nos interesa, con ligas de hipertexto a
    las páginas Web, y a partir de dichas ligas se
    puede tener el acceso a la información.
  • Se trata de un indexado por tema, a las URLs de
    los sitios en donde se trata de alguna manera el
    tema o temas buscados

13
Antecedentes Históricos de los Buscadores de
Internet
  • El origen de los buscadores se remonta a abril de
    1994, cuando los universitarios norteamericanos
    (David Filo y Jerry Yang) crearon un menú de
    páginas clasificadas por temas, pensando en las
    necesidades de información que podrían tener sus
    compañeros de estudios.
  • Había nacido Yahoo!. El éxito fue muy grande.
  • Además del buscador, hoy Yahoo! ofrece muchos
    otros servicios.

14
TIPOS DE BUSCADORES
  • Los tres tipos principales de buscadores en
    Internet son
  • Índices de búsqueda,
  • Motores de búsqueda, y
  • Meta buscadores.

15
ÍNDICE DE BÚSQUEDA
  • En los índices de búsqueda, la base de datos de
    direcciones es construida por un equipo humano.
  • Es decir, un grupo de personas va rastreando la
    red en busca de páginas. Vistas éstas son
    clasificadas por categorías ó temas y
    subcategorías, en función de su contenido.
  • La base de datos de un índice de búsqueda
    contiene una lista de categorías y subcategorías
    relacionadas con un conjunto de direcciones de
    páginas Web que tratan esos temas.

16
ÍNDICE DE BÚSQUEDA
  • La consulta de un índice se realiza a través de
    categorías.
  • Por ejemplo, si buscamos información sobre el
    Museo de Historia Natural deberemos seleccionar
    una secuencia de categorías y subcategorías como
    la siguiente
  • Arte / museos /historia y probablemente dentro de
    ésa última subcategoría hay algún enlace que hace
    referencia al museo de Historia Natural.

17
MOTORES DE BÚSQUEDA
  • Los motores de búsqueda son posteriores a los
    índices.
  • El concepto es diferente en este caso, el
    rastreo de la Web lo hace un programa, llamado
    araña ó motor (de ahí viene el nombre del tipo de
    buscador).
  • Este programa va visitando las páginas y, a la
    vez, creando una base de datos en la que
    relaciona la dirección de la página con las 100
    primeras palabras que aparecen en ella.
  • El acceso a esta base de datos se hace por
    palabras clave la página del buscador ofrece un
    espacio para que escribamos la ó las palabras
    relacionadas con el tema que interesa, y como
    resultado devuelve un listado de páginas que
    contienen esas palabras clave.

18
MOTORES DE BÚSQUEDA
  • Como ejemplo, si utiliza un motor de búsqueda
    para localizar información sobre el Museo de
    Historia Natural, simplemente tendrá que escribir
    "Museo de Historia Natural" en el espacio de
    búsqueda y accionar el botón Buscar.
  • A continuación presentará el navegador una página
    con los resultados de la búsqueda un listado con
    enlaces a las páginas solicitadas. Un buen
    ejemplo de motor de búsqueda es Google.

19
METABUSCADORES
  • Los meta buscadores son servicios Web en los que
    se nos ofrece una búsqueda sin que haya una base
    de datos propia detrás utilizan las bases de
    datos de varios buscadores ajenos para
    entregarnos los resultados.
  • Ofrecen detalles de las respuestas de cada uno de
    los buscadores, o el listado completo de
    coincidencias.
  • Pueden ser útiles cuando no se ha tenido suerte
    en la búsqueda en otros servicios, para buscar
    por una materia poco común, o para realizar
    búsquedas exhaustivas.

20
Agrupación Temática de la Información
  • Los buscadores y meta buscadores agrupan la
    información de manera temática,
  • Tratan de colocar los conceptos más importantes
    por áreas próximas, desde los más generales a los
    más particulares.
  • Los meta buscadores permiten diferentes
    combinaciones de búsquedas pero no siempre
    garantizan que los resultados obtenidos sean
    mejores que usando un buscador único.

21
INDEXADO E ÍNDICES
22
Ordenamiento
Base de Datos
  • La primera opción para lograr búsquedas
    eficientes es mantener ordenados los registros
    que pertenecen a una base de datos
  • Las bases de datos relacionales manejan datos que
    pueden ser ordenados Textos, números enteros,
    números racionales, fechas y valores lógicos
    (cierto, falso)
  • Estos se organizan en tablas

Tabla ordenada
23
INDEXADO
  • Cuando se requiere ordenar los datos en varias
    formas se recurre a los indexados
  • Estos son otras tablas ordenadas que se
    interrelacionan con los registros de la tabla o
    conjunto de registros original. Los registros del
    archivo de indexado apuntan a los registros
    correspondientes de la Tabla de datos

Indexado
24
ÍNDICES
  • Los índices de Internet son bases de datos que
    indexan o apuntan a las páginas Web en donde se
    mencionan determinadas palabras clave
  • Aunque las páginas en la Red no están ordenadas,
    los índices registran los contenidos de las
    páginas en forma ordenada y apuntan a dichas
    páginas, de manera que se puede navegar sobre las
    páginas, con base en la información de los
    índices.

25
Motores de Búsqueda
  • Las bases de datos creadas por motores de
    búsqueda, robots y arañas como las de Google,
    también indexan las páginas Web ubicadas en la
    red. Sin embargo, la búsqueda no se realiza de
    manera manual a través de los índices, sino
    buscando en la base de datos generada por el
    motor.

26
METADATOS
27
CONCEPTO
  • Los metadatos representan información que
    describe los documentos.
  • Permiten a los usuarios identificar si el
    documento es útil para ellos y localizarlo
    eficientemente.
  • El precursor de los metadatos es la tarjeta de
    catálogo.
  • En una biblioteca para cada elemento, hay tres
    entradas básicas en la tarjeta del catálogo
    título, autor y tema.
  • La tarjeta, indica además la ubicación del
    elemento en la biblioteca, y proporciona
    información adicional sobre él, tal como el
    editor, formato, género, fecha de publicación y
    número de volúmenes.

28
Utilidad de los Metadatos
  • La tarjeta sirve como un registro de la base de
    datos de la biblioteca
  • Los metadatos van un paso más adelante, son parte
    del archivo electrónico del documento y
    permanecen con él, sin importar que el archivo se
    mueva o reubique. Es como si cada documento
    llevara pegada su tarjeta de identificación y
    organización
  • Su uso ha sido recomendado con alta prioridad por
    el W3C (World Wide Web Consortium) para
    mejorar la accesibilidad de la Web.

29
Datos y Metadatos
Título
  • Los metadatos son datos que describen el
    contenido del objeto de información
  • El objeto de información es un paquete integral
    que contiene la información y datos de encabezado
    (metadatos) que permiten ubicar al objeto y
    manipularlo almacenarlo, localizarlo,
    transferirlo de un sitio a otro, visualizarlo,
    modificar el contenido, etcétera.

Fecha
Keywords
Metadatos
Autor
RESUMEN
30
Importancia de los Metadatos
  • Cuando los robots o arañas de buscadores como
    Google o Altavista visitan un servidor, lo
    primero que leen son estas etiquetas, mientras
    más preciso y verídico sea su contenido con
    respecto al documento en sí, éste obtiene una
    mejor evaluación en los motores de búsqueda y se
    torna más fácil de encontrar.
  • Cuando trabajamos con imágenes, sonidos y otros
    contenidos multimedia los metadatos son
    fundamentales para localizarlos

31
Metadatos Estándar
  • Por la importancia que tienen estos recursos, en
    este Diplomado se dedica una Sección a su estudio
    específico.
  • Son importantes los metadatos recomendados en los
    estándares de bibliotecas y repositorios
  • Particularmente MARC21, Dublin Core y SCORM
  • En la Sección de metadatos haremos una
    comparación de estos estándares y describiremos
    con detalle su estructura

32
Búsquedas de Textos
33
Búsqueda de Textos
  • Las primeras aplicaciones de búsqueda de textos
    se presentaron en los procesadores de textos y
    editores
  • Estas aplicaciones básicamente consistían en una
    búsqueda secuencial de la cadena de textos, a
    través de todo el archivo
  • El programa se detiene cuando localiza una
    instancia de la cadena buscada

El archivo de texto puede decirse que es una gran
cadena de caracteres que termina con el carácter
de fin de archivo .
cadena
cadena
cadena
Cadena localizada
34
Búsqueda de Textos
  • La búsqueda secuencial de textos en un conjunto
    de archivos o en Internet sería demasiado
    engorrosa e improductiva
  • Por eso razón se buscaron técnicas de búsqueda
    más efectivas
  • La primera opción fue el uso de palabras clave,
    mediante las cuales se crearon directorios de
    indexado a las páginas en donde se localizan
    tales textos
  • Todo el trabajo de búsqueda en la red está basado
    en la localización de textos.

35
Ejemplo de Consulta en Internet
  • Ejemplo de consulta
  • Encontrar las páginas que contengan información
    sobre equipos de trabajo de desarrollo de
    software que se enfrentan en contiendas
    nacionales y cuenten con alguna subvención de
    algún tipo. La página debe contener información
    sobre el ranking nacional del equipo en los
    últimos 3 años y la dirección de e-mail o el
    teléfono del entrenador.
  • La dificultad está en construir la consulta para
    que la entienda el Sistema de Recuperación de
    Información.

36
Técnica de Recuperación de Información
  • Data retrieval
  • No resuelve el problema. Sólo devuelve datos
    sobre un tema. Es estructurado y nada ambiguo en
    cuanto a las consultas.
  • Information retrieval (RI)
  • . Debe interpretar los contenidos de los
    documentos y hacer un ranking de las respuestas.
    La consulta no es estructurada y es ambigua. La
    relevancia es el principal punto de interés.

37
Técnica de Recuperación de Información
  • RI Es tema específico de bibliotecarios y
    especialistas ???
  • Puntos originales de interés indexación y
    búsquedas
  • Temas de Investigación actual modelización,
    clasificación, arquitectura de sistemas,
    interfaces de usuario, visualización de datos,
    filtraje, lenguajes, etc.
  • Desde los años 1990 se expande el interés debido
    al nacimiento del World Wide Web.

38
Recuperación de Información en Internet (RI)
  • Respecto al Web
  • Es la BD Documental más grande del mundo
  • Presenta problemas
  • Nadie se hace responsable de los contenidos
  • No es fácil buscar ni indexar
  • No hay herramientas de soporte perfectas
  • No se usa un lenguaje útil para las máquinas
  • ...

39
Recuperación de Información en Internet (RI)
  • Se basa en la utilización de términos índice para
    indexar y recuperar documentos.
  • Indexar un documento consiste en representar su
    contenido por un conjunto de términos índices que
    lo representan.
  • Recuperar significa especificar un conjunto de
    términos que deben hallarse entre los índices de
    un documento, estableciendo un ranking de
    relevancia.

40
Recuperación de Información en Internet (RI)
  • El problema de Recuperación de Información es, la
    manera de predecir la relevancia de los
    documentos y su ranking.
  • Las distintas premisas utilizadas en el cálculo
    de la relevancia darán lugar a distintos
    modelos de trabajo o de Recuperación de
    Información.

41
Recuperación de Información en Internet (RI)
  • Un modelo de RI se define como
  • Es una cuádrupla D,Q,F,R(qi,dj), con
  • D es un conjunto de representaciones de
    documentos
  • Q es un conjunto de representaciones de
    necesidades de información de los usuarios
  • F es un marco de modelado de documentos,
    consultas y sus relaciones
  • R(qi,dj) es una función de ranking que asocia un
    número real con una consulta y un documento. El
    ranking define el orden en el que el documento
    satisface la consulta.

42
Indexado de sonidos o imágenes
43
Indexado de sonidos e imágenes
  • Se han realizado grandes esfuerzos de
    investigación para inventar fórmulas de
    ordenamiento e indexado de señales de información
    tipo, voz, música, rostro, iris, huella digital,
    persona, cosas.
  • Sin embargo, la herramienta de ordenamiento y
    búsqueda hoy en día sigue siendo el texto

44
Herramientas de Búsqueda
Índices, Arañas y Robots de Búsqueda
45
Clasificación de Buscadores
  • Índices temáticos
  • Motores de búsqueda

46
Tipos de Índices
  • Índices Temáticos
  • Índices de clave primaria
  • Índices ordinarios
  • Índices de texto completo
  • Índices compuestos
  • Índices de parte de campos

47
Índices temáticos
  • Son sistemas de búsqueda por temas o categorías
    jerarquizados (aunque también suelen incluir
    sistemas de búsqueda por palabras clave). Se
    trata de bases de datos de direcciones Web
    elaboradas "manualmente", es decir, hay personas
    que se encargan de asignar cada página web a una
    categoría o tema determinado.

48
Índices de llave primaria
  • Una llave primaria es un índice sobre uno o más
    campos donde cada valor es único y ninguno de los
    valores es NULL

49
Índices ordinarios
  • Un índice que no es primario permite valores
    duplicados (a menos que los campos hayan sido
    especificados como UNIQUE).

50
Índices de texto completo
  • Los índices de texto completo son del tipo
    FULLTEXT, se usan en tablas del tipo MyISAM, y
    pueden contener uno o más campos del tipo CHAR,
    VARCHAR y TEXT. Un índice de texto completo está
    diseñado para facilitar y optimizar la búsqueda
    de palabras clave en tablas que tienen grandes
    cantidades de información en campos de texto

51
Índices únicos
  • Los índices únicos son básicamente como los
    índices ordinarios, excepto que los valores
    duplicados no son permitidos.

52
Índices compuestos
  • Los índices compuestos son aquellos que están
    basados en múltiples columnas. Algunos gestores
    de BD como MySQL únicamente usan un índice por
    tabla cuando están procesando una consulta. Esto
    significa que si tenemos varias columnas que
    frecuentemente aparecen juntas en una cláusula
    WHERE, tenemos la oportunidad de acelerar estas
    consultas al crear un índice compuesto.
  • Si una tabla tiene un índice formado por
    múltiples columnas, cualquier prefijo más a la
    izquierda puede ser usado por el optimizador de
    consultas de MySQL para encontrar las filas. Por
    ejemplo, si tenemos un índice compuesto por tres
    columnas (col1, col2, col3), tendríamos
    capacidades de búsqueda en (col1), (col1, col2) y
    (col1, col2, col3).

53
Índices de parte de campos
  • Para los atributos tipo CHAR y VARCHAR se nos
    permite crear un índice que no use el campo por
    completo.
  • A pesar de que el nombre de una persona puede ser
    de hasta 50 caracteres, es muy común que los
    nombres de las personas sean diferentes en los
    primeros 10 caracteres.
  • Al usar un índice de 10 caracteres en lugar de
    50, el índice será más pequeño, y permitirá que
    las consultas INSERT y UPDATE sean más rápidas, a
    la vez que no se afecta la velocidad de las
    consultas SELECT

54
Motores de Búsqueda
  • Un motor de búsqueda es un sistema informático
    que indexa archivos almacenados en servidores
    web. Los buscadores de internet son un ejemplo.
    Las búsquedas se hacen con palabras clave o con
    árboles jerárquicos por temas el resultado de la
    búsqueda es un listado de direcciones Web en los
    que se mencionan temas relacionados con las
    palabras clave buscadas.

55
Motores de búsqueda
  • Son sistemas de búsqueda por palabras clave. Son
    bases de datos que incorporan automáticamente
    páginas web mediante arañas o "robots" de
    búsqueda en la red.
  • Como operan en forma automática, los motores de
    búsqueda contienen generalmente más información
    que los directorios. Sin embargo, estos últimos
    también han de construirse a partir de búsquedas
    (no automatizadas) o bien a partir de avisos
    dados por los creadores de páginas (lo cual puede
    ser muy limitativo). Los buenos directorios
    combinan ambos sistemas.

56
ARAÑAS Y ROBOTS
  • Basándose en la automatización del proceso, el
    poder de los equipos de cómputo y el del capital,
    surgió la tecnología de arañas.
  • Esta consiste en que se registra todo el texto
    HTML de las páginas de los servidores de los
    buscadores.
  • Una copia sin imágenes, en formato comprimido.
  • Sobre esta, se realiza una indexación previa
    para ahorrar tiempo en las búsquedas.
  • Y una red de cada día mas equipos conectados
    entre sí, realizan las operaciones de búsqueda
    sobre los datos almacenados.
  • Esos resultados son mostrados al visitante una
    vez recopilados y determinados.

57
Funcionamiento de Arañas y Robots
  • Al proceso de seguir los enlaces se le denomina
    navegación, recolección. o spidering.
  • Los robots arañas no pueden indexar documentos
    que no sean del tipo enlace (URL), ignoran todos
    los archivos que se encuentren en el directorio
    del servidor Web.
  • Los webmasters pueden controlar que los
    directorios del robot puedan indexar, mediante la
    configuración del archivo robots.txt, y los
    creadores de páginas Web pueden controlar el
    comportamiento del indexado usando las etiquetas
    de Robots META

58
Tipos de Robots
  • Araña (Spider)
  • Es un robot, pero otorga resultados más fríos.
  • Gusano (Worm)
  • Es lo mismo que un robot, aunque técnicamente un
    gusano es una réplica de un programa, a
    diferencia de un robot que es un programa
    original.
  • Orugas (Web crawler)
  • Es lo mismo que un robot, pero es un tipo
    específico de robot.
  • Hormigas (WebAnts)
  • Cooperativa de robots

59
PROCESO DE BÚSQUEDA DE LOS ARAÑAS
  • Recorren las páginas recopilando información
    sobre los contenidos de las páginas.
    Principalmente el texto que en ellas aparece.
    Cuando buscamos una información en los motores,
    ellos consultan su base de datos, con la
    información que han recogido de las páginas, y
    nos la presentan clasificados por su relevancia.
    De las Web, los buscadores pueden almacenar desde
    la página de entrada, a todas las páginas de la
    Web. Depende de los gustos del buscador y la
    consideración de importancia que tenga la Web
    para ellos.
  • Si buscamos una palabra, por ejemplo ordenador.
    En los resultados que nos entregará el motor de
    búsqueda, aparecerán páginas que contengan esta
    palabra en alguna parte de su texto.

60
PROCESO DE BÚSQUEDA DE LOS ARAÑAS
  • Si consideran que una Web es importante para el
    usuario, tienden a registrarla toda. Si no la
    consideran importante, solo almacenan una o más
    páginas. Aunque no necesariamente registran todas
    las Web que lo soliciten.
  • Cada cierto tiempo, los motores revisan las Web,
    para actualizar los contenidos de su base de
    datos, por lo que no es infrecuente, que los
    resultados de la búsqueda no estén actualizados,
    de forma que la información o la página no
    exista.
  • Las arañas, tienen una colección de programas
    simples y potentes con diferentes cometidos. Se
    suelen dividir en tres partes. Los programas que
    exploran la red -arañas-. Los que construyen la
    base de datos. Y los que utiliza el usuario, el
    programa que explora la base de datos.

61
PROCESO DE BÚSQUEDA DE LOS ARAÑAS
  • La relevancia u orden de presentación de los
    resultados de la consulta, viene determinada por
    diversos factores que dependen de cada buscador,
    algunos son el tráfico, puede ser un factor de
    relevancia el tipo de Web, y la información que
    contienen las páginas son otros factores
    importantes, debido al análisis que realizan del
    contexto.
  • Otro factor para la relevancia, común a muchos
    buscadores y sitios de Internet, es si la
    empresa que publicó cierta página pagó para tener
    una mayor visibilidad en los resultados de la
    búsqueda. Es decir si les pagan les dan un bono
    que permitirá que sus páginas aparezcan en las
    primeras páginas de resultados. Las arañas se han
    visto obligados a este tipo de publicidad para
    poder seguir ofreciendo a los usuarios el
    servicio de forma gratuita.

62
Técnicas de Búsqueda
63
Recuperación de Información
  • Algunos modelos clásicos
  • Booleano (set theoretic)
  • Vectorial (algebraico)
  • Probabilístico (teoría de la probabilidad)
  • Listas no traslapadas (Tesauros)
  • Nodos próximos

Contenido
Estructura
64
Modelos de RI
Taxonomía de los modelos de RI
TEORIA DE CONJUNTOS Conjuntos difusos
Booleano extendido
MODELOS CLASICOS Booleano Espacios
Vectoriales Probabilístico
ALGEBRAICO Vector generalizado Latent
Semantic Indexing Redes Neuronales
Recuperación Búsqueda retrospectiva DSI
ACCIONES DEL USUARIO
MODELOS ESTRUCTURADOS Listas no solapadas
Nodos próximos
PROBABILISTICO Redes de inferencia Redes
de confianza
Navegación
NAVEGACION Plana Guía estructurada
Hipertexto
65
Modelos clásicos
  • Los documentos se describen a través de un
    conjunto de términos representativos llamados
    índices o términos índice.
  • Los índices son nombres o conceptos
    fundamentales, y se usan en menor medida verbos,
    adjetivos, adverbios, ...
  • Sin embargo, se pueden considerar todos los
    términos como importantes en una aproximación
    llamada texto completo.

66
Modelos clásicos
  • No todos los términos son igualmente importantes.
  • Ej. Un término que aparece en todos los
    documentos (ejemplo un artículo como el, los
    ,las) de la colección es menos importante que
    otro que aparece sólo en algunos, puesto que
    ayuda a discernir.
  • El proceso de decidir la importancia de un
    término se puede realizar a través de la
    asignación de ponderaciones
  • Para ki (término), dj (documento), wij ? 0 es la
    ponderación asociada al término contenido en el
    documento.

67
Modelos clásicos (Ponderaciones relativas)
  • Si t es el número de términos índice en el
    sistema, y ki un término índice genérico.
    Kk1,...,kt es el conjunto de índices.
  • Se asocia una ponderación wijgt0 a cada término
    ki del documento dj.
  • Para un término que no aparece en el documento,
    wij0.
  • Con cada documento dj hay asociado un vector de
    índices dj(w1j,w2j,...,wtj).
  • Además, definimos una función gi que devuelve la
    ponderación asociada con índice ki en un vector
    t-dimensional gi(dj)wij.
  • Los pesos de los términos son mutuamente
    independientes, esto es, sabiendo el peso wij, no
    podemos saber nada a priori del peso wi1j.

68
Modelo Booleano
  • Es el Modelo clásico basado en la teoría de
    conjuntos y el álgebra de Boole.
  • Es el modelo más simple.
  • Los documentos se representan por el conjunto de
    términos significativos contenidos en ellos.
  • Las consultas se expresan como expresiones
    booleanas con una semántica clara y concreta.

69
Modelo Booleano
  • Para el modelo booleano, las ponderaciones de los
    términos son binarios (wij ? 0,1). Una consulta
    es una expresión lógica convencional. Si q es una
    consulta en forma normal, y qcc alguno de los
    componentes de esta q, la similitud de un
    documento dj con la consulta q se define
    como 1 si ? qcc (qcc ? q ) ? (?ki, gi(dj)
    gi(qcc)) sim(dj,q) 0 en otro casoSi
    sim(dj,q)1, entonces el documento se predice
    como relevante. En cualquier otro caso, el
    documento no es relevante.


70
Modelo Booleano
  • Ejemplo
  • dj (0,1,0)
  • q ka ? ( kb ? ?kc )
  • No hay respuesta parcial (1 ó 0)
  • Resultado sim(dj,q)0

71
Modelo Vectorial
  • Asume que el uso de ponderaciones binarias es
    limitativo y propone un marco con posibilidad de
    medir relevancia parcial.
  • Se asignan ponderaciones no binarias a los
    términos que se encuentran en los documentos
  • Se pretende calcular el grado de similitud entre
    documentos y consultas de forma gradual, y no
    binaria.
  • El resultado será un conjunto de documentos
    respuesta a una consulta, ordenados de acuerdo al
    ranking de relevancia.

72
Modelo Vectorial
  • En el modelo vectorial, el peso wij que se asocia
    a un par (ki,dj) es positivo y no binario.
  • Los términos de una consulta se someten a los
    mismos pesos, de modo que wiq ? 0 es el peso
    asociado al par ki,q. El vector q se define
    como q(w1q, w2q,..., wtq) siendo t el número
    total de términos indexados en el sistema. De
    igual forma, el vector documento se representa
    por dj(w1j,w2j,...,wtj)
  • Por lo tanto, un documento y una consulta se
    representan como vectores t-dimensionales (siendo
    t el número de términos indexados en la colección
    de documentos).

73
Modelo Vectorial
  • La similitud entre documentos y consultas se
    evalúa a través de la correlación de los vectores
    que los representan, q y dj.
  • La correlación se puede definir a través del
    coseno del ángulo entre los vectores

74
Modelo Vectorial
  • La norma del vector consulta no afecta al ranking
    porque es igual para todos los documentos, cosa
    que no pasa con la norma del vector documento
  • La similitud varía entre 0 y 1 puesto que así lo
    hacen los pesos de los términos de los vectores

75
Modelo Vectorial
  • En lugar de predecir este modelo, si un documento
    es o no relevante, proporciona un grado de
    relevancia
  • Un documento puede ser seleccionado si cumple
    sólo con una coincidencia parcial
  • Se establece un umbral de relevancia para decidir
    cuando mostrar o no un documento
  • El problema para calcular la relevancia
    consistirá en la forma de asignar las
    ponderaciones

76
Modelo Vectorial - Problema de clustering
  • Para definir que documentos son relevantes y que
    documentos no lo son. Se pueden usar dos medidas
  • Similitud intra-cluster. Se puede utilizar como
    medida, la frecuencia de términos (ft)
  • Diferencia inter-cluster. Se puede utilizar como
    medida, la frecuencia de documento inversa (fdi)
  • Estas medidas (ft, fdi) se pueden aplicar para el
    cálculo de las ponderaciones de los términos.

77
Modelo Vectorial
  • Sea N el total de documentos de una colección, y
    ni los documentos en los que aparece el término
    ki. La frecuencia del término ki contenido en el
    documento dj la denotamos por frecij. La
    frecuencia normalizada del término ki contenido
    en el documento dj es f. Se obtiene el máximo
    sobre los términos del documento. La frecuencia
    de documento inversa será fdi.La ponderación
    del término en documentos y consultas se calcula
    con estas fórmulas empíricas

frecij
frecj
fdii
freciq
frecq
78
Modelo Vectorial
  • Las principales ventajas del modelo son
  • Se mejora el rendimiento con las fórmulas de
    obtención de ponderaciones.
  • Se pueden recuperar documentos que se aproximan
    a la consulta.
  • La fórmula del coseno proporciona, además, un
    ranking sobre la respuesta.
  • La principal desventaja es que considera los
    términos como independientes, lo que puede causar
    bajo rendimiento (en teoría).

79
Modelo Vectorial
  • El Modelo es muy elástico como estrategia de
    ranking en colecciones generales.
  • En comparación con otros modelos, es superior o
    igual en rendimiento.
  • Es simple y rápido.
  • Hoy en día, es uno de los más utilizados.

80
Modelo Probabilístico
  • La idea de este modelo es dada una consulta,
    existe exactamente un conjunto de documentos, y
    no otro, que satisface dicha consulta. Este
    conjunto es el conjunto ideal.
  • Por tanto, el problema de la Recuperación de
    Información consiste en el proceso de especificar
    las propiedades del conjunto ideal.

81
Modelo Probabilístico
  • El problema es que no conocemos exactamente las
    propiedades del conjunto ideal.
  • Debemos realizar una suposición inicial sobre
    estas propiedades para tratar de refinarlas
    consulta tras consulta.
  • Tras cada consulta, el usuario determina los
    documentos que son relevantes, con lo que se
    puede refinar la descripción del conjunto ideal.

82
Modelo Probabilístico
  • Principio de probabilidad. Dada una consulta q y
    un documento dj, el modelo probabilístico trata
    de determinar la probabilidad de que el usuario
    encuentre el documento relevante. El modelo asume
    que esta probabilidad de relevancia depende sólo
    de las representaciones del documento y de la
    consulta. El modelo también asume que hay un
    subconjunto de todos los documentos que el
    usuario prefiere como respuesta a su consulta. A
    este conjunto se le llama conjunto de respuesta
    ideal, y lo denotaremos por R. El conjunto R debe
    maximizar la probabilidad global de relevancia
    para el usuario. Los documentos que no
    pertenezcan al conjunto son considerados como no
    relevantes para el usuario.

83
Modelo Probabilístico
  • Para el modelo probabilístico, las ponderaciones
    de los términos índice son binarios (wij ? 0,1,
    wiq ? 0,1). Una consulta q es un subconjunto de
    términos índice. Sea R el conjunto de documentos
    conocidos (o inicialmente supuestos) como
    relevantes. Sea R el complemento de R. Sea
    P(Rdj) la probabilidad de que el documento dj
    sea relevante a la consulta q y P(Rdj) la
    probabilidad de que dj no sea relevante a q.
    Entonces, la similitud del documento con la
    consulta se define como

84
Modelo Probabilístico
  • P(Rdj) es la probabilidad de que dado un
    documento seleccionado, este sea relevante para
    el usuario
  • P(dj R) es la probabilidad de seleccionar
    aleatoriamente el documento dj de entre los
    relevantes
  • P(R) es la probabilidad de que seleccionando
    algún documento de la colección aleatoriamente,
    sea relevante
  • P(dj) es la probabilidad de obtener el documento
    dj aleatoriamente seleccionando uno de entre toda
    la colección
  • P(Rdj), P(dj R), P(R) son los análogos,
    aplicados a la no relevancia
  • Ahora es fácil calcular el cociente con las
    probabilidades de que dados los términos
    contenidos en el documento este sea incluido o no
    estén en el conjunto de documentos relevantes o
    no relevantes, según el caso

85
Modelo Probabilístico
  • Un documento será relevante siP(Rdj) gt
    P(Rdj)oP(djR) gt P(djR)

86
Modelo Probabilístico - Dificultades
  • No podemos calcular exactamente las
    probabilidades, y tenemos que hacer estimaciones
  • La relevancia de cada documento es independiente
    de la relevancia de otros

87
Modelo Probabilístico
  • Ventajas
  • Los documentos se presentan en orden decreciente
    de probabilidad de relevancia
  • Inconvenientes
  • Hay que hacer una separación inicial de
    documentos en relevantes y no relevantes
  • Es binario (no se consideran frecuencias de
    aparición de términos en los documentos)
  • Se asume la independencia de términos

88
Comparación de los Modelos Clásicos
  • El modelo booleano es el más flojo de todos los
    clásicos. No permite relevancias parciales y
    presenta problemas de rendimiento.
  • El modelo vectorial ofrece mejores resultados que
    el probabilístico, pero para colecciones
    generales.

89
Modelos avanzados
  • Conjuntos Difusos
  • Booleano Extendido
  • Espacio Vectorial Generalizado
  • Indexado Semántico Latente
  • Redes Neuronales
  • Redes de inferencia (inference networks)
  • Redes de confianza (belief networks)

90
Infografía
91
Infografía
  • Arturo Montejo Raez. Proyecto de indexado
    automático para documentos en el campo de la
    Física de Altas Energías. http//www.sepln.org/re
    vistaSEPLN/revista/27/27-proyecto3.pdfsearch22i
    ndexado20de20textos22
  • Fidel Cacheda. Sistemas de Búsqueda en la Web.
    http//www.tic.udc.es/fidel/docs/teaching/doctora
    do/IR20420-20Sistemas20de20Busqueda20en20la
    20Web.pdfsearch22indexado20de20textos20ppt
    22
  • Fidel Cacheda.Introducción a las Técnicas de
    Búsqueda. http//www.tic.udc.es/fidel/docs/teach
    ing/doctorado/IR20120-20Introduccion20Tecnicas
    20Busqueda.pdfsearch22indexado20de20textos2
    0ppt22
  • R. Baeza-Yates y B. Ribeiro-Neto. Modern
    Information Retrieval. Addison-Wesley, 1999.
  • K. van Rijsbergen. Information Retrieval.
    http//www.tic.udc.es/fidel/docs/teaching/doctora
    do/IR20120-20Introduccion20Tecnicas20Busqueda
    .pdfsearch22indexado20de20textos20ppt22

92
  • Ramón Vicente Cirilo Gimeno. Sistemas de Gestión
    Documental. http//www.uv.es/rvcirilo/SGD/
  • Information Retrieval. Data structures and
    algorithms. William B. Frakes, Ricardo
    Baeza-Yates. Prentice-Hall, 1992.
  • Wikipedia. Motor de búsqueda.
    http//es.wikipedia.org/wiki/Motor_de_bC3BAsqued
    a
Write a Comment
User Comments (0)
About PowerShow.com