Title: BUSCADORES
1BUSCADORES
- Dr. Felipe Rolando Menchaca García
- CIC-IPN
- fmenchac_at_ipn.mx
2AGENDA
- Concepto de Búsqueda
- Evolución
- Indexado e Índices
- Metadatos
- Búsqueda de texto
- Indexado de sonidos o imágenes
- Herramientas de Búsqueda - Arañas y Robots de
Búsqueda - Técnicas de Búsqueda
3BÚSQUEDA CONCEPTO
4Origen del Concepto de Búsqueda
- El concepto de búsqueda surge desde el principio
de la computación - Junto con los sistemas de archivos y las bases de
datos - La estructura de estos recursos se diseñó para
facilitar la búsqueda y recuperación de
información
Base de Datos
- Son famosos algoritmos como los de búsqueda
dicotómica y por funciones hash
5Búsqueda
- Así, el concepto de búsqueda está íntimamente
ligado al de ordenamiento e indexado de la
información - Se busca con base en el orden en que está
estructurada la información. - Los índices o indexados son archivos ordenados
ligados a los registros de la base de datos
6Evolución
7MANEJO DE BASES DE DATOS
- Son cuatro las fases principales de operación de
las bases de datos - La construcción mediante la inserción de los
datos - El ordenamiento y/o indexado de los datos
- La búsqueda y localización
- La recuperación para consulta o modificación
8Búsquedas Indexadas
- La búsqueda y localización de información
almacenada en bases de datos se hizo posible
gracias a la estructura ordenada de la base de
datos y a la indexación que permitió diversificar
las formas de los ordenamientos y por lo tanto de
las búsquedas. - En la primera fase de evolución de las bases de
datos se trabajó en formas de estructuración que
permitieran facilitar estas búsquedas. Así llego
a convertirse en un estándar de facto el modelo
relacional y el lenguaje SQL.
9Búsqueda en Redes
- Con la gran incidencia de Internet, en todos los
ámbitos del quehacer de la humanidad. Las
búsquedas de información en la red se han vuelto
algo muy importante y cotidiano.
10Búsquedas en Redes de Bibliotecas
- Las redes de bibliotecas surgen de la
modernización y automatización de las
bibliotecas. - El software de bibliotecas como ISIS, OpenISIS,
Aleph, SIABUC, etc., hizo que se popularizara el
intercambio de información y el trabajo
colaborativo entre las bibliotecas, con búsquedas
de información en toda la red. - El estándar de interoperabilidad entre
bibliotecas Z.39.50 permitió intercambiar
registros y hacer búsquedas globales
11Búsquedas en Internet
- En Internet, buscamos información sobre un tema
concreto y es difícil acceder a una página que la
contenga, simplemente activando vínculos. - Como solución a este problema surgieron los
buscadores, arañas y robots de búsqueda. - Un buscador es una servicio cuya oferta es la
consulta a una base de datos, que guarda e
interrelaciona direcciones de páginas Web con
contenidos.
12Búsquedas en Internet
- Su uso facilita la obtención de un listado de
páginas Web que contienen información sobre el
tema que nos interesa, con ligas de hipertexto a
las páginas Web, y a partir de dichas ligas se
puede tener el acceso a la información. - Se trata de un indexado por tema, a las URLs de
los sitios en donde se trata de alguna manera el
tema o temas buscados
13Antecedentes Históricos de los Buscadores de
Internet
- El origen de los buscadores se remonta a abril de
1994, cuando los universitarios norteamericanos
(David Filo y Jerry Yang) crearon un menú de
páginas clasificadas por temas, pensando en las
necesidades de información que podrían tener sus
compañeros de estudios. - Había nacido Yahoo!. El éxito fue muy grande.
- Además del buscador, hoy Yahoo! ofrece muchos
otros servicios.
14TIPOS DE BUSCADORES
- Los tres tipos principales de buscadores en
Internet son - Índices de búsqueda,
- Motores de búsqueda, y
- Meta buscadores.
15ÍNDICE DE BÚSQUEDA
- En los índices de búsqueda, la base de datos de
direcciones es construida por un equipo humano. - Es decir, un grupo de personas va rastreando la
red en busca de páginas. Vistas éstas son
clasificadas por categorías ó temas y
subcategorías, en función de su contenido. - La base de datos de un índice de búsqueda
contiene una lista de categorías y subcategorías
relacionadas con un conjunto de direcciones de
páginas Web que tratan esos temas.
16ÍNDICE DE BÚSQUEDA
- La consulta de un índice se realiza a través de
categorías. - Por ejemplo, si buscamos información sobre el
Museo de Historia Natural deberemos seleccionar
una secuencia de categorías y subcategorías como
la siguiente - Arte / museos /historia y probablemente dentro de
ésa última subcategoría hay algún enlace que hace
referencia al museo de Historia Natural.
17MOTORES DE BÚSQUEDA
- Los motores de búsqueda son posteriores a los
índices. - El concepto es diferente en este caso, el
rastreo de la Web lo hace un programa, llamado
araña ó motor (de ahí viene el nombre del tipo de
buscador). - Este programa va visitando las páginas y, a la
vez, creando una base de datos en la que
relaciona la dirección de la página con las 100
primeras palabras que aparecen en ella. - El acceso a esta base de datos se hace por
palabras clave la página del buscador ofrece un
espacio para que escribamos la ó las palabras
relacionadas con el tema que interesa, y como
resultado devuelve un listado de páginas que
contienen esas palabras clave.
18MOTORES DE BÚSQUEDA
- Como ejemplo, si utiliza un motor de búsqueda
para localizar información sobre el Museo de
Historia Natural, simplemente tendrá que escribir
"Museo de Historia Natural" en el espacio de
búsqueda y accionar el botón Buscar. - A continuación presentará el navegador una página
con los resultados de la búsqueda un listado con
enlaces a las páginas solicitadas. Un buen
ejemplo de motor de búsqueda es Google.
19METABUSCADORES
- Los meta buscadores son servicios Web en los que
se nos ofrece una búsqueda sin que haya una base
de datos propia detrás utilizan las bases de
datos de varios buscadores ajenos para
entregarnos los resultados. - Ofrecen detalles de las respuestas de cada uno de
los buscadores, o el listado completo de
coincidencias. - Pueden ser útiles cuando no se ha tenido suerte
en la búsqueda en otros servicios, para buscar
por una materia poco común, o para realizar
búsquedas exhaustivas.
20Agrupación Temática de la Información
- Los buscadores y meta buscadores agrupan la
información de manera temática, - Tratan de colocar los conceptos más importantes
por áreas próximas, desde los más generales a los
más particulares. - Los meta buscadores permiten diferentes
combinaciones de búsquedas pero no siempre
garantizan que los resultados obtenidos sean
mejores que usando un buscador único.
21INDEXADO E ÍNDICES
22Ordenamiento
Base de Datos
- La primera opción para lograr búsquedas
eficientes es mantener ordenados los registros
que pertenecen a una base de datos - Las bases de datos relacionales manejan datos que
pueden ser ordenados Textos, números enteros,
números racionales, fechas y valores lógicos
(cierto, falso) - Estos se organizan en tablas
Tabla ordenada
23INDEXADO
- Cuando se requiere ordenar los datos en varias
formas se recurre a los indexados - Estos son otras tablas ordenadas que se
interrelacionan con los registros de la tabla o
conjunto de registros original. Los registros del
archivo de indexado apuntan a los registros
correspondientes de la Tabla de datos
Indexado
24ÍNDICES
- Los índices de Internet son bases de datos que
indexan o apuntan a las páginas Web en donde se
mencionan determinadas palabras clave - Aunque las páginas en la Red no están ordenadas,
los índices registran los contenidos de las
páginas en forma ordenada y apuntan a dichas
páginas, de manera que se puede navegar sobre las
páginas, con base en la información de los
índices.
25Motores de Búsqueda
- Las bases de datos creadas por motores de
búsqueda, robots y arañas como las de Google,
también indexan las páginas Web ubicadas en la
red. Sin embargo, la búsqueda no se realiza de
manera manual a través de los índices, sino
buscando en la base de datos generada por el
motor.
26METADATOS
27CONCEPTO
- Los metadatos representan información que
describe los documentos. - Permiten a los usuarios identificar si el
documento es útil para ellos y localizarlo
eficientemente. - El precursor de los metadatos es la tarjeta de
catálogo. - En una biblioteca para cada elemento, hay tres
entradas básicas en la tarjeta del catálogo
título, autor y tema. - La tarjeta, indica además la ubicación del
elemento en la biblioteca, y proporciona
información adicional sobre él, tal como el
editor, formato, género, fecha de publicación y
número de volúmenes.
28Utilidad de los Metadatos
- La tarjeta sirve como un registro de la base de
datos de la biblioteca - Los metadatos van un paso más adelante, son parte
del archivo electrónico del documento y
permanecen con él, sin importar que el archivo se
mueva o reubique. Es como si cada documento
llevara pegada su tarjeta de identificación y
organización - Su uso ha sido recomendado con alta prioridad por
el W3C (World Wide Web Consortium) para
mejorar la accesibilidad de la Web.
29Datos y Metadatos
Título
- Los metadatos son datos que describen el
contenido del objeto de información - El objeto de información es un paquete integral
que contiene la información y datos de encabezado
(metadatos) que permiten ubicar al objeto y
manipularlo almacenarlo, localizarlo,
transferirlo de un sitio a otro, visualizarlo,
modificar el contenido, etcétera.
Fecha
Keywords
Metadatos
Autor
RESUMEN
30Importancia de los Metadatos
- Cuando los robots o arañas de buscadores como
Google o Altavista visitan un servidor, lo
primero que leen son estas etiquetas, mientras
más preciso y verídico sea su contenido con
respecto al documento en sí, éste obtiene una
mejor evaluación en los motores de búsqueda y se
torna más fácil de encontrar. - Cuando trabajamos con imágenes, sonidos y otros
contenidos multimedia los metadatos son
fundamentales para localizarlos
31Metadatos Estándar
- Por la importancia que tienen estos recursos, en
este Diplomado se dedica una Sección a su estudio
específico. - Son importantes los metadatos recomendados en los
estándares de bibliotecas y repositorios - Particularmente MARC21, Dublin Core y SCORM
- En la Sección de metadatos haremos una
comparación de estos estándares y describiremos
con detalle su estructura
32Búsquedas de Textos
33Búsqueda de Textos
- Las primeras aplicaciones de búsqueda de textos
se presentaron en los procesadores de textos y
editores - Estas aplicaciones básicamente consistían en una
búsqueda secuencial de la cadena de textos, a
través de todo el archivo - El programa se detiene cuando localiza una
instancia de la cadena buscada
El archivo de texto puede decirse que es una gran
cadena de caracteres que termina con el carácter
de fin de archivo .
cadena
cadena
cadena
Cadena localizada
34Búsqueda de Textos
- La búsqueda secuencial de textos en un conjunto
de archivos o en Internet sería demasiado
engorrosa e improductiva - Por eso razón se buscaron técnicas de búsqueda
más efectivas - La primera opción fue el uso de palabras clave,
mediante las cuales se crearon directorios de
indexado a las páginas en donde se localizan
tales textos - Todo el trabajo de búsqueda en la red está basado
en la localización de textos.
35Ejemplo de Consulta en Internet
- Ejemplo de consulta
- Encontrar las páginas que contengan información
sobre equipos de trabajo de desarrollo de
software que se enfrentan en contiendas
nacionales y cuenten con alguna subvención de
algún tipo. La página debe contener información
sobre el ranking nacional del equipo en los
últimos 3 años y la dirección de e-mail o el
teléfono del entrenador. - La dificultad está en construir la consulta para
que la entienda el Sistema de Recuperación de
Información.
36Técnica de Recuperación de Información
- Data retrieval
- No resuelve el problema. Sólo devuelve datos
sobre un tema. Es estructurado y nada ambiguo en
cuanto a las consultas. - Information retrieval (RI)
- . Debe interpretar los contenidos de los
documentos y hacer un ranking de las respuestas.
La consulta no es estructurada y es ambigua. La
relevancia es el principal punto de interés.
37Técnica de Recuperación de Información
- RI Es tema específico de bibliotecarios y
especialistas ??? - Puntos originales de interés indexación y
búsquedas - Temas de Investigación actual modelización,
clasificación, arquitectura de sistemas,
interfaces de usuario, visualización de datos,
filtraje, lenguajes, etc. - Desde los años 1990 se expande el interés debido
al nacimiento del World Wide Web.
38Recuperación de Información en Internet (RI)
- Respecto al Web
- Es la BD Documental más grande del mundo
- Presenta problemas
- Nadie se hace responsable de los contenidos
- No es fácil buscar ni indexar
- No hay herramientas de soporte perfectas
- No se usa un lenguaje útil para las máquinas
- ...
39Recuperación de Información en Internet (RI)
- Se basa en la utilización de términos índice para
indexar y recuperar documentos. - Indexar un documento consiste en representar su
contenido por un conjunto de términos índices que
lo representan. - Recuperar significa especificar un conjunto de
términos que deben hallarse entre los índices de
un documento, estableciendo un ranking de
relevancia.
40Recuperación de Información en Internet (RI)
- El problema de Recuperación de Información es, la
manera de predecir la relevancia de los
documentos y su ranking. - Las distintas premisas utilizadas en el cálculo
de la relevancia darán lugar a distintos
modelos de trabajo o de Recuperación de
Información.
41Recuperación de Información en Internet (RI)
- Un modelo de RI se define como
- Es una cuádrupla D,Q,F,R(qi,dj), con
- D es un conjunto de representaciones de
documentos - Q es un conjunto de representaciones de
necesidades de información de los usuarios - F es un marco de modelado de documentos,
consultas y sus relaciones - R(qi,dj) es una función de ranking que asocia un
número real con una consulta y un documento. El
ranking define el orden en el que el documento
satisface la consulta.
42Indexado de sonidos o imágenes
43Indexado de sonidos e imágenes
- Se han realizado grandes esfuerzos de
investigación para inventar fórmulas de
ordenamiento e indexado de señales de información
tipo, voz, música, rostro, iris, huella digital,
persona, cosas. - Sin embargo, la herramienta de ordenamiento y
búsqueda hoy en día sigue siendo el texto
44Herramientas de Búsqueda
Índices, Arañas y Robots de Búsqueda
45Clasificación de Buscadores
- Índices temáticos
- Motores de búsqueda
46Tipos de Índices
- Índices Temáticos
- Índices de clave primaria
- Índices ordinarios
- Índices de texto completo
- Índices compuestos
- Índices de parte de campos
47Índices temáticos
- Son sistemas de búsqueda por temas o categorías
jerarquizados (aunque también suelen incluir
sistemas de búsqueda por palabras clave). Se
trata de bases de datos de direcciones Web
elaboradas "manualmente", es decir, hay personas
que se encargan de asignar cada página web a una
categoría o tema determinado.
48Índices de llave primaria
- Una llave primaria es un índice sobre uno o más
campos donde cada valor es único y ninguno de los
valores es NULL
49Índices ordinarios
- Un índice que no es primario permite valores
duplicados (a menos que los campos hayan sido
especificados como UNIQUE).
50Índices de texto completo
- Los índices de texto completo son del tipo
FULLTEXT, se usan en tablas del tipo MyISAM, y
pueden contener uno o más campos del tipo CHAR,
VARCHAR y TEXT. Un índice de texto completo está
diseñado para facilitar y optimizar la búsqueda
de palabras clave en tablas que tienen grandes
cantidades de información en campos de texto
51Índices únicos
- Los índices únicos son básicamente como los
índices ordinarios, excepto que los valores
duplicados no son permitidos.
52Índices compuestos
- Los índices compuestos son aquellos que están
basados en múltiples columnas. Algunos gestores
de BD como MySQL únicamente usan un índice por
tabla cuando están procesando una consulta. Esto
significa que si tenemos varias columnas que
frecuentemente aparecen juntas en una cláusula
WHERE, tenemos la oportunidad de acelerar estas
consultas al crear un índice compuesto. - Si una tabla tiene un índice formado por
múltiples columnas, cualquier prefijo más a la
izquierda puede ser usado por el optimizador de
consultas de MySQL para encontrar las filas. Por
ejemplo, si tenemos un índice compuesto por tres
columnas (col1, col2, col3), tendríamos
capacidades de búsqueda en (col1), (col1, col2) y
(col1, col2, col3).
53Índices de parte de campos
- Para los atributos tipo CHAR y VARCHAR se nos
permite crear un índice que no use el campo por
completo. - A pesar de que el nombre de una persona puede ser
de hasta 50 caracteres, es muy común que los
nombres de las personas sean diferentes en los
primeros 10 caracteres. - Al usar un índice de 10 caracteres en lugar de
50, el índice será más pequeño, y permitirá que
las consultas INSERT y UPDATE sean más rápidas, a
la vez que no se afecta la velocidad de las
consultas SELECT
54Motores de Búsqueda
- Un motor de búsqueda es un sistema informático
que indexa archivos almacenados en servidores
web. Los buscadores de internet son un ejemplo.
Las búsquedas se hacen con palabras clave o con
árboles jerárquicos por temas el resultado de la
búsqueda es un listado de direcciones Web en los
que se mencionan temas relacionados con las
palabras clave buscadas.
55Motores de búsqueda
- Son sistemas de búsqueda por palabras clave. Son
bases de datos que incorporan automáticamente
páginas web mediante arañas o "robots" de
búsqueda en la red. - Como operan en forma automática, los motores de
búsqueda contienen generalmente más información
que los directorios. Sin embargo, estos últimos
también han de construirse a partir de búsquedas
(no automatizadas) o bien a partir de avisos
dados por los creadores de páginas (lo cual puede
ser muy limitativo). Los buenos directorios
combinan ambos sistemas.
56ARAÑAS Y ROBOTS
- Basándose en la automatización del proceso, el
poder de los equipos de cómputo y el del capital,
surgió la tecnología de arañas. - Esta consiste en que se registra todo el texto
HTML de las páginas de los servidores de los
buscadores. - Una copia sin imágenes, en formato comprimido.
- Sobre esta, se realiza una indexación previa
para ahorrar tiempo en las búsquedas. - Y una red de cada día mas equipos conectados
entre sí, realizan las operaciones de búsqueda
sobre los datos almacenados. - Esos resultados son mostrados al visitante una
vez recopilados y determinados.
57Funcionamiento de Arañas y Robots
- Al proceso de seguir los enlaces se le denomina
navegación, recolección. o spidering. - Los robots arañas no pueden indexar documentos
que no sean del tipo enlace (URL), ignoran todos
los archivos que se encuentren en el directorio
del servidor Web. - Los webmasters pueden controlar que los
directorios del robot puedan indexar, mediante la
configuración del archivo robots.txt, y los
creadores de páginas Web pueden controlar el
comportamiento del indexado usando las etiquetas
de Robots META
58Tipos de Robots
- Araña (Spider)
- Es un robot, pero otorga resultados más fríos.
- Gusano (Worm)
- Es lo mismo que un robot, aunque técnicamente un
gusano es una réplica de un programa, a
diferencia de un robot que es un programa
original. - Orugas (Web crawler)
- Es lo mismo que un robot, pero es un tipo
específico de robot. - Hormigas (WebAnts)
- Cooperativa de robots
59PROCESO DE BÚSQUEDA DE LOS ARAÑAS
- Recorren las páginas recopilando información
sobre los contenidos de las páginas.
Principalmente el texto que en ellas aparece.
Cuando buscamos una información en los motores,
ellos consultan su base de datos, con la
información que han recogido de las páginas, y
nos la presentan clasificados por su relevancia.
De las Web, los buscadores pueden almacenar desde
la página de entrada, a todas las páginas de la
Web. Depende de los gustos del buscador y la
consideración de importancia que tenga la Web
para ellos. - Si buscamos una palabra, por ejemplo ordenador.
En los resultados que nos entregará el motor de
búsqueda, aparecerán páginas que contengan esta
palabra en alguna parte de su texto.
60PROCESO DE BÚSQUEDA DE LOS ARAÑAS
- Si consideran que una Web es importante para el
usuario, tienden a registrarla toda. Si no la
consideran importante, solo almacenan una o más
páginas. Aunque no necesariamente registran todas
las Web que lo soliciten. - Cada cierto tiempo, los motores revisan las Web,
para actualizar los contenidos de su base de
datos, por lo que no es infrecuente, que los
resultados de la búsqueda no estén actualizados,
de forma que la información o la página no
exista. - Las arañas, tienen una colección de programas
simples y potentes con diferentes cometidos. Se
suelen dividir en tres partes. Los programas que
exploran la red -arañas-. Los que construyen la
base de datos. Y los que utiliza el usuario, el
programa que explora la base de datos.
61PROCESO DE BÚSQUEDA DE LOS ARAÑAS
- La relevancia u orden de presentación de los
resultados de la consulta, viene determinada por
diversos factores que dependen de cada buscador,
algunos son el tráfico, puede ser un factor de
relevancia el tipo de Web, y la información que
contienen las páginas son otros factores
importantes, debido al análisis que realizan del
contexto. - Otro factor para la relevancia, común a muchos
buscadores y sitios de Internet, es si la
empresa que publicó cierta página pagó para tener
una mayor visibilidad en los resultados de la
búsqueda. Es decir si les pagan les dan un bono
que permitirá que sus páginas aparezcan en las
primeras páginas de resultados. Las arañas se han
visto obligados a este tipo de publicidad para
poder seguir ofreciendo a los usuarios el
servicio de forma gratuita.
62Técnicas de Búsqueda
63Recuperación de Información
- Algunos modelos clásicos
- Booleano (set theoretic)
- Vectorial (algebraico)
- Probabilístico (teoría de la probabilidad)
- Listas no traslapadas (Tesauros)
- Nodos próximos
Contenido
Estructura
64Modelos de RI
Taxonomía de los modelos de RI
TEORIA DE CONJUNTOS Conjuntos difusos
Booleano extendido
MODELOS CLASICOS Booleano Espacios
Vectoriales Probabilístico
ALGEBRAICO Vector generalizado Latent
Semantic Indexing Redes Neuronales
Recuperación Búsqueda retrospectiva DSI
ACCIONES DEL USUARIO
MODELOS ESTRUCTURADOS Listas no solapadas
Nodos próximos
PROBABILISTICO Redes de inferencia Redes
de confianza
Navegación
NAVEGACION Plana Guía estructurada
Hipertexto
65Modelos clásicos
- Los documentos se describen a través de un
conjunto de términos representativos llamados
índices o términos índice. - Los índices son nombres o conceptos
fundamentales, y se usan en menor medida verbos,
adjetivos, adverbios, ... - Sin embargo, se pueden considerar todos los
términos como importantes en una aproximación
llamada texto completo.
66Modelos clásicos
- No todos los términos son igualmente importantes.
- Ej. Un término que aparece en todos los
documentos (ejemplo un artículo como el, los
,las) de la colección es menos importante que
otro que aparece sólo en algunos, puesto que
ayuda a discernir. - El proceso de decidir la importancia de un
término se puede realizar a través de la
asignación de ponderaciones - Para ki (término), dj (documento), wij ? 0 es la
ponderación asociada al término contenido en el
documento.
67Modelos clásicos (Ponderaciones relativas)
- Si t es el número de términos índice en el
sistema, y ki un término índice genérico.
Kk1,...,kt es el conjunto de índices. - Se asocia una ponderación wijgt0 a cada término
ki del documento dj. - Para un término que no aparece en el documento,
wij0. - Con cada documento dj hay asociado un vector de
índices dj(w1j,w2j,...,wtj). - Además, definimos una función gi que devuelve la
ponderación asociada con índice ki en un vector
t-dimensional gi(dj)wij. - Los pesos de los términos son mutuamente
independientes, esto es, sabiendo el peso wij, no
podemos saber nada a priori del peso wi1j.
68Modelo Booleano
- Es el Modelo clásico basado en la teoría de
conjuntos y el álgebra de Boole. - Es el modelo más simple.
- Los documentos se representan por el conjunto de
términos significativos contenidos en ellos. - Las consultas se expresan como expresiones
booleanas con una semántica clara y concreta.
69Modelo Booleano
- Para el modelo booleano, las ponderaciones de los
términos son binarios (wij ? 0,1). Una consulta
es una expresión lógica convencional. Si q es una
consulta en forma normal, y qcc alguno de los
componentes de esta q, la similitud de un
documento dj con la consulta q se define
como 1 si ? qcc (qcc ? q ) ? (?ki, gi(dj)
gi(qcc)) sim(dj,q) 0 en otro casoSi
sim(dj,q)1, entonces el documento se predice
como relevante. En cualquier otro caso, el
documento no es relevante.
70Modelo Booleano
- Ejemplo
- dj (0,1,0)
- q ka ? ( kb ? ?kc )
- No hay respuesta parcial (1 ó 0)
- Resultado sim(dj,q)0
71Modelo Vectorial
- Asume que el uso de ponderaciones binarias es
limitativo y propone un marco con posibilidad de
medir relevancia parcial. - Se asignan ponderaciones no binarias a los
términos que se encuentran en los documentos - Se pretende calcular el grado de similitud entre
documentos y consultas de forma gradual, y no
binaria. - El resultado será un conjunto de documentos
respuesta a una consulta, ordenados de acuerdo al
ranking de relevancia.
72Modelo Vectorial
- En el modelo vectorial, el peso wij que se asocia
a un par (ki,dj) es positivo y no binario. - Los términos de una consulta se someten a los
mismos pesos, de modo que wiq ? 0 es el peso
asociado al par ki,q. El vector q se define
como q(w1q, w2q,..., wtq) siendo t el número
total de términos indexados en el sistema. De
igual forma, el vector documento se representa
por dj(w1j,w2j,...,wtj) - Por lo tanto, un documento y una consulta se
representan como vectores t-dimensionales (siendo
t el número de términos indexados en la colección
de documentos).
73Modelo Vectorial
- La similitud entre documentos y consultas se
evalúa a través de la correlación de los vectores
que los representan, q y dj. - La correlación se puede definir a través del
coseno del ángulo entre los vectores
74Modelo Vectorial
- La norma del vector consulta no afecta al ranking
porque es igual para todos los documentos, cosa
que no pasa con la norma del vector documento - La similitud varía entre 0 y 1 puesto que así lo
hacen los pesos de los términos de los vectores
75Modelo Vectorial
- En lugar de predecir este modelo, si un documento
es o no relevante, proporciona un grado de
relevancia - Un documento puede ser seleccionado si cumple
sólo con una coincidencia parcial - Se establece un umbral de relevancia para decidir
cuando mostrar o no un documento - El problema para calcular la relevancia
consistirá en la forma de asignar las
ponderaciones
76Modelo Vectorial - Problema de clustering
- Para definir que documentos son relevantes y que
documentos no lo son. Se pueden usar dos medidas - Similitud intra-cluster. Se puede utilizar como
medida, la frecuencia de términos (ft) - Diferencia inter-cluster. Se puede utilizar como
medida, la frecuencia de documento inversa (fdi) - Estas medidas (ft, fdi) se pueden aplicar para el
cálculo de las ponderaciones de los términos.
77Modelo Vectorial
- Sea N el total de documentos de una colección, y
ni los documentos en los que aparece el término
ki. La frecuencia del término ki contenido en el
documento dj la denotamos por frecij. La
frecuencia normalizada del término ki contenido
en el documento dj es f. Se obtiene el máximo
sobre los términos del documento. La frecuencia
de documento inversa será fdi.La ponderación
del término en documentos y consultas se calcula
con estas fórmulas empíricas
frecij
frecj
fdii
freciq
frecq
78Modelo Vectorial
- Las principales ventajas del modelo son
- Se mejora el rendimiento con las fórmulas de
obtención de ponderaciones. - Se pueden recuperar documentos que se aproximan
a la consulta. - La fórmula del coseno proporciona, además, un
ranking sobre la respuesta. - La principal desventaja es que considera los
términos como independientes, lo que puede causar
bajo rendimiento (en teoría).
79Modelo Vectorial
- El Modelo es muy elástico como estrategia de
ranking en colecciones generales. - En comparación con otros modelos, es superior o
igual en rendimiento. - Es simple y rápido.
- Hoy en día, es uno de los más utilizados.
80Modelo Probabilístico
- La idea de este modelo es dada una consulta,
existe exactamente un conjunto de documentos, y
no otro, que satisface dicha consulta. Este
conjunto es el conjunto ideal. - Por tanto, el problema de la Recuperación de
Información consiste en el proceso de especificar
las propiedades del conjunto ideal.
81Modelo Probabilístico
- El problema es que no conocemos exactamente las
propiedades del conjunto ideal. - Debemos realizar una suposición inicial sobre
estas propiedades para tratar de refinarlas
consulta tras consulta. - Tras cada consulta, el usuario determina los
documentos que son relevantes, con lo que se
puede refinar la descripción del conjunto ideal.
82Modelo Probabilístico
- Principio de probabilidad. Dada una consulta q y
un documento dj, el modelo probabilístico trata
de determinar la probabilidad de que el usuario
encuentre el documento relevante. El modelo asume
que esta probabilidad de relevancia depende sólo
de las representaciones del documento y de la
consulta. El modelo también asume que hay un
subconjunto de todos los documentos que el
usuario prefiere como respuesta a su consulta. A
este conjunto se le llama conjunto de respuesta
ideal, y lo denotaremos por R. El conjunto R debe
maximizar la probabilidad global de relevancia
para el usuario. Los documentos que no
pertenezcan al conjunto son considerados como no
relevantes para el usuario.
83Modelo Probabilístico
- Para el modelo probabilístico, las ponderaciones
de los términos índice son binarios (wij ? 0,1,
wiq ? 0,1). Una consulta q es un subconjunto de
términos índice. Sea R el conjunto de documentos
conocidos (o inicialmente supuestos) como
relevantes. Sea R el complemento de R. Sea
P(Rdj) la probabilidad de que el documento dj
sea relevante a la consulta q y P(Rdj) la
probabilidad de que dj no sea relevante a q.
Entonces, la similitud del documento con la
consulta se define como
84Modelo Probabilístico
- P(Rdj) es la probabilidad de que dado un
documento seleccionado, este sea relevante para
el usuario - P(dj R) es la probabilidad de seleccionar
aleatoriamente el documento dj de entre los
relevantes - P(R) es la probabilidad de que seleccionando
algún documento de la colección aleatoriamente,
sea relevante - P(dj) es la probabilidad de obtener el documento
dj aleatoriamente seleccionando uno de entre toda
la colección - P(Rdj), P(dj R), P(R) son los análogos,
aplicados a la no relevancia - Ahora es fácil calcular el cociente con las
probabilidades de que dados los términos
contenidos en el documento este sea incluido o no
estén en el conjunto de documentos relevantes o
no relevantes, según el caso
85Modelo Probabilístico
- Un documento será relevante siP(Rdj) gt
P(Rdj)oP(djR) gt P(djR)
86Modelo Probabilístico - Dificultades
- No podemos calcular exactamente las
probabilidades, y tenemos que hacer estimaciones - La relevancia de cada documento es independiente
de la relevancia de otros
87Modelo Probabilístico
- Ventajas
- Los documentos se presentan en orden decreciente
de probabilidad de relevancia - Inconvenientes
- Hay que hacer una separación inicial de
documentos en relevantes y no relevantes - Es binario (no se consideran frecuencias de
aparición de términos en los documentos) - Se asume la independencia de términos
88Comparación de los Modelos Clásicos
- El modelo booleano es el más flojo de todos los
clásicos. No permite relevancias parciales y
presenta problemas de rendimiento. - El modelo vectorial ofrece mejores resultados que
el probabilístico, pero para colecciones
generales.
89Modelos avanzados
- Conjuntos Difusos
- Booleano Extendido
- Espacio Vectorial Generalizado
- Indexado Semántico Latente
- Redes Neuronales
- Redes de inferencia (inference networks)
- Redes de confianza (belief networks)
90Infografía
91Infografía
- Arturo Montejo Raez. Proyecto de indexado
automático para documentos en el campo de la
Física de Altas Energías. http//www.sepln.org/re
vistaSEPLN/revista/27/27-proyecto3.pdfsearch22i
ndexado20de20textos22 - Fidel Cacheda. Sistemas de Búsqueda en la Web.
http//www.tic.udc.es/fidel/docs/teaching/doctora
do/IR20420-20Sistemas20de20Busqueda20en20la
20Web.pdfsearch22indexado20de20textos20ppt
22 - Fidel Cacheda.Introducción a las Técnicas de
Búsqueda. http//www.tic.udc.es/fidel/docs/teach
ing/doctorado/IR20120-20Introduccion20Tecnicas
20Busqueda.pdfsearch22indexado20de20textos2
0ppt22 - R. Baeza-Yates y B. Ribeiro-Neto. Modern
Information Retrieval. Addison-Wesley, 1999. - K. van Rijsbergen. Information Retrieval.
http//www.tic.udc.es/fidel/docs/teaching/doctora
do/IR20120-20Introduccion20Tecnicas20Busqueda
.pdfsearch22indexado20de20textos20ppt22
92- Ramón Vicente Cirilo Gimeno. Sistemas de Gestión
Documental. http//www.uv.es/rvcirilo/SGD/ - Information Retrieval. Data structures and
algorithms. William B. Frakes, Ricardo
Baeza-Yates. Prentice-Hall, 1992. - Wikipedia. Motor de búsqueda.
http//es.wikipedia.org/wiki/Motor_de_bC3BAsqued
a