Taller de Base de Datos - PowerPoint PPT Presentation

1 / 12
About This Presentation
Title:

Taller de Base de Datos

Description:

T cnica de modelamiento descriptivo(objetivo es construir un modelo para ... que dos vectores en un espacio de muchas dimensiones sean casi ortogonales. ... – PowerPoint PPT presentation

Number of Views:87
Avg rating:3.0/5.0
Slides: 13
Provided by: serv205
Category:
Tags: base | casi | datos | taller

less

Transcript and Presenter's Notes

Title: Taller de Base de Datos


1
Taller de Base de Datos
  • Búsqueda de Agrupaciones (Clustering)
  • Técnica de modelamiento descriptivo(objetivo es
    construir un modelo para comprender los datos)
  • Problema Dado un conjunto de objetos encontrar
    grupos (clusters) tratando que
  • Objetos en un mismo grupo sean cercanos
  • Objetos en grupos diferentes sean lejanos.

2
Taller de Base de Datos
  • Aplicaciones
  • Segmentación de clientes en grupos homogéneos
    basados en gustos (compran lo mismo) o inf.
    Demográfica (edad, ingreso, ubicación, etc.)
    Aplicaciones
  • -Sistemas de Recomendaciones
  • www.amazon.com, movielens.umn.edu, etc.
  • -Optimización de campañas de marketing
  • Wedel and Kamakura 1998, Market Segmentation
    Conceptual and Methodological Foundations .
  • -Personalización de sitios Web
  • Mobasher. A Web personalization engine based on
    user transaction clustering . (WITS99)
  • -Diseño de servicios de reparticción Detección
    de grupos homogéneos que viven en lugares
    cercanos.

3
Taller de Base de Datos
  • Aplicaciones
  • Sistema SKYCAT (Fayyad et. Al. 96) fue usado para
    agrupar 2x109 objetos en estrellas, galaxias,
    quásares, etc. Cada objeto era un punto en un
    espacio de 7 dimensiones representando
    radiaciones de distintas frecuencias.
  • Sloan Sky Survey proyecto de agrupación de todo
    el universo visible.
  • Agrupación de documentos con tópicos similares
    Zamir Etzioni. Web Document Clustering A
    Feasibility Demostration (1998).
  • Agrupación de documentos con visitas similares en
    MSNBC (sección Living).

4
Taller de Base de Datos
  • Distancia
  • Para agrupar objetos necesitamos una noción de
    distancia, ( o más formalmente métrica) D(x,y)
    para cada par de puntos e e y.
  • Axiomas usuales
  • D(x,x)0.
  • D(x,y)D(y,x) (simetría)
  • D(x,y)ltD(x,z)D(z,y) (desigualdad triangular)
  • Ejemplo común distancia euclidiana (L2 norm)
    entre

5
Taller de Base de Datos
  • Qué Noción de Distancia Usar?
  • Definir distancia en un determinado contexto es
    un problema complejo
  • No siempre tenemos la analogía especial.
  • Atributos categoricos, espacios inconmesurables.
  • También hay que tomar en cuenta el costo de
    calcularla.

6
Taller de Base de Datos
  • Qué noción de distancia Usar? (Ejemplo)
  • Consideremos páginas Web como puntos en un
    espacio de 108 dimensiones, una por palabra.
  • Antes de pensar si tiene sentido usar distancia
    euclidiana en este contexto, veamos cuánto cuesta
    calcular la distancia entre x e y. Toma aprox
  • operacuibes donde
  • nx es la cantidad de palabras que están en x pero
    no en y.
  • Nx,y es la cantidad de palabras que están en
    ambas.
  • Esto puede ser prohibitivo si tenemos que
    computar una matriz de distancia de millones de
    objetos.

7
Taller de Base de Datos
  • Qué noción de distancia Usar? (Ejemplo)
  • Otro problema las diferencias en cada coordenada
    pueden deberse a diferencias en el tamaño de las
    páginas, y no al tópico.
  • Mejor considerar los pesos relativos de cada
    palabra en los documentos, así sólo interesa el
    ángulo entre los dos vectores
  • Distancia Coseno (Distancia de Ochini)
  • Donde x.y es el producto punto entre x e y.
  • Si los vectores están normalizados se puede
    calcular más eficientemente que la distancia
    euclidiana.
  • Por qué?

8
Taller de Base de Datos
  • Otro Ejemplo
  • Qué tan lejos están dos secuencias de caracteres
    (ej.., secuencias de ADN)
  • abcde y bcdxye?
  • Podríamos modelar cada secuencia como un vector
    en un espacio euclidiano y definir alguna noción
    de distancia. Mejor Usar
  • Donde LCS es la subsecuencvia común más larga

9
Taller de Base de Datos
  • Distancia de Minkowski
  • Clase de funciones de distancia
  • Para q1 es la distancia euclidiana,. Para q2 es
    la llamada distncia de Manhattan (city block).

10
Taller de Base de Datos
  • Espacios Conmesurables vs. Inconmesurables
  • Espacios conmesurables coordenadas representan
    medidas homogeneas.
  • Espacio de gustos cada coord. Representa una
    nota a un item.
  • Espacio de compras cada coord. Representa si se
    compró o no un item.
  • Espacios inconmesurables
  • Espacio de variables demográficas (edad, sexo,
    direccioón etc)
  • Necesitamos estandarizar variables y tal vez
    determinar cuáles tienen más peso.

11
Taller de Base de Datos
  • Problema de dimensionalidad
  • Muchas dimensiones generan comportamientos contra
    intuitivos de distancias.
  • Dado un cubo unitario en k-dimensiones
  • Para k2, si tenemos un conjunto de puntos en el
    cuadrado, es esperable que muy pocos puntos
    tendrán distancia mayor que 1.
  • Para k grande, es muy probable que todos los
    puntos esten muy separados.
  • Dificil saber si hemos obtenido una buena
    agrupación
  • También es muy probable que dos vectores en un
    espacio de muchas dimensiones sean casi
    ortogonales.
  • Basta que lo sean proyectando en uno de los
    posibles planos formados por dos coordenadas.

12
Taller de Base de Datos
  • Reducción de Dimensionalidad
  • En el peor caso, k puntos no pueden ser
    representados en un espacio de menos de nk-1
    dimensiones.
  • Cómo lo haremos si queremos un nltltk
  • Multidimensional Scaling
  • Ubicar k puntos en el espacio de n dimensional
    aleatóreamente.
  • La energía de cada par de puntos es el cuadrado
    entre la distancia en el nuevo espacio y l
    distancia original (analogía sistema de
    resortes).
  • Visitar cada punto y moverlo minimizando la
    energía de sus resortes. Con esto encontramos un
    mínimo local de la energía total.
Write a Comment
User Comments (0)
About PowerShow.com