Taller de Base de Datos - PowerPoint PPT Presentation

1 / 17
About This Presentation
Title:

Taller de Base de Datos

Description:

Slice: imponer condiciones sobre las dimensiones ... Problema: computar un cuboide sobre dimensiones simples toma tiempo proporcional ... – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 18
Provided by: serv205
Category:
Tags: base | datos | sobre | taller

less

Transcript and Presenter's Notes

Title: Taller de Base de Datos


1
Taller de Base de Datos
  • Consulta Típica en OLAP
  • Encontrar el total y número de unidades
    vendidas para marca en el primer semestre de 1997

2
Taller de Base de Datos
  • Formulación de consultas en OLAP
  • Inspeccionar las dimensiones
  • Imponer una condición sobre las dimensiones (ej.
    Semestre1S97)
  • Seleccionar atributos y categorías
    (granularidad).
  • Seleccionar medidas y agregaciones(ej.
    Sum(f.pesos))
  • Observar el resultado, e investigar por qué, lo
    que implica una nueva consulta.

3
Taller de Base de Datos
  • Operadores OLAP
  • Roll-up Cambiar una categoría en la
    granularidad por una categoría menos fina.
  • Drill-down inverso de Roll-Up.
  • Navegación secuencia de roll-up y drill-downs
  • Drill-across cruzar más de una tabla de hechos
  • Slice imponer condiciones sobre las dimensiones
  • Pivot elegir atributos para la tabla de salida y
    cambiar la disposición de los atributos.
  • Etc.

4
Taller de Base de Datos
Cubo de Datos
5
Taller de Base de Datos
Grafo de Dependencia de un Cubo de Datos
6
Taller de Base de Datos
Almacenamiento de un Cubo de Datos en un Sistema
OLAP Relacional
7
Taller de Base de Datos
  • Un cubo de datos puede tener hasta
  • E1xE2xxEn
  • hechos, donde Ei es el número de elementos
    de la dimensión i.
  • Tamaño del cubo es cercano a la tabla de hechos
    base si los datos son densos y la jerarquía se
    condensa fuertemente a medida que nos acercamos a
    All.
  • En general puede ser MUCHO MÁS grande (data cube
    explosión)
  • Ejemplo benchmark TCP/Dpart customer supplier,
    la tabla de hechos base tiene 6 millones de
    tuplas, el cubo tiene 19 millones.

8
Taller de Base de Datos
  • Algoritmo Básico para calcular un cubo de datos
  • Algoritmo 2N para cubos simples (dimensiones
    tiene una categoría a parte de All).
  • Procedimiento Iter(handle,v) agrega el valor v a
    una dirección asociada a la tupla (punto) handle.
  • Leemos la tabla de hechos y por acada tupla
    tltx1,,xn,vgt llamamos 2n veces Iter(handle,v).
  • Para cada tupla handle se despliega
    final(handle)
  • Iter se puede implementar usando una tabla de
    hash.
  • Número de llamadas a Iter2nxT,donde n es el
    número de dimensiones y T es la cardinalidad de
    la tabla de hechos base.

9
Taller de Base de Datos
  • Computación Eficiente de Cubos de Datos
    Distributivos
  • Cubos de datos distributivos funciones de
    agregación distributivas. Ejemplos SUM, MAX,
    MIN.
  • Recordemos que cada granularidad define una vista
    cúbica.
  • ltcodProducto, codSuper, fechagt define un cuboide
    de 3 dimensiones.
  • ltcodProducto, codSuper, Allgt define un cuboide de
    2 dimensiones.
  • Todo cuboide de dimensión K puede ser computado
    usando algún cuboide de dimensión K-1
  • Ejemplo Para todo punto ltAll, p1, Allgt,
  • V(All,p1,All)G(V(All, p1,fi) fi ? Mi).

10
Taller de Base de Datos
  • Algoritmo PipeSort y PipeHash

11
Taller de Base de Datos
  • Algoritmo PipeHash
  • Idea general algoritmo PipeHash (S. Agrwal et al,
    VLDB 96)
  • Para cada vista cúbica definido por una
    granularidad G elegir un cuboide G.
  • Es decir, tenemos que elegir un árbol del grafo
    de dependencia que cubra todos los nodos y cuya
    raíz sea el cuboide inferior (minimun Spannig
    Tree)
  • Hay muchos árboles posibles, si computamos el
    cubo usando tablas de hash, elegimos los
    antecesores más pequeños.
  • Particionar el árbol en subarboles, cada subarbol
    se computa por separado con una sóla lectura del
    cuboide de su raíz.

12
Taller de Base de Datos
  • Procesamiento de Consultas en OLAP
  • Almacenar sólo tabla de hechos base, computar los
    cuboides en tiempo de consulta.
  • Problema computar un cuboide sobre dimensiones
    simples toma tiempo proporcional al tamaño de la
    tabla de hechos base.
  • Materializar completamente el cubo (no siempre es
    posible)
  • Problema explosión del cubo
  • Costos de actualización
  • Materializar sólo algunos cuboidesy usar
    navegación de agregados (Harinaraya et al 1996).

13
Taller de Base de Datos
  • Navegación en Agregados
  • Supongamos que queremos computar ltAll,
    proveedor, Allgt en TPC-D Benchmark
  • Navegación en agregados proceso en que
    se reformula un cuboide requerido por el usuario
    como una consulta que se refiere a otro(s)
    cuboide pre- computado.

14
Taller de Base de Datos
  • Navegador en Agrados (cont)

15
Taller de Base de Datos
  • Navegación en Agrados (cont)
  • Cuboide C ltcodProducto, semestregt
  • Consulta Q Cuánto jabón se ha vendido cada año?
  • SELECT from C WHERE codProdJabón Roll-Up de
    semestre a año
  • En general si
  • C y Q son sobre el mismo conjunto de dimensiones,
  • Las condiciones de Q implican las de C y
  • La granularidad de C es más fina que la
    granularidad de Q,
  • Entonces C se puede usar para responder Q.

16
Taller de Base de Datos
  • Herramientas para WareHouses OLAP
  • Back- End extracción de datos, integración,
    limpieza, carga, mantención incremental
  • Servidor procesamiento de consulta
  • Front-end clientes OLAP, herramientas de
    consulta y visualización, reportes
  • Otras monitoreo, administración, meta-datos

17
Taller de Base de Datos
  • Actualidad y Futuro de OLAP
  • Extensiones del modelo multidimensional (ej.,
    dimensiones heterogéneas), datos semiestruturados
    (XML), teoría de Diseño en este contexto.
  • Minería de datos organizados en modelos OLAP.
  • Sistemas MOLAP escalables Sistema T3 de
    Microsoft, EMC, Knosys, Unisys. Cubo de datos de
    1.2 Terabyte de datos base, 7.6 billones de
    hechos (tuplas), 50 usuarios concurrentes,
    respuestas a consolidaciones toman 0.02-0.08 seg.
Write a Comment
User Comments (0)
About PowerShow.com