Diapositiva 1 - PowerPoint PPT Presentation

About This Presentation
Title:

Diapositiva 1

Description:

Eduardo L pez Guerrero Jos Alberto Soto Omar Su rez Hern ndez INTRODUCCION Desde los inicios de la era de la computadora, las organizaciones ha usado los datos ... – PowerPoint PPT presentation

Number of Views:45
Avg rating:3.0/5.0
Slides: 32
Provided by: EDUARDOLO3
Category:

less

Transcript and Presenter's Notes

Title: Diapositiva 1


1
DATA WAREHOUSE
Eduardo López Guerrero José Alberto Soto Omar
Suárez Hernández
2
INTRODUCCION
Desde los inicios de la era de la computadora,
las organizaciones ha usado los datos desde sus
sistemas operacionales para entender sus
necesidades de información. El data warehouse,
es el centro de las grandes instituciones, por
que provee un ambiente para que las
organizaciones hagan un mejor uso de la
información que esta siendo administrada por
diversas aplicaciones operacionales. Data
warehouse es una colección de datos en la cual se
encuentra integrada la información, no volátil de
tiempo variante que se usa como soporte para la
toma de decisiones. Al reunir los elementos de
datos apropiados desde diversas fuentes,
simplifica el proceso de análisis y consultas de
esta información en menos tiempo.
Un data warehouse se crea al extraer la
información desde una o más bases de datos, esta
información es transformada para eliminar
inconsistencias y luego es cargada en la
datawarehouse. La innovación que se brinda
dentro de un ambiente datawarehousing, puede
permitir a cualquier organización hacer un uso
optimo de los datos, y hacer la toma de
decisiones mas efectiva. El data warehouse es
siempre un almacén de datos transformados y
separados de la aplicación o base de donde se
encontraron.
3
SISTEMAS DE INFORMACION
ESTATREGICO
TACTICO
TECNICO-OPERATIVO
INTERINSTUCIONAL
4
SISTEMAS DE INFORMACION
  • ESTRATEGICO
  • Orientados a soportar la toma de decisiones,
    proporcionando un soporte básico.
  • Se caracterizan por que son sistemas si carga
    periódica de trabajo, su utilización no es
    predecible.
  • TACTICOS.
  • Diseñados para las actividades y manejo de la
    documentación, para consultas en el sistema,
    proporcionar informes, facilitar la gestión
    independiente por parte de los niveles
    intermedios de la organización.
  • SISTEMAS TECNICO-OPERATIVOS.
  • Operaciones tradicionales de captura masiva de
    datos. Y servicios básicos de tratamiento de
    datos (contabilidad, presupuestos, almacenes,
    personal etc).
  • SISTEMAS INTERINSTITUCIONALES
  • Es el ultimo nivel de sistemas de información,
    son como consecuencia del mercado global el cual
    obliga a implementar estructuras de comunicación
    entre la organización y el mercado. (Internet).

5
CARACTERISTICAS
Los datos de un Warehouse difieren de los datos
operacionales usados por las aplicaciones de
producción.
Base de datos Operacional
Data Warehouse
  • Datos del negocio para información.
  • Orientado al sujeto.
  • Actual histórico.
  • Detallada resumida.
  • Estable.
  • Datos operacionales.
  • Orientado a la aplicación.
  • Actual.
  • Detallada
  • Cambia continuamente.

6
CARACTERISTICAS
  • ORIENTADO A TEMAS.
  • La información esta basada en los aspectos que
    son de interés para la empresa.
  • en el ambiente operacional, una aplicación puede
    ser clientes, productos y cuentas, la base de
    datos combina estos elementos en una estructura
    que acomoda para las necesidades de la
    aplicación, en ambiente data warehouse, se
    organiza alrededor de sujetos, como cliente,
    vendedor, producto y actividad.
  • La diferencia entre orientación a procesos y la
    orientación a temas, radica en el contenido del
    data a escala, el data warehouse excluye la
    información que no será usada por el proceso de
    toma de desiciones.
  • INTEGRADA
  • Es el aspecto más importante del ambiente
    datawarehousing siempre esta integrada.
  • La integración de datos se muestra de muchas
    maneras en convenciones de nombres consistentes,
    en la medida uniforme de las variables, atributos
    físicos de los datos consistentes, fuentes
    múltiples y otros.
  • DE TIEMPO VARIANTE.
  • Toda la información del data warehouse es
    requerida en algún momento.
  • ESTABLE
  • La información es útil solo cuando es estable.

7
ESTRUCTURA
Altamente resumido
Ligeramente resumido
Detalle actual
Detalle histórico de los datos
8
ARQUITECTURA DE UN DATAWAREHOUSE
Nos sirve para comprender como se relacionan los
componentes involucrados en una estrategia de
Datawarehouse.
9
ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA
DATAWAREHOUSE
En la parte inferior de la figura se pueden ver
las fuentes conectadas a un extractor / monitor.
El extractor es el responsable de homogenizar la
información. El monitor es el responsable de
detectar los cambios que puedan ser realizados en
las fuentes y reportarlos al integrador. El
integrador recibe los resultados de los
extractores y después de integrarlos, los carga
al DW. Para poder cargar la información, se debe
diseñar una estructura, para almacenar los datos,
el esquema multidimensional del DW. El
administrador de consultas se encarga de
organizar las consultas y seleccionar los
operadores para permitir su análisis. Para
explicar la actividad de un DW podemos
identificar dos grandes fases construcción y
explotación. La fase de construcción se refiere
al diseño e implementación de herramientas
encargados de llevar los datos de las fuentes al
repositorio. Tomando en cuenta que se debe
integrar y homogenizar la información
previamente. Un proceso posterior pero asociad a
esta mis fase es el proceso de mantenimiento.
Este se encarga de llevar los datos nuevos al DW.
10
En la fase de explotación se lleva a cabo el
análisis de los datos almacenados dentro del DW a
través de técnicas que facilitan y hacen mas
eficiente su consulta. Ya con el DW poblado lo
ultimo es diseñar e implementar una interfaz que
le permita al usuario final interactuar con el
repositorio, brindándole todas las ventajas del
análisis de la información.
MODELO MULTIDIMENSIONAL
El modelo multidimensional describe la
organización de la información en un DW. Define
los conceptos para agregar hechos a lo largo de
muchos atributos, llamados dimensiones.
CONCEPTOS.

Dimensión. Una dimensión representa una
perspectiva de los datos. Las dimensiones son
usadas para seleccionar y agregar datos a un
cierto nivel deseado de detalle. Podemos definir
el concepto de dimensión como el grado de
libertad de movimiento en el espacio.
Entenderemos esta libertad como el numero de
direcciones ortogonales diferentes que podamos
tomar.
11
Las dimensiones se relacionan en jerarquías o
niveles. Por ejemplo, la dimensión Zona puede
tener los siguientes niveles ciudad, estado,
región, país y continente.
  • Medida.
  • Una medida es un valor en un espacio
    multidimensional definido por dimensiones
    ortogonales. La medida es un dato numérico que
    representa la agregación de un conjunto de datos.
    Los datos son producidos como el resultado del
    funcionamiento de una empresa. Un DW comúnmente
    tiene tres tipos de medidas.
  • Snapshots modelan entidades en un punto dado en
    el tiempo.
  • Eventos modelan eventos del mundo real, con el
    grano mas fino.
  • Snapshots fijos acumulativos modelan actividades
    en un punto dado en el tiempo.

12
  • Dependiendo de sus propiedades podemos tener
    tres medidas
  • Aditivas, pueden ser combinadas a lo largo de
    cualquier dimensión. Por ejemplo, temperatura,
    que puede estar dada por las dimensiones
    estación, región y fecha.
  • Semi-aditivas, pueden no ser combinadas a lo
    largo de una o mas dimensiones. Por ejemplo,
    nomina que puede estar dada por las dimensiones
    empleados y tiempo, pero no producto.
  • No aditivas, no pueden combinarse a lo largo de
    ninguna dimensión. Por ejemplo, cantidad de
    producto, que únicamente puede estar dada por la
    dimensión producto.

Cubo. Una instancia del modelo multidimensional,
esquema multidimensional, es conocida como Cubo o
hipercubo de n dimensiones. Cuando la gente
observa los datos de un cubo de n dimensiones, es
mas fácil interpretar la información que contiene
dicho cubo, así como las distintas operaciones
que se le pueden realizar.
13
Para ejemplificar consideramos la existencia de
una aplicación que realiza la venta de juguetes.
Para organizar sus ventas se define el cubo
formado por las dimensiones producto, tiempo y
región. La figura presenta el esquema
multidimensional de un DW para la venta de
productos que organiza un conjunto de medidas
según las dimensiones REGION, TIEMPO y PRODUCTO.
ESQUEMA MULTIDIMENSIONAL
14
Cada dimensión tiene asociada una jerarquía de
niveles que denota la granularidad de observación
de la medida con respecto a una dimensión. Por
ejemplo, la dimensión REGION se organiza por
Ciudad-Estado-Región-País. Así se puede observar
la cantidad de muñecas vendidas el martes 26 en
la tienda ubicada en la ciudad de Puebla.
ESQUEMA DE REPRESENTACION
Un esquema multidimensional puede instrumentarse
usando un esquema relacional en estrella (Star
Schema) o usando un esquema copo de nieve (Snow
Flake Schema). Un esquema de estrella esta
formado por una tabla para cada dimensión y una
tabla principal de hechos. En la tabla de hechos
cada uno de los atributos es a una llave
extranjera hacia cada tabla de dimensión como se
puede apreciar en la sig. figura.
ESQUEMA EN ESTRELLA
15
En un esquema copo de nieve las tablas de
dimensiones están normalizadas. Esto evita
redundancia en los datos. Este esquema representa
mejor la semántica de las dimensiones del
ambiente de negocios, ya que tiene un acceso mas
directos a los datos.
Id Región Región
Región
Id Producto Descripción Marca Tipo Precio
Id Ciudad Nombre Dirección
Id Tiempo día
Producto
Tiempo
Id Grupo grupo
Id Tiempo mes
Id Familia familia
Id Tiempo año
16
CONSTRUCCION Y MANTENIMIENTO DE UN DW
CONSTRUCCIÓN. Para poder llevar a cabo la
construcción del DW, se necesitan herramientas de
extracción de datos a partir de las fuentes
externas. Estas herramientas extraen y
homogenizan los datos y se comunican con un
integrados que integra los datos con respecto al
esquema del DW. La figura siguiente presenta la
arquitecta del mecanismo de construcción de un DW
que consiste en un conjunto de extractores
asociados a las fuentes. Un extractor con la
fuente para extraer la información y la
transforma a una representación comprendida por
un integrador. El extractor conoce el formato de
las fuentes, el formato de representación de
datos del DW, el protocolo de comunicación y la
ubicación de ambos.
INTEGRADOR
17
El integrador integra la información y calcula
los valores agregados con respecto al esquema del
DW. Las tareas principales del integrador son
combinar los datos obtenidos de las diversas
fuentes y cargar estos datos ya integrados en el
DW.
  • MANTENIMIENTO.
  • El mantenimiento del DW o refrescado asegura
    contar con datos actualizados. Existen dos formas
    de refrescar los datos
  • La primera es llevar los datos al DW segundos
    después de que las fuentes fueron actualizadas.
  • La segunda es acumulando y almacenando los datos
    ya integrados y transformados, en un sitio
    intermedio para que de forma periódica pasar la
    información al DW.
  • El refrescado se puede realizar de manera
    incremental o recalculando todos los datos.

18
El refrescado de un DW esta considerado como un
problema difícil debido a las siguientes razones
  • Primero, el volumen de datos almacenado en el DW
    es muy grande y crece cada vez mas.
  • Segundo, el refrescado deber ser accesible a los
    diferentes cambios de ejecución del DW.
  • Finalmente, el refrescado engloba transacciones
    que por lo regular acceden a múltiples datos, lo
    que implicaría contar con cálculos que pueden
    convertirse en complejos ya que producirían un
    alto nivel de agregación.

EXPLOTACIÓN DE UN DW
La explotación consiste en llevar a cabo
consultas al DW. Cuando hablamos de consultas nos
referimos a la manipulación, análisis y
visualización de la información que realiza el
usuario sobre la información del DW. Para el
análisis de los datos almacenados en el QW se
utiliza la tecnología OLAP (On Line Analytical
Proccesing). Esta tecnología cuenta con
operadores tales como Slicen dice roll-up y
drill down.
19
Slicen dice permite restringir los valores
asociados a una o varias dimensiones del cubo, es
decir, toma un subconjunto de dimensiones y de
niveles seleccionados del DW. En la sig. figura
se observa un ejemplo en el que se restringe el
resultado para analizar solo las ventas de las
cubetas y los trapeadores en 2003 y 2002 en
Monterrey y Puebla.
20
Roll up agrega medidas que van de un nivel Ni a
un nivel mas general Nj de una dimensión. Permite
analizar la información a través de diferentes
niveles de granularidad de las dimensiones. Drill
down es la operación inversa. A partir de un
nivel superior este operador permitir bajar de
nivel. En la sig. figura se observa un claro
ejemplo de cómo la dimensión tiempo cambia de
nivel días a meses y viceversa.
21
CONSIDERACIONES ADICIONALES AL CONSTRUIR EL DW
  • Niveles de Esquematización
  • Altos Indexados libremente Fácilmente
    Reestructurados.
  • Bajos Indexados moderadamente Difícilmente
    Reestructurado.
  • Partición de las Aplicaciones
  • Partición DBMS Automáticamente.
  • Partición de Aplicaciones Solo los
    programadores conocen, y la responsabilidad de
    administrar es de ellos.

Excepciones en el DW.
  • La Data Calculada Fuera del DW pero que es
    necesario para la corporación
  • Ejemplo.
  • Rentas, gastos, ganancias, parámetros de
    construcciones de aviones, datos de seguridad.
    Etc.
  • Este detalle en ocasiones debe ser guardado por
    razones Legales o Éticas.
  • Conocidos en DW como Datos permanentes.
  • El medio debe ser seguro
  • Deben poder ser restaurados
  • Necesitan se indexados de manera especia.
  • DBMS Sistemas de Gestión de Base de Datos. (Data
    Base Management Systems)

22
ORGANIZACION DEL PROYECTO
1. Factores en la Planificación del DW.
Asociación entre Usuarios, Gestores y Grupos. -
Información que satisfaga los requerimientos de
la empresa. - Selección de Herramientas.
Aplicación Piloto. - Una prueba limitada
para medir el beneficio de manera clara
Prototipos . - Verificar la necesidades del
usuario durante el proceso de implementación.
Implementación Incremental. - Reduce riesgos
y controla el tamaño del proyecto para que sea
manejable.
Reportar y Publicar casos exitosos. -
Publicidad interna de cómo le ayuda a la gente
que ya lo utiliza
23
2. Estrategias para el Desarrollo del DW.
Desarrollar un estrategia apropiada a las
necesidades de los usuarios.
Primero. - Acceso fácil al directorio de datos
y gestión del proceso. - Entrenamiento al
usuario final. - Uso de las Instalaciones del DW.
Segundo. - Construir una copia de los datos
operacionales. Esto por si los datos existente
son de mala calidad.
Tercero. - Seleccionar el numero de
usuarios. - Construir prototipos para los
usuarios final para poder experimentar o
modificar su es necesario. - Cargar los datos de
los sistemas existentes o de fuentes externas.
24
3. Estrategias para el Diseño del DW.
Los usuarios no conocen sus requerimientos,
como los usuarios operacionales.
Se requiere en ocasiones una Reingeniería de
Proceso del Negocio.
Estrategia de diseño de afuera hacia adentro
(outside-in).
4. Estrategias para la Gestión de un Diseño del
DW.
Esto solo es una buena inversión si los
usuarios finales consiguen información vital y
rápida.
Reconocer que el mantenimiento de la estructura
del DW es critica.
25
DESARROLLO DE UN PROYECTO.
Almacenaje de un DW.
Puede contener toda la infamación de la empresa
desde su inicio, o tan limitado a un gerente
durante un año.
Virtual o Point to Point.
Estos significa que los usuarios finales pueden
acceder a bases operacionales directamente,
usando cualquier herramienta (red de acceso de
datos).
DW Centrales
Se seleccionan donde hay necesidades comunes de
información y un gran numero de usuarios.
DW Distribuidos
Los componentes de deposito se distribuyen en
un numero de bases de datos físicas diferentes.
Tipo De Usuario
Ejecutivos y gerentes Power users o Buzo
de Información. Analistas financieros,
Ingenieros, Usuarios de soporte. De oficinas,
administrativos.
26
ELEMENTOS CLAVES PARA EL DESARROLLO.
Esta integrado por un servidor de Hardware
Los DBMS que conforman el dispositivo. (Sistemas
de Gestión de Base de Batos.)
BLOQUES CLAVES DE CONSTRUCCIÓN.
1) Arquitectura total del deposito. Estructura
física de la base de datos de deposito.
a) DW Integrado o centralizado Las bases de
datos separados son todos integrados y
físicamente almacenados en la misma plataforma.
27
b) Arquitectura Global Los datos es consolidad
lógicamente pero se almacena por separado sin las
bases de datos físicamente relacionadas, en el
mismo lugar físico.
28
c) Arquitectura por Niveles Datos altamente
resumidos en la 1er estación de trabajo del
usuario, con resúmenes mas detallaos en el 2do.
servidor y mas detallada en el 3er servidor.
29
BLOQUES CLAVES DE CONSTRUCCIÓN.
2) Arquitectura del servidor. Estructura física
de la base de datos de deposito.
a) De un solo Servidor Fácil de administrar pero
con limitaciones de potencia de procesamiento y
escalabilidad.
b) Multiprocesamiento Simétrico (SMP) Adición de
procesadores que comparten la memoria interna de
los servidores y de los dispositivos de
almacenaje del disco.
c) Procesamiento en Paralelo Masivo (MMP)
Conjunto de procesadores con un enlace de banda
ancha y de alta velocidad. Cada modo es un
servidor con su propio procesador SMP y memoria
interna.
d) Acceso de memoria no uniforme (NUMA) Se crea
con una sola gran maquina SMP al conectar
múltiples nodos en uno solo, ventajas en la
gestión y simplicidad de un ambiente SMP.
30
BLOQUES CLAVES DE CONSTRUCCIÓN.
3) Sistema de Gestión de Base de Datos. Los
Relational Data Base Managment Systems (RDBMS)
son muy flexibles cuando se usan con una
estructura de datos normalizada y tienen la
capacidad para efectuar consultas con un único
objetivo concreto.
Los modelos super relacionados soportan
extensiones para almacenar formatos, operaciones
y diagramas indexacion especializados.
Base Normalizada, las estructura de datos son No
Redundantes y que representan las entidades
básicas.
31
GRACIAS
BIBLIOGRAFIA Data Wareahousing (http//porgramacio
n.com/bbdd/tutorial/warehouse/
Write a Comment
User Comments (0)
About PowerShow.com