Title: CAPITULO 4.
1CAPITULO 4.
- ADMINISTRACION DE DATOS
- WAREHOUSING (ALMACEN), ACCESO
- Y VISUALIZACION
2Contenido del Capítulo 4
- 4.1 Caso de estudio El Almacenaje de los datos y
DSS en la Cooperativa de Salud De grupo - 4.2 Warehousing (almacen), Acceso, Análisis y
Visualización - 4.3 La Naturaleza y Fuentes de Datos
- 4.4 Colecciones de datos y Problemas de los Datos
- 4.5 El Internet y los Servicios de bases de datos
Comerciales - 4.6 Sistemas de Administración de datos en DSS
- 4.7 Estructura y organización de Bases de Datos
- 4.8 Warehousing
- 4.9 OLAP Acceso y Minería de datos, Consulta, y
Análisis - 4.10 Visualización y Multidimensionamiento de
datos - 4.11 Bases de datos inteligentes y Minería de
datos - 4.12 El esquema completo
34.1 CASO DE ESTUDIO EL ALMACEN DE DATOS
(WAREHOUSING) Y DSS EN LA COOPERATIVA DE SALUD DE
GRUPO
- La Cooperativa de Salud de grupo es un HMO no
lucrativo grande radicado en Seattle,
Washington. - Tiene hospitales, contratos con instituciones, y
actua como aseguradora - Mensualmente se procesa un flujo de 2 a 3
millones de registros. - Antes del uso de DSS, los costos estaban en
aumento, los servicios eran ineficaces, y
el uso de recursos y la calidad de los
servicios eran malos. - El desarrollo de un DSS permitiría que la toma de
decisiones en base a datos sea efectiva y
eficiente. - La idea central fue crear un Warehouse (almacén
de datos) que apoyaría al DSS.
4- Este almacén de datos relaciona datos de costos,
eficiencia en el uso de recursos, gastos, y
estado de los servicios de salud en un extenso
sistema de información corporativo. - La información provino de aplicacionesexistentes
(TPS) como registros clínicos, laboratorio y
farmacia. - El sistema fue iniciado en 1989 y constantemente
es actualizado y mejorado.
5Algunos reportes que genera el DSS
- Reportes de población organizados por clínica y
por práctica - Reportes de productividad
- Reportes de administración del aprovechamiento
- Reportes organizados por grupos consumidores y
grupos que aportan recursos - Reportes estadísticos, por grupos de edad ogénero
6El almacén de los datos también se usa por
muchas aplicaciones DSS, EIS, y MIS para
- Bajar costos de los servicios a los pacientes
- Análisis de costos para contestar preguntas como
en qué forma afecta la reducción de costos en
un área afecta los costos en otras? - Comparaciones de costos para negociar precios con
socios de negocios. - Contar con un extenso sistema de consulta
- Creación de un EIS para monitorear indicadores
clave como costo por paciente diario en un
hospital
7Algunos beneficios importantes
- El número de días de hospitalización fue reducido
en 7 porciento al enviar pacientes a servicios
ambulato- rios, resultando en millones de dólares
de ahorro. - Se cerró un contrato militar valorado en 1 billón
de dólares, en un período de 5 años. La base
de datos para este cliente se creó en 2 días
debido a que se extrajo del almacén de datos
existente. - Cada Grupo de Clientes obtiene reportes a la
medida.
84.2 ALMACENAMIENTO de DATOS (WAREHOUSING),
ACCESO, ANALISIS, Y VISUALlZACION
- En el caso de estudio la información necesaria
era dificil de accesar debido a que estaba en
diferentes configuraciones de software y
hardware. - Con una base de datos centralizada que
recolectaba información de las
diferentes fuentes y la organizaba, se
facilitó su acceso por las aplicaciones DSS y
EIS. - La actualización, recuperación, uso, y borrado de
esta información llega a ser muy
complicado mientras la cantidad
aumenta. - La carga excesiva de información está amenazando
con ahogar a las organizaciones. - Una solución al problema se encuentra en el
concepto de almacenaje de datos
(Warehousing) y los temas relacionados de acceso
de los datos y minería de datos, procesamiento
analítico en línea (OLAP), y visualización de
datos.
9Relación entre los conceptos de Almacenaje de
Datos (Warehousing) y Procesamiento
Analítico en Línea (OLAP)
104.3 LA NATURALEZA Y FUENTES DE LOS DATOS
- Todos los sistemas para la toma de decisiones
usan - Datos. Elementos de datos acerca de cosas,
eventos, actividades, y transacciones no
organizados para comunicar algo específico. - Información. Son datos que han sido organizados
de manera que tiene un significado para el que la
recibe. El receptor interpreta el
significado y saca deducciones y conclusiones. - Conocimiento. Elementos de datos que son
organizados y procesados para llevar a un
entendimiento, experiencia, aprendizaje
acumulado, y especialización aplicados a un
problema o actividad.
11- Los datos DSS pueden incluir documentos,
imágenes, mapas, sonido, animaciones,
conceptos, pensamientos, opiniones. - DSS usan información resumida o extraída que
proviene de tres fuentes principales - Interna. Propia de la organización (personas,
productos, servicios y procesos, disponible a
través de su sistema de red. - Externa.Cámaras de comercio, internet, gobierno,
bancos, instituciones de investigación. Hay una
sobrecarga de información externa. Debe ser
tomada en cuenta para asegurar que no se omitió
información importante. - Personal. Empleados pueden contribuir con su
experiencia aportando estimaciones subjetivas
de ventas, opiniones acerca de lo que los
competidores.
124.4 RECOLECCION Y PROBLEMAS CON LOS DATOS
- Métodos para Coleccionar Datos Crudos (Raw Data)
- Manualmente
- Observaciones,
- Encuestas,
- Entrevistas a expertos
- Por instrumentos y sensores.
- El uso de sensores y escáneres ha ido en
aumento
13Problemas con los Datos
Problema Datos Incorrectos
Causa Típica Info. bruta no se capturó
apropiadamente. Los datos fueron genera-dos
con negligencia
Posible Solución Desarrollar un métodos sistemá-
tico para asegurar la exactitud de los
datos. Cada vez que la información es
entregada, monitorear cuidado- samente sus
valores y como fue generada.
El método para generar información no es lo
suficientemente rápido
Modificar el sistema que genera los
datos.
Información tardía
Los datos brutos son acu-mulados de acuerdo a
una lógica o periodicidad que no es
consistente a los propósitos del análisis
Modificar el sistema que genera los
datos.
Información no limitada o sin
indexar adecuada-mente
Un modelo contiene tantos coheficientes que es
dificil de desarrollar y mantener.
14Problemas con los Datos
Problema Los datos necesarios no
existen
Causa Típica Nadie registró la
información que se necesita ahora La
información requerida nunca
existió
Posible Solución Sea o no sea útil, registrar
información para uso futuro. Esto puede
considerar-se poco práctico por el costo de
guardar y mantener datos. Pero facilitará
encontrar datos cuando se necesite. Hacer un
esfuerzo para generar datos o estimarlos por si
son necesarios en el futuro.
154.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Por años la IT se concentraban en construcciones
de sistemas de misión crítica (sistemas
transaccionales), debían de ser virtualmente
tolerante a fallas y de respuesta rápida (OLTP)
desarrollados sobre ambientes de bases de datos
relacionadas distribuídas. Sobre una arquitectura
CLIENTE/SERVIDOR, un ejemplo INFORMIX-OnLIne
- OLAP (online analytical processing) refiere al
DSS y EIS hacerlo sobre sistemas online de
end-users, aquí los datos voluminosos son
procesados tan pronto como son introducidos.OLAP
es ejecutado por usuarios finales, y el OLTP es
hecho por IS prefesionales,OLAP incluye
actividades de generación de queries, respuesta
de reportes AD HOC , estadísticas, análisis y
construyen aplicaciones multimedia
164.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Para facilitar OLAP se requiere trabajar con
data warehouse o warehouse multidimensionales con
un set de herramientas con capacidades
multidimensionales como - Query tool
- Hojas de cálculo
- Data mining
- Visualización de datos
Compañias Lotus Development Corp, CA, Cognos,
Arbor Software, Information Resources, Comshare,
SAS Institute Inc, etc
174.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Usando SQL
- SQL es el lenguaje de manejo de datos que esta
llegando a ser el estándar para múltiples
Sistemas Manejadores de Bases de Datos
Relacionales - SQL es usado para bases de datos de acceso
online, operaciones DBMS de programas, funciones
administrativas de bases de datos (algunos
productos son ORACLE, DB2, Ingres, y Supra) - SQL es no procedural y muy amigable, usuarios
finales pueden usarlo para construír sus propios
queries. Puede ser usado en todos los lenguajes
de programación estándar.
184.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Data Mining
- Es un témino utilizado para describir una
poderosa tecnología con gran potencial para
ayudar a las compañías a concentrarse en la
información más importante de su data warehouse.
La extracción de información oculta y predecible
de grandes bases de datos - Todas estas actividades son conducidas
automáticamente y permiten descubrir los datos
rápidamente incluso por no programadores
194.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Data Mining Características y Objetivos
- Los datos se encuentran en algunas ocasiones
enterrados en bases de datos grandes, los cuales
pueden ser de muchos años atrás. Los datos están
en data warehouse - El ambiente de minería de datos se encuentra
normalmente en arquitecturas cliente/servidor - Nuevas y sofisticadas herramientas- incluyen
avanzadas herramientas de visualización, las
cuales ayudan a obtener información en grandes
archivos de la empresa (por ejemplo archivos de
texto almacenados en Lotus Notes o archivos de
internet)
204.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
- Data Mining Características y Objetivos
- La minería de datos ofrece a los usuarios
finales, poder de obtención de datos con
preguntas fáciles y simples y sin habilidades de
programación. - Las herramientas de data mining son fácilmente
combinadas con otras, como hojas de cálculo - En grandes cantidades de datos es necesario
algunas veces utilizar procesamientos paralelos
de data mining
214.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
PROFUNDIDAD DE DATOS DE MICRO A MAINFRAME Y BACK
USER QUERY SHOW REVENUES FOR MARTH 1991 BY
SALASPERSON
NETWORK
SQL QUERY SELECT FROM SALES WHERE
DB2
1
2
3
REPORT
NETWORK
RESULTS MARIA 2,000 BETO 1,000
DB2
4
5
6
224.9 OLAP ACCESO A DATOS Y MINERIA, QUERYING Y
ANALISIS
EJEMPLO DE APLICACIONES DE MINERIA DE DATOS
- Marketing
- Banking
- Retaling and sales
- Manufacturing and production
- Brokerage and securities trading
- Insurance
- Computer hardware and software
- Goverment and defense
- Airlanes
- Health care
- Broadcasting
- Police
234.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD
- OLAP implica no solo obtener y analizar datos e
información, también la presentación al usuario
Visualización de datos Se refiere a la
tecnología que soporta la visualización de la
información imágenes digitales, GPS, GUI,
multidimensiones, tablas y gráficos, realidad
virtual, tercera dimensión y animaciones. Estas
tecnologías pueden ser integradas para crear
diferentes presentaciones de la información. La
visualización de datos es fácil de implementar
cuando los datos se encuentran en un data
warehouse, o mejor aun en servidores de
multimedia.
244.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD
Multidimensionalidad Las tablas de hojas de
cálculo se encuentran en 2 dimensiones. Si uno
necesita presentar información con 3 o más
dimensiones se deben usar 2 tablas, o una tabla
compleja
- Presentaciones multidimensionales
- La totalización de datos puede se organizado de
diferentes formas para análisis y presentaciones.
Esto es llanado multidimensionalidad. Y los datos
pueden ser vistos como se desee, los datos en un
futuro pueden arreglarse fácil y rapidamente, se
consideran tres factores - Dimensiones (productos, vendedores, unidades de
negocio, etc.) - Medidas (pesos, volúmenes de venta, contadores,
etc) - Tiempo (diario, semanal, mensual)
254.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDAD
- Limitaciones de presentaciones multidimensionales
- La base de datos multidimensionales pueden tomar
40 más de espacio que la bases de datos
relaciones totalizadas - Los productos multidimensionales cuestan 50 mas
que los productos estándar relacionales - El tiempo y consumo de recursos del sistema es
mayor, dependiendo del volúmen de datos y número
de dimensiones - Las interfaces y mantenimiento son más complejas
que las base de datos relacionales - La multidimensionalidad se encuentra en
diferentes niveles de sofisticación, existen
varios tipos de software y es muy popular sobre
todo en sistemas de suporte de información
ejecutiva.
264.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS
- Las aplicaciones MSS requieres de acceso a datos
- ES (Sistemas Expertos)
- ANN (Redes Neuronales Artificiales)
- Pueden hacer la manipulación de complejas bases
de datos de una forma simple. - A estas se le llama base de datos inteligentes.
- Su contribución consiste en hacerlo de acorde con
el lenguaje natural
274.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS
Muestra base de datos inteligentes, un
significado, BD de integración en un ES
Usuario-final Dialogo de entrada
Base de datos Lógica Programa de Aplicación
Report
Pantalla
Database And DBMS
Engine de Interface
Base de datos Transaccionales
Reglas Base Almacenamiento
Data Model
284.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS
- Minería de base de datos inteligentes
- Algunas herramientas de minería de datos incluye
sistemas inteligentes que soporta búsqueda
inteligente - Estas aplicaciones están llegando a ser el
fundamento en las organizaciones para estrategias
de negocio - Las herramientas de minería de datos encuentran
los patrones de los datos y sus reglas y pueden
ser usados para guiar decisiones y pronosticar la
efectividad de la decisión. - El Data mining puede rápidamente analizar las
variables más importantes - Existen 5 tipos de información que puede ser
obtenida por el data mining - Asociación
- Secuencia
- Clasificación
- Agrupamiento
- pronóstico
294.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOS
- Minería de base de datos inteligentes
- Los principales tipos de herramientas utilizan la
minería de datos inteligentes en - Razonamientos basados sobre casos
- Computación neuronal
- Agentes inteligentes
- Otras herramientas (árboles de decisión, roles de
inducción y visualización de datos)
304.12 ESQUEMA GENERAL
Los datos para hacer decisiones vienen en una
gran variedad de fuentes, internos y externos,
debido a que los sistemas manejadores de bases de
datos es uno de los mas fuertes componentes de la
mayoría de los MSS, es importante familiarizarse
con los novedosos desarrollos en este campo. Las
organizaciones están ya reconociendo que sus
datos son oro molido. Consecuentemente ellos
están almacenando y minando datos de sus usuarios
para obtener información sobre ellos (a través de
variadas herramientas de análisis
multidimensionales y nuevas arquitecturas de
sistemas empresariales) y para estabilizar
relaciones que ellos desconocen previamente (a
través de minería de datos). Las herramientas
OLAP proveen la forma de analizar los datos para
identificar problemas y oportunidades.
314.12 ESQUEMA GENERAL
El apropiado uso de orientación de objetos para
análisis de sistemas, diseño e implementación
puede proveer una increíble oportunidad para
simplificar representaciones de sistemas, solo
con reutilización de código. A través de una gran
variedad de formato de datos, estos están siendo
disponibles en sistemas de bases de datos
multimedia. La web proporciona información
universal incluyendo más capacidades de
selección. Finalmente la construcción de métodos
de inteligencia artificial puede ser usada para
realzar la capacidad de análisis de datos en las
organizaciones
324.12 ESQUEMA GENERAL
El apropiado uso de orientación de objetos para
análisis de sistemas, diseño e implementación
puede proveer una increíble oportunidad para
simplificar representaciones de sistemas, solo
con reutilización de código. A través de una gran
variedad de formato de datos, estos están siendo
disponibles en sistemas de bases de datos
multimedia. La web proporciona información
universal incluyendo más capacidades de
selección. Finalmente la construcción de métodos
de inteligencia artificial puede ser usada para
realzar la capacidad de análisis de datos en las
organizaciones
334.12 ESQUEMA GENERAL
Puntos importantes de este capítulo
- Los datos existen de forma interna, externa y
personal - Los datos externos están disponibles en miles de
bases de datos online comerciales, diccionarios,
directorios y más - Los datos para el MSS deben ser coleccionados
frecuentemente en campos usando uno o varios
métodos - El MSS puede tener problemas de datos, tales como
datos incorrectos, datos fuera de tiempo,
mediciones pobres e indexación de datos, también
demasiados o ningún dato. - Las grandes bases de datos online como CompuServe
y Dow Jones Information Server pueden ser las
mejores fuentes de datos para los MSS
344.12 ESQUEMA GENERAL
Puntos importantes de este capítulo
- El internet esta llegando a ser la mayor fuente
de datos externos para los MSS - Las intranet proveen datos internos para los MSS
- Las mejores base de datos tienen Web hook para
habilitar selección directa via browser de la web
sobre las estaciones de trabajo de los clientes. - Los datos están organizados sobre arquitecturas
relacionales, jerárquicas y de red. Muchos MSS
prefieren el tipo relacional - El SQL es un estándar significativo para bases de
datos relacionales
354.12 ESQUEMA GENERAL
Puntos importantes de este capítulo
- Las bases de datos multimedia están llegando a
ser con mucho, más importantes para las
decisiones de toma de decisiones - Hay una tendencia sobre MSS distribuidas vía red,
especialmente sobre la WWW - Los MSS distribuidos dan beneficios para PC y
mainframes - Muchos MSS se proveen sobre arquitecturas
cliente/servidos - En una arquitectura cliente/servidor , varias
PCs o clientes estan conectadas a una misma base
de datos, telecomunicaciones y otros proveedores
de servicios.
364.12 ESQUEMA GENERAL
Puntos importantes de este capítulo
- Las bases de datos orientada a objeto son de
fácil uso y de muy rápido acceso. Ellas son de
gran ayuda con MSS distribuidos y complejas DSS. - Los datos para los MSS son frecuentemente
procesados y almacenados sobre data warehouse
para dar accesibilidad - OLAP (On Line Analitics Processing) tienen un set
de herramientas para analizar datos rápidamente y
se esta convirtiendo rápidamente en un factor
importante para las aplicaciones de DSS - La mineria de datos es el descubridor del
conocimiento en las bases de datos. Esto es
relacionado con el data warehouse y ayuda a dar
más potencial de información a los
administradores y explotar oportunidades de
negocio.
374.12 ESQUEMA GENERAL
Puntos importantes de este capítulo
- Una enterprise-wide information system es un
sistema de provee de comunicación a los
empleados de la organización. Y da accesibilidad
a cualquier dato o necesidad de información para
cualquier empleado en cualquier parte del mundo. - Las base de datos multidimensionales permiten a
los usuarios ver datos rápidamente en diferentes
dimensiones, aún si los datos se encuentran en
diferentes campos o bases de datos. - Uno de los objetivos más críticos para hacer
decisiones inteligentes es que los usuarios
puedan encontrar información más rápidamente y
por ellos mismos.