conferencia

About This Presentation

Title:

conferencia

Description:

DR. NICOLAS KEMPER VALVERDE Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO – PowerPoint PPT presentation

Number of Views:46

Avg rating:3.0/5.0

Slides: 62

Provided by: Nicolas135

Category:

more less

Transcript and Presenter's Notes

Title: conferencia

1
Minería de Datos como Herramienta para la Gestión
Moderna
DR. NICOLAS KEMPER VALVERDE Laboratorio de
Sistemas Inteligentes CENTRO DE CIENCIAS
APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD
NACIONAL AUTONOMA DE MEXICO e-mail
kemper_at_servidor.unam.mx
2
Gestión Moderna Contexto de los negocios

Globalización
Competencia
Ventajas competitivas
Tecnología
Cambio
Cultura organizacional
Distancias geográficas e Internet

3
Gestión Moderna Contexto de los negocios

Economía del conocimiento
Administración de la relación con clientes
Campañas de publicidad
Mejoramiento de procesos
Diseño de producto
Investigación de mercados
Investigación de productos

4
Tipos de Empresas

Manufactureras Tarjetas de
Crédito Servicios Medios TV, radio,
prensa Gobierno Telefonía fija y
móvil Bancarias Medicina Bursátiles
Farmacéuticas Seguros
Minoristas
5
Gestión Moderna Implantar Ventajas
Competitivas

6
Competencia y conocimiento

Competencia

Expertise

Conocimiento

Información

Datos

Símbolos

7
Ventaja competitiva

Aprender sobre los clientes
Utilizar lo aprendido sobre los clientes para
aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil

8
Ventaja competitiva

Aprender sobre los competidores
Utilizar lo aprendido sobre los competidores
para aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil

9
Ventaja competitiva

Aprender sobre los proveedores
Utilizar lo aprendido sobre los proveedores para
aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil

10
Ventaja competitiva

Aprender sobre los procesos internos
Utilizar lo aprendido sobre los procesos
internos para aumentar la rentabilidad de la
compañía y hacerles a los clientes la vida más
fácil

11
Qué hacer para adquirir ventajas competitivas?

Comprar los resultados
Comprar el software y los modelos
Contratar consultores
Desarrollar la expertisia internamente

12
Inteligencia de Negocios y MD

Negocios
Inteligencia de Negocios
Administración del Conocimiento
Minería de datos
OLAP
13
Negocios Establecimiento de metas concretas

Incremento de las ventas en un 30 en productos
de baja rotación en los próximos 10 meses
Reducir de 2 a 1 el número de clientes premier
que se pueden ir a la competencia en este
trimestre
(retención de clientes)
Encontrar las características demográficas de los
clientes de un nuevo producto
(predicción de demanda )

14
Negocios Establecimiento de metas concretas

Detección de fraudes en tarjetas de crédito
Estrategia de las promociones en una sala
de venta al por menor
Encontrar patrones de enfermedades
Establecer estrategias para el ahorro de energía

15
Factores de Éxito
Escoger bien el problema del negocio Tener los
datos apropiados (cantidad y calidad)

Otros
habilidades de modelación
herramienta interactiva
medios de visualización

16
Inteligencia de Negocios

El flujo de información y conocimiento en una
empresa es actualmente muy importante si se
quiere mantener una posición fuerte en el
mercado, sin embargo, la gran mayoría de las
organizaciones tienen una abundancia de datos,
pero muy poco conocimiento explicito. La
Inteligencia de Negocios, es un concepto que
trata de englobar todos los sistemas de
información de una organización para obtener de
ellos no solo información o conocimiento, si no
una verdadera inteligencia que le confiera a la
organización una ventaja competitiva por sobre
sus competidores. El éxito de un negocio
depende de que tan bien conozca a sus clientes,
que tan bien entienda sus procesos internos y que
tan efectivo sea para realizar todas sus
operaciones
17
Inteligencia de Negocios

La Inteligencia de Negocios se compone de todas
las actividades relacionadas a la organización y
entrega de información así como el análisis del
negocio. Data Warehousing y Data Marts,
Sistemas de almacén de datos. Aplicaciones
analíticas. Data Mining, herramientas para
minería de datos. OLAP, herramientas de
procesamiento analítico de datos. Herramientas
de consulta y reporte de datos. Herramientas de
producción de reportes personalizados. ELT,
herramientas de extracción, traducción y carga de
datos. Herramientas de administración de
sistemas. Portales de información empresarial.
Sistemas de base de datos. Sistemas de
administración del conocimiento.
18
Administración del Conocimiento

Manejo de la información para generar
conocimiento, abarcando todos los recursos
intelectuales de una organización en todos los
niveles de responsabilidad. Así mismo, la
Gestión de Conocimiento ayuda a obtener mayor
comprensión y entendimiento del entorno y de los
procesos desde la propia experiencia en las
personas y organizaciones.
19
Administración del Conocimiento

Ante este reto, se plantea la necesidad de
alcanzar una forma de organización que rompa los
límites tradicionales. Una organización con
estructuras más flexibles que supere los cuatro
tipos de fronteras más frecuentes . verticales
o jerárquicas, entre personas . horizontales,
entre funciones y disciplinas . externas, con
suministradores, clientes, empresas y otros
stakeholders . y geográficas, con naciones,
culturas y mercados.
20

MINERIA DE DATOS
La Minería de Datos se centra en la búsqueda de
patrones interesantes y regularidades importantes
en grandes bases de datos
21
Supuestos de la Minería de Datos

El pasado es un buen descriptor y predictor
del futuro
Hay datos disponibles
Los datos contienen lo que queremos describir o
predecir

22
Nuevas Necesidades del Análisis de Grandes
Volúmenes de Datos

El aumento del volumen y variedad de información
que se encuentran en bases de datos digitales ha
crecido espectacularmente en la última década.
Gran parte de esta información es histórica, es
decir, representa transacciones o situaciones que
se han producido (bitácoras).
Aparte de su función de memoria de la
organización, la información histórica es útil
para predecir la información futura.

23
La mayoría de decisiones de empresas,
organizaciones e instituciones se basan también
en información de experiencias pasadas extraídas
de fuentes muy diversas. Las decisiones
colectivas suelen tener consecuencias mucho más
graves, especialmente económicas, y,
recientemente, se deben basar en volúmenes de
datos que desbordan la capacidad humana.
El área de la extracción automática de
conocimiento de bases de datos ha adquirido
recientemente una importancia científica y
económica inusual
24

Tamaño de datos poco habitual para algoritmos
clásicos
número de registros (ejemplos) muy largo
(108-1012 bytes).
datos altamente dimensionales (nº de
columnas/atributos) 102-104.
El usuario final no es un experto en aprendizaje
automático ni en estadística.
El usuario no puede perder más tiempo analizando
los datos
industria ventajas competitivas, decisiones más
efectivas.
ciencia datos nunca analizados, bancos no
cruzados, etc.
Los sistemas clásicos de estadística son
difíciles de usar y no
escalan al número de datos típicos en bases de
datos.

Descubrimiento de Conocimiento a partir de Bases
de Datos (KDD, del inglés Knowledge Discovery
from Databases).
proceso no trivial de identificar patrones
válidos, novedosos, potencialmente útiles y en
última instancia comprensibles a partir de los
datos. Fayyad et al. 1996
Diferencia clara con métodos estadísticos la
estadística se utiliza para validar o
parametrizar un modelo sugerido y preexistente,
no para generarlo.
Diferencia sutil Análisis Inteligente de Datos
(IDA, del inglés Intelligent Data Analysis) que
correspondía con el uso de técnicas de
inteligencia artificial en el análisis de los
datos.

KDD nace como interfaz y se nutre de diferentes
disciplinas
estadística.
sistemas de información / bases de datos.
aprendizaje automático / Inteligencia Artificial.
visualización de datos.
computación paralela / distribuida.
interfaces de lenguaje natural a bases de datos.

La minería o prospección de datos (DM) no es más
que una fase del KDD
Fase que integra los métodos de aprendizaje y
métodos estadísticos para obtener hipótesis de
patrones y modelos.
Al ser la fase de generación de hipótesis,
vulgarmente se asimila al KDD con DM.
Además, las connotaciones de aventura y de dinero
fácil del término minería de datos han hecho
que éste se use como identificador del área.

28
La minería de datos no es una extensión de los
sistemas de informes inteligentes o sistemas OLAP
(On-Line Analytical Processing).
La minería de datos aspira a más
29
Otras herramientas, p.ej. consultas sofisticadas
o análisis estadístico, pueden responder a
preguntas como Han subido las ventas del
producto X en junio? Las ventas del producto
X bajan cuando promocionamos el producto Y? Pero
sólo con técnicas de minería de datos podremos
responder a preguntas del estilo Qué factores
influyen en las ventas del producto X? Cuál
será el producto más vendido si abrimos una
sucursal en Chiclayo?
30

Visión con las herramientas tradicionales
El analista empieza con una pregunta, una
suposición o simplemente una intuición y explora
los datos y construye un modelo. El analista
propone el modelo.
Visión con la minería de datos
Aunque el analista no pierde la posibilidad de
proponer modelos, el sistema encuentra y sugiere
modelos.
Ventajas
Generar un modelo requiere menos esfuerzo manual
y permite evaluar cantidades ingentes de datos.
Se pueden evaluar muchos modelos generados
automáticamente, y esto aumenta la probabilidad
de encontrar un buen modelo.
El analista necesita menos formación sobre
construcción de modelos y menos experiencia.

31
El Proceso del KDD
El descubrimiento de conocimiento en bases de
datos (Knowledge Discovery in Databases, KDD). Se
refiere a un proceso que consta de una serie de
fases, mientras que la minería de datos es sólo
una de ellas.
32
El Proceso del KDD. FASES

Determinar las fuentes de información que pueden
ser útiles y dónde conseguirlas.
2. Diseñar el esquema de un almacén de datos
(Data Warehouse) que consiga unificar de manera
operativa toda la información recogida.
3. Implantación del almacén de datos que permita
la navegación y visualización previa de sus
datos, para discernir qué aspectos puede
interesar que sean estudiados.
4. Selección, limpieza y transformación de los
datos que se van a analizar. La selección incluye
tanto una criba o fusión horizontal (filas) como
vertical (atributos).
5. Seleccionar y aplicar el método de minería de
datos apropiado.
Evaluación, interpretación, transformación y
representación de los patrones extraídos.
7. Difusión y uso del nuevo conocimiento.

33
Minería de Datos

La Minería de Datos es un conjunto de técnicas de
análisis de datos que permiten
Extraer patrones, tendencias y regularidades para
describir y comprender mejor los datos.
Extraer patrones y tendencias para predecir
comportamientos futuros.
Debido al gran volumen de datos este análisis ya
no puede ser manual (ni incluso facilitado por
herramientas de almacenes de datos y OLAP) sino
que ha de ser (semi-)automático.

34
Minería de Datos

La Minería de Datos se diferencia claramente del
resto de herramientas en el sentido de que
no transforma y facilita el acceso a la
información para que el usuario la analice más
fácilmente.

la minería de datos analiza los datos
35
Es necesario tener almacenes de datos para
realizar minería de datos?

Los almacenes de datos no son imprescindibles
para hacer extracción de conocimiento a partir de
datos.
se puede hacer minería de datos sobre un simple
fichero de datos.
Las ventajas de organizar un almacén de datos
para realizar minería de datos se amortizan
sobradamente a medio y largo plazo cuando
tenemos grandes volúmenes de datos, o
éstos aumentan con el tiempo, o
provienen de fuentes heterogéneas o
se van a combinar de maneras arbitrarias y no
predefinidas.

36
Tipología de Técnicas de Minería de Datos

Las técnicas de minería de datos crean modelos
que son predictivos y/o descriptivos.
Un modelo predictivo responde preguntas sobre
datos futuros.
Cuáles serán las ventas el año próximo?
Es ésta transacción fraudulenta?
Qué tipo de seguro es más probable que contrate
el cliente X?
Cuántos clientes nuevos habrán en este mes?

37
Tipología de Técnicas de Minería de Datos

Un modelo descriptivo proporciona información
sobre las relaciones entre los datos y sus
características. Genera información del tipo
Los clientes que compran pañales suelen comprar
cerveza.
El tabaco y el alcohol son los factores más
importantes en la enfermedad Y.
Los clientes sin televisión y con bicicleta
tienen características muy diferenciadas del
resto.

Tipos de conocimiento
Asociaciones Una asociación entre dos atributos
ocurre cuando la frecuencia de que se den dos
valores determinados de cada uno conjuntamente es
relativamente alta.
Ejemplo, en un supermercado se analiza si los
pañales y los biberones de bebé se compran
conjuntamente.

Tipos de conocimiento
Dependencias Una dependencia funcional
(aproximada o absoluta) es un patrón en el que se
establece que uno o más atributos determinan el
valor de otro. Ojo! Existen muchas dependencias
nada interesantes (causalidades inversas).
Ejemplo que un paciente haya sido ingresado en
maternidad determina su sexo.
La búsqueda de asociaciones y dependencias se
conoce a veces como análisis exploratorio.

Tipos de conocimiento
Clasificación Una clasificación se puede ver
como el esclarecimiento de una dependencia, en la
que el atributo dependiente puede tomar un valor
entre varias clases, ya conocidas.
Ejemplo se sabe (por un estudio de dependencias)
que los atributos edad, número de miopías y
astigmatismo han determinado los pacientes para
los que su operación de cirugía ocular ha sido
satisfactoria.
Podemos intentar determinar las reglas exactas
que clasifican un caso como positivo o negativo a
partir de esos atributos.

Tipos de conocimiento
Agrupamiento/Segmentación El agrupamiento (o
clustering) es la detección de grupos de
individuos.
Se diferencia de la clasificación en el que no
se conocen ni las clases ni su número
(aprendizaje no supervisado), con lo que el
objetivo es determinar grupos o racimos
(clusters) diferenciados del resto.

Tipos de conocimiento
Tendencias/Regresión El objetivo es predecir los
valores de una variable continua a partir de la
evolución sobre otra variable continua,
generalmente el tiempo.
Ejemplo, se intenta predecir el número de
clientes o pacientes, los ingresos, llamadas,
ganancias, costes, etc. a partir de los
resultados de semanas, meses o años anteriores.
Reglas Generales patrones no se ajustan a los
tipos anteriores. Recientemente los sistemas
incorporan capacidad para establecer otros
patrones más generales.

43
El Problema de la Extracción Automática de
Conocimiento
La minería de datos no es más que un caso
especial de aprendizaje computacional inductivo.

Qué es aprendizaje?
(visión genérica, Mitchell 1997) es mejorar el
comportamiento a partir de la experiencia.
Aprendizaje Inteligencia.
(visión más estática) es la identificación de
patrones, de regularidades, existentes en la
evidencia.
(visión externa) es la predicción de
observaciones futuras con plausibilidad.
(visión teórico-informacional, Solomonoff 1966)
es eliminación de redundancia compresión de
información.

Aprendizaje Inductivo razonamiento hipotético de
casos particulares a casos generales.
44
Taxonomía Técnicas de Minería de Datos
45
Taxonomía de Técnicas de DM

DESCRIPTIVO Análisis Exploratorio
Técnicas
Estudios correlacionales
Asociaciones.
Dependencias.
Detección datos anómalos.
Análisis de dispersión.

46
Taxonomía de Técnicas de DM

DESCRIPTIVO Segmentación (Aprendizaje no
supervisado)
Técnicas de clustering

k-means (competitive learning).
SOM redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS

47
Taxonomía de Técnicas de DM

PREDICTIVO Interpolación y Predicción
Secuencial.
Generalmente las mismas técnicas
Datos continuos (reales)
Regresión Lineal
Regresión lineal global (clásica).
Regresión lineal ponderada localmente.
Regresión No Lineal logarítmica, pick mix, ...
Datos discretos
No hay técnicas específicas se suelen utilizar
técnicas de algoritmos genéticos.

48
Taxonomía de Técnicas de DM

PREDICTIVO Aprendizaje supervisado.
Dependiendo de si se estima una función o una
correspondencia
clasificación se estima una función (las clases
son disjuntas).
categorización se estima una correspondencia
(las clases pueden solapar).

49
Taxonomía de Técnicas de DM

Dependiendo del número y tipo de clases
clase discreta se conoce como clasificación.
Ejemplo determinar el grupo sanguíneo a partir
de los grupos sanguíneos de los padres.
si sólo tiene dos valores (V y F) se conoce como
concept learning. Ejemplo Determinar si un
compuesto químico es cancerígeno.
clase continua o discreta ordenada se conoce
como estimación (o también regresión).
Ejemplo estimar el número de hijos de una
familia a partir de otros ejemplos de familias.

50
Taxonomía de Técnicas de DM

PREDICTIVO Aprendizaje supervisado
(Clasificación).
Técnicas
k-NN (Nearest Neighbor).
k-means (competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Radial Basis Functions.

51
Taxonomía de Técnicas de DM

PREDICTIVO Aprendizaje supervisado
(Clasificación).
Técnicas
Arboles de Decisión (p.ej. ID3, C4.5, CART).
Clasificadores Bayesianos
Center Splitting Methods.
Reglas (CN2)
Pseudo-relacional Supercharging, Pick-and-Mix.
Relacionales ILP, IFLP, SCIL.

52
Áreas de Aplicación
Más importante industrialmente

Áreas de Aplicación
Toma de Decisiones (banca-finanzas-seguros,
márketing, políticas sanitarias/demográficas,
...)
Procesos Industriales (componentes químicos,
compuestos, mezclas, esmaltes, procesos, etc.)
Investigación Científica (medicina, astronomía,
meteorología, psicología, ...). Aquí la
eficiencia no es tan importante.

53
Áreas de Aplicación

Soporte al Diseño de Bases de Datos.
Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la
normalice).
Mejora de Calidad de Datos.
Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).

54
Áreas de Aplicación. Problemas Tipo
Comercio/Marketing - Identificar patrones de
compra de los clientes. - Buscar asociaciones
entre clientes y características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra. Banca
- Detectar patrones de uso
fraudulento de tarjetas de crédito -
Identificar clientes leales. - Predecir
clientes con probabilidad de cambiar su
afiliación. - Determinar gasto en tarjeta de
crédito por grupos. - Encontrar correlaciones
entre indicadores financieros. - Identificar
reglas de mercado de valores a partir de
históricos.
55
Áreas de Aplicación. Problemas Tipo
Seguros y Salud Privada - Análisis de
procedimientos médicos solicitados
conjuntamente. - Predecir qué clientes
compran nuevas pólizas. - Identificar
patrones de comportamiento para
clientes con riesgo. - Identificar
comportamiento fraudulento. Transportes -
Determinar la planificación de la distribución
entre tiendas. - Analizar patrones
de carga.
56
Áreas de Aplicación. Problemas Tipo

Medicina
Identificación de terapias médicas satisfactorias
para diferentes enfermedades.
Asociación de síntomas y clasificación
diferencial de patologías.
Estudio de factores (genéticos, precedentes,
hábitos, alimenticios, etc.) de riesgo/salud en
distintas patologías.
Segmentación de pacientes para una atención más
inteligente según su grupo.
Predicciones temporales de los centros
asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones.
Estudios epidemiológicos, análisis de
rendimientos de campañas de información,
prevención, sustitución de fármacos, etc.

57
Áreas de Aplicación. Problemas Tipo

Extracción de modelos sobre comportamiento de
compuestos.
Detección de piezas con trabas.
Predicción de fallos
Modelos de calidad.
Estimación de composiciones óptimas en mezclas.
Extracción de modelos de coste.
Extracción de modelos de producción.
Simulación costes/beneficios según niveles de
calidad

58
Sistemas
59

Tipos de Sistemas
Standalone Los datos se deben exportar/convertir
al formato interno del sistema de DM Knowledge
Seeker IV (Angoss International Limited, Groupe
Bull).
On-top Pueden funcionar sobre un sistema
propietario (Clementine sobre ODBC, microstrategy
sobre Oracle).
Embedded (propietarios) Oracle Discoverer,
Oracle Darwin, IBM...
Extensible (Tecnología Plug-ins) proporcionan
unas herramientas mínimas de interfaz con los
datos, estadísticas y visualización, y los
algoritmos de aprendizaje se pueden ir añadiendo
con plug-ins. (ej. KEPLER).

60

Sistemas
61
MUCHAS GRACIAS DR. NICOLAS KEMPER
VALVERDE Laboratorio de Sistemas
Inteligentes CENTRO DE CIENCIAS APLICADAS Y
DESARROLLO TECNOLOGICO Universidad Nacional
Autónoma de México e-mail kemper_at_servidor.unam.
mx

Write a Comment

User Comments (0)