Title: conferencia
1Minería de Datos como Herramienta para la Gestión
Moderna
DR. NICOLAS KEMPER VALVERDE Laboratorio de
Sistemas Inteligentes CENTRO DE CIENCIAS
APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD
NACIONAL AUTONOMA DE MEXICO e-mail
kemper_at_servidor.unam.mx
2Gestión Moderna Contexto de los negocios
- Globalización
- Competencia
- Ventajas competitivas
- Tecnología
- Cambio
- Cultura organizacional
- Distancias geográficas e Internet
3Gestión Moderna Contexto de los negocios
- Economía del conocimiento
- Administración de la relación con clientes
- Campañas de publicidad
- Mejoramiento de procesos
- Diseño de producto
- Investigación de mercados
- Investigación de productos
4Tipos de Empresas
Manufactureras Tarjetas de
Crédito Servicios Medios TV, radio,
prensa Gobierno Telefonía fija y
móvil Bancarias Medicina Bursátiles
Farmacéuticas Seguros
Minoristas
5Gestión Moderna Implantar Ventajas
Competitivas
6Competencia y conocimiento
7Ventaja competitiva
- Aprender sobre los clientes
- Utilizar lo aprendido sobre los clientes para
aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil
8Ventaja competitiva
- Aprender sobre los competidores
- Utilizar lo aprendido sobre los competidores
para aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil
9Ventaja competitiva
- Aprender sobre los proveedores
- Utilizar lo aprendido sobre los proveedores para
aumentar la rentabilidad de la compañía y
hacerles a los clientes la vida más fácil
10Ventaja competitiva
- Aprender sobre los procesos internos
- Utilizar lo aprendido sobre los procesos
internos para aumentar la rentabilidad de la
compañía y hacerles a los clientes la vida más
fácil
11Qué hacer para adquirir ventajas competitivas?
- Comprar los resultados
-
- Comprar el software y los modelos
-
- Contratar consultores
-
- Desarrollar la expertisia internamente
-
12Inteligencia de Negocios y MD
Negocios
Inteligencia de Negocios
Administración del Conocimiento
Minería de datos
OLAP
13Negocios Establecimiento de metas concretas
- Incremento de las ventas en un 30 en productos
- de baja rotación en los próximos 10 meses
- Reducir de 2 a 1 el número de clientes premier
- que se pueden ir a la competencia en este
trimestre - (retención de clientes)
- Encontrar las características demográficas de los
- clientes de un nuevo producto
- (predicción de demanda )
14Negocios Establecimiento de metas concretas
- Detección de fraudes en tarjetas de crédito
- Estrategia de las promociones en una sala
- de venta al por menor
- Encontrar patrones de enfermedades
- Establecer estrategias para el ahorro de energía
15Factores de Éxito
Escoger bien el problema del negocio Tener los
datos apropiados (cantidad y calidad)
- Otros
- habilidades de modelación
- herramienta interactiva
- medios de visualización
16Inteligencia de Negocios
El flujo de información y conocimiento en una
empresa es actualmente muy importante si se
quiere mantener una posición fuerte en el
mercado, sin embargo, la gran mayoría de las
organizaciones tienen una abundancia de datos,
pero muy poco conocimiento explicito. La
Inteligencia de Negocios, es un concepto que
trata de englobar todos los sistemas de
información de una organización para obtener de
ellos no solo información o conocimiento, si no
una verdadera inteligencia que le confiera a la
organización una ventaja competitiva por sobre
sus competidores. El éxito de un negocio
depende de que tan bien conozca a sus clientes,
que tan bien entienda sus procesos internos y que
tan efectivo sea para realizar todas sus
operaciones
17Inteligencia de Negocios
La Inteligencia de Negocios se compone de todas
las actividades relacionadas a la organización y
entrega de información así como el análisis del
negocio. Data Warehousing y Data Marts,
Sistemas de almacén de datos. Aplicaciones
analíticas. Data Mining, herramientas para
minería de datos. OLAP, herramientas de
procesamiento analítico de datos. Herramientas
de consulta y reporte de datos. Herramientas de
producción de reportes personalizados. ELT,
herramientas de extracción, traducción y carga de
datos. Herramientas de administración de
sistemas. Portales de información empresarial.
Sistemas de base de datos. Sistemas de
administración del conocimiento.
18Administración del Conocimiento
Manejo de la información para generar
conocimiento, abarcando todos los recursos
intelectuales de una organización en todos los
niveles de responsabilidad. Así mismo, la
Gestión de Conocimiento ayuda a obtener mayor
comprensión y entendimiento del entorno y de los
procesos desde la propia experiencia en las
personas y organizaciones.
19Administración del Conocimiento
Ante este reto, se plantea la necesidad de
alcanzar una forma de organización que rompa los
límites tradicionales. Una organización con
estructuras más flexibles que supere los cuatro
tipos de fronteras más frecuentes . verticales
o jerárquicas, entre personas . horizontales,
entre funciones y disciplinas . externas, con
suministradores, clientes, empresas y otros
stakeholders . y geográficas, con naciones,
culturas y mercados.
20 MINERIA DE DATOS
La Minería de Datos se centra en la búsqueda de
patrones interesantes y regularidades importantes
en grandes bases de datos
21Supuestos de la Minería de Datos
- El pasado es un buen descriptor y predictor
- del futuro
- Hay datos disponibles
- Los datos contienen lo que queremos describir o
- predecir
22Nuevas Necesidades del Análisis de Grandes
Volúmenes de Datos
- El aumento del volumen y variedad de información
que se encuentran en bases de datos digitales ha
crecido espectacularmente en la última década. - Gran parte de esta información es histórica, es
decir, representa transacciones o situaciones que
se han producido (bitácoras). - Aparte de su función de memoria de la
organización, la información histórica es útil
para predecir la información futura.
23 La mayoría de decisiones de empresas,
organizaciones e instituciones se basan también
en información de experiencias pasadas extraídas
de fuentes muy diversas. Las decisiones
colectivas suelen tener consecuencias mucho más
graves, especialmente económicas, y,
recientemente, se deben basar en volúmenes de
datos que desbordan la capacidad humana.
El área de la extracción automática de
conocimiento de bases de datos ha adquirido
recientemente una importancia científica y
económica inusual
24- Tamaño de datos poco habitual para algoritmos
clásicos - número de registros (ejemplos) muy largo
(108-1012 bytes). - datos altamente dimensionales (nº de
columnas/atributos) 102-104. - El usuario final no es un experto en aprendizaje
automático ni en estadística. - El usuario no puede perder más tiempo analizando
los datos - industria ventajas competitivas, decisiones más
efectivas. - ciencia datos nunca analizados, bancos no
cruzados, etc. - Los sistemas clásicos de estadística son
difíciles de usar y no - escalan al número de datos típicos en bases de
datos.
25- Descubrimiento de Conocimiento a partir de Bases
de Datos (KDD, del inglés Knowledge Discovery
from Databases). - proceso no trivial de identificar patrones
válidos, novedosos, potencialmente útiles y en
última instancia comprensibles a partir de los
datos. Fayyad et al. 1996 - Diferencia clara con métodos estadísticos la
estadística se utiliza para validar o
parametrizar un modelo sugerido y preexistente,
no para generarlo. - Diferencia sutil Análisis Inteligente de Datos
(IDA, del inglés Intelligent Data Analysis) que
correspondía con el uso de técnicas de
inteligencia artificial en el análisis de los
datos.
26- KDD nace como interfaz y se nutre de diferentes
disciplinas - estadística.
- sistemas de información / bases de datos.
- aprendizaje automático / Inteligencia Artificial.
- visualización de datos.
- computación paralela / distribuida.
- interfaces de lenguaje natural a bases de datos.
27- La minería o prospección de datos (DM) no es más
que una fase del KDD - Fase que integra los métodos de aprendizaje y
métodos estadísticos para obtener hipótesis de
patrones y modelos. - Al ser la fase de generación de hipótesis,
vulgarmente se asimila al KDD con DM. - Además, las connotaciones de aventura y de dinero
fácil del término minería de datos han hecho
que éste se use como identificador del área.
28 La minería de datos no es una extensión de los
sistemas de informes inteligentes o sistemas OLAP
(On-Line Analytical Processing).
La minería de datos aspira a más
29Otras herramientas, p.ej. consultas sofisticadas
o análisis estadístico, pueden responder a
preguntas como Han subido las ventas del
producto X en junio? Las ventas del producto
X bajan cuando promocionamos el producto Y? Pero
sólo con técnicas de minería de datos podremos
responder a preguntas del estilo Qué factores
influyen en las ventas del producto X? Cuál
será el producto más vendido si abrimos una
sucursal en Chiclayo?
30- Visión con las herramientas tradicionales
- El analista empieza con una pregunta, una
suposición o simplemente una intuición y explora
los datos y construye un modelo. El analista
propone el modelo. - Visión con la minería de datos
- Aunque el analista no pierde la posibilidad de
proponer modelos, el sistema encuentra y sugiere
modelos. - Ventajas
- Generar un modelo requiere menos esfuerzo manual
y permite evaluar cantidades ingentes de datos. - Se pueden evaluar muchos modelos generados
automáticamente, y esto aumenta la probabilidad
de encontrar un buen modelo. - El analista necesita menos formación sobre
construcción de modelos y menos experiencia.
31El Proceso del KDD
El descubrimiento de conocimiento en bases de
datos (Knowledge Discovery in Databases, KDD). Se
refiere a un proceso que consta de una serie de
fases, mientras que la minería de datos es sólo
una de ellas.
32El Proceso del KDD. FASES
- Determinar las fuentes de información que pueden
ser útiles y dónde conseguirlas. - 2. Diseñar el esquema de un almacén de datos
(Data Warehouse) que consiga unificar de manera
operativa toda la información recogida. - 3. Implantación del almacén de datos que permita
la navegación y visualización previa de sus
datos, para discernir qué aspectos puede
interesar que sean estudiados. - 4. Selección, limpieza y transformación de los
datos que se van a analizar. La selección incluye
tanto una criba o fusión horizontal (filas) como
vertical (atributos). - 5. Seleccionar y aplicar el método de minería de
datos apropiado. - Evaluación, interpretación, transformación y
- representación de los patrones extraídos.
- 7. Difusión y uso del nuevo conocimiento.
33Minería de Datos
- La Minería de Datos es un conjunto de técnicas de
análisis de datos que permiten - Extraer patrones, tendencias y regularidades para
describir y comprender mejor los datos. - Extraer patrones y tendencias para predecir
comportamientos futuros. - Debido al gran volumen de datos este análisis ya
no puede ser manual (ni incluso facilitado por
herramientas de almacenes de datos y OLAP) sino
que ha de ser (semi-)automático.
34Minería de Datos
- La Minería de Datos se diferencia claramente del
resto de herramientas en el sentido de que - no transforma y facilita el acceso a la
información para que el usuario la analice más
fácilmente.
la minería de datos analiza los datos
35Es necesario tener almacenes de datos para
realizar minería de datos?
- Los almacenes de datos no son imprescindibles
para hacer extracción de conocimiento a partir de
datos. - se puede hacer minería de datos sobre un simple
fichero de datos. - Las ventajas de organizar un almacén de datos
para realizar minería de datos se amortizan
sobradamente a medio y largo plazo cuando - tenemos grandes volúmenes de datos, o
- éstos aumentan con el tiempo, o
- provienen de fuentes heterogéneas o
- se van a combinar de maneras arbitrarias y no
predefinidas.
36Tipología de Técnicas de Minería de Datos
- Las técnicas de minería de datos crean modelos
que son predictivos y/o descriptivos. - Un modelo predictivo responde preguntas sobre
datos futuros. - Cuáles serán las ventas el año próximo?
- Es ésta transacción fraudulenta?
- Qué tipo de seguro es más probable que contrate
el cliente X? - Cuántos clientes nuevos habrán en este mes?
37Tipología de Técnicas de Minería de Datos
- Un modelo descriptivo proporciona información
sobre las relaciones entre los datos y sus
características. Genera información del tipo - Los clientes que compran pañales suelen comprar
cerveza. - El tabaco y el alcohol son los factores más
importantes en la enfermedad Y. - Los clientes sin televisión y con bicicleta
tienen características muy diferenciadas del
resto.
38- Tipos de conocimiento
- Asociaciones Una asociación entre dos atributos
ocurre cuando la frecuencia de que se den dos
valores determinados de cada uno conjuntamente es
relativamente alta. - Ejemplo, en un supermercado se analiza si los
pañales y los biberones de bebé se compran
conjuntamente.
39- Tipos de conocimiento
- Dependencias Una dependencia funcional
(aproximada o absoluta) es un patrón en el que se
establece que uno o más atributos determinan el
valor de otro. Ojo! Existen muchas dependencias
nada interesantes (causalidades inversas). - Ejemplo que un paciente haya sido ingresado en
maternidad determina su sexo. - La búsqueda de asociaciones y dependencias se
conoce a veces como análisis exploratorio.
40- Tipos de conocimiento
- Clasificación Una clasificación se puede ver
como el esclarecimiento de una dependencia, en la
que el atributo dependiente puede tomar un valor
entre varias clases, ya conocidas. - Ejemplo se sabe (por un estudio de dependencias)
que los atributos edad, número de miopías y
astigmatismo han determinado los pacientes para
los que su operación de cirugía ocular ha sido
satisfactoria. - Podemos intentar determinar las reglas exactas
que clasifican un caso como positivo o negativo a
partir de esos atributos.
41- Tipos de conocimiento
- Agrupamiento/Segmentación El agrupamiento (o
clustering) es la detección de grupos de
individuos. - Se diferencia de la clasificación en el que no
se conocen ni las clases ni su número
(aprendizaje no supervisado), con lo que el
objetivo es determinar grupos o racimos
(clusters) diferenciados del resto.
42- Tipos de conocimiento
- Tendencias/Regresión El objetivo es predecir los
valores de una variable continua a partir de la
evolución sobre otra variable continua,
generalmente el tiempo. - Ejemplo, se intenta predecir el número de
clientes o pacientes, los ingresos, llamadas,
ganancias, costes, etc. a partir de los
resultados de semanas, meses o años anteriores. - Reglas Generales patrones no se ajustan a los
tipos anteriores. Recientemente los sistemas
incorporan capacidad para establecer otros
patrones más generales.
43El Problema de la Extracción Automática de
Conocimiento
La minería de datos no es más que un caso
especial de aprendizaje computacional inductivo.
- Qué es aprendizaje?
- (visión genérica, Mitchell 1997) es mejorar el
comportamiento a partir de la experiencia.
Aprendizaje Inteligencia. - (visión más estática) es la identificación de
patrones, de regularidades, existentes en la
evidencia. - (visión externa) es la predicción de
observaciones futuras con plausibilidad. - (visión teórico-informacional, Solomonoff 1966)
es eliminación de redundancia compresión de
información.
Aprendizaje Inductivo razonamiento hipotético de
casos particulares a casos generales.
44Taxonomía Técnicas de Minería de Datos
45Taxonomía de Técnicas de DM
- DESCRIPTIVO Análisis Exploratorio
- Técnicas
- Estudios correlacionales
- Asociaciones.
- Dependencias.
- Detección datos anómalos.
- Análisis de dispersión.
46Taxonomía de Técnicas de DM
- DESCRIPTIVO Segmentación (Aprendizaje no
supervisado) - Técnicas de clustering
- k-means (competitive learning).
- SOM redes neuronales de Kohonen
- EM (Estimated Means) (Dempster et al. 1977).
- Cobweb (Fisher 1987).
- AUTOCLASS
-
47Taxonomía de Técnicas de DM
- PREDICTIVO Interpolación y Predicción
Secuencial. - Generalmente las mismas técnicas
- Datos continuos (reales)
- Regresión Lineal
- Regresión lineal global (clásica).
- Regresión lineal ponderada localmente.
- Regresión No Lineal logarítmica, pick mix, ...
- Datos discretos
- No hay técnicas específicas se suelen utilizar
técnicas de algoritmos genéticos.
48Taxonomía de Técnicas de DM
- PREDICTIVO Aprendizaje supervisado.
- Dependiendo de si se estima una función o una
correspondencia - clasificación se estima una función (las clases
son disjuntas). - categorización se estima una correspondencia
(las clases pueden solapar).
49Taxonomía de Técnicas de DM
- Dependiendo del número y tipo de clases
- clase discreta se conoce como clasificación.
- Ejemplo determinar el grupo sanguíneo a partir
de los grupos sanguíneos de los padres. - si sólo tiene dos valores (V y F) se conoce como
concept learning. Ejemplo Determinar si un
compuesto químico es cancerígeno. - clase continua o discreta ordenada se conoce
como estimación (o también regresión). - Ejemplo estimar el número de hijos de una
familia a partir de otros ejemplos de familias.
50Taxonomía de Técnicas de DM
- PREDICTIVO Aprendizaje supervisado
(Clasificación). - Técnicas
- k-NN (Nearest Neighbor).
- k-means (competitive learning).
- Perceptron Learning.
- Multilayer ANN methods (e.g. backpropagation).
- Radial Basis Functions.
51Taxonomía de Técnicas de DM
- PREDICTIVO Aprendizaje supervisado
(Clasificación). - Técnicas
- Arboles de Decisión (p.ej. ID3, C4.5, CART).
- Clasificadores Bayesianos
- Center Splitting Methods.
- Reglas (CN2)
- Pseudo-relacional Supercharging, Pick-and-Mix.
- Relacionales ILP, IFLP, SCIL.
52Áreas de Aplicación
Más importante industrialmente
- Áreas de Aplicación
- Toma de Decisiones (banca-finanzas-seguros,
márketing, políticas sanitarias/demográficas,
...) - Procesos Industriales (componentes químicos,
compuestos, mezclas, esmaltes, procesos, etc.) - Investigación Científica (medicina, astronomía,
meteorología, psicología, ...). Aquí la
eficiencia no es tan importante.
53Áreas de Aplicación
- Soporte al Diseño de Bases de Datos.
- Reverse Engineering (dados una base de datos,
desnormalizarla para que luego el sistema la
normalice). - Mejora de Calidad de Datos.
- Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
54Áreas de Aplicación. Problemas Tipo
Comercio/Marketing - Identificar patrones de
compra de los clientes. - Buscar asociaciones
entre clientes y características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra. Banca
- Detectar patrones de uso
fraudulento de tarjetas de crédito -
Identificar clientes leales. - Predecir
clientes con probabilidad de cambiar su
afiliación. - Determinar gasto en tarjeta de
crédito por grupos. - Encontrar correlaciones
entre indicadores financieros. - Identificar
reglas de mercado de valores a partir de
históricos.
55Áreas de Aplicación. Problemas Tipo
Seguros y Salud Privada - Análisis de
procedimientos médicos solicitados
conjuntamente. - Predecir qué clientes
compran nuevas pólizas. - Identificar
patrones de comportamiento para
clientes con riesgo. - Identificar
comportamiento fraudulento. Transportes -
Determinar la planificación de la distribución
entre tiendas. - Analizar patrones
de carga.
56Áreas de Aplicación. Problemas Tipo
- Medicina
- Identificación de terapias médicas satisfactorias
para diferentes enfermedades. - Asociación de síntomas y clasificación
diferencial de patologías. - Estudio de factores (genéticos, precedentes,
hábitos, alimenticios, etc.) de riesgo/salud en
distintas patologías. - Segmentación de pacientes para una atención más
inteligente según su grupo. - Predicciones temporales de los centros
asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones. - Estudios epidemiológicos, análisis de
rendimientos de campañas de información,
prevención, sustitución de fármacos, etc.
57Áreas de Aplicación. Problemas Tipo
- Extracción de modelos sobre comportamiento de
compuestos. - Detección de piezas con trabas.
- Predicción de fallos
- Modelos de calidad.
- Estimación de composiciones óptimas en mezclas.
- Extracción de modelos de coste.
- Extracción de modelos de producción.
- Simulación costes/beneficios según niveles de
calidad
58Sistemas
59- Tipos de Sistemas
- Standalone Los datos se deben exportar/convertir
al formato interno del sistema de DM Knowledge
Seeker IV (Angoss International Limited, Groupe
Bull). - On-top Pueden funcionar sobre un sistema
propietario (Clementine sobre ODBC, microstrategy
sobre Oracle). - Embedded (propietarios) Oracle Discoverer,
Oracle Darwin, IBM... - Extensible (Tecnología Plug-ins) proporcionan
unas herramientas mínimas de interfaz con los
datos, estadísticas y visualización, y los
algoritmos de aprendizaje se pueden ir añadiendo
con plug-ins. (ej. KEPLER).
60 Sistemas
61MUCHAS GRACIAS DR. NICOLAS KEMPER
VALVERDE Laboratorio de Sistemas
Inteligentes CENTRO DE CIENCIAS APLICADAS Y
DESARROLLO TECNOLOGICO Universidad Nacional
Autónoma de México e-mail kemper_at_servidor.unam.
mx