conferencia - PowerPoint PPT Presentation

1 / 61
About This Presentation
Title:

conferencia

Description:

DR. NICOLAS KEMPER VALVERDE Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 62
Provided by: Nicolas135
Category:

less

Transcript and Presenter's Notes

Title: conferencia


1
Minería de Datos como Herramienta para la Gestión
Moderna
DR. NICOLAS KEMPER VALVERDE Laboratorio de
Sistemas Inteligentes CENTRO DE CIENCIAS
APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD
NACIONAL AUTONOMA DE MEXICO e-mail
kemper_at_servidor.unam.mx
2
Gestión Moderna Contexto de los negocios
  • Globalización
  • Competencia
  • Ventajas competitivas
  • Tecnología
  • Cambio
  • Cultura organizacional
  • Distancias geográficas e Internet

3
Gestión Moderna Contexto de los negocios
  • Economía del conocimiento
  • Administración de la relación con clientes
  • Campañas de publicidad
  • Mejoramiento de procesos
  • Diseño de producto
  • Investigación de mercados
  • Investigación de productos

4
Tipos de Empresas

Manufactureras Tarjetas de
Crédito Servicios Medios TV, radio,
prensa Gobierno Telefonía fija y
móvil Bancarias Medicina Bursátiles
Farmacéuticas Seguros
Minoristas
5
Gestión Moderna Implantar Ventajas
Competitivas

6
Competencia y conocimiento
  • Competencia
  • Expertise
  • Conocimiento
  • Información
  • Datos
  • Símbolos

7
Ventaja competitiva
  • Aprender sobre los clientes
  • Utilizar lo aprendido sobre los clientes para
    aumentar la rentabilidad de la compañía y
    hacerles a los clientes la vida más fácil

8
Ventaja competitiva
  • Aprender sobre los competidores
  • Utilizar lo aprendido sobre los competidores
    para aumentar la rentabilidad de la compañía y
    hacerles a los clientes la vida más fácil

9
Ventaja competitiva
  • Aprender sobre los proveedores
  • Utilizar lo aprendido sobre los proveedores para
    aumentar la rentabilidad de la compañía y
    hacerles a los clientes la vida más fácil

10
Ventaja competitiva
  • Aprender sobre los procesos internos
  • Utilizar lo aprendido sobre los procesos
    internos para aumentar la rentabilidad de la
    compañía y hacerles a los clientes la vida más
    fácil

11
Qué hacer para adquirir ventajas competitivas?
  • Comprar los resultados
  • Comprar el software y los modelos
  • Contratar consultores
  • Desarrollar la expertisia internamente

12
Inteligencia de Negocios y MD

Negocios
Inteligencia de Negocios
Administración del Conocimiento
Minería de datos
OLAP
13
Negocios Establecimiento de metas concretas
  • Incremento de las ventas en un 30 en productos
  • de baja rotación en los próximos 10 meses
  • Reducir de 2 a 1 el número de clientes premier
  • que se pueden ir a la competencia en este
    trimestre
  • (retención de clientes)
  • Encontrar las características demográficas de los
  • clientes de un nuevo producto
  • (predicción de demanda )

14
Negocios Establecimiento de metas concretas
  • Detección de fraudes en tarjetas de crédito
  • Estrategia de las promociones en una sala
  • de venta al por menor
  • Encontrar patrones de enfermedades
  • Establecer estrategias para el ahorro de energía

15
Factores de Éxito
Escoger bien el problema del negocio Tener los
datos apropiados (cantidad y calidad)
  • Otros
  • habilidades de modelación
  • herramienta interactiva
  • medios de visualización

16
Inteligencia de Negocios

El flujo de información y conocimiento en una
empresa es actualmente muy importante si se
quiere mantener una posición fuerte en el
mercado, sin embargo, la gran mayoría de las
organizaciones tienen una abundancia de datos,
pero muy poco conocimiento explicito. La
Inteligencia de Negocios, es un concepto que
trata de englobar todos los sistemas de
información de una organización para obtener de
ellos no solo información o conocimiento, si no
una verdadera inteligencia que le confiera a la
organización una ventaja competitiva por sobre
sus competidores. El éxito de un negocio
depende de que tan bien conozca a sus clientes,
que tan bien entienda sus procesos internos y que
tan efectivo sea para realizar todas sus
operaciones
17
Inteligencia de Negocios

La Inteligencia de Negocios se compone de todas
las actividades relacionadas a la organización y
entrega de información así como el análisis del
negocio. Data Warehousing y Data Marts,
Sistemas de almacén de datos. Aplicaciones
analíticas. Data Mining, herramientas para
minería de datos. OLAP, herramientas de
procesamiento analítico de datos. Herramientas
de consulta y reporte de datos. Herramientas de
producción de reportes personalizados. ELT,
herramientas de extracción, traducción y carga de
datos. Herramientas de administración de
sistemas. Portales de información empresarial.
Sistemas de base de datos. Sistemas de
administración del conocimiento.
18
Administración del Conocimiento

Manejo de la información para generar
conocimiento, abarcando todos los recursos
intelectuales de una organización en todos los
niveles de responsabilidad. Así mismo, la
Gestión de Conocimiento ayuda a obtener mayor
comprensión y entendimiento del entorno y de los
procesos desde la propia experiencia en las
personas y organizaciones.
19
Administración del Conocimiento

Ante este reto, se plantea la necesidad de
alcanzar una forma de organización que rompa los
límites tradicionales. Una organización con
estructuras más flexibles que supere los cuatro
tipos de fronteras más frecuentes . verticales
o jerárquicas, entre personas . horizontales,
entre funciones y disciplinas . externas, con
suministradores, clientes, empresas y otros
stakeholders . y geográficas, con naciones,
culturas y mercados.
20

MINERIA DE DATOS
La Minería de Datos se centra en la búsqueda de
patrones interesantes y regularidades importantes
en grandes bases de datos
21
Supuestos de la Minería de Datos
  • El pasado es un buen descriptor y predictor
  • del futuro
  • Hay datos disponibles
  • Los datos contienen lo que queremos describir o
  • predecir

22
Nuevas Necesidades del Análisis de Grandes
Volúmenes de Datos
  • El aumento del volumen y variedad de información
    que se encuentran en bases de datos digitales ha
    crecido espectacularmente en la última década.
  • Gran parte de esta información es histórica, es
    decir, representa transacciones o situaciones que
    se han producido (bitácoras).
  • Aparte de su función de memoria de la
    organización, la información histórica es útil
    para predecir la información futura.

23
La mayoría de decisiones de empresas,
organizaciones e instituciones se basan también
en información de experiencias pasadas extraídas
de fuentes muy diversas. Las decisiones
colectivas suelen tener consecuencias mucho más
graves, especialmente económicas, y,
recientemente, se deben basar en volúmenes de
datos que desbordan la capacidad humana.
El área de la extracción automática de
conocimiento de bases de datos ha adquirido
recientemente una importancia científica y
económica inusual
24
  • Tamaño de datos poco habitual para algoritmos
    clásicos
  • número de registros (ejemplos) muy largo
    (108-1012 bytes).
  • datos altamente dimensionales (nº de
    columnas/atributos) 102-104.
  • El usuario final no es un experto en aprendizaje
    automático ni en estadística.
  • El usuario no puede perder más tiempo analizando
    los datos
  • industria ventajas competitivas, decisiones más
    efectivas.
  • ciencia datos nunca analizados, bancos no
    cruzados, etc.
  • Los sistemas clásicos de estadística son
    difíciles de usar y no
  • escalan al número de datos típicos en bases de
    datos.

25
  • Descubrimiento de Conocimiento a partir de Bases
    de Datos (KDD, del inglés Knowledge Discovery
    from Databases).
  • proceso no trivial de identificar patrones
    válidos, novedosos, potencialmente útiles y en
    última instancia comprensibles a partir de los
    datos. Fayyad et al. 1996
  • Diferencia clara con métodos estadísticos la
    estadística se utiliza para validar o
    parametrizar un modelo sugerido y preexistente,
    no para generarlo.
  • Diferencia sutil Análisis Inteligente de Datos
    (IDA, del inglés Intelligent Data Analysis) que
    correspondía con el uso de técnicas de
    inteligencia artificial en el análisis de los
    datos.

26
  • KDD nace como interfaz y se nutre de diferentes
    disciplinas
  • estadística.
  • sistemas de información / bases de datos.
  • aprendizaje automático / Inteligencia Artificial.
  • visualización de datos.
  • computación paralela / distribuida.
  • interfaces de lenguaje natural a bases de datos.

27
  • La minería o prospección de datos (DM) no es más
    que una fase del KDD
  • Fase que integra los métodos de aprendizaje y
    métodos estadísticos para obtener hipótesis de
    patrones y modelos.
  • Al ser la fase de generación de hipótesis,
    vulgarmente se asimila al KDD con DM.
  • Además, las connotaciones de aventura y de dinero
    fácil del término minería de datos han hecho
    que éste se use como identificador del área.

28
La minería de datos no es una extensión de los
sistemas de informes inteligentes o sistemas OLAP
(On-Line Analytical Processing).
La minería de datos aspira a más
29
Otras herramientas, p.ej. consultas sofisticadas
o análisis estadístico, pueden responder a
preguntas como Han subido las ventas del
producto X en junio? Las ventas del producto
X bajan cuando promocionamos el producto Y? Pero
sólo con técnicas de minería de datos podremos
responder a preguntas del estilo Qué factores
influyen en las ventas del producto X? Cuál
será el producto más vendido si abrimos una
sucursal en Chiclayo?
30
  • Visión con las herramientas tradicionales
  • El analista empieza con una pregunta, una
    suposición o simplemente una intuición y explora
    los datos y construye un modelo. El analista
    propone el modelo.
  • Visión con la minería de datos
  • Aunque el analista no pierde la posibilidad de
    proponer modelos, el sistema encuentra y sugiere
    modelos.
  • Ventajas
  • Generar un modelo requiere menos esfuerzo manual
    y permite evaluar cantidades ingentes de datos.
  • Se pueden evaluar muchos modelos generados
    automáticamente, y esto aumenta la probabilidad
    de encontrar un buen modelo.
  • El analista necesita menos formación sobre
    construcción de modelos y menos experiencia.

31
El Proceso del KDD
El descubrimiento de conocimiento en bases de
datos (Knowledge Discovery in Databases, KDD). Se
refiere a un proceso que consta de una serie de
fases, mientras que la minería de datos es sólo
una de ellas.
32
El Proceso del KDD. FASES
  • Determinar las fuentes de información que pueden
    ser útiles y dónde conseguirlas.
  • 2. Diseñar el esquema de un almacén de datos
    (Data Warehouse) que consiga unificar de manera
    operativa toda la información recogida.
  • 3. Implantación del almacén de datos que permita
    la navegación y visualización previa de sus
    datos, para discernir qué aspectos puede
    interesar que sean estudiados.
  • 4. Selección, limpieza y transformación de los
    datos que se van a analizar. La selección incluye
    tanto una criba o fusión horizontal (filas) como
    vertical (atributos).
  • 5. Seleccionar y aplicar el método de minería de
    datos apropiado.
  • Evaluación, interpretación, transformación y
  • representación de los patrones extraídos.
  • 7. Difusión y uso del nuevo conocimiento.

33
Minería de Datos
  • La Minería de Datos es un conjunto de técnicas de
    análisis de datos que permiten
  • Extraer patrones, tendencias y regularidades para
    describir y comprender mejor los datos.
  • Extraer patrones y tendencias para predecir
    comportamientos futuros.
  • Debido al gran volumen de datos este análisis ya
    no puede ser manual (ni incluso facilitado por
    herramientas de almacenes de datos y OLAP) sino
    que ha de ser (semi-)automático.

34
Minería de Datos
  • La Minería de Datos se diferencia claramente del
    resto de herramientas en el sentido de que
  • no transforma y facilita el acceso a la
    información para que el usuario la analice más
    fácilmente.

la minería de datos analiza los datos
35
Es necesario tener almacenes de datos para
realizar minería de datos?
  • Los almacenes de datos no son imprescindibles
    para hacer extracción de conocimiento a partir de
    datos.
  • se puede hacer minería de datos sobre un simple
    fichero de datos.
  • Las ventajas de organizar un almacén de datos
    para realizar minería de datos se amortizan
    sobradamente a medio y largo plazo cuando
  • tenemos grandes volúmenes de datos, o
  • éstos aumentan con el tiempo, o
  • provienen de fuentes heterogéneas o
  • se van a combinar de maneras arbitrarias y no
    predefinidas.

36
Tipología de Técnicas de Minería de Datos
  • Las técnicas de minería de datos crean modelos
    que son predictivos y/o descriptivos.
  • Un modelo predictivo responde preguntas sobre
    datos futuros.
  • Cuáles serán las ventas el año próximo?
  • Es ésta transacción fraudulenta?
  • Qué tipo de seguro es más probable que contrate
    el cliente X?
  • Cuántos clientes nuevos habrán en este mes?

37
Tipología de Técnicas de Minería de Datos
  • Un modelo descriptivo proporciona información
    sobre las relaciones entre los datos y sus
    características. Genera información del tipo
  • Los clientes que compran pañales suelen comprar
    cerveza.
  • El tabaco y el alcohol son los factores más
    importantes en la enfermedad Y.
  • Los clientes sin televisión y con bicicleta
    tienen características muy diferenciadas del
    resto.

38
  • Tipos de conocimiento
  • Asociaciones Una asociación entre dos atributos
    ocurre cuando la frecuencia de que se den dos
    valores determinados de cada uno conjuntamente es
    relativamente alta.
  • Ejemplo, en un supermercado se analiza si los
    pañales y los biberones de bebé se compran
    conjuntamente.

39
  • Tipos de conocimiento
  • Dependencias Una dependencia funcional
    (aproximada o absoluta) es un patrón en el que se
    establece que uno o más atributos determinan el
    valor de otro. Ojo! Existen muchas dependencias
    nada interesantes (causalidades inversas).
  • Ejemplo que un paciente haya sido ingresado en
    maternidad determina su sexo.
  • La búsqueda de asociaciones y dependencias se
    conoce a veces como análisis exploratorio.

40
  • Tipos de conocimiento
  • Clasificación Una clasificación se puede ver
    como el esclarecimiento de una dependencia, en la
    que el atributo dependiente puede tomar un valor
    entre varias clases, ya conocidas.
  • Ejemplo se sabe (por un estudio de dependencias)
    que los atributos edad, número de miopías y
    astigmatismo han determinado los pacientes para
    los que su operación de cirugía ocular ha sido
    satisfactoria.
  • Podemos intentar determinar las reglas exactas
    que clasifican un caso como positivo o negativo a
    partir de esos atributos.

41
  • Tipos de conocimiento
  • Agrupamiento/Segmentación El agrupamiento (o
    clustering) es la detección de grupos de
    individuos.
  • Se diferencia de la clasificación en el que no
    se conocen ni las clases ni su número
    (aprendizaje no supervisado), con lo que el
    objetivo es determinar grupos o racimos
    (clusters) diferenciados del resto.

42
  • Tipos de conocimiento
  • Tendencias/Regresión El objetivo es predecir los
    valores de una variable continua a partir de la
    evolución sobre otra variable continua,
    generalmente el tiempo.
  • Ejemplo, se intenta predecir el número de
    clientes o pacientes, los ingresos, llamadas,
    ganancias, costes, etc. a partir de los
    resultados de semanas, meses o años anteriores.
  • Reglas Generales patrones no se ajustan a los
    tipos anteriores. Recientemente los sistemas
    incorporan capacidad para establecer otros
    patrones más generales.

43
El Problema de la Extracción Automática de
Conocimiento
La minería de datos no es más que un caso
especial de aprendizaje computacional inductivo.
  • Qué es aprendizaje?
  • (visión genérica, Mitchell 1997) es mejorar el
    comportamiento a partir de la experiencia.
    Aprendizaje Inteligencia.
  • (visión más estática) es la identificación de
    patrones, de regularidades, existentes en la
    evidencia.
  • (visión externa) es la predicción de
    observaciones futuras con plausibilidad.
  • (visión teórico-informacional, Solomonoff 1966)
    es eliminación de redundancia compresión de
    información.

Aprendizaje Inductivo razonamiento hipotético de
casos particulares a casos generales.
44
Taxonomía Técnicas de Minería de Datos
45
Taxonomía de Técnicas de DM
  • DESCRIPTIVO Análisis Exploratorio
  • Técnicas
  • Estudios correlacionales
  • Asociaciones.
  • Dependencias.
  • Detección datos anómalos.
  • Análisis de dispersión.

46
Taxonomía de Técnicas de DM
  • DESCRIPTIVO Segmentación (Aprendizaje no
    supervisado)
  • Técnicas de clustering
  • k-means (competitive learning).
  • SOM redes neuronales de Kohonen
  • EM (Estimated Means) (Dempster et al. 1977).
  • Cobweb (Fisher 1987).
  • AUTOCLASS

47
Taxonomía de Técnicas de DM
  • PREDICTIVO Interpolación y Predicción
    Secuencial.
  • Generalmente las mismas técnicas
  • Datos continuos (reales)
  • Regresión Lineal
  • Regresión lineal global (clásica).
  • Regresión lineal ponderada localmente.
  • Regresión No Lineal logarítmica, pick mix, ...
  • Datos discretos
  • No hay técnicas específicas se suelen utilizar
    técnicas de algoritmos genéticos.

48
Taxonomía de Técnicas de DM
  • PREDICTIVO Aprendizaje supervisado.
  • Dependiendo de si se estima una función o una
    correspondencia
  • clasificación se estima una función (las clases
    son disjuntas).
  • categorización se estima una correspondencia
    (las clases pueden solapar).

49
Taxonomía de Técnicas de DM
  • Dependiendo del número y tipo de clases
  • clase discreta se conoce como clasificación.
  • Ejemplo determinar el grupo sanguíneo a partir
    de los grupos sanguíneos de los padres.
  • si sólo tiene dos valores (V y F) se conoce como
    concept learning. Ejemplo Determinar si un
    compuesto químico es cancerígeno.
  • clase continua o discreta ordenada se conoce
    como estimación (o también regresión).
  • Ejemplo estimar el número de hijos de una
    familia a partir de otros ejemplos de familias.

50
Taxonomía de Técnicas de DM
  • PREDICTIVO Aprendizaje supervisado
    (Clasificación).
  • Técnicas
  • k-NN (Nearest Neighbor).
  • k-means (competitive learning).
  • Perceptron Learning.
  • Multilayer ANN methods (e.g. backpropagation).
  • Radial Basis Functions.

51
Taxonomía de Técnicas de DM
  • PREDICTIVO Aprendizaje supervisado
    (Clasificación).
  • Técnicas
  • Arboles de Decisión (p.ej. ID3, C4.5, CART).
  • Clasificadores Bayesianos
  • Center Splitting Methods.
  • Reglas (CN2)
  • Pseudo-relacional Supercharging, Pick-and-Mix.
  • Relacionales ILP, IFLP, SCIL.

52
Áreas de Aplicación
Más importante industrialmente
  • Áreas de Aplicación
  • Toma de Decisiones (banca-finanzas-seguros,
    márketing, políticas sanitarias/demográficas,
    ...)
  • Procesos Industriales (componentes químicos,
    compuestos, mezclas, esmaltes, procesos, etc.)
  • Investigación Científica (medicina, astronomía,
    meteorología, psicología, ...). Aquí la
    eficiencia no es tan importante.

53
Áreas de Aplicación
  • Soporte al Diseño de Bases de Datos.
  • Reverse Engineering (dados una base de datos,
    desnormalizarla para que luego el sistema la
    normalice).
  • Mejora de Calidad de Datos.
  • Mejora de Consultas (si se descubren dependencias
    funcionales nuevas u otras condiciones evitables).

54
Áreas de Aplicación. Problemas Tipo
Comercio/Marketing - Identificar patrones de
compra de los clientes. - Buscar asociaciones
entre clientes y características demográficas.
- Predecir respuesta a campañas de mailing.
- Análisis de cestas de la compra. Banca
- Detectar patrones de uso
fraudulento de tarjetas de crédito -
Identificar clientes leales. - Predecir
clientes con probabilidad de cambiar su
afiliación. - Determinar gasto en tarjeta de
crédito por grupos. - Encontrar correlaciones
entre indicadores financieros. - Identificar
reglas de mercado de valores a partir de
históricos.
55
Áreas de Aplicación. Problemas Tipo
Seguros y Salud Privada - Análisis de
procedimientos médicos solicitados
conjuntamente. - Predecir qué clientes
compran nuevas pólizas. - Identificar
patrones de comportamiento para
clientes con riesgo. - Identificar
comportamiento fraudulento. Transportes -
Determinar la planificación de la distribución
entre tiendas. - Analizar patrones
de carga.
56
Áreas de Aplicación. Problemas Tipo
  • Medicina
  • Identificación de terapias médicas satisfactorias
    para diferentes enfermedades.
  • Asociación de síntomas y clasificación
    diferencial de patologías.
  • Estudio de factores (genéticos, precedentes,
    hábitos, alimenticios, etc.) de riesgo/salud en
    distintas patologías.
  • Segmentación de pacientes para una atención más
    inteligente según su grupo.
  • Predicciones temporales de los centros
    asistenciales para el mejor uso de recursos,
    consultas, salas y habitaciones.
  • Estudios epidemiológicos, análisis de
    rendimientos de campañas de información,
    prevención, sustitución de fármacos, etc.

57
Áreas de Aplicación. Problemas Tipo
  • Extracción de modelos sobre comportamiento de
    compuestos.
  • Detección de piezas con trabas.
  • Predicción de fallos
  • Modelos de calidad.
  • Estimación de composiciones óptimas en mezclas.
  • Extracción de modelos de coste.
  • Extracción de modelos de producción.
  • Simulación costes/beneficios según niveles de
    calidad

58
Sistemas
59
  • Tipos de Sistemas
  • Standalone Los datos se deben exportar/convertir
    al formato interno del sistema de DM Knowledge
    Seeker IV (Angoss International Limited, Groupe
    Bull).
  • On-top Pueden funcionar sobre un sistema
    propietario (Clementine sobre ODBC, microstrategy
    sobre Oracle).
  • Embedded (propietarios) Oracle Discoverer,
    Oracle Darwin, IBM...
  • Extensible (Tecnología Plug-ins) proporcionan
    unas herramientas mínimas de interfaz con los
    datos, estadísticas y visualización, y los
    algoritmos de aprendizaje se pueden ir añadiendo
    con plug-ins. (ej. KEPLER).

60

Sistemas
61
MUCHAS GRACIAS DR. NICOLAS KEMPER
VALVERDE Laboratorio de Sistemas
Inteligentes CENTRO DE CIENCIAS APLICADAS Y
DESARROLLO TECNOLOGICO Universidad Nacional
Autónoma de México e-mail kemper_at_servidor.unam.
mx
Write a Comment
User Comments (0)
About PowerShow.com