Sin t - PowerPoint PPT Presentation

About This Presentation
Title:

Sin t

Description:

Extracci n de Conocimiento en Grandes Bases de Datos http://www.meteo.unican.es Jos M. Guti rrez Dpto. de Matem tica Aplicada, Universidad de Cantabria, Santander – PowerPoint PPT presentation

Number of Views:142
Avg rating:3.0/5.0
Slides: 65
Provided by: personale6
Category:
Tags: sin

less

Transcript and Presenter's Notes

Title: Sin t


1
Data Mining. Extracción de Conocimiento en
Grandes Bases de Datos
http//www.meteo.unican.es
José M. Gutiérrez Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander
http//personales.unican.es/gutierjm
2
Objetivos y Contenidos
Hoy día, se entiende por minería de datos aquella
disciplina que estudia la extracción automática
de información sintetizada, relevante y con
capacidad predictiva a partir de grandes bases de
datos. Bajo este nombre se han agrupado
recientemente diversas técnicas clásicas y
modernas enfocadas a la visualización, análisis,
y modelización de procesos a partir de grandes
cantidades de datos (data warehouse de entidades
financieras, comercio electrónico, empresas de
marketing, industria, etc.). En este curso se
pretende introducir al alumno en los
conocimientos teóricos y prácticos involucrados
en la minería de datos, utilizando diversos
supuestos prácticos reales para ilustrar los
distintos conceptos expuestos. Se trata de
mostrar una panorámica actual de las técnicas
involucradas y de introducir las herramientas
informáticas necesarias para su aplicación
práctica.
1. Introducción a la Minería de Datos- Breve
introducción histórica.- Exploración de bases de
datos masivas.- Data mining y data
warehousing.- Data mining y aprendizaje
automático.- Etapas visualización, extracción
de información, modelización.- Enfoque
estadístico de la minería de datos.- Técnicas
basadas en redes neuronales.- Aplicaciones de la
minería de datos.- Tendencias actuales y
aplicaciones comerciales.2. Visualización de
datos- Técnicas gráficas estadísticas.-
Análisis de componentes principales.- Técnicas
de agrupamiento (clustering).- Redes neuronales
autoorganizativas.- Aplicaciones prácticas a
bases de datos relacionales.
3. Extracción de información y modelización-
Búsqueda de variables relevantes.- Correlación e
información mutua.- Modelos lineales y no
lineales.- Regresión.- Arboles de decisión.-
Redes probabilísticas. Modelos gráficos de
dependencia.- Redes neuronales multicapa.-
Aprendizaje en redes probabilísticas y
neuronales.- Algoritmos genéticos.-
Aplicaciones prácticas a bases de datos
relacionales.4. Una aplicación real.-
Descripción del problema.- Descripción de la
base de datos.- Data mining con Java Algoritmos
y resultados.- Análisis del sofware disponible.
3
El Mundo de la Información y sus Problemas.
  • Cada vez se genera más información y se hace más
    fácil el acceso masivo a la misma (existen gran
    cantidad de bases de datos on-line)
  • Transacciones bancarias, Internet y la Web,
    observaciones científicas (biología, altas
    energías, etc. ) "tranNASAs EOS (Earth
    Observation System)".
  • La tecnología es barata y los sistemas de gestión
    de bases de datos son capaces de trabjar con
    cantidades masivas de datos (Terabytes).

4
Datos, Información y Conocimiento.
5
Acceso a los Datos. Evolución histórica.
La necesidad de almacenar información ha motivado
históricamente el desarrollo de sistemas más
eficientes, con mayor capacidad y más baratos de
almacenamiento.
  • Bases de datos relacionales.
  • DBMS (Data Base Management Systems) y
    repositorios de información
  • Bases de datos orientadas a objetos y
    objeto-relacionales.
  • Bases de datos espaciales (geográficas).
  • Bases de datos de texto y multimedia.
  • WWW.

6
OLAP (On-Line Analytical Processing)
  • Sobre estas mismas bases de datos de trabajo ya
    se puede extraer conocimiento (visión
    tradicional).
  • Se mantiene el trabajo transaccional diario de
    los sistemas de información originales (conocido
    como OLTP, On- Line Transactional Processing ).
  • Se hace análisis de los datos en tiempo real
    sobre la misma base de datos( conocido como OLAP,
    On- Line Analytical Processing ),
  • Según la organización de la información copiada
    se distingue
  • ROLAP (Relational OLAP) el almacén de datos es
    relacional.
  • MOLAP (Multidim OLAP) el almacén de datos es una
    matriz multidimensional.

7
Data Warehouses. Génesis.
  • PROBLEMAS
  • Disturba el trabajo transaccional diario de los
    sistemas de información originales ( killer
    queries ). Se debe hacer por la noche o en fines
    de semana.
  • La base de datos está diseñada para el trabajo
    transaccional, no para el análisis de los datos.
    Generalmente no puede ser en tiempo real (era AP
    pero no OLAP).

8
Data Warehouses
DATA-WAREHOUSES (Almacenes de Datos) Se separan
de los datos a analizar con respecto a sus
fuentes transaccionales (se copia/ almacena toda
la información histórica). Existe toda una
tecnología creciente de cómo organizarlos y
sobretodo de cómo tenerlos actualizados (cargas
periódicas) respecto a los datos originales
VENTAJAS
  • Facilita el análisis de los datos en tiempo real
    (OLAP),
  • No disturba el OLTP de las bases de datos
    originales.

A partir de ahora diferenciaremos entre bases
de datos para OLTP (tradicional) y almacenes de
datos (KDD sobre data warehouses).
9
Construcción de un Data Warehouse
Limpieza y criba selección de datos Se deben
elmininar el mayor número posible de datos
erróneos o inconsistentes (limpieza) e
irrelevantes (criba).
Se aplican métodos estadísticos -Histogramas
(detección de datos anómalos).- Redefinición de
atributos (agrupación o separación). Muy
relacionado con la disciplina de Calidad de
Datos.
Acciones ante datos anómalos (outliers) -
Ignorar algunos algoritmos son robustos a datos
anómalos.- Filtrar (eliminar o reemplazar) la
columna solución extrema. - Discretizar
transformar un valor continuo en uno discreto (p.
ej. muy alto, alto, etc.) hace que los outliers
caigan en muy alto o muy bajo sin mayores
problemas.
Acciones ante datos faltantes (missing values) -
Ignorar algunos algoritmos son robustos a datos
faltantes.- Filtrar (eliminar o reemplazar) la
columna- Reemplazar el valor por medias. A
veces se puede predecir a partir de otros datos,
utilizando cualquier técnica de ML.
10
Qué es Data Mining (minería de datos)?
the non trivial extraction of implicit,
previously unknown, and potentially useful
information from data W. Frawley and G.
Piatetsky-Shapiro and C. Matheus, Knowledge
Discovery in Databases An Overview. AI
Magazine, Fall 1992, 213-228.
CONOCIMIENTO
Pattern Evaluation
Data Mining
Task-relevant Data
Selection
Data Warehouse
Datos imprecisos e incompletos almacenados en
múltiples fuentes Heterogéneos y mezclados.
Data Cleaning
Data Integration
Databases
11
Diferencias entre DBMS y Data Mining
En los sistemas estándar de gestión de bases de
datos las consultas se resuelven accediendo a
distintos conjuntos de datos almacenados
  • Ventas del último mes de un producto.
  • Ventas agrupadas por la edad del comprador.

Los sistemas de data mining infieren conocimiento
de la base de datos en forma de estructuras y
patrones. Este conocimiento supone un nuevo
conjunto de información en base a la cual se
responden las consultas
  • por qué es tan rentable la división
    Iberoamericana de Telefónica?
  • qué clientes son potenciales compradores de un
    producto?
  • cuál será el beneficio de la compañía el mes
    próximo?

12
Acceso a Datos vs. Acceso a Conocimiento
http//www.datamining.com
Paradigma de Acceso a Datos El usuario solicita
datos y procesa los datos recibidos en busca de
"conocmiento".
SQL algoritmos de data mining.
Paradigma de Acceso a Conocimiento El sistema
genera automáticamente patrones de conocimiento
refinados y el usuario accede directamente a los
mismos.
PQL Pattern Query Languaje
PQL was designed to access patterns just as SQL
was designed to access data. PQL resembles SQL,
works atop existing SQL engines. Information
Discovery uses a Pattern WarehouseTM of refined
information and PQL works on patterns just as SQL
works on a datawarehouse. While SQL relies on the
relational algebra, PQL uses the "pattern
algebra". PQL allows pattern-based queries just
as SQL allows data-based queries. And, PQL uses
SQL as part of its operation, i.e. PQL queries
are decomposed into a set of related SQL queries,
the Pattern Warehouse is accessed with these
queries and the results are re-combined for
display to the user. The user accesses these
patterns using a web browser.
13
Data Mining and Business Intelligence
Jiawei HanIntelligent Database System Research
Labhttp//www.cs.sfu.ca/han
Increasing potential to support business decisions
End User
Making Decisions
Business Analyst
Data Presentation
Visualization Techniques
Data Mining
Data Analyst
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database
Systems, OLTP
14
Multidisciplinar. Areas y Técnicas Involucradas
variety of techniques to identify nuggets of
information or decision-making knowledge in
bodies of data, and extracting these in such a
way that they can be put to use in the areas such
as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as
it stands of low value as no direct use can be
made of it it is the hidden information in the
data that is useful.
  • Componentes Principales
  • compresión de la información.
  • Componentes Independientes
  • extracción de características.
  • Modelado de Dependencias
  • hallar asociaciones entre variables.
  • redes Bayesianas
  • Agrupación
  • hallar grupos de elementos.
  • Clasificación
  • asignar elementos a clases.
  • Predicción
  • estimación de valores.
  • Visualización
  • representación gráfica.
  • Redes Neuronales

Areas Involucradas
15
Estadística y Ciencias de la Computación
  • Estadística
  • 1970 EDA, estimación Bayesiana, modelos
    flexibles, EM, etc
  • Conciencia sobre el papel de la computación en el
    análisis de datos.
  • Reconocimiento de Patrones e Inteligencia
    Artificial
  • Atención dirigiga a problemas de percepción
    (e.g., habla, visión)
  • 1960 división en técnicas estadísticas y no
    estadísticas (gramáticas, etc.)
  • Convergencia de estadística aplicada e ingeniería
    (análisis imágenes, Geman)
  • Aprendizaje Automático y Redes Neuronales
  • 1980 fracaso de las téncias de aprendizaje no
    estadísticas
  • Aparición de modelos flexibles (árboles, redes)
  • Convergencia de estadística aplicada y
    aprendizaje
  • e.g., trabajos de Friedman, Spiegelhalter,
    Jordan, Hinton

IA / Apredizaje Automático Extracción automática
de conocimiento 1989 KDD workshop ACM SIGKDD 2000
Bases de Datos Bases de datos masivas Reglas de
asociación Algoritmos escalables
MINERIA DE DATOS
16
Focus Areas
Padhraic Smyth. Information and Computer
ScienceUniversity of California, Irvine
Computer Science
Statistics
Statistical Pattern Recognition
Neural Networks
Machine Learning
Data Mining
Databases

Statistical Inference
Nonlinear Regression
Pattern Finding
Flexible Classification Models
Computer Vision, Signal Recognition
Scalable Algorithms
Graphical Models
Hidden Variable Models
17
Inteligencia Artificial
Nuevos Paradigmas
Técnicas Clásicas
Inspiración Biológica
Representación explícita del conocimiento
sentencias lógicas, reglas, grafos, redes
semánticas, etc.
Imitación del proceso humano de razonamiento
Procesamiento en serie de la información
Inferencia lógica, búsqueda en grafos
18
Multidisciplinar. Areas y Técnicas Involucradas
variety of techniques to identify nuggets of
information or decision-making knowledge in
bodies of data, and extracting these in such a
way that they can be put to use in the areas such
as decision support, prediction, forecasting and
estimation. The data is often voluminous, but as
it stands of low value as no direct use can be
made of it it is the hidden information in the
data that is useful.
  • Modelado de Dependencias
  • asociaciones entre variables.
  • reglas y grafos (redes Bayesianas).
  • Componentes Principales
  • compresión de la información.
  • Componentes Independientes
  • extracción de características.
  • Agrupación
  • hallar grupos de elementos.
  • Clasificación
  • asignar elementos a clases.
  • Predicción
  • estimación de valores.
  • Visualización
  • representación gráfica.

Técnicas Involucradas
19
Hot Topics (Statistics and Machine Learning)
Padhraic SmythInformation and Computer
ScienceUniversity of California, Irvine
Nonlinear Regression
Pattern Finding
Flexible Classification Models
Computer Vision, Signal Recognition
Scalable Algorithms
Hidden Variable Models
Graphical Models
Classification Trees
Belief Networks
Mixture/ Factor Models
Deformable Templates
Association Rules
Hidden Markov Models
Support Vector Machines
Model Combining
20
Objetivos. Un Primer Ejemplo
21
Aplicaciones de la Minería de Datos.
22
La cantidad de información generada en proyectos
científicos ha sido enorme Genoma Humano, datos
geofísicos, altas energías, etc.
En Biología, Meteorología, etc.
EJEMPLO !!!!!!!!!!!!!!!!!!
23
Ejemplo. Meteorología.
  • Meteorología. Teleconexiones (asociaciones
    espaciales), predicción.

Existen bases de datos con simulaciones de los
campos atmosféricos en rejillas dadas.
Se dispone de gran cantidad de información en
observatorios locales Precipitación,
temperatura, Viento, etc.
24
(No Transcript)
25
Libros y Material de Consulta
Data Mining Practical Machine Learning Tools and
Techniques with Java Implementations
Ian H. Witten, Eibe Frank
Machine Learning and Data Mining Open Soure
Tools in Java
http//www.cs.waikato.ac.nz/ml/weka/
Advances in Knowledge Discovery and Data Mining
Edited by U.M. Fayyad, G. Piatetsky-Shapiro, P.
Smyth, and R. Uthurusamy
The AAAI Press
Data Mining Techniques For Marketing, Sales, and
Customer Support By Michael J. Berry,Gordon
Linoff Wiley, John Sons,
http//www1.fatbrain.com/FindItNow/Services/home.c
l?fromcbs169store1
26
Libros disponibles en Internet
27
Enlaces Interesantes y Revistas
The Data Mine provides information about Data
Mining and Knowledge Discovery in Databases (KDD).
http//www.cs.bham.ac.uk/anp/TheDataMine.html
http//www.data-miners.com/
http//www.kdcentral.com/Software/Data_Mining/
http//www.andypryke.com/university/software.html
http//www.galaxy.gmu.edu/stats/syllabi/DMLIST.htm
l
Journals
Data Mining and Knowledge Discovery.
http//www.wkap.nl/journalhome.htm/1384-5810
Intelligent Data Analysis
http//www.iospress.nl/site/html/1088467x.html
IEEE Trans. on Knowledge and Data Engineering
http//www.iospress.nl/site/html/1088467x.html
Related Journals (from IDA)
http//www.ida-society.org/journals.html
28
El Portal KDnuggets http//www.kdnuggets.com/
Portal dedicado a Data Mining, Web Miningy
Búsqueda de Conocimiento.
29
Productos Comerciales
30
Un Ejemplo DBMiner. http//www.dbminer.com
31
IBM DB2 Intelligent Miner
32
IBM Advanced Scout. http//www.research.ibm.com/sc
out/
Using data mining software called Advanced Scout
to prepare for a game, a coach can quickly review
countless stats shots attempted, shots blocked,
assists made, personal fouls. But Advanced Scout
can also detect patterns in these statistics that
a coach may not have known about. So during a
game, a coach can know exactly which plays are
most effective with which players and under what
circumstances.
attribute focusing finds conditional ranges on
attributes where the distributions differ from
the norm.
An analysis of the data from a game played
between the New York Knicks and the Charlotte
Hornets revealed that when "Glenn Rice played the
shooting guard position, he shot 5/6 (83) on
jump shots." Through data mining, Advanced
Scout identified a certain player (Rice), playing
a certain position (shooting guard), shooting at
a certain rate (83), on a certain type of shot
(jump shots). Advanced Scout not only finds this
pattern, but points out that it is interesting
because it differs considerably from the average
shooting percentage of 54 for the Charlotte
Hornets during that game.
33
The Toolbox MeteoLab Data Mining in Meteorology
http//etsiso2.macc.unican.es/meteo
34
Modelado de Dependencias (reglas de asociación)
  • Modelado de Dependencias
  • asociaciones entre variables.
  • reglas y grafos.
  • Componentes Principales
  • compresión de la información.
  • Componentes Independientes
  • extracción de características.
  • Agrupación
  • hallar grupos de elementos.
  • Clasificación
  • asignar elementos a clases.
  • Predicción
  • estimación de valores.
  • Visualización
  • representación gráfica.

35
Relaciones entre atributos. Fórmulas y Reglas.
En el caso de bases de datos relacionales
trabajaríamos con conjuntos formados por pares
(atributo valor) utilizando los registros de la
base de datos. Cliente Pepe, Precio gt
10 Producto Café
36
Reglas de Asociación (Hijos gt 0) gt Casado
(100, 2 casos). Casado gt Obeso (100, 3
casos). Asociaciones Casado e (Hijos gt 0) están
asociados (80, 4 casos). Obeso y casado están
asociados (80, 4 casos)
37
(No Transcript)
38
Ejemplo
39
Algoritmos de Búsqueda de Reglas de Asociación
La mayoría se basa en descomponer el problema en
dos fases FASE A BÚSQUEDA DE GRANDES
CONJUNTOS DE ATRIBUTOS. Se buscan conjuntos de
atributos con relevancia gt umbral. De momento no
se busca separarlos en parte izquierda y parte
derecha. FASE B ESCLARECIMIENTO DE
DEPENDENCIAS (REGLAS). Se hacen particiones
binarias y disjuntas de los conjuntos hallados y
se calcula la confianza de cada uno. Se retienen
aquellas reglas que tienen confianza gt
umbral Propiedad cualquier subconjunto de un
conjunto grande es también grande.
  • AIS es el primer algoritmo que se desarrolló para
    obtener reglas de asociación.
  • XgtY s,c donde
  • Y es un único atributo,
  • s es la relevancia y
  • c su fiabilidad.

AIS Agrawal, Imielinski SwamiR. Agrawal, T.
Imielinsky A. SwamiIBM Almaden Research
Center, 1993
40
Fase A Selección Grandes de Atributos
Dada una relevancia mínima Rmin 1. i 1
(tamaño de los conjuntos) 2. Generar un conjunto
unitario en S1 para cada atributo. 3. Comprobar
la relevancia de todos los conjuntos en Si.
Eliminar aquellos cuya relevancia lt Rmin. 4.
Combinar los conjuntos en Si creando conjuntos
de tamaño i1 en Si1. 5. Si Si no es vacío
entonces i i 1. Ir a 3. 6. Si no , retornar S2
È S3 È ... È Si
Este paso se lleva a cabo secuencialmente,
recorriendo los registros de la base de datos
siguiendo el contador i. Tras leer un registro de
la base de datos, se hallan los conjuntos
relevantes Si contenidos en el mismo. Si1 se
genera extendiendo los conjuntos hallados con
otros atributos del registro.
41
Ejemplo
relevancia 2 confianza 0.75
FASE A S1 1, 2, 3, 4, 5 S1rel
12, 23, 33, 53 S2
1,2,1,3,1,5,2, 3,2, 5,3, 5
S2rel 1,32, 2,32, 2,53,
3,52 S3 1,2, 3, 1,2, 5, 1,3, 5,
2,3, 5 S3rel 2,3,52 Sfinal S2 È
S3 1, 3, 2, 3, 2, 5, 3, 5, 2,3,5
FASE B 1 3 1 3 1 0.672
3 0.67 3 2 0.672 5 1
5 2 13 5 0.67 5 3
0.672,3 5 1 2,5 3 0.67
3,5 2 1
42
El Algoritmo APRIORI
  • Fk Set of frequent itemsets of size k
  • Ck Set of candidate itemsets of size k
  • F1 single attribute sets with minimum support
  • for ( k2 Fk ! 0 k) do
  • Ck1 New candidates generated from Fk
  • foreach entry t in the database do
  • Increment the count of all candidates in
    Ck1 contained in t
  • Fk1 Candidates in Ck1 with minimum
    support
  • Answer Uk Fk
  • Every subset of a frequent itemset is also
    frequentgt a candidate itemset in Ck1 can be
    pruned if even one of its subsets is not
    contained in Fk

43
Fase de Combinación
Este algoritmo realizan múltiples pasadas sobre
la base de datos para obtener los conjuntos de
atributos relevantes. En la primera pasada, se
obtienen los items individuales cuya relevancia
alcanza el umbral mínimo preestablecido L1 de
conjuntos relevante. En las siguientes
iteraciones, se utiliza el último conjunto Lk
obtenido para generar un conjuntos de (k1)
atributos potencialmente relevantes (el conjunto
de candidatos Ck1) y se obtiene la relevancia
de estos candidatos para quedarnos sólo con
aquéllos que son relevantes, que incluimos en el
conjunto Lk1. Este proceso se repite hasta que
no se encuentran más itemsets relevantes. En el
algoritmo AIS, los candidatos se generaban sobre
la marcha, conforme se iban leyendo registros de
la base de datos. Se generan innecesariamente
conjuntos candidatos que de por sí nunca pueden
llegar a ser relevantes. Por su parte, en
Apriori los candidatos se generan a partir de los
conjuntos relevantes encontrados en la iteración
anterior, única y exclusivamente. La idea
subyacente es que, dado un itemset relevante,
cualquier subconjunto suyo también es relevante.
Por lo tanto, los conjuntos de k atributos
candidatos del conjunto Ck pueden generarse a
partir del conjunto Lk-1.
44
Ejemplo
Database D
F1
C1
Scan D
C2
C2
F2
Scan D
45
Lógica
La lógica proporciona un entorno para representar
conocimiento en el que es fácil razonar.
eg1. John is a human every human are
mortals therefore John is
mortal. In logic human(John)
?h(human(h) ?mortal(h)) therefore
human(John) ?mortal(John) ? elim. rule
therefore mortal(John) ?elim. rule
Las expresiones lógicas se construyen en base a
un conjunto reducido de símbolos y
cuantificadores.
  • Símbolos lógicos NOT ? AND ? OR ?
    IMPLIES
  • Cuantificadores ? FOR ALL ? THERE
    EXISTS

46
Lógica. Representación de Conocimiento con LPC
A language of PC, call it LPC is defined by the
following rules1. Variables p, q, r,... are in
LPC. We call the above variables
undeterminate statements. 2. If a statement
A is in LPC and a statement B is in LPC , then
the statement (AB) is in LPC .Similarly for
the symbols ?, ?.3. If a statement A is in
LPC, then the statement A is in LPC .
LPC is a set of statements which represent useful
logical expressions for a given problem
  • (A?B)
  • (((A?B)(A?B)?B)

Using the above rules and some other logical
inference techniqes it is easy to reason on a
given problem.
47
Inferencia Lógica. Deducción natural.
Natural deduction uses the definition of logical
symbols for eliminating, or introducing,
knowledge on a given expression.
48
Tablas de Verdad y Leyes Lógicas
  • (P) P
  • (P Ú Q) (P Q) or ( P Ú Q) (P Q)
  • De Morgans laws
  • (P Ú Q) (P Ù Q)
  • (P Ù Q) (P Ú Q)
  • Distributive laws
  • P Ú (Q Ù R) (P Ú Q) Ù (P Ú R)
  • P Ù (Q Ú R) (P Ù Q) Ú (P Ù R)

49
Reglas de Inferencia Lógica.
  • Modus ponens
  • If P is true and P Q is true
  • then Q is true
  • Modus tolens
  • if P Q is true and Q is false or Q is true
  • then P is true
  • e. g., sick( student) not_ attend_ lecture(
    student)
  • not_ attend_ lecture( student)
  • produces sick( student)
  • Elimination
  • if P Ù Q is true
  • then P is true and Q is true

50
Modelado de Dependencias (redes Bayesianas)
  • Componentes Principales
  • compresión de la información.
  • Componentes Independientes
  • extracción de características.
  • Modelado de Dependencias
  • hallar asociaciones entre variables
  • redes Bayesianas
  • Agrupamiento
  • hallar grupos de elementos
  • Clasificación
  • asignar elementos a clases
  • Predicción
  • estimación de valores
  • Visualización
  • representación gráfica.
  • Redes Neuronales

51
Redes Probabilísticas. Redes Bayesianas
Lluvia Nieve Granizo Tormenta Niebla ...
5 0 0 0 0 ...
1 0 0 0 0 ...
5 0 0 1 0 ...
Algunos problemas involucran gran número de
variables y se conocen ciertas relaciones de
independencia entre ellas. Obtener un modelo
probabilístico
Relaciones de dependencia
Mediante un grafo dirigido donde cada variable
tiene sus antecedentes.
Factorización de la probabilidad !!
Cuantificación
P
Funciones de prob. condicionada.
52
Cálculo de probabilidades
Inicialmente los distintos estados de las
variables de la red tienen probabilidades que
corresponden al estado de conocimiento inicial
(sin evidencia).
Cuando se tiene alguna evidencia, las nuevas
probabilidades condicinadas dan la influencia de
esta información en el resto de
variables Tormenta 1
53
Componentes Principales e Indepenedientes
  • Modelado de Dependencias
  • asociaciones entre variables.
  • reglas y grafos.
  • Componentes Principales
  • compresión de la información.
  • Componentes Independientes
  • extracción de características.
  • Agrupación
  • hallar grupos de elementos.
  • Clasificación
  • asignar elementos a clases.
  • Predicción
  • estimación de valores.
  • Visualización
  • representación gráfica.

54
Problemas con datos de alta dimensionalidad
(David Scott, Multivariate Density Estimation,
Wiley, 1992)
Hypercube in d dimensions
Hypersphere in d dimensions
Volume of sphere relative to cube in d dimensions?
Dimension 2 3 4 5 6 7
Rel. Volume 0.79
0.53 0.31 0.16 0.08 0.04
  • high-d, uniform gt most data points will be out
    at the corners
  • high-d space is sparse and non-intuitive

55
Ejemplos y casos a estudiar
Maximizar varianza
Datos Aleatorios Gaussianos Análisis de
Componentes Principales
Datos Aleatorios NO-Gaussianos Análisis de
Componentes Independientes
Maximizar independencia
X es la mezcla de m señales S Independientes.
Dada X
Indep.
56
Ejemplos y casos a estudiar
Datos Aleatorios Gaussianos Análisis de
Componentes Principales
...
Maximizar varianza
Datos Aleatorios NO-Gaussianos Análisis de
Componentes Independientes
Maximizar independencia
Sistemas Deterministas (Caos determinista) Estimac
ión No-Paramétrica
Estimar F
57
Base de Datos de Re-Análisis del Centro Europeo
El Reanálisis del ECMWF proporciona una base
de datos de salidas del modelo numérico.
  • Serie diaria 1979-1993
  • a las 0, 6, 12 y 18 horas.
  • En cada uno de los nodos
  • 5 variables Z, T, U , V y H
  • 7 niveles de presión

58
Componentes Principales. Primera Opción
We used atmospheric circulation patterns at 1200
UTC of ERA-15 (1979-1993) reanalysis data
P(T(1ooo mb),..., T(500 mb) Z(1ooo mb),...,
Z(500 mb) ....... H(1ooo mb),..., H(500 mb))
P is 6000 dimensional !!!!
Using Principal Components the dimension can be
reduced to 500 600.
59
Componentes Principales. Alternativas
La configuración atmosférica de un día concreto
viene dada por un campo (X,Y,Z) para cada T0, 6,
12 y 18 horas
CPs (X,Y) para cada Z y T
CPs (X,Y,Z) para cada T
CPs (X,Y,T) para cada Z
CPs (X,Y,Z,T)
Si los vectores son realizaciones de una
variable Gaussiana, los óptimos son
los autovectores de la matrix de covarianza.
60
Componentes Principales con MeteoLab
61
Componentes Independientes. Biología (señales
NO-Gaussianas)
El ECG abodominal de una mujer embarazada
presenta rastros del ECG fetal. Por tanto, una
alternativa a los métodos invasivos consiste en
separar ambas señales a partir de una, o varias,
mediciones del ECG materno.
ECGs abdominales de una mujer
Picos del ECG fetal
62
Separación de Señales con Componenetes
Independientes
X es la mezcla de m señales S independientes.
- No se puede estimar la varianza de las señales.
- Las señales S tienen que ser NO-Gaussianas.
Se trata de encontrar que maximizan la
NO-Gaussianidad de .
Equivale a minimizar
Manteniendo Var(yi) constante.
Equivalentemente, también se puede minimizar la
información mutua
63
Para el problema de la extracción del ECG fetal,
se tienen cinco señales de ECG maternas (las
cinco primeras señales son ECGs abdominales y las
tres restantes son ECGs torácicos). Aplicando el
algoritmo FASTICA resulta

?
64
Learning data ---------------------------
--------------------------------------------------
------ Numeric attributes
Nominal attributes-------------------------
--------------------------------------------------
-------- 1. sunny, 85, 85, FALSE, no
sunny, hot, high, FALSE, no2. sunny,
80, 90, TRUE, no sunny, hot, high,
TRUE, no3. overcast, 83, 86, FALSE, yes
overcast, hot, high, FALSE, yes4. rainy,
70, 96, FALSE, yes rainy, mild,
high, FALSE, yes5. rainy, 68, 80, FALSE,
yes rainy, cool, normal, FALSE,
yes6. rainy, 65, 70, TRUE, no
rainy, cool, normal, TRUE, no7. overcast,
64, 65, TRUE, yes overcast, cool,
normal, TRUE, yes8. sunny, 72, 95, FALSE,
no sunny, mild, high, FALSE, no9.
sunny, 69, 70, FALSE, yes sunny,
cool, normal, FALSE, yes10. rainy, 75, 80,
FALSE, yes rainy, mild, normal,
FALSE, yes11. sunny, 75, 70, TRUE, yes
sunny, mild, normal, TRUE, yes12.
overcast, 72, 90, TRUE, yes overcast,
mild, high, TRUE, yes13. overcast, 81, 75,
FALSE, yes overcast, hot, normal, FALSE,
yes14. rainy, 71, 91, TRUE, no
rainy, mild, high, TRUE, no----------------
--------------------------------------------------
-----------------
Decision list ------------------------------------
----------------------------------------------- ou
tlook overcast yes (4)
outlook overcast yes (4)windy TRUE no
(4/1) outlook
overcast yes (4)outlook sunny no (3/1)
yes (5/1) yes
(3)----------------------------------------------
-------------------------------------
Decision trees ---------------
--------------------------------------------------
------------------outlook sunny
outlook sunny humidity lt
75 yes (2) humidity
high no (3) humidity gt 75 no (3)
humidity normal yes
(2)outlook overcast yes (4)
outlook overcast yes (4)outlook rainy
outlook rainy
windy TRUE no (2)
windy TRUE no (2) windy FALSE yes (3)
windy FALSE yes
(3) ----------------------------------------------
-------------------------------------
One attribute rules (1R) ------------------------
--------------------------------------------------
--------- outlook
outlook sunny -gt no
sunny -gt no overcast -gt
yes overcast -gt
yes rainy -gt yes
rainy -gt yes(10/14 instances correct)
(10/14 instances
correct) -----------------------------------------
------------------------------------------
Association rules (nominal attributes
only) --------------------------------------------
--------------------------------------- 1.
humiditynormal windyFALSE 4 gt playyes 4
(1)2. temperaturecool 4 gt humiditynormal 4
(1)3. outlookovercast 4 gt playyes 4 (1)4.
temperaturecool playyes 3 gt humiditynormal 3
(1)5. outlookrainy windyFALSE 3 gt playyes
3 (1)6. outlookrainy playyes 3 gt
windyFALSE 3 (1)7. outlooksunny humidityhigh
3 gt playno 3 (1)8. outlooksunny playno 3
gt humidityhigh 3 (1)9. temperaturecool
windyFALSE 2 gt humiditynormal playyes 2
(1)10. temperaturecool humiditynormal
windyFALSE 2 gt playyes 2 (1) -----------------
--------------------------------------------------
----------------
K-Nearest Neighbor (k-NN) ------------------------
--------------------------------------------------
--------- 15. sunny, mild, normal, weak, ?
------------------------------------------
------- X 8 9
10 11 1 ... 14
-------- ----------------------------
---- d(15,X) 1 1
1 1 2 ... 3
-------- ----------------------------
---- Play no yes
yes yes no ... no
-------------------------------------------------
--------------------------------------------------
---------------------------------
Write a Comment
User Comments (0)
About PowerShow.com