Title: Introduccion ILI280
1CapĆtulo 1 IntroducciĆ³n II- 2001
2- QuĆ© es la estadĆstica ?
- Ciencia dedicada al estudio sistemƔtico de los
datos - Transforma datos en informaciĆ³n
- Contribuye a la generaciĆ³n de conocimiento
- Historia de la estadĆstica
- Como ciencia de Estado (2600 A.C.)
- Como cƔlculo de probabilidades (siglo XVIII)
- Rol de la estadĆstica
- Proporcionar mƩtodos para evaluar y juzgar la
teorĆa y la realidad
3- USOS
- Ciencias naturales
- Ciencias econĆ³micas
- Ciencias polĆticas y sociales
- Ciencias mƩdicas etc.
- ABUSOS
- Encuestas de opiniĆ³n
- Ćndices econĆ³micos
- PronĆ³sticos
4La EstadĆstica en la era de la InformaciĆ³n Destrez
as lectoras para la sociedad del Conocimiento
EL PENSAMIENTO ESTADĆSTICO El pensamiento
estadĆstico algĆŗn dĆa serĆ” parte del ciudadano
eficiente, y tan necesario como la habilidad para
leer y escribir
W. H. WELLS
5DATOS
MODELOS
HECHOS
TEORĆAS
FENĆMENOS
INTUICIONES
6Dos ejemplos de investigaciones estadĆsticas
CĆ³mo diseƱar un equipo de mantenimiento
CĆ³mo aumentar el rendimiento de un proceso
PREGUNTA
MODELO
- Variables
- - NĆŗmero de averĆas (x1)
- - Tiempo reparaciĆ³n (x2)
- HipĆ³tesis las averĆas
- Se producen independientemente
- La probabilidad de no averĆa disminuye
exponencialmente con el tiempo - HipĆ³tesistiempo reparaciĆ³n
- Depende de muchos pequeƱos factores
- Variables
- - Rendimiento en (y)
- - Temperatura x1
- - ConcentraciĆ³n x2
- HipĆ³tesis
- El rendimiento aumenta en promedio linealmente
con la temperatura y la concentraciĆ³n - Para valores fijos de x1 y x2 el rendimiento
varĆa aleatoriamente alrededor de su valor medio
7RECOLECCIĆN DE INFORMACIĆN
Muestreo de mĆ”quinas para estudiar sus averĆas y
tiempo de reparaciĆ³n
DiseƱo de un experimento que se varĆen x1 y x2
y se mida y
ESTIMACIĆN PARĆMETROS
- Estimar
- ? , tasa media de averĆas
- ? , tiempo medio de reparaciĆ³n
- ? , variabilidad en el tiempo de reparaciĆ³n
- Estimar
- El efecto de la temperatura (b) y el de la
concentraciĆ³n (c) sobre el rendimiento - Variabilidad experimental
CONTRASTES DE SIMPLIFI- CACIĆN
Tienen todos los tipos de mƔquinas el mismo ?
? Los tipos de averĆas, el mismo ? y ? ?
Es el efecto de la temperatura y concentraciĆ³n
idƩntico (bc ) ?
CRĆTICA DEL MODELO
Es cierta la independencia entre las
averĆas? Son la variabilidad de x1 y x2 en la
muestra consistentes con las hipĆ³tesis ?
Es la relaciĆ³n entre y (x1 , x2) lineal? Es la
variabilidad de y para x1, x2 fijos, independ. de
los valores concretos de x1, x2 ?
8Problema real
Planteamiento del problema Objetos y medios
Modelos EstadĆsticos (CĆ”lculo de probabilidades)
RecolecciĆ³n de informaciĆ³n muestral (TĆ©cnicas de
muestreo diseƱo de experimentos)
DepuraciĆ³n de los datos (AnĆ”lisis de datos)
EstimaciĆ³n de los parĆ”metros (TeorĆa de la
estimaciĆ³n)
9Contrastes de SimplificaciĆ³n (Contrastes de
hipĆ³tesis)
CrĆtica y Diagnosis del Modelo (AnĆ”lisis de datos)
Es un modelo adecuado ?
Nuevo Conocimiento
Previsiones
Decisiones
10La estadĆstica en el nuevo mundo Era Industrial
Era de la informaciĆ³n GestiĆ³n
del Conocimiento
InformaciĆ³n
Datos
EstadĆstica
- Problemas que resuelve la EstadĆstica
- AnƔlisis de datos (Data Mining)
- VerificaciĆ³n de hipĆ³tesis (DSS)
- Patrones de Reconocimiento
- Procesamiento de ImƔgenes
11Muestreo
- Costo reducido
- Mayor rapidez
- Mayor posibilidad (Sistemas complejos)
- APLICACIONES
- Mercadotecnia
- AnƔlisis de ImƔgenes
- Modelos de SimulaciĆ³n
12TeorĆa de muestreo
- PoblaciĆ³n finita
- PoblaciĆ³n infinita
Muestreo
ProbabilĆstico
No ProbabilĆstico
- DefiniciĆ³n del conjunto de muestras
- AsignaciĆ³n de Probabilidad ( ?i )
- SelecciĆ³n ( ?i )
- EstimaciĆ³n
13Medidas de Probabilidad
- Probabilidad una medida de la certidumbre
- La confiabilidad de una Inferencia
- AproximaciĆ³n frecuentista - A Priori
- Pr (Ai) n/N
- n nĆŗmero de todas las posibles formas en que
Ai puede ser observado - N nĆŗmero total de posibles resultados
- AproximaciĆ³n Subjectiva
- Una OpiniĆ³n de Experto
14PoblaciĆ³n
- Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador
- de los cuales se desea conocer ciertos
parĆ”metros de comportamiento caracterĆsticos de
la PoblaciĆ³n. - Cada sujeto o elemento de la PoblaciĆ³n es una
observaciĆ³n. Cada uno es una incognita en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta caracterĆstica. - La PoblaciĆ³n puede ser
- Finita si los elementos son contables
- Infinita si los elementos son enumerables
15PoblaciĆ³n DefiniciĆ³n
La TeorĆa de Muestreo pretende desarrollar
mƩtodos para obtener un conocimiento adecuado de
ciertas caracterĆsticas de una PoblaciĆ³n,
mediante el estudio de un nĆŗmero reducido de
elementos u objetos representativos de dicha
PoblaciĆ³n
16Planes de Muestreo
- Muestreo Aleatorio Simple
- Muestreo Estratificado Aleatorio
- Muestreo SistemƔtico
- Muestreo por Conglomerado
- Muestreo MĆŗltiple
17Muestreo
- Experimento Un proceso de ObservaciĆ³n
- Evento Simple Un Resultado de un experimento
que no puede ser descompuesto
-Mutuamente Excluyente
-IdƩntica Posibilidad - Espacio Muestral El conjunto de todos los
resultados posibles - Evento A El conjunto de todos los eventos
simples que pertenecen al resultado A
18Espacio Muestral
- Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento - Puede ser
- Discreto
- Continuo
Sea n TamaƱo de la Muestra
N TamaƱo de la PoblaciĆ³n
Si i 1, 2, .... todas las muestras
posibles Si se denomina el Espacio Muestral o
Universo
19ClasificaciĆ³n de MĆ©todos de Muestreo
- 1.- Por la Forma de Considerar un Evento
- Sin ReposiciĆ³n
- Con ReposiciĆ³n
- 2.- Por la Forma de Tomar la Muestra
- Juicio
- Aletaroria - Simple
- - SistemƔtica
- - Estratificada
- - Conglomerados
- 3.- Por el nĆŗmero de Muestras
- Simple
- MĆŗltiple
20Muestreo Aleatorio
- Conjunto de observaciones tomadas de una
PoblaciĆ³n. - Se dice que la muestra es aleatoria cuando la
manera de selecciĆ³n de cada elemento de la
poblaciĆ³n tiene igual oportunidad de ser
seleccionado. - El mĆ©todo de selecciĆ³n es decisivo en las
conclusiones que se pueden obtener de la muestra.
21Tipo de Variable
Tanto en la escala intervalar como en la de razĆ³n
es posible distinguir dos tipos de variables
aleatorias Variables Discretas una que puede
tomar sus valores de un conjunto de puntos
aislados (subconjunto de valores en R) Variables
Continuas una que puede tomar sus valores en un
conjunto donde todos sus elementos son puntos de
acumulaciĆ³n (un intervalo en R). Siempre es
posible tratar una variable continua como
discreta mediante la construcciĆ³n de intervalos
de clase representando cada uno de los
intervalos por su valor medio denominado marca
de clase Variables CategĆ³ricas o
Cualitativas Variables Cuantitativas
22EstimaciĆ³n
ParƔmetro Medida para describir alguna
caracterĆstica de los elementos de una PoblaciĆ³n,
tal como Valor Esperado, Moda o Varianza
poblacional. Estos guarismos son valores
verdaderos, pero deconocidos. EstadĆstica (
EstadĆgrafo) Medida para describir una
caracterĆstica de la Muestra, tal como Promedio,
Varianza o Moda muestral. Estos valores son
calculados a partir de la Muestra, pero son
valores aproximados de los parƔmetros que
representan
23Muestreo Aleatorio Simple M.A.S.
- Es un mĆ©todo de selecciĆ³n de n unidades sacadas
de N, de tal manera que cada una de las muestras
C(N,n) tiene la misma probabilidad de ser
escogida. - En la prƔtica un m.a.s. es sacado unidad por
unidad - Las unidades de la poblaciĆ³n son numerados
- del 1 al N.
- A continuaciĆ³n son seleccionados n nĆŗmeros
- aleatorios entre 1 y N, ya sea de tablas o de
una - urna como en la loterĆa
24Muestreo Estratificado Aleatorio
Se emplea cuando la poblaciĆ³n estĆ” agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de
cada uno de los estratos. Los Estratos, por lo
general, son de diferente tamaƱo la muestra, por
consiguiente, para ser representativa debe
contener elementos de cada estrato en forma
proporcional a la poblaciĆ³n. (Esto se llama
afijaciĆ³n proporcional, la que no siempre resulta
ser la mƔs conveniente por cuanto los costos de
muestreo en cada uno de los estratos pueden ser
distintos).
25Muestreo SistemƔtico
- Se utiliza cuando las unidades de la poblaciĆ³n
estĆ”n, de algĆŗn modo, totalmente ordenadas. Para
seleccionar una muestra se aprovecha la
ordenaciĆ³n de las unidades. - Para seleccionar una muestra de tamaƱo n
- se divide la poblaciĆ³n en n subpoblaciones
- de tamaƱo K N/n
- se toma una unidad al azar de la primera
- subpoblaciĆ³n y
- de ahĆ en adelante cada k-Ć©sima unidad.
- Si n1 es la unidad seleccionada de la primera
poblaciĆ³n, entonces las siguientes observaciones
serĆ”n n2 ? n1K, n3 ? n2K Ć³ n12K
26Muestreo por Conglomerado
Se emplea cuando la poblaciĆ³n estĆ” dividida en
grupos pequeƱos. Consiste en obtener una m.a.s.
de algunos grupos y luego censar cada uno de
estos. Hay dos razones para principales para la
extensa aplicaciĆ³n de estos planes de muestreo
falta de una lista confiable de elementos en la
poblaciĆ³n y consideraciones del tipo econĆ³mica.
27Muestreo por MĆŗltiple (doble)
- La muestra se toma en dos pasos
- en el primero se selecciona la muestra de
- unidades primarias y
- en la segunda se selecciona una muestra de
- elementos a partir de cada unidad primaria
- escogida
28Ejemplo 1
- Se tienen 2000 pernos en una urna
- El largo de cada perno puede estar entre 99,5 y
100,5 mm - Se toma una muestra de cinco pernos y se mide su
largo - Cada observaciĆ³n es una variable aleatoria
continua. Todas obedecen a la misma distribuciĆ³n
y son independientes entre si - Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar asĆ a
habrĆ” observado toda la poblaciĆ³n - Hacer un grĆ”fico de barras histograma con la
frecuencia que aparece cada nĆŗmero
-
- Variable Aleatoria ? Continua
- PoblaciĆ³n ? Finita
- Espacio Muestral ? Finito
29Ejemplo 2
- Se tiene 2000 pernos en una urna
- El largo de cada perno puede estar entre 99,5 y
100,5 mm - Se toma una muestra de cinco pernos y se mide su
largo - Cada observaciĆ³n es una variable aleatoria
continua. Todas obedecen a la misma distribuciĆ³n
y son independientes entre si - Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El experimento
se puede repetir indefinidamente, porque siempre
existirƔn 2000 pernos en la urna
-
- Variable Aleatoria ? Continua
- PoblaciĆ³n ? Finita
- Espacio Muestral ? Infinito
30EstƔticos
DinƔmicos
y ? u (Primera parte)
Extrapolativos
y ? ? yt-1 ut (Quinta parte)
Explicativos
y ? ? x u (Tercera y cuarta parte)
y ? ? x ? yt-1 ut (Quinta parte)
31MĆ©todos EstadĆsticosenDATA MINING
32Knowledge Discovery in Data Bases (KDD)
Es un proceso de identificaciĆ³n de patrones
vĆ”lidos, innovativos, potencialmente Ćŗtiles, no
explĆcitos y comprensibles a partir de los datos.
33KDD
Etapas del KDD 1. Data Selection 2. Cleaning 3.
Enrichment 4. Coding 5. Data Mining 6. Reporting
34KDD
35Data Mining (DM)
Etapa de reconocimiento de patrones, a travƩs de
algoritmos automƔticos o semiautomƔticos de
grandes bases de datos con el objeto de apoyar a
la toma de decisiones dentro de una organizaciĆ³n.
36Algoritmos en DM
- Existen diversos algoritmos en Data Mining los
que se pueden clasificar - Machine Learning
- Pattern Recognition
- Actividades de Data Mining
- PreparaciĆ³n de los datos
- AplicaciĆ³n de algoritmos de DM
- AnƔlisis de datos
37DM
- Algoritmos de DM
- AsociaciĆ³n de datos (ANN)
- Pattern recognition (Time Series)
- Clustering
- ClasificaciĆ³n
- RegresiĆ³n
- PronĆ³sticos
38Aplicaciones de DM
- EnergĆa Apoyo a la toma de decisiones en plantas
energĆa elĆ©ctrica (centro de despacho de cargas) - Medicina Mejora de diagnĆ³sticos y asignaciĆ³n
de tratamientos en base a reconocimiento de
patrones. - Marketing informaciĆ³n demogrĆ”fica y sistemas
geo-referenciados, patrones de compra,
segmentaciĆ³n de mercados. - Finanzas predicciĆ³n de valores y riesgo en el
mercado de opciones.