Title: Introduccion (ILI-280)
1Capítulo 1 Introducción II- 2001
2- Qué es la estadística ?
- Ciencia dedicada al estudio sistemático de los
datos - Transforma datos en información
- Contribuye a la generación de conocimiento
- Historia de la estadística
- Como ciencia de Estado (2600 A.C.)
- Como cálculo de probabilidades (siglo XVIII)
- Rol de la estadística
- Proporcionar métodos para evaluar y juzgar la
teoría y la realidad
3- USOS
- Ciencias naturales
- Ciencias económicas
- Ciencias políticas y sociales
- Ciencias médicas etc.
- ABUSOS
- Encuestas de opinión
- Índices económicos
- Pronósticos
4La Estadística en la era de la Información Destrez
as lectoras para la sociedad del Conocimiento
EL PENSAMIENTO ESTADÍSTICO El pensamiento
estadístico algún día será parte del ciudadano
eficiente, y tan necesario como la habilidad para
leer y escribir
W. H. WELLS
5DATOS
MODELOS
HECHOS
TEORÍAS
FENÓMENOS
INTUICIONES
6Dos ejemplos de investigaciones estadísticas
Cómo diseñar un equipo de mantenimiento
Cómo aumentar el rendimiento de un proceso
PREGUNTA
MODELO
- Variables
- - Número de averías (x1)
- - Tiempo reparación (x2)
- Hipótesis las averías
- Se producen independientemente
- La probabilidad de no avería disminuye
exponencialmente con el tiempo - Hipótesistiempo reparación
- Depende de muchos pequeños factores
- Variables
- - Rendimiento en (y)
- - Temperatura x1
- - Concentración x2
- Hipótesis
- El rendimiento aumenta en promedio linealmente
con la temperatura y la concentración - Para valores fijos de x1 y x2 el rendimiento
varía aleatoriamente alrededor de su valor medio
7RECOLECCIÓN DE INFORMACIÓN
Muestreo de máquinas para estudiar sus averías y
tiempo de reparación
Diseño de un experimento que se varíen x1 y x2
y se mida y
ESTIMACIÓN PARÁMETROS
- Estimar
- ? , tasa media de averías
- ? , tiempo medio de reparación
- ? , variabilidad en el tiempo de reparación
- Estimar
- El efecto de la temperatura (b) y el de la
concentración (c) sobre el rendimiento - Variabilidad experimental
CONTRASTES DE SIMPLIFI- CACIÓN
Tienen todos los tipos de máquinas el mismo ?
? Los tipos de averías, el mismo ? y ? ?
Es el efecto de la temperatura y concentración
idéntico (bc ) ?
CRÍTICA DEL MODELO
Es cierta la independencia entre las
averías? Son la variabilidad de x1 y x2 en la
muestra consistentes con las hipótesis ?
Es la relación entre y (x1 , x2) lineal? Es la
variabilidad de y para x1, x2 fijos, independ. de
los valores concretos de x1, x2 ?
8Problema real
Planteamiento del problema Objetos y medios
Modelos Estadísticos (Cálculo de probabilidades)
Recolección de información muestral (Técnicas de
muestreo diseño de experimentos)
Depuración de los datos (Análisis de datos)
Estimación de los parámetros (Teoría de la
estimación)
9Contrastes de Simplificación (Contrastes de
hipótesis)
Crítica y Diagnosis del Modelo (Análisis de datos)
Es un modelo adecuado ?
Nuevo Conocimiento
Previsiones
Decisiones
10La estadística en el nuevo mundo Era Industrial
Era de la información Gestión
del Conocimiento
Información
Datos
Estadística
- Problemas que resuelve la Estadística
- Análisis de datos (Data Mining)
- Verificación de hipótesis (DSS)
- Patrones de Reconocimiento
- Procesamiento de Imágenes
11Muestreo
- Costo reducido
- Mayor rapidez
- Mayor posibilidad (Sistemas complejos)
- APLICACIONES
- Mercadotecnia
- Análisis de Imágenes
- Modelos de Simulación
12Teoría de muestreo
- Población finita
- Población infinita
Muestreo
Probabilístico
No Probabilístico
- Definición del conjunto de muestras
- Asignación de Probabilidad ( ?i )
- Selección ( ?i )
- Estimación
13Medidas de Probabilidad
- Probabilidad una medida de la certidumbre
- La confiabilidad de una Inferencia
- Aproximación frecuentista - A Priori
- Pr (Ai) n/N
- n número de todas las posibles formas en que
Ai puede ser observado - N número total de posibles resultados
- Aproximación Subjectiva
- Una Opinión de Experto
14Población
- Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador
- de los cuales se desea conocer ciertos
parámetros de comportamiento característicos de
la Población. - Cada sujeto o elemento de la Población es una
observación. Cada uno es una incognita en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta característica. - La Población puede ser
- Finita si los elementos son contables
- Infinita si los elementos son enumerables
15Población Definición
La Teoría de Muestreo pretende desarrollar
métodos para obtener un conocimiento adecuado de
ciertas características de una Población,
mediante el estudio de un número reducido de
elementos u objetos representativos de dicha
Población
16Planes de Muestreo
- Muestreo Aleatorio Simple
- Muestreo Estratificado Aleatorio
- Muestreo Sistemático
- Muestreo por Conglomerado
- Muestreo Múltiple
17Muestreo
- Experimento Un proceso de Observación
- Evento Simple Un Resultado de un experimento
que no puede ser descompuesto
-Mutuamente Excluyente
-Idéntica Posibilidad - Espacio Muestral El conjunto de todos los
resultados posibles - Evento A El conjunto de todos los eventos
simples que pertenecen al resultado A
18Espacio Muestral
- Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento - Puede ser
- Discreto
- Continuo
Sea n Tamaño de la Muestra
N Tamaño de la Población
Si i 1, 2, .... todas las muestras
posibles Si se denomina el Espacio Muestral o
Universo
19Clasificación de Métodos de Muestreo
- 1.- Por la Forma de Considerar un Evento
- Sin Reposición
- Con Reposición
- 2.- Por la Forma de Tomar la Muestra
- Juicio
- Aletaroria - Simple
- - Sistemática
- - Estratificada
- - Conglomerados
- 3.- Por el número de Muestras
- Simple
- Múltiple
20Muestreo Aleatorio
- Conjunto de observaciones tomadas de una
Población. - Se dice que la muestra es aleatoria cuando la
manera de selección de cada elemento de la
población tiene igual oportunidad de ser
seleccionado. - El método de selección es decisivo en las
conclusiones que se pueden obtener de la muestra.
21Tipo de Variable
Tanto en la escala intervalar como en la de razón
es posible distinguir dos tipos de variables
aleatorias Variables Discretas una que puede
tomar sus valores de un conjunto de puntos
aislados (subconjunto de valores en R) Variables
Continuas una que puede tomar sus valores en un
conjunto donde todos sus elementos son puntos de
acumulación (un intervalo en R). Siempre es
posible tratar una variable continua como
discreta mediante la construcción de intervalos
de clase representando cada uno de los
intervalos por su valor medio denominado marca
de clase Variables Categóricas o
Cualitativas Variables Cuantitativas
22Estimación
Parámetro Medida para describir alguna
característica de los elementos de una Población,
tal como Valor Esperado, Moda o Varianza
poblacional. Estos guarismos son valores
verdaderos, pero deconocidos. Estadística (
Estadígrafo) Medida para describir una
característica de la Muestra, tal como Promedio,
Varianza o Moda muestral. Estos valores son
calculados a partir de la Muestra, pero son
valores aproximados de los parámetros que
representan
23Muestreo Aleatorio Simple M.A.S.
- Es un método de selección de n unidades sacadas
de N, de tal manera que cada una de las muestras
C(N,n) tiene la misma probabilidad de ser
escogida. - En la prática un m.a.s. es sacado unidad por
unidad - Las unidades de la población son numerados
- del 1 al N.
- A continuación son seleccionados n números
- aleatorios entre 1 y N, ya sea de tablas o de
una - urna como en la lotería
24Muestreo Estratificado Aleatorio
Se emplea cuando la población está agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de
cada uno de los estratos. Los Estratos, por lo
general, son de diferente tamaño la muestra, por
consiguiente, para ser representativa debe
contener elementos de cada estrato en forma
proporcional a la población. (Esto se llama
afijación proporcional, la que no siempre resulta
ser la más conveniente por cuanto los costos de
muestreo en cada uno de los estratos pueden ser
distintos).
25Muestreo Sistemático
- Se utiliza cuando las unidades de la población
están, de algún modo, totalmente ordenadas. Para
seleccionar una muestra se aprovecha la
ordenación de las unidades. - Para seleccionar una muestra de tamaño n
- se divide la población en n subpoblaciones
- de tamaño K N/n
- se toma una unidad al azar de la primera
- subpoblación y
- de ahí en adelante cada k-ésima unidad.
- Si n1 es la unidad seleccionada de la primera
población, entonces las siguientes observaciones
serán n2 ? n1K, n3 ? n2K ó n12K
26Muestreo por Conglomerado
Se emplea cuando la población está dividida en
grupos pequeños. Consiste en obtener una m.a.s.
de algunos grupos y luego censar cada uno de
estos. Hay dos razones para principales para la
extensa aplicación de estos planes de muestreo
falta de una lista confiable de elementos en la
población y consideraciones del tipo económica.
27Muestreo por Múltiple (doble)
- La muestra se toma en dos pasos
- en el primero se selecciona la muestra de
- unidades primarias y
- en la segunda se selecciona una muestra de
- elementos a partir de cada unidad primaria
- escogida
28Ejemplo 1
- Se tienen 2000 pernos en una urna
- El largo de cada perno puede estar entre 99,5 y
100,5 mm - Se toma una muestra de cinco pernos y se mide su
largo - Cada observación es una variable aleatoria
continua. Todas obedecen a la misma distribución
y son independientes entre si - Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar así a
habrá observado toda la población - Hacer un gráfico de barras histograma con la
frecuencia que aparece cada número
-
- Variable Aleatoria ? Continua
- Población ? Finita
- Espacio Muestral ? Finito
29Ejemplo 2
- Se tiene 2000 pernos en una urna
- El largo de cada perno puede estar entre 99,5 y
100,5 mm - Se toma una muestra de cinco pernos y se mide su
largo - Cada observación es una variable aleatoria
continua. Todas obedecen a la misma distribución
y son independientes entre si - Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El experimento
se puede repetir indefinidamente, porque siempre
existirán 2000 pernos en la urna
-
- Variable Aleatoria ? Continua
- Población ? Finita
- Espacio Muestral ? Infinito
30Estáticos
Dinámicos
y ? u (Primera parte)
Extrapolativos
y ? ? yt-1 ut (Quinta parte)
Explicativos
y ? ? x u (Tercera y cuarta parte)
y ? ? x ? yt-1 ut (Quinta parte)
31Métodos EstadísticosenDATA MINING
32Knowledge Discovery in Data Bases (KDD)
Es un proceso de identificación de patrones
válidos, innovativos, potencialmente útiles, no
explícitos y comprensibles a partir de los datos.
33KDD
Etapas del KDD 1. Data Selection 2. Cleaning 3.
Enrichment 4. Coding 5. Data Mining 6. Reporting
34KDD
35Data Mining (DM)
Etapa de reconocimiento de patrones, a través de
algoritmos automáticos o semiautomáticos de
grandes bases de datos con el objeto de apoyar a
la toma de decisiones dentro de una organización.
36Algoritmos en DM
- Existen diversos algoritmos en Data Mining los
que se pueden clasificar - Machine Learning
- Pattern Recognition
- Actividades de Data Mining
- Preparación de los datos
- Aplicación de algoritmos de DM
- Análisis de datos
37DM
- Algoritmos de DM
- Asociación de datos (ANN)
- Pattern recognition (Time Series)
- Clustering
- Clasificación
- Regresión
- Pronósticos
38Aplicaciones de DM
- Energía Apoyo a la toma de decisiones en plantas
energía eléctrica (centro de despacho de cargas) - Medicina Mejora de diagnósticos y asignación
de tratamientos en base a reconocimiento de
patrones. - Marketing información demográfica y sistemas
geo-referenciados, patrones de compra,
segmentación de mercados. - Finanzas predicción de valores y riesgo en el
mercado de opciones.