Introduccion (ILI-280) - PowerPoint PPT Presentation

About This Presentation
Title:

Introduccion (ILI-280)

Description:

Title: Introduccion (ILI-280) Subject: Estadistica Computacional Author: Sergio Antonio Ahumada Navea Last modified by: hallende Created Date: 1/9/1998 9:01:20 PM – PowerPoint PPT presentation

Number of Views:92
Avg rating:3.0/5.0
Slides: 39
Provided by: SergioAnt1
Category:

less

Transcript and Presenter's Notes

Title: Introduccion (ILI-280)


1
Capítulo 1 Introducción II- 2001
2
  • Qué es la estadística ?
  • Ciencia dedicada al estudio sistemático de los
    datos
  • Transforma datos en información
  • Contribuye a la generación de conocimiento
  • Historia de la estadística
  • Como ciencia de Estado (2600 A.C.)
  • Como cálculo de probabilidades (siglo XVIII)
  • Rol de la estadística
  • Proporcionar métodos para evaluar y juzgar la
    teoría y la realidad

3
  • USOS
  • Ciencias naturales
  • Ciencias económicas
  • Ciencias políticas y sociales
  • Ciencias médicas etc.
  • ABUSOS
  • Encuestas de opinión
  • Índices económicos
  • Pronósticos

4
La Estadística en la era de la Información Destrez
as lectoras para la sociedad del Conocimiento
EL PENSAMIENTO ESTADÍSTICO El pensamiento
estadístico algún día será parte del ciudadano
eficiente, y tan necesario como la habilidad para
leer y escribir
W. H. WELLS
5
DATOS
MODELOS
HECHOS
TEORÍAS
FENÓMENOS
INTUICIONES
6
Dos ejemplos de investigaciones estadísticas
Cómo diseñar un equipo de mantenimiento
Cómo aumentar el rendimiento de un proceso
PREGUNTA
MODELO
  • Variables
  • - Número de averías (x1)
  • - Tiempo reparación (x2)
  • Hipótesis las averías
  • Se producen independientemente
  • La probabilidad de no avería disminuye
    exponencialmente con el tiempo
  • Hipótesistiempo reparación
  • Depende de muchos pequeños factores
  • Variables
  • - Rendimiento en (y)
  • - Temperatura x1
  • - Concentración x2
  • Hipótesis
  • El rendimiento aumenta en promedio linealmente
    con la temperatura y la concentración
  • Para valores fijos de x1 y x2 el rendimiento
    varía aleatoriamente alrededor de su valor medio

7
RECOLECCIÓN DE INFORMACIÓN
Muestreo de máquinas para estudiar sus averías y
tiempo de reparación
Diseño de un experimento que se varíen x1 y x2
y se mida y
ESTIMACIÓN PARÁMETROS
  • Estimar
  • ? , tasa media de averías
  • ? , tiempo medio de reparación
  • ? , variabilidad en el tiempo de reparación
  • Estimar
  • El efecto de la temperatura (b) y el de la
    concentración (c) sobre el rendimiento
  • Variabilidad experimental

CONTRASTES DE SIMPLIFI- CACIÓN
Tienen todos los tipos de máquinas el mismo ?
? Los tipos de averías, el mismo ? y ? ?
Es el efecto de la temperatura y concentración
idéntico (bc ) ?
CRÍTICA DEL MODELO
Es cierta la independencia entre las
averías? Son la variabilidad de x1 y x2 en la
muestra consistentes con las hipótesis ?
Es la relación entre y (x1 , x2) lineal? Es la
variabilidad de y para x1, x2 fijos, independ. de
los valores concretos de x1, x2 ?
8
Problema real
Planteamiento del problema Objetos y medios
Modelos Estadísticos (Cálculo de probabilidades)
Recolección de información muestral (Técnicas de
muestreo diseño de experimentos)
Depuración de los datos (Análisis de datos)
Estimación de los parámetros (Teoría de la
estimación)
9
Contrastes de Simplificación (Contrastes de
hipótesis)
Crítica y Diagnosis del Modelo (Análisis de datos)
Es un modelo adecuado ?
Nuevo Conocimiento
Previsiones
Decisiones
10
La estadística en el nuevo mundo Era Industrial
Era de la información Gestión
del Conocimiento
Información
Datos
Estadística
  • Problemas que resuelve la Estadística
  • Análisis de datos (Data Mining)
  • Verificación de hipótesis (DSS)
  • Patrones de Reconocimiento
  • Procesamiento de Imágenes

11
Muestreo
  • Costo reducido
  • Mayor rapidez
  • Mayor posibilidad (Sistemas complejos)
  • APLICACIONES
  • Mercadotecnia
  • Análisis de Imágenes
  • Modelos de Simulación

12
Teoría de muestreo
  • Población finita
  • Población infinita

Muestreo
Probabilístico
No Probabilístico
  • Definición del conjunto de muestras
  • Asignación de Probabilidad ( ?i )
  • Selección ( ?i )
  • Estimación

13
Medidas de Probabilidad
  • Probabilidad una medida de la certidumbre
  • La confiabilidad de una Inferencia
  • Aproximación frecuentista - A Priori
  • Pr (Ai) n/N
  • n número de todas las posibles formas en que
    Ai puede ser observado
  • N número total de posibles resultados
  • Aproximación Subjectiva
  • Una Opinión de Experto

14
Población
  • Conjunto de elementos u objetos - que obedecen a
    reglas de pertenencia definidas por el observador
    - de los cuales se desea conocer ciertos
    parámetros de comportamiento característicos de
    la Población.
  • Cada sujeto o elemento de la Población es una
    observación. Cada uno es una incognita en el
    sentido que puede tener uno de los tantos valores
    posibles de observar de cierta característica.
  • La Población puede ser
  • Finita si los elementos son contables
  • Infinita si los elementos son enumerables

15
Población Definición
La Teoría de Muestreo pretende desarrollar
métodos para obtener un conocimiento adecuado de
ciertas características de una Población,
mediante el estudio de un número reducido de
elementos u objetos representativos de dicha
Población
16
Planes de Muestreo
  • Muestreo Aleatorio Simple
  • Muestreo Estratificado Aleatorio
  • Muestreo Sistemático
  • Muestreo por Conglomerado
  • Muestreo Múltiple

17
Muestreo
  • Experimento Un proceso de Observación
  • Evento Simple Un Resultado de un experimento
    que no puede ser descompuesto
    -Mutuamente Excluyente
    -Idéntica Posibilidad
  • Espacio Muestral El conjunto de todos los
    resultados posibles
  • Evento A El conjunto de todos los eventos
    simples que pertenecen al resultado A

18
Espacio Muestral
  • Conjunto de todos los resultados u observaciones
    que se pueden observar al realizar un experimento
  • Puede ser
  • Discreto
  • Continuo

Sea n Tamaño de la Muestra
N Tamaño de la Población
Si i 1, 2, .... todas las muestras
posibles Si se denomina el Espacio Muestral o
Universo
19
Clasificación de Métodos de Muestreo
  • 1.- Por la Forma de Considerar un Evento
  • Sin Reposición
  • Con Reposición
  • 2.- Por la Forma de Tomar la Muestra
  • Juicio
  • Aletaroria - Simple
  • - Sistemática
  • - Estratificada
  • - Conglomerados
  • 3.- Por el número de Muestras
  • Simple
  • Múltiple

20
Muestreo Aleatorio
  • Conjunto de observaciones tomadas de una
    Población.
  • Se dice que la muestra es aleatoria cuando la
    manera de selección de cada elemento de la
    población tiene igual oportunidad de ser
    seleccionado.
  • El método de selección es decisivo en las
    conclusiones que se pueden obtener de la muestra.

21
Tipo de Variable
Tanto en la escala intervalar como en la de razón
es posible distinguir dos tipos de variables
aleatorias Variables Discretas una que puede
tomar sus valores de un conjunto de puntos
aislados (subconjunto de valores en R) Variables
Continuas una que puede tomar sus valores en un
conjunto donde todos sus elementos son puntos de
acumulación (un intervalo en R). Siempre es
posible tratar una variable continua como
discreta mediante la construcción de intervalos
de clase representando cada uno de los
intervalos por su valor medio denominado marca
de clase Variables Categóricas o
Cualitativas Variables Cuantitativas
22
Estimación
Parámetro Medida para describir alguna
característica de los elementos de una Población,
tal como Valor Esperado, Moda o Varianza
poblacional. Estos guarismos son valores
verdaderos, pero deconocidos. Estadística (
Estadígrafo) Medida para describir una
característica de la Muestra, tal como Promedio,
Varianza o Moda muestral. Estos valores son
calculados a partir de la Muestra, pero son
valores aproximados de los parámetros que
representan
23
Muestreo Aleatorio Simple M.A.S.
  • Es un método de selección de n unidades sacadas
    de N, de tal manera que cada una de las muestras
    C(N,n) tiene la misma probabilidad de ser
    escogida.
  • En la prática un m.a.s. es sacado unidad por
    unidad
  • Las unidades de la población son numerados
  • del 1 al N.
  • A continuación son seleccionados n números
  • aleatorios entre 1 y N, ya sea de tablas o de
    una
  • urna como en la lotería

24
Muestreo Estratificado Aleatorio
Se emplea cuando la población está agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de
cada uno de los estratos. Los Estratos, por lo
general, son de diferente tamaño la muestra, por
consiguiente, para ser representativa debe
contener elementos de cada estrato en forma
proporcional a la población. (Esto se llama
afijación proporcional, la que no siempre resulta
ser la más conveniente por cuanto los costos de
muestreo en cada uno de los estratos pueden ser
distintos).
25
Muestreo Sistemático
  • Se utiliza cuando las unidades de la población
    están, de algún modo, totalmente ordenadas. Para
    seleccionar una muestra se aprovecha la
    ordenación de las unidades.
  • Para seleccionar una muestra de tamaño n
  • se divide la población en n subpoblaciones
  • de tamaño K N/n
  • se toma una unidad al azar de la primera
  • subpoblación y
  • de ahí en adelante cada k-ésima unidad.
  • Si n1 es la unidad seleccionada de la primera
    población, entonces las siguientes observaciones
    serán n2 ? n1K, n3 ? n2K ó n12K

26
Muestreo por Conglomerado
Se emplea cuando la población está dividida en
grupos pequeños. Consiste en obtener una m.a.s.
de algunos grupos y luego censar cada uno de
estos. Hay dos razones para principales para la
extensa aplicación de estos planes de muestreo
falta de una lista confiable de elementos en la
población y consideraciones del tipo económica.
27
Muestreo por Múltiple (doble)
  • La muestra se toma en dos pasos
  • en el primero se selecciona la muestra de
  • unidades primarias y
  • en la segunda se selecciona una muestra de
  • elementos a partir de cada unidad primaria
  • escogida

28
Ejemplo 1
  • Se tienen 2000 pernos en una urna
  • El largo de cada perno puede estar entre 99,5 y
    100,5 mm
  • Se toma una muestra de cinco pernos y se mide su
    largo
  • Cada observación es una variable aleatoria
    continua. Todas obedecen a la misma distribución
    y son independientes entre si
  • Los pernos medidos se dejan a un lado y se toma
    otra muestra de cinco pernos. De continuar así a
    habrá observado toda la población
  • Hacer un gráfico de barras histograma con la
    frecuencia que aparece cada número
  • Variable Aleatoria ? Continua
  • Población ? Finita
  • Espacio Muestral ? Finito

29
Ejemplo 2
  • Se tiene 2000 pernos en una urna
  • El largo de cada perno puede estar entre 99,5 y
    100,5 mm
  • Se toma una muestra de cinco pernos y se mide su
    largo
  • Cada observación es una variable aleatoria
    continua. Todas obedecen a la misma distribución
    y son independientes entre si
  • Por pernos medidos se devulven a la urna y se
    toma otra muestra de cinco pernos. El experimento
    se puede repetir indefinidamente, porque siempre
    existirán 2000 pernos en la urna
  • Variable Aleatoria ? Continua
  • Población ? Finita
  • Espacio Muestral ? Infinito

30
Estáticos
Dinámicos
y ? u (Primera parte)
Extrapolativos
y ? ? yt-1 ut (Quinta parte)
Explicativos
y ? ? x u (Tercera y cuarta parte)
y ? ? x ? yt-1 ut (Quinta parte)
31
Métodos EstadísticosenDATA MINING
32
Knowledge Discovery in Data Bases (KDD)
Es un proceso de identificación de patrones
válidos, innovativos, potencialmente útiles, no
explícitos y comprensibles a partir de los datos.
33
KDD
Etapas del KDD 1. Data Selection 2. Cleaning 3.
Enrichment 4. Coding 5. Data Mining 6. Reporting
34
KDD
35
Data Mining (DM)
Etapa de reconocimiento de patrones, a través de
algoritmos automáticos o semiautomáticos de
grandes bases de datos con el objeto de apoyar a
la toma de decisiones dentro de una organización.
36
Algoritmos en DM
  • Existen diversos algoritmos en Data Mining los
    que se pueden clasificar
  • Machine Learning
  • Pattern Recognition
  • Actividades de Data Mining
  • Preparación de los datos
  • Aplicación de algoritmos de DM
  • Análisis de datos

37
DM
  • Algoritmos de DM
  • Asociación de datos (ANN)
  • Pattern recognition (Time Series)
  • Clustering
  • Clasificación
  • Regresión
  • Pronósticos

38
Aplicaciones de DM
  • Energía Apoyo a la toma de decisiones en plantas
    energía eléctrica (centro de despacho de cargas)
  • Medicina Mejora de diagnósticos y asignación
    de tratamientos en base a reconocimiento de
    patrones.
  • Marketing información demográfica y sistemas
    geo-referenciados, patrones de compra,
    segmentación de mercados.
  • Finanzas predicción de valores y riesgo en el
    mercado de opciones.
Write a Comment
User Comments (0)
About PowerShow.com