Evaluaci - PowerPoint PPT Presentation

About This Presentation
Title:

Evaluaci

Description:

Title: Sin t tulo de diapositiva Author: Departamento de Inform tica Last modified by: Quiliano Isaac Moro Sancho Created Date: 1/16/2004 9:40:09 AM – PowerPoint PPT presentation

Number of Views:55
Avg rating:3.0/5.0
Slides: 67
Provided by: Departame138
Category:

less

Transcript and Presenter's Notes

Title: Evaluaci


1
Rendimiento y Evaluación de Dispositivos
Biométricos
Dr. Carlos Enrique Vivaracho Pascual
2
Índice Exposición
  • Introducción.
  • Planificando la Evaluación.
  • 3. Los Datos.
  • 4. Medida del Rendimiento.
  • Análisis Estadístico de los Resultados.
  • Bibliografía.

3
1. Introducción
  • Evaluar
  • Estimar aptitudes y rendimiento de los sistemas
  • ?Sharp
  • Prestar igual atención a todos los aspectos,
    desde la adquisición de los datos, a la
    integración del sistema

4
1. Introducción
  • Aspectos a analizar en la evaluación
  • Rendimiento.
  • Seguridad, integridad y confidencialidad de los
    datos.
  • Fiabilidad, disponibilidad y mantenimiento de la
    aplicación informática.
  • Aceptación y/o facilidad de manejo.
  • Comercialización del producto.
  • Cuestiones legales.

5
1. Introducción
  • Objetivos
  • Comparar tecnologías.
  • Ver si es factible su realización práctica.
  • Analizar el cumplimiento de requisitos.
  • ...
  • Importante objetiva.
  • Realizada por instituciones independientes.
  • Evaluaciones estándar.
  • Seguimiento de prácticas y criterio comunes.

6
1. Introducción
  • Evaluaciones estándar
  • Comercial
  • International Biometric Group (IBG).
  • International Biometric Industry Association
    (IBIA).
  • No comercial
  • National Institute of Standars and Technology
    (NIST).
  • Voz.
  • Caras, Face Recognition Vendor Test (FRVT) FERET
  • Fingerprint Verification Competition (FVC).
  • Audio and Video-Based Biometric Person
    Authentification (AVBPA) face constest XM2VTS

7
1. Introducción
  • Criterios comunes.
  • En elaboración
  • ISO
  • JCT1/SC5 (Biometrics) / WG5 (Biometic Testing and
    Reporting).
  • Documentos
  • Common Criteria
  • Common Evaluation Methodology, Biometric
    Evaluation Methodology Supplement (V1.0, 2002).
  • Biometric Working Group
  • Best Practices in Testing and Reporting
    Performance of Biometric Devices (V2.01, 2002).

8
Índice Exposición
  • Introducción.
  • Planificando la Evaluación.
  • 2.1 Introducción.
  • 2.2 Aspectos a Definir.
  • Los Datos.
  • Medida del Rendimiento.
  • Análisis Estadístico.
  • Bibliografía.

9
2.1 Planificando Introducción
  • Definición de aspectos que condicionan
  • Ámbito de aplicación.
  • Alcance.
  • La adquisición de los datos.
  • Alcance de los rendimientos obtenidos.

10
2.1 Planificando Introducción
  • Decisiones condicionadas por
  • El sistema.
  • Ej. Tiene o no dispositivos de almacenamiento.
  • El entorno de aplicación.
  • Ej. Voz vía teléfono - vía micrófono.
  • El fabricante del dispositivo.
  • Ej. Proporciona o no SDK.
  • El ámbito del estudio.
  • Ej. Tecnológico, de escenario u operacional.
  • Aspectos cuya influencia se quiere analizar.
  • Ej. Ruido de fondo, condiciones de iluminación,
    ...

11
2.1 Planificando Introducción
  • Definiciones
  • Muestra rasgo biométrico capturado.
  • Ej. Imagen huella dactilar o de la cara.
  • Patrón referencia almacenada del usuario
  • Muestras de entrenamiento.
  • Parámetros del clasificador.
  • Inscripción proceso de añadir nuevos usuarios
  • Operación intento por parte del usuario de
    validación o identificación de su identidad.
  • Se pueden usar una o más muestras.

12
2.2 Planificando Aspectos a Definir
  • 1. Clasificación de la muestra (I) Online
  • la inscripción o la clasificación se realiza en
    el momento de la captura
  • No es necesario almacenar los datos.
  • Se aconseja permite su tratamiento posterior.
  • Si no es posible medidas más completas si se
    toman decisiones con distintos niveles de
    seguridad.

13
2.2 Planificando Aspectos a Definir
  • 1. Clasificación de la muestra (II) Offline
  • la inscripción o la clasificación se realiza con
    muestras previamente grabadas
  • Mayor control y versatilidad en las pruebas.
  • Coste pequeño al modificar la evaluación.
  • Problema definir la adquisición. El número y
    características de los datos tomados condiciona
  • Las pruebas a realizar.
  • La fiabilidad de los resultados medidos.
  • El alcance del rendimiento observado.

14
2.2 Planificando Aspectos a Definir
  • 2. Tipo de evaluación (I) Tecnológica
  • El objetivo es medir el estado de la tecnología,
    determinar el progreso que ésta ha logrado e
    identificar lo enfoques más prometedores
  • Más general.
  • Offline completamente repetible.
  • Tarea a abordar ni muy fácil, ni muy difícil.
  • Sólo así habrá separación entre sistemas.
  • Bases de datos no vistas de antemano.
  • Evaluaciones estándar FVC, NIST (voz, caras).
  • Bases de datos usadas estándares de hecho.
  • A tener en cuenta sesgos debido a los sensores

15
2.2 Planificando Aspectos a Definir
  • 2. Tipo de evaluación (II) De Escenario
  • El objetivo es determinar si la tecnología está
    suficientemente madura como para cumplir los
    requisitos de una determinada aplicación
  • Medida del rendimiento en escenario prototipo.
  • Modela un determinado campo de aplicación.
  • Se extiende a todo el sistema.
  • No sólo clasificación, también etapa de captura.
  • Sensores captura distintos ? muestras distintas
  • Aconsejable probar combinaciones sensores -
    algoritmos reconocimiento.
  • Ej. coordina NPL, patrocina CESG (UK).

16
2.2 Planificando Aspectos a Definir
  • 2. Tipo de evaluación (II) Operacional
  • El objetivo es analizar si un sistema biométrico
    concreto, cumplo los requisitos de una
    determinada aplicación concreta
  • Similar a la de escenario, pero para un sistema
    concreto y en un entorno de uso real.
  • Puede ser online u offline.

17
2.2 Planificando Aspectos a Definir
  • 3. Tarea a abordar (I) Verificación
  • Se trata de autentificar la identidad reclamada
    por el usuario
  • Comparación muestra/s - patrón usuario.
  • Respuesta identidad reclamada/rechazada.
  • Ej. de uso acceso a servicio de uso personal
    (ordenador, cuenta bancaria, etc.)

18
2.2 Planificando Aspectos a Definir
  • 3. Tarea a abordar (II) Identificación
  • Positiva Se trata de comprobar que un usuario
    que reclama estar inscrito, lo está
  • Ej. uso control de acceso a lugares
    restringidos.
  • Negativa Se trata de comprobar que un usuario
    que reclama no estar inscrito, no lo está
  • Ej. uso evitar dobles inscripciones en
    servicios, ej. desempleo.
  • Comparación muestra - patrones todos usuarios
  • O pertenecientes a una determinada partición.
  • Reclamación identidad
  • Implícita, sin dar identidad.
  • Explícita, proporcionando la identidad.

19
2.2 Planificando Aspectos a Definir
  • 4. Factores que afectan al rendimiento Análisis
  • Buscando
  • Cuáles son poco relevantes control no importante
  • Cuáles afectan a la medida del rendimiento
  • Se Fijan de antemano sus valores.
  • Se diseñan las pruebas de modo que se pueda medir
    su influencia en el sistema.
  • Prever potenciales problemas anticipar
    controles.
  • Identificar casos excepcionales que puedan ser
    interesantes a considerar en las pruebas.

20
2.2 Planificando Aspectos a Definir
  • 4. Factores que afectan al rendimiento Tipos
  • Inherentes a la tecnología o al dispositivo
  • Ajenos al dispositivo. Destacar
  • Tiempo transcurrido entre inscripción-prueba.
  • Composición de la población bajo estudio.

Parámetro biométrico
Factor ambiental
21
2.2 Planificando Aspectos a Definir
  • 5. Políticas de inscripción/operación.
  • A tener en cuenta en inscripción
  • Número de muestras usadas para crear el patrón.
  • Número y separación entre sesiones.
  • Permitir o no actualizar el patrón con muestras
    rechazadas.
  • Si se permite validación del patrón los
    resultados no se deben incluir en la prueba.
  • A tener en cuenta en operación
  • Número de muestras usadas para la decisión.
  • A tener en cuenta en ambas
  • Controlar o no la calidad de la muestra adquirida.

22
Índice Exposición
  • Introducción.
  • Planificando la Evaluación.
  • Los Datos.
  • 3.1 Introducción.
  • 3.2 Datos del Cliente.
  • 3.3 Datos de Impostores.
  • 3.3.1 Impostores Genuinos.
  • 3.3.2 Impostores Simulados.
  • 3.4 El tamaño de la Prueba.
  • Medida del Rendimiento.
  • Análisis Estadístico de los Resultados.
  • Bibliografía.

23
3.1 Los Datos Introducción
  • Idealmente habría que realizar pruebas sobre
    todo posible usuario.
  • Imposible en la práctica.
  • ?
  • Pruebas a realizar sobre un subconjunto.
  • Alcance de la evaluación.
  • Confianza en las medidas del rendimiento.

Composición y datos adquiridos condicionan
24
3.1 Los Datos Introducción
  • Consideraciones generales
  • No es aconsejable el uso de muestras creadas
    artificialmente, tanto en lo que se refiere a la
    muestra, como a las condiciones de adquisición.
  • Resultados no extrapolables a la realidad.
  • Cuidado con errores como dobles inscripciones,
    inconsistencias muestras-individuo o muestras
    incorrectas.
  • Es conveniente automatizar la adquisición.
  • Se evita la subjetividad del operador humano.
  • Datos más libres de errores.
  • Adquisición más cercana a la real.

25
3.1 Los Datos Introducción
  • Elementos importantes a tener en cuenta
  • Entorno de la adquisición.
  • Iluminación, ruido de fondo, tipo de sensor, ...
  • Composición de la población.
  • Evaluación tecnológica
  • Suficientemente genéricos y representativos para
    permitir comparaciones objetivas.
  • Evaluación de escenario y operacional
  • Representativos de la aplicación a estudio.
  • Casos especiales correctamente representados.
  • Evitar sesgos en los resultados.

26
3.1 Los Datos Introducción
  • Definiciones
  • Intento auténtico la muestra a clasificar
    pertenece al propietario del patrón con el que
    compara.
  • Intento impostor la muestra a clasificar no
    pertenece al propietario del patrón con el que
    compara.
  • Cliente usuario inscrito.
  • Impostor usuario que se hace pasar por cliente.
  • Activo trata de imitar al cliente.
  • Pasivo no trata de imitar al cliente.

27
3.2 Los Datos Cliente
  • Problema envejecimiento del patrón.
  • El rendimiento del sistema decrece cuanto mayor
    es el tiempo transcurrido entre la inscripción y
    la operación
  • Hay que realizar pruebas con datos adquiridos con
    una separación suficiente en el tiempo.
  • Suficiente
  • Imposible de obtener de forma exacta.
  • Aproximación tiempo necesario para que sane esa
    parte del cuerpo.
  • Si está definido recoger muestras con la misma
    frecuencia que en el uso real del sistema.

28
3.3 Los Datos Impostores
  • Formas de operar
  • Impostores genuinos datos provenientes de
    usuarios diferentes a los clientes, y adquiridas
    ex profeso para ese fin.
  • Impostores simulados se usan muestras de otros
    clientes.

29
3.3.1 Los Datos Impostores Genuinos
  • Forma más realista de evaluar el sistema.
  • Mayor control sobre la definición de operaciones.
  • No siempre posible en la realidad.
  • Recomendable adquirir un número alto de datos, y
    elegir aleatoriamente las pruebas por cliente.
  • Diferente modo de adquisición pasivos/activos.
  • Condiciones de adquisición las mismas que las de
    los clientes.
  • No es aconsejable usar bases de datos distintas.
  • No usar muestras usadas para crear el
    clasificador.

30
3.3.2 Los Datos Impostores Simulados
  • Formas de operar
  • Selección aleatoria de un subconjunto por
    cliente.
  • Realizar comparaciones cruzadas completas.
  • Usando muestras entrenamiento y/o prueba.
  • Problema pruebas de impostores activos.

31
3.4 Los Datos Tamaño de la Prueba
  • Consideraciones generales
  • Definido por número de voluntario e intentos.
  • Fija la confianza en la estimación del error
    medida.
  • Problema tamaño mínimo que asegure un nivel
    prefijado de confianza

32
3.4 Los Datos Tamaño de la Prueba
  • Solución 1 Regla del 3
  • Mansfield y Wayman, 2002Jovanic y Levy, 1997
  • Suposiciones
  • Pruebas estadísticamente independientes.
  • Probabilidad de error p igual en todas ellas.
  • Distribución de errores observados binomial
  • Establece la probabilidad de error p mínima que
    permite asegurar con una confianza del 95 que en
    N ensayos se pueden tener 0 errores es 3/N.
  • Ej. 95 confianza de que p0.01, es necesario,
    como mínimo, 300 pruebas sin error.

33
3.4 Los Datos Tamaño de la Prueba
  • Solución 2 Regla del 30 (Doddington)
  • Doddington,1998Porter,2000
  • Mismas suposiciones anteriores.
  • Establece para tener un 90 de confianza de que
    la tasa de error verdadera está dentro del ?30
    de la tasa de error observada, debe haber al
    menos 30 errores.
  • Ej. Si tenemos 30 errores en 3000 pruebas
  • ?
  • Con un 90 de confianza el error estará entre
    0.7 y 1.3

34
3.4 Los Datos Tamaño de la Prueba
  • Problemas en las suposiciones anteriores
  • Independencia estadística entre pruebas, no se
    puede asegurar si
  • Cada muestra de prueba no pertenece a un
    individuo distinto.
  • Se simulan operaciones de impostores mediante
    comparaciones cruzadas completas.
  • Igual distribución de errores. La realidad
    demuestra los siguientes comportamientos
  • Oveja comportamiento normal.
  • Cabra personas difíciles de reconocer.
    PFalsoRechazo alta.
  • Cordero personas fáciles de imitar.
    PFalsaAceptación alta.
  • Lobo personas con facilidad para hacerse pasar
    por otras. PFalsaAceptación alta.

35
3.4 Los Datos Tamaño de la Prueba
  • Conclusión
  • Reglas anteriores difícil aplicación práctica.
  • Se usan como referencia.
  • Recomendaciones Best Practices
  • Número de voluntarios tan grande como se pueda
    cuanto mayor sea menor será el intervalo de
    confianza sobre la estimación del error medida.
  • Adquirir suficientes muestras por voluntario, tal
    que el número de pruebas exceda el requerido por
    la regla del 3 o del 30, la que sea adecuada.
  • Calcular la confianza sobre la medida del error
    estimada.

36
Índice Exposición
  • Introducción.
  • Planificando la Evaluación.
  • Los Datos.
  • Medida del Rendimiento.
  • 4.1 Introducción.
  • 4.2 Validación de la Muestra.
  • 4.3 Clasificación de la Muestra.
  • 4.4 El Algoritmo de Partición.
  • 4.5 Decisión Final.
  • 4.6 Productividad.
  • Análisis Estadístico de los Resultados.
  • Bibliografía.

37
4.1 Rendimiento Introducción
  • Esquema de un sistema biométrico

Parámetro biométrico
38
4.2 Rendimiento Validación
  • Errores.
  • Tasa de Fallos en Inscripción (TFI) proporción
    de voluntarios que no han sido inscritos en el
    sistema.
  • Tasa de Fallos en Operación (TFO) proporción de
    operaciones (tanto del cliente, como de
    impostores) que no han podido ser completadas.

39
4.3 Rendimiento Clasificación
  • Errores.
  • Tasa de Falsos Positivos (TFP) (False Match Rate,
    FMR) probabilidad esperada de que una muestra de
    un usuario sea incorrectamente clasificada como
    coincidente con el patrón de otro usuario.
  • Se estima proporción de muestras falsamente
    asignadas a un cliente al que no pertenecen.
  • Tasa de Falsos Negativos (TFN) (False Non Match
    Rate, FNMR) probabilidad esperada de que una
    muestra de un usuario sea incorrectamente
    clasificada como no coincidente con el patrón de
    ese usuario.
  • Se estima proporción de muestras del cliente
    falsamente rechazadas como no pertenecientes a él.

40
4.3 Rendimiento Clasificación
  • Tasas de error centradas en el algoritmo.
  • Independientes de la política de decisión final.
  • Las normalmente usadas en la evaluación
    tecnológica.
  • Cálculo aconsejable siempre.
  • Resultados etapa clasificación distribución
    típica.
  • Solapamiento ? imposible 100 aciertos.
  • El rendimiento depende del umbral de decisión.

Impostores
Cliente
Resultado clasificador
41
4.3 Rendimiento Clasificación
  • Representación gráfica del rendimiento
    Características
  • Muestran los valores de la TFP y la TFN para
    diversos umbrales de decisión (puntos de
    funcionamiento).
  • Permiten una visualización global del
    rendimiento.
  • Permiten una comparación objetiva ente sistemas.

42
4.3 Rendimiento Clasificación
  • Representación gráfica del rendimiento Curvas
    ROC.
  • (Receiver Operating Characteristics)
  • Muestran la variación de la TFP (eje X), con
    respecto a la tasa de verdaderos positivos
    (1-TFN) en el eje Y, para distintos umbrales de
    decisión.
  • El eje Y y la recta y100 pueden ser consideradas
    las asíntotas de la curva cuanto más se acerque
    ésta a ellas mejor es el rendimiento del sistema.

Tasa de Verdaderos Positivos ()
Tasa de Falsos Positivos ()
43
4.3 Rendimiento Clasificación
  • Representación gráfica del rendimiento Curvas
    DET.
  • (Detection Error Tradeoff) Martin et al., 1997
  • Representa el número de desviaciones normales en
    la distribución normal estandarizada (media 0 y
    varianza 1) correspondiente a la TFP (eje X) y a
    la TFN (eje Y).
  • La escala original se cambia por la
    correspondiente probabilidad.
  • Representación casi lineal.
  • Comparación más clara y fácil.
  • Distancia entre curvas diferencia entre
    rendimientos.
  • Cuanto más cercana a la recta, más se acerca la
    distribución de resultados a la normal.

Tasa de Falsos Negativos ()
Tasa de Falsos Positivos ()
44
4.3 Rendimiento Clasificación
  • El sistema en un número.
  • Se resume el rendimiento del sistema en un solo
    valor se escoge un punto de funcionamiento
    característico.
  • Comparación más fácil que con las anteriores.
  • Representación del rendimiento menos completa.
  • Medidas más usadas
  • Tasa de Equierror (TEE) (Equal Error Rate, EER)
    punto donde se igualan la TFN y la TFP.
  • Medida muy popular.
  • Coste de Detección (Detection Cost, Cdet)
  • Cdet cfnTFNPcliente cfpTFp(1-Pcliente)
  • cfn y cfp los costes de los errores
    correspondientes.
  • Pcliente y (1-Pcliente) las prob. a priori de
    cliente e impostor
  • Ej. NIST cfn10, cfp1 y Pcliente0.01.

45
4.3 Rendimiento Clasificación
  • Dependencia con los errores de la etapa
    anterior.
  • Cuanto mayor sea la exigencia con respecto a la
    calidad de la muestra, mayor será la probabilidad
    de fallos en operación, pero menor será la
    probabilidad de errores en clasificación.

46
4.4 Rendimiento Algoritmo de Partición
  • Medidas de eficacia.
  • Rango de Penetración (RP) James y James,2000
    proporción esperada de comparaciones a realizar
    sobre cada muestra, con respecto al número total
    de patrones, bajo la condición de comparación con
    todos los patrones de la partición asignada.
  • Cálculo número medio de comparaciones por
    muestra, dividido entre el número total de
    patrones.
  • Cuanto menor sea RP, respuesta más rápida del
    sistema.
  • Tasa de Error en la Asignación de la Partición
    (TEAP) proporción de asignaciones erróneas.

47
4.4 Rendimiento Algoritmo de Partición
  • Relación entre ambas medidas.
  • Cuanto mayor sea el número de particiones, menor
    será el RP, pero mayor será la TEAP, y a la
    inversa.
  • RP/TEAPf(parámetros del algoritmo de partición).
  • Representación de esa relación curvas ROC y DET,
    por ej.

48
4.5 Rendimiento Decisión Final
  • Errores.
  • Tasa de Falsas Aceptaciones (TFA) proporción de
    operaciones con identidad o no identidad
    falsamente reclamada que son incorrectamente
    confirmadas.
  • Error de tipo II.
  • Identificación positiva y verificación identidad
    falsamente asignada a un individuo.
  • Identificación negativa rechazo de un usuario
    inscrito.
  • Tasa de Falsos Rechazos (TFR) proporción de
    operaciones con identidad o no identidad
    correctamente reclamada que son incorrectamente
    rechazadas.
  • Error tipo I
  • Identificación positiva y verificación cliente
    rechazado.
  • Identificación negativa sí inscrito un usuario
    no inscrito.

49
4.5 Rendimiento Decisión Final
  • Relación con errores anteriores.
  • TFP/TFN def. para comparaciones sobre cada
    muestra
  • TFA/TFR definidas sobre operaciones
  • Ej. verificación de usuario basada en 3 intentos
    Falso Rechazo cada vez que tengamos 3 Falsos
    Negativos.
  • TFA/TFR dependen de los anteriores.
  • Ej. Decisión final basada en muestra única y
    operaciones de impostores simuladas mediante
    comparación cruzada completa con las muestras de
    prueba de cada cliente.
  • TFA(1-TFO)RPTFP
  • TFRTFO (1-TFO)TEAP (1-TFO)(1-TEAP)TFN
  • Dependencia de TFA/TFR con el umbral se
    representa igual que para TFP/TPN.

?
50
4.6 Rendimiento Productividad
  • Medidas de la productividad del sistema.
  • Procesamiento en tiempo real número medio de
    inscripciones y número medio de operaciones por
    unidad de tiempo.
  • Procesamiento posterior a la adquisición de la
    muestra tiempo medio por cliente del algoritmo
    de creación de patrones y tiempo medio por
    operación del algoritmo de clasificación.
  • Medidas interesantes desde el punto de vista
    práctico.

51
Índice Exposición
  • Introducción.
  • Planificando la Evaluación.
  • Los Datos.
  • Medida del Rendimiento.
  • Análisis Estadístico de los Resultados.
  • 5.1 Introducción.
  • 5.2 Sensibilidad Frente a Cambios.
  • 5.3 Confianza en los Errores Estimados.
  • Bibliografía.

52
5.1 Análisis Estadístico Introducción
  • Tipos de errores en el cálculo del rendimiento
  • Best Practices, 2002
  • Aleatorios debidos a la variación natural de las
    muestras, los voluntarios, etc.
  • Condiciona la confianza en el resultado obtenido.
  • Sistemático debidos a sesgos en el procedimiento
    de evaluación.
  • Ej. probar sólo bajo determinadas condiciones
    ambientales, tipos de individuos sobre o
    infrarrepresentados, etc.
  • Interesante estudiar como afecta al rendimiento
    del sistema determinadas modificaciones en las
    condiciones de prueba.

53
5.2 Análisis Estadístico Sensibilidad
  • Sensibilidad frente a cambios (error
    sistemático).
  • Objetivo establecer la significación
    estadísticas de las diferencias en el rendimiento
    observadas al modificar determinadas condiciones
    de prueba.
  • Alternativa Mansfield et al.,2001 prueba ?2
  • Evalúa la certeza sobre la hipótesis nula, H0 x
    e y son independientes, con x e y los factores
    bajo estudio.
  • Ej. xresultados para hombres, yres. para
    mujeres

54
5.3 Análisis Estadístico Confianza
  • Confianza en las estimaciones (error aleatorio).
  • Única forma de calcular el error real p del
    sistema sería probando sobre todo usuario y
    condición de uso.
  • Imposible en la práctica se obtiene una
    estimación p.
  • ?
  • Problema deducir el comportamiento real del
    sistema a partir del estimado.
  • Cuestiones importantes a resolver
  • Prefijado un nivel de confianza sobre la medida
    de error, encontrar el número mínimo de pruebas
    que lo garantice.
  • Prefijado el tamaño de la población de prueba, y
    las condiciones experimentales, encontrar el
    intervalo de confianza sobre la estimación de
    error obtenida.

55
5.3 Análisis Estadístico Confianza
  • Aprox. gaussiana cálculo intervalo confianza.
  • Para un número suficiente de pruebas, ni muy
    grande, ni muy pequeño la distribución del error
    observado se puede aproximar por una gaussiana.
  • Con un nivel de confianza del 100(1-?), se puede
    afirmar que el error real p de nuestro sistema
    estará dentro del intervalo de confianza
  • V(p) estimación de la varianza del error
    observado.
  • (1-?/2) el área de la distribución normal entre
    -? y z1-?/2.
  • Ej. 95 nivel de confianza z0.975 1.96

56
5.3 Análisis Estadístico Confianza
  • Aprox. gaussiana condiciones cálculo anterior.
  • Los voluntarios son representativos de la
    población bajo estudio.
  • Intentos de distintos voluntarios son
    independientes.
  • La tasa de error puede variar entre voluntarios.
  • Se permite la existencia de lobos, ovejas,
    cabras y corderos.
  • El número de errores observado no es muy pequeño.

57
5.3 Análisis Estadístico Confianza
  • Aprox. gaussiana cálculo de V(p).
  • Para TFN, n voluntarios, ai FN para voluntario i,
    y con
  • 1 intento por voluntario
  • Con
  • m intentos por voluntario
  • Con
  • mi intentos por vol.
  • Con
  • Con

58
5.3 Análisis Estadístico Confianza
  • Aprox. gaussiana cálculo de V(p).
  • Para TFP, n voluntarios, bi FP para voluntario i,
    y con
  • 1 intento por impostor
  • Con
  • Impostores simulados usando las muestras de
    prueba de otros clientes, comparación cruzada
    completa
  • m muestras por voluntario. bij muestras del
    voluntario i FA como pertenecientes al cliente j
    (bii 0).

59
5.3 Análisis Estadístico Confianza
  • Técnica del Bootstrap conceptos generales
  • Solución más general no presupone una forma en
    la distribución de errores observados.
  • Descripción general
  • Crear muestras boostrap mediante muestreo con
    reemplazo del conjunto de prueba original.
  • Muestra bootstrap reproduce la estructura y
    dependencias del conjunto de prueba original.
  • Obtener de manera empírica la distribución de
    errores, mediante el cálculo de éstos para cada
    una de las muestras bootstrap.
  • Calcular a partir de esa distribución el
    intervalo de confianza.

60
5.3 Análisis Estadístico Confianza
  • Técnica del Bootstrap ejemplo aplicación.
  • Estimación de TFN, n voluntarios, m intentos de
    cada uno
  • Creación de la muestra bootstrap
  • Elegir aleatoriamente y con reemplazo n
    voluntarios del conjunto original ?1, ?2, ...,
    ?n.
  • Elegir aleatoriamente y con reemplazo para cada
    ?i, m intentos de ese voluntario ti1, ti2, ...,
    tim.
  • La muestra bootstrap es YX(?i,tij) / 1?i? n
    1?j?m.
  • X(?i,tij) resultado del clasificador
    perteneciente al cliente ?i sobre la muestra de
    prueba tij.
  • Se genera un número grande de muestras bootstrap.
  • Se calcula para cada una la TFN.
  • Distribución obtenida aproximación a la real.

61
5.3 Análisis Estadístico Confianza
  • Técnica del Bootstrap cálculo intervalo
    confianza.
  • Cálculo del intervalo L,M dentro del cual
    estará con un 100(1-?) de confianza, la tasa de
    error real p
  • L error para el que la fracción de muestras
    bootstrap con tasas de error menor que L sea ?/2.
  • M error para el que la fracción de muestras
    bootstrap con tasas de error mayor que M sea ?/2.
  • Recomendaciones Best Practices 2002 1000
    muestras bootstrap si se quiere un nivel de
    confianza del 95 y 5000 si se quiere del 99.

62
Índice Exposición
  1. Introducción.
  2. Planificando la Evaluación.
  3. Los Datos.
  4. Medida del Rendimiento.
  5. Análisis Estadístico de los Resultados.
  6. Bibliografía.

63
6. Bibliografía
  • UK Biometrics Working Group, Use of Biometric for
    Identification and Authentication Advice on
    Product Selection. Issue 2.0, Marzo 2002,
    http//www.cesg.gov.uk/site/ast/biometrics/media/B
    iometricsAdvice.pdf
  • J.P Campbell, Speaker Recognition A tutorial,
    Proceedings of the IEEE, vol. 85, no. 9, pp.
    1437-1462, Septiembre 1997.
  • The Common Criteria Biometric Evaluation
    Methodology Working Group, Biometric Evaluation
    Methodology. Common Criteria for Information
    Technology Security Evaluation. Biometric
    Evaluation Methodology Supplement. Version 1.0,
    Agosto 2002, http//www.cesg.gov.uk/site/ast/biome
    trics/media/BEM_10.pdf.
  • Doddington, 1998 G. Doddington, Speaker
    Recognition Evaluation Methodology. An Overview
    and Perspective, Proc. de Speaker Recognition and
    its Commercial and Forensic Applications (RLA2C),
    pp. 60-66, Abril 1998.
  • G. Doddington, W. Ligget, A. Martin, M. Przybocki
    y D. Reynolds, Sheep, Goats, Lambs and Wolves. A
    Statistical Analysis of Speaker Performance in
    the NIST 1998 Speaker Recognition Evaluation, en
    Proc. of International Conference on Spoken
    Language Processing, Artículo 608 del CD-ROM,
    Noviembre 1998.
  • G. Doddington, M. Przybocki, M. Martin y D.
    Reynolds, The NIST Speaker Recognition
    Evaluation Overview Methodology, Systems,
    Results, Perspective, Speech Communication, vol.
    31, no. 2-3, pp. 225-254, 2000.
  • C. L. Frenzen, Convolution Methods for
    Mathematical Problems in Biometrics, Naval
    Postgraduate School Technical Report,
    NPS-MA-99-001, Enero 1999.
  • C. L. Frenzen, Convolution Methods for
    Mathematical Problems in Biometrics, National
    Biometric Test Center Collected Works 1997-2000,
    pp. 45-49, Agosto 2000, Documento online
    http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.

64
6. Bibliografía
  • The International Biometric Group, Comparative
    Biometric Testing. Official Test Plan 2.12, 2003.
    Disponible en http//www.ibgweb.com.
  • James y James, 2000 Kang James y Barry James,
    The Penetration Rate in Automatic Fingerprint
    Identification Systems, National Biometric Test
    Center Collected Works 1997-2000, pp. 173-174,
    Agosto 2000, Documento online http//www.engr.sjsu
    .edu/biometrics/nbtccw.pdf.
  • Jovanic y Levy, 1997 B.D. Jovanovic y P.S.
    Levy, A Look at the Rule of Three, The American
    Statisticiam, vol. 51, no. 2, pp. 137-139, 1997.
  • Dario Maio, Davide Maltoni, Raffaele Cappeli, J.
    L. Wayman y Anil K. Jain, FVC2000 Fingerprint
    Verification Competition, IEEE Trans. On Pattern
    Analysis and Machine Intelligence, vol. 24, No.
    3, pp. 402-412, Marzo 2002.
  • Best Practices, 2002 A.J. Mansfield y J.L.
    Wayman, Best Pratices in Testing and Reporting
    Performance of Biometric Devices. Version 2.01,
    Agosto 2002, Documento online http//www.cesg.gov.
    uk/site/ast/biometrics/media/BestPractice.pdf.
  • T. Mansfield, G. Kelly, D. Chandler y J. Kane,
    Biometric Product Testing Final Report, National
    Physical Laboratory, UK, CESG contract
    X92A/4009309, Marzo 2001, http//www.cesg.gov.uk/s
    ite/ast/biometrics/media/BiometricTestReportpt1.pd
    f .
  • Martin et al., 1997 A. Martin, G. Doddington,
    T. Kamm, M. Ordowski y M. Przybocki, The DET
    Curve in Assessment of Detection Task
    Performance, Proc. Eurospeech, vol. 4, pp.
    1895-1898, Septiembre 1997.
  • P. Jonathon Phillips, Alvin Martin, C. L. Wilson
    y Mark Przybocki, An Introduction to Evaluation
    Biometric Systems, IEEE Computer, pp. 56-63,
    Febrero 2000.
  • P. Jonathon Phillips, Patrick Grother, Ross J.
    Micheals, Duane M. Blackburn, Elham Tabassi y
    Mike Bone, Face Recognition Vendor Test 2002
    Evaluation Report, Marzo 2003, Disponible en
    http//www.frvt.org/FRVT2002/documents.htm

65
6. Bibliografía
  • Porter, 2000 Jack E. Porter, On the 30 Error
    Criterion, National Biometric Test Center
    Collected Works 1997-2000, pp. 51-56, Agosto
    2000, Documento online http//www.engr.sjsu.edu/bi
    ometrics/nbtccw.pdf.
  • Douglas A. Reynolds, Speaker Identification and
    Verification using Gaussian Mixture Speakers
    Models, Speech Communications, vol. 17, nos. 1-2,
    pp. 91-108, Agosto 1995.
  • K.R. Sharp, Whose Face Is It Anyway?, idSYSTEMS,
    vol. 20, no. 4, Abril 2000. Disponible en
    www.scs-mag.com/reader/2000_04/whose0400.
  • Weicheng Shen, Marc Surette y Rajiv Khanna,
    Evaluation of Automated Biometrics-Based
    Identification and Verification Systems.
    Proceedings of the IEEE, vol. 85, no. 9, pp.
    1464-1478, Septiembre 1997.
  • J.L. Wayman, Biometric Technology Testing,
    Evaluation, Results. Disponible en
    http//www.engr.sjsu.edu/biometrics/publications.h
    tml. 
  • J. L. Wayman, Confidence Interval and Test Size
    Estimation for Biometric Data, Proc. Automatic
    Identification Advanced Technologies (AutoID),
    Summit, NJ (USA), 1999. Y en National Biometric
    Test Center Collected Works 1997-2000, pp.
    91-102, Agosto 2000, Documento online
    http//www.engr.sjsu.edu/biometrics/nbtccw.pdf
  • J. L. Wayman, Error Rate Equations for the
    General Biometric System, IEEE Robotics and
    Automation Magazine, vol. 6, no. 9, pp. 35-48,
    Enero 1999. Y en National Biometric Test Center
    Collected Works 1997-2000, pp. 103-128, Agosto
    2000, Documento online http//www.engr.sjsu.edu/bi
    ometrics/nbtccw.pdf.
  • J. L. Wayman, Degrees of Freedom as Related to
    Biometric Device Performance. National Biometric
    Test Center Collected Works 1997-2000, pp.
    201-208, Agosto 2000, Documento online
    http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.

66
6. Otra Bibliografía
  • J. L. Wayman, Technical Testing and Evaluation of
    Biometric Identification Devices, en Biometrics
    Personal Identification in a Networked Society,
    Editado por A. Jain, R. Bolle y S. Pankanti,
    Kluwer Academic Press, Boston, 1999. Y en
    National Biometric Test Center Collected Works
    1997-2000, pp. 67-90, Agosto 2000, Documento
    online http//www.engr.sjsu.edu/biometrics/nbtccw.
    pdf.
  • J. L. Wayman, A. Jain, D. Maltoni y D. Maio,
    Biometric Systems Technology, Design and
    Performance Evaluation, Springer Verlag, 2003.
Write a Comment
User Comments (0)
About PowerShow.com