Title: Evaluaci
1Rendimiento y Evaluación de Dispositivos
Biométricos
Dr. Carlos Enrique Vivaracho Pascual
2Índice Exposición
- Introducción.
- Planificando la Evaluación.
- 3. Los Datos.
- 4. Medida del Rendimiento.
- Análisis Estadístico de los Resultados.
- Bibliografía.
31. Introducción
- Evaluar
- Estimar aptitudes y rendimiento de los sistemas
- ?Sharp
- Prestar igual atención a todos los aspectos,
desde la adquisición de los datos, a la
integración del sistema
41. Introducción
- Aspectos a analizar en la evaluación
- Rendimiento.
- Seguridad, integridad y confidencialidad de los
datos. - Fiabilidad, disponibilidad y mantenimiento de la
aplicación informática. - Aceptación y/o facilidad de manejo.
- Comercialización del producto.
- Cuestiones legales.
51. Introducción
- Objetivos
- Comparar tecnologías.
- Ver si es factible su realización práctica.
- Analizar el cumplimiento de requisitos.
- ...
- Importante objetiva.
- Realizada por instituciones independientes.
- Evaluaciones estándar.
- Seguimiento de prácticas y criterio comunes.
61. Introducción
- Evaluaciones estándar
- Comercial
- International Biometric Group (IBG).
- International Biometric Industry Association
(IBIA). - No comercial
- National Institute of Standars and Technology
(NIST). - Voz.
- Caras, Face Recognition Vendor Test (FRVT) FERET
- Fingerprint Verification Competition (FVC).
- Audio and Video-Based Biometric Person
Authentification (AVBPA) face constest XM2VTS
71. Introducción
- Criterios comunes.
- En elaboración
- ISO
- JCT1/SC5 (Biometrics) / WG5 (Biometic Testing and
Reporting). - Documentos
- Common Criteria
- Common Evaluation Methodology, Biometric
Evaluation Methodology Supplement (V1.0, 2002). - Biometric Working Group
- Best Practices in Testing and Reporting
Performance of Biometric Devices (V2.01, 2002).
8Índice Exposición
- Introducción.
- Planificando la Evaluación.
- 2.1 Introducción.
- 2.2 Aspectos a Definir.
- Los Datos.
- Medida del Rendimiento.
- Análisis Estadístico.
- Bibliografía.
92.1 Planificando Introducción
- Definición de aspectos que condicionan
- Ámbito de aplicación.
- Alcance.
- La adquisición de los datos.
- Alcance de los rendimientos obtenidos.
102.1 Planificando Introducción
- Decisiones condicionadas por
- El sistema.
- Ej. Tiene o no dispositivos de almacenamiento.
- El entorno de aplicación.
- Ej. Voz vía teléfono - vía micrófono.
- El fabricante del dispositivo.
- Ej. Proporciona o no SDK.
- El ámbito del estudio.
- Ej. Tecnológico, de escenario u operacional.
- Aspectos cuya influencia se quiere analizar.
- Ej. Ruido de fondo, condiciones de iluminación,
...
112.1 Planificando Introducción
- Definiciones
- Muestra rasgo biométrico capturado.
- Ej. Imagen huella dactilar o de la cara.
- Patrón referencia almacenada del usuario
- Muestras de entrenamiento.
- Parámetros del clasificador.
- Inscripción proceso de añadir nuevos usuarios
- Operación intento por parte del usuario de
validación o identificación de su identidad. - Se pueden usar una o más muestras.
122.2 Planificando Aspectos a Definir
- 1. Clasificación de la muestra (I) Online
- la inscripción o la clasificación se realiza en
el momento de la captura - No es necesario almacenar los datos.
- Se aconseja permite su tratamiento posterior.
- Si no es posible medidas más completas si se
toman decisiones con distintos niveles de
seguridad.
132.2 Planificando Aspectos a Definir
- 1. Clasificación de la muestra (II) Offline
- la inscripción o la clasificación se realiza con
muestras previamente grabadas - Mayor control y versatilidad en las pruebas.
- Coste pequeño al modificar la evaluación.
- Problema definir la adquisición. El número y
características de los datos tomados condiciona - Las pruebas a realizar.
- La fiabilidad de los resultados medidos.
- El alcance del rendimiento observado.
142.2 Planificando Aspectos a Definir
- 2. Tipo de evaluación (I) Tecnológica
- El objetivo es medir el estado de la tecnología,
determinar el progreso que ésta ha logrado e
identificar lo enfoques más prometedores - Más general.
- Offline completamente repetible.
- Tarea a abordar ni muy fácil, ni muy difícil.
- Sólo así habrá separación entre sistemas.
- Bases de datos no vistas de antemano.
- Evaluaciones estándar FVC, NIST (voz, caras).
- Bases de datos usadas estándares de hecho.
- A tener en cuenta sesgos debido a los sensores
152.2 Planificando Aspectos a Definir
- 2. Tipo de evaluación (II) De Escenario
- El objetivo es determinar si la tecnología está
suficientemente madura como para cumplir los
requisitos de una determinada aplicación - Medida del rendimiento en escenario prototipo.
- Modela un determinado campo de aplicación.
- Se extiende a todo el sistema.
- No sólo clasificación, también etapa de captura.
- Sensores captura distintos ? muestras distintas
- Aconsejable probar combinaciones sensores -
algoritmos reconocimiento. - Ej. coordina NPL, patrocina CESG (UK).
162.2 Planificando Aspectos a Definir
- 2. Tipo de evaluación (II) Operacional
- El objetivo es analizar si un sistema biométrico
concreto, cumplo los requisitos de una
determinada aplicación concreta - Similar a la de escenario, pero para un sistema
concreto y en un entorno de uso real. - Puede ser online u offline.
172.2 Planificando Aspectos a Definir
- 3. Tarea a abordar (I) Verificación
- Se trata de autentificar la identidad reclamada
por el usuario - Comparación muestra/s - patrón usuario.
- Respuesta identidad reclamada/rechazada.
- Ej. de uso acceso a servicio de uso personal
(ordenador, cuenta bancaria, etc.)
182.2 Planificando Aspectos a Definir
- 3. Tarea a abordar (II) Identificación
- Positiva Se trata de comprobar que un usuario
que reclama estar inscrito, lo está - Ej. uso control de acceso a lugares
restringidos. - Negativa Se trata de comprobar que un usuario
que reclama no estar inscrito, no lo está - Ej. uso evitar dobles inscripciones en
servicios, ej. desempleo. - Comparación muestra - patrones todos usuarios
- O pertenecientes a una determinada partición.
- Reclamación identidad
- Implícita, sin dar identidad.
- Explícita, proporcionando la identidad.
192.2 Planificando Aspectos a Definir
- 4. Factores que afectan al rendimiento Análisis
- Buscando
- Cuáles son poco relevantes control no importante
- Cuáles afectan a la medida del rendimiento
- Se Fijan de antemano sus valores.
- Se diseñan las pruebas de modo que se pueda medir
su influencia en el sistema. - Prever potenciales problemas anticipar
controles. - Identificar casos excepcionales que puedan ser
interesantes a considerar en las pruebas.
202.2 Planificando Aspectos a Definir
- 4. Factores que afectan al rendimiento Tipos
- Inherentes a la tecnología o al dispositivo
- Ajenos al dispositivo. Destacar
- Tiempo transcurrido entre inscripción-prueba.
- Composición de la población bajo estudio.
Parámetro biométrico
Factor ambiental
212.2 Planificando Aspectos a Definir
- 5. Políticas de inscripción/operación.
- A tener en cuenta en inscripción
- Número de muestras usadas para crear el patrón.
- Número y separación entre sesiones.
- Permitir o no actualizar el patrón con muestras
rechazadas. - Si se permite validación del patrón los
resultados no se deben incluir en la prueba. - A tener en cuenta en operación
- Número de muestras usadas para la decisión.
- A tener en cuenta en ambas
- Controlar o no la calidad de la muestra adquirida.
22Índice Exposición
- Introducción.
- Planificando la Evaluación.
- Los Datos.
- 3.1 Introducción.
- 3.2 Datos del Cliente.
- 3.3 Datos de Impostores.
- 3.3.1 Impostores Genuinos.
- 3.3.2 Impostores Simulados.
- 3.4 El tamaño de la Prueba.
- Medida del Rendimiento.
- Análisis Estadístico de los Resultados.
- Bibliografía.
233.1 Los Datos Introducción
- Idealmente habría que realizar pruebas sobre
todo posible usuario. - Imposible en la práctica.
- ?
- Pruebas a realizar sobre un subconjunto.
- Alcance de la evaluación.
- Confianza en las medidas del rendimiento.
Composición y datos adquiridos condicionan
243.1 Los Datos Introducción
- Consideraciones generales
- No es aconsejable el uso de muestras creadas
artificialmente, tanto en lo que se refiere a la
muestra, como a las condiciones de adquisición. - Resultados no extrapolables a la realidad.
- Cuidado con errores como dobles inscripciones,
inconsistencias muestras-individuo o muestras
incorrectas. - Es conveniente automatizar la adquisición.
- Se evita la subjetividad del operador humano.
- Datos más libres de errores.
- Adquisición más cercana a la real.
253.1 Los Datos Introducción
- Elementos importantes a tener en cuenta
- Entorno de la adquisición.
- Iluminación, ruido de fondo, tipo de sensor, ...
- Composición de la población.
- Evaluación tecnológica
- Suficientemente genéricos y representativos para
permitir comparaciones objetivas.
- Evaluación de escenario y operacional
- Representativos de la aplicación a estudio.
- Casos especiales correctamente representados.
- Evitar sesgos en los resultados.
263.1 Los Datos Introducción
- Definiciones
- Intento auténtico la muestra a clasificar
pertenece al propietario del patrón con el que
compara. - Intento impostor la muestra a clasificar no
pertenece al propietario del patrón con el que
compara. - Cliente usuario inscrito.
- Impostor usuario que se hace pasar por cliente.
- Activo trata de imitar al cliente.
- Pasivo no trata de imitar al cliente.
273.2 Los Datos Cliente
- Problema envejecimiento del patrón.
- El rendimiento del sistema decrece cuanto mayor
es el tiempo transcurrido entre la inscripción y
la operación - Hay que realizar pruebas con datos adquiridos con
una separación suficiente en el tiempo. - Suficiente
- Imposible de obtener de forma exacta.
- Aproximación tiempo necesario para que sane esa
parte del cuerpo. - Si está definido recoger muestras con la misma
frecuencia que en el uso real del sistema.
283.3 Los Datos Impostores
- Formas de operar
- Impostores genuinos datos provenientes de
usuarios diferentes a los clientes, y adquiridas
ex profeso para ese fin. - Impostores simulados se usan muestras de otros
clientes.
293.3.1 Los Datos Impostores Genuinos
- Forma más realista de evaluar el sistema.
- Mayor control sobre la definición de operaciones.
- No siempre posible en la realidad.
- Recomendable adquirir un número alto de datos, y
elegir aleatoriamente las pruebas por cliente. - Diferente modo de adquisición pasivos/activos.
- Condiciones de adquisición las mismas que las de
los clientes. - No es aconsejable usar bases de datos distintas.
- No usar muestras usadas para crear el
clasificador.
303.3.2 Los Datos Impostores Simulados
- Formas de operar
- Selección aleatoria de un subconjunto por
cliente. - Realizar comparaciones cruzadas completas.
- Usando muestras entrenamiento y/o prueba.
- Problema pruebas de impostores activos.
313.4 Los Datos Tamaño de la Prueba
- Consideraciones generales
- Definido por número de voluntario e intentos.
- Fija la confianza en la estimación del error
medida. - Problema tamaño mínimo que asegure un nivel
prefijado de confianza
323.4 Los Datos Tamaño de la Prueba
- Solución 1 Regla del 3
- Mansfield y Wayman, 2002Jovanic y Levy, 1997
- Suposiciones
- Pruebas estadísticamente independientes.
- Probabilidad de error p igual en todas ellas.
- Distribución de errores observados binomial
- Establece la probabilidad de error p mínima que
permite asegurar con una confianza del 95 que en
N ensayos se pueden tener 0 errores es 3/N. - Ej. 95 confianza de que p0.01, es necesario,
como mínimo, 300 pruebas sin error.
333.4 Los Datos Tamaño de la Prueba
- Solución 2 Regla del 30 (Doddington)
- Doddington,1998Porter,2000
- Mismas suposiciones anteriores.
- Establece para tener un 90 de confianza de que
la tasa de error verdadera está dentro del ?30
de la tasa de error observada, debe haber al
menos 30 errores. - Ej. Si tenemos 30 errores en 3000 pruebas
- ?
- Con un 90 de confianza el error estará entre
0.7 y 1.3
343.4 Los Datos Tamaño de la Prueba
- Problemas en las suposiciones anteriores
- Independencia estadística entre pruebas, no se
puede asegurar si - Cada muestra de prueba no pertenece a un
individuo distinto. - Se simulan operaciones de impostores mediante
comparaciones cruzadas completas. - Igual distribución de errores. La realidad
demuestra los siguientes comportamientos - Oveja comportamiento normal.
- Cabra personas difíciles de reconocer.
PFalsoRechazo alta. - Cordero personas fáciles de imitar.
PFalsaAceptación alta. - Lobo personas con facilidad para hacerse pasar
por otras. PFalsaAceptación alta.
353.4 Los Datos Tamaño de la Prueba
- Conclusión
- Reglas anteriores difícil aplicación práctica.
- Se usan como referencia.
- Recomendaciones Best Practices
- Número de voluntarios tan grande como se pueda
cuanto mayor sea menor será el intervalo de
confianza sobre la estimación del error medida. - Adquirir suficientes muestras por voluntario, tal
que el número de pruebas exceda el requerido por
la regla del 3 o del 30, la que sea adecuada. - Calcular la confianza sobre la medida del error
estimada.
36Índice Exposición
- Introducción.
- Planificando la Evaluación.
- Los Datos.
- Medida del Rendimiento.
- 4.1 Introducción.
- 4.2 Validación de la Muestra.
- 4.3 Clasificación de la Muestra.
- 4.4 El Algoritmo de Partición.
- 4.5 Decisión Final.
- 4.6 Productividad.
- Análisis Estadístico de los Resultados.
- Bibliografía.
374.1 Rendimiento Introducción
- Esquema de un sistema biométrico
Parámetro biométrico
384.2 Rendimiento Validación
- Errores.
- Tasa de Fallos en Inscripción (TFI) proporción
de voluntarios que no han sido inscritos en el
sistema. - Tasa de Fallos en Operación (TFO) proporción de
operaciones (tanto del cliente, como de
impostores) que no han podido ser completadas.
394.3 Rendimiento Clasificación
- Errores.
- Tasa de Falsos Positivos (TFP) (False Match Rate,
FMR) probabilidad esperada de que una muestra de
un usuario sea incorrectamente clasificada como
coincidente con el patrón de otro usuario. - Se estima proporción de muestras falsamente
asignadas a un cliente al que no pertenecen. - Tasa de Falsos Negativos (TFN) (False Non Match
Rate, FNMR) probabilidad esperada de que una
muestra de un usuario sea incorrectamente
clasificada como no coincidente con el patrón de
ese usuario. - Se estima proporción de muestras del cliente
falsamente rechazadas como no pertenecientes a él.
404.3 Rendimiento Clasificación
- Tasas de error centradas en el algoritmo.
- Independientes de la política de decisión final.
- Las normalmente usadas en la evaluación
tecnológica. - Cálculo aconsejable siempre.
- Resultados etapa clasificación distribución
típica. - Solapamiento ? imposible 100 aciertos.
- El rendimiento depende del umbral de decisión.
Impostores
Cliente
Resultado clasificador
414.3 Rendimiento Clasificación
- Representación gráfica del rendimiento
Características - Muestran los valores de la TFP y la TFN para
diversos umbrales de decisión (puntos de
funcionamiento). - Permiten una visualización global del
rendimiento. - Permiten una comparación objetiva ente sistemas.
424.3 Rendimiento Clasificación
- Representación gráfica del rendimiento Curvas
ROC. - (Receiver Operating Characteristics)
- Muestran la variación de la TFP (eje X), con
respecto a la tasa de verdaderos positivos
(1-TFN) en el eje Y, para distintos umbrales de
decisión. - El eje Y y la recta y100 pueden ser consideradas
las asíntotas de la curva cuanto más se acerque
ésta a ellas mejor es el rendimiento del sistema.
Tasa de Verdaderos Positivos ()
Tasa de Falsos Positivos ()
434.3 Rendimiento Clasificación
- Representación gráfica del rendimiento Curvas
DET. - (Detection Error Tradeoff) Martin et al., 1997
- Representa el número de desviaciones normales en
la distribución normal estandarizada (media 0 y
varianza 1) correspondiente a la TFP (eje X) y a
la TFN (eje Y). - La escala original se cambia por la
correspondiente probabilidad. - Representación casi lineal.
- Comparación más clara y fácil.
- Distancia entre curvas diferencia entre
rendimientos. - Cuanto más cercana a la recta, más se acerca la
distribución de resultados a la normal.
Tasa de Falsos Negativos ()
Tasa de Falsos Positivos ()
444.3 Rendimiento Clasificación
- El sistema en un número.
- Se resume el rendimiento del sistema en un solo
valor se escoge un punto de funcionamiento
característico. - Comparación más fácil que con las anteriores.
- Representación del rendimiento menos completa.
- Medidas más usadas
- Tasa de Equierror (TEE) (Equal Error Rate, EER)
punto donde se igualan la TFN y la TFP. - Medida muy popular.
- Coste de Detección (Detection Cost, Cdet)
- Cdet cfnTFNPcliente cfpTFp(1-Pcliente)
- cfn y cfp los costes de los errores
correspondientes. - Pcliente y (1-Pcliente) las prob. a priori de
cliente e impostor - Ej. NIST cfn10, cfp1 y Pcliente0.01.
454.3 Rendimiento Clasificación
- Dependencia con los errores de la etapa
anterior. - Cuanto mayor sea la exigencia con respecto a la
calidad de la muestra, mayor será la probabilidad
de fallos en operación, pero menor será la
probabilidad de errores en clasificación.
464.4 Rendimiento Algoritmo de Partición
- Medidas de eficacia.
- Rango de Penetración (RP) James y James,2000
proporción esperada de comparaciones a realizar
sobre cada muestra, con respecto al número total
de patrones, bajo la condición de comparación con
todos los patrones de la partición asignada. - Cálculo número medio de comparaciones por
muestra, dividido entre el número total de
patrones. - Cuanto menor sea RP, respuesta más rápida del
sistema. - Tasa de Error en la Asignación de la Partición
(TEAP) proporción de asignaciones erróneas.
474.4 Rendimiento Algoritmo de Partición
- Relación entre ambas medidas.
- Cuanto mayor sea el número de particiones, menor
será el RP, pero mayor será la TEAP, y a la
inversa. - RP/TEAPf(parámetros del algoritmo de partición).
- Representación de esa relación curvas ROC y DET,
por ej.
484.5 Rendimiento Decisión Final
- Errores.
- Tasa de Falsas Aceptaciones (TFA) proporción de
operaciones con identidad o no identidad
falsamente reclamada que son incorrectamente
confirmadas. - Error de tipo II.
- Identificación positiva y verificación identidad
falsamente asignada a un individuo. - Identificación negativa rechazo de un usuario
inscrito. - Tasa de Falsos Rechazos (TFR) proporción de
operaciones con identidad o no identidad
correctamente reclamada que son incorrectamente
rechazadas. - Error tipo I
- Identificación positiva y verificación cliente
rechazado. - Identificación negativa sí inscrito un usuario
no inscrito.
494.5 Rendimiento Decisión Final
- Relación con errores anteriores.
- TFP/TFN def. para comparaciones sobre cada
muestra -
- TFA/TFR definidas sobre operaciones
- Ej. verificación de usuario basada en 3 intentos
Falso Rechazo cada vez que tengamos 3 Falsos
Negativos. - TFA/TFR dependen de los anteriores.
- Ej. Decisión final basada en muestra única y
operaciones de impostores simuladas mediante
comparación cruzada completa con las muestras de
prueba de cada cliente. - TFA(1-TFO)RPTFP
- TFRTFO (1-TFO)TEAP (1-TFO)(1-TEAP)TFN
- Dependencia de TFA/TFR con el umbral se
representa igual que para TFP/TPN.
?
504.6 Rendimiento Productividad
- Medidas de la productividad del sistema.
- Procesamiento en tiempo real número medio de
inscripciones y número medio de operaciones por
unidad de tiempo. - Procesamiento posterior a la adquisición de la
muestra tiempo medio por cliente del algoritmo
de creación de patrones y tiempo medio por
operación del algoritmo de clasificación. - Medidas interesantes desde el punto de vista
práctico.
51Índice Exposición
- Introducción.
- Planificando la Evaluación.
- Los Datos.
- Medida del Rendimiento.
- Análisis Estadístico de los Resultados.
- 5.1 Introducción.
- 5.2 Sensibilidad Frente a Cambios.
- 5.3 Confianza en los Errores Estimados.
- Bibliografía.
525.1 Análisis Estadístico Introducción
- Tipos de errores en el cálculo del rendimiento
- Best Practices, 2002
- Aleatorios debidos a la variación natural de las
muestras, los voluntarios, etc. - Condiciona la confianza en el resultado obtenido.
- Sistemático debidos a sesgos en el procedimiento
de evaluación. - Ej. probar sólo bajo determinadas condiciones
ambientales, tipos de individuos sobre o
infrarrepresentados, etc. - Interesante estudiar como afecta al rendimiento
del sistema determinadas modificaciones en las
condiciones de prueba.
535.2 Análisis Estadístico Sensibilidad
- Sensibilidad frente a cambios (error
sistemático). - Objetivo establecer la significación
estadísticas de las diferencias en el rendimiento
observadas al modificar determinadas condiciones
de prueba. - Alternativa Mansfield et al.,2001 prueba ?2
- Evalúa la certeza sobre la hipótesis nula, H0 x
e y son independientes, con x e y los factores
bajo estudio. - Ej. xresultados para hombres, yres. para
mujeres
545.3 Análisis Estadístico Confianza
- Confianza en las estimaciones (error aleatorio).
- Única forma de calcular el error real p del
sistema sería probando sobre todo usuario y
condición de uso. - Imposible en la práctica se obtiene una
estimación p. - ?
- Problema deducir el comportamiento real del
sistema a partir del estimado. - Cuestiones importantes a resolver
- Prefijado un nivel de confianza sobre la medida
de error, encontrar el número mínimo de pruebas
que lo garantice. - Prefijado el tamaño de la población de prueba, y
las condiciones experimentales, encontrar el
intervalo de confianza sobre la estimación de
error obtenida.
555.3 Análisis Estadístico Confianza
- Aprox. gaussiana cálculo intervalo confianza.
- Para un número suficiente de pruebas, ni muy
grande, ni muy pequeño la distribución del error
observado se puede aproximar por una gaussiana. - Con un nivel de confianza del 100(1-?), se puede
afirmar que el error real p de nuestro sistema
estará dentro del intervalo de confianza - V(p) estimación de la varianza del error
observado. - (1-?/2) el área de la distribución normal entre
-? y z1-?/2. - Ej. 95 nivel de confianza z0.975 1.96
565.3 Análisis Estadístico Confianza
- Aprox. gaussiana condiciones cálculo anterior.
- Los voluntarios son representativos de la
población bajo estudio. - Intentos de distintos voluntarios son
independientes. - La tasa de error puede variar entre voluntarios.
- Se permite la existencia de lobos, ovejas,
cabras y corderos. - El número de errores observado no es muy pequeño.
575.3 Análisis Estadístico Confianza
- Aprox. gaussiana cálculo de V(p).
- Para TFN, n voluntarios, ai FN para voluntario i,
y con - 1 intento por voluntario
- Con
- m intentos por voluntario
- Con
- mi intentos por vol.
- Con
- Con
585.3 Análisis Estadístico Confianza
- Aprox. gaussiana cálculo de V(p).
- Para TFP, n voluntarios, bi FP para voluntario i,
y con - 1 intento por impostor
- Con
- Impostores simulados usando las muestras de
prueba de otros clientes, comparación cruzada
completa - m muestras por voluntario. bij muestras del
voluntario i FA como pertenecientes al cliente j
(bii 0).
595.3 Análisis Estadístico Confianza
- Técnica del Bootstrap conceptos generales
- Solución más general no presupone una forma en
la distribución de errores observados. - Descripción general
- Crear muestras boostrap mediante muestreo con
reemplazo del conjunto de prueba original. - Muestra bootstrap reproduce la estructura y
dependencias del conjunto de prueba original. - Obtener de manera empírica la distribución de
errores, mediante el cálculo de éstos para cada
una de las muestras bootstrap. - Calcular a partir de esa distribución el
intervalo de confianza.
605.3 Análisis Estadístico Confianza
- Técnica del Bootstrap ejemplo aplicación.
- Estimación de TFN, n voluntarios, m intentos de
cada uno - Creación de la muestra bootstrap
- Elegir aleatoriamente y con reemplazo n
voluntarios del conjunto original ?1, ?2, ...,
?n. - Elegir aleatoriamente y con reemplazo para cada
?i, m intentos de ese voluntario ti1, ti2, ...,
tim. - La muestra bootstrap es YX(?i,tij) / 1?i? n
1?j?m. - X(?i,tij) resultado del clasificador
perteneciente al cliente ?i sobre la muestra de
prueba tij. - Se genera un número grande de muestras bootstrap.
- Se calcula para cada una la TFN.
- Distribución obtenida aproximación a la real.
615.3 Análisis Estadístico Confianza
- Técnica del Bootstrap cálculo intervalo
confianza. - Cálculo del intervalo L,M dentro del cual
estará con un 100(1-?) de confianza, la tasa de
error real p - L error para el que la fracción de muestras
bootstrap con tasas de error menor que L sea ?/2. - M error para el que la fracción de muestras
bootstrap con tasas de error mayor que M sea ?/2. - Recomendaciones Best Practices 2002 1000
muestras bootstrap si se quiere un nivel de
confianza del 95 y 5000 si se quiere del 99.
62Índice Exposición
- Introducción.
- Planificando la Evaluación.
- Los Datos.
- Medida del Rendimiento.
- Análisis Estadístico de los Resultados.
- Bibliografía.
636. Bibliografía
- UK Biometrics Working Group, Use of Biometric for
Identification and Authentication Advice on
Product Selection. Issue 2.0, Marzo 2002,
http//www.cesg.gov.uk/site/ast/biometrics/media/B
iometricsAdvice.pdf - J.P Campbell, Speaker Recognition A tutorial,
Proceedings of the IEEE, vol. 85, no. 9, pp.
1437-1462, Septiembre 1997. - The Common Criteria Biometric Evaluation
Methodology Working Group, Biometric Evaluation
Methodology. Common Criteria for Information
Technology Security Evaluation. Biometric
Evaluation Methodology Supplement. Version 1.0,
Agosto 2002, http//www.cesg.gov.uk/site/ast/biome
trics/media/BEM_10.pdf. - Doddington, 1998 G. Doddington, Speaker
Recognition Evaluation Methodology. An Overview
and Perspective, Proc. de Speaker Recognition and
its Commercial and Forensic Applications (RLA2C),
pp. 60-66, Abril 1998. - G. Doddington, W. Ligget, A. Martin, M. Przybocki
y D. Reynolds, Sheep, Goats, Lambs and Wolves. A
Statistical Analysis of Speaker Performance in
the NIST 1998 Speaker Recognition Evaluation, en
Proc. of International Conference on Spoken
Language Processing, Artículo 608 del CD-ROM,
Noviembre 1998. - G. Doddington, M. Przybocki, M. Martin y D.
Reynolds, The NIST Speaker Recognition
Evaluation Overview Methodology, Systems,
Results, Perspective, Speech Communication, vol.
31, no. 2-3, pp. 225-254, 2000. - C. L. Frenzen, Convolution Methods for
Mathematical Problems in Biometrics, Naval
Postgraduate School Technical Report,
NPS-MA-99-001, Enero 1999. - C. L. Frenzen, Convolution Methods for
Mathematical Problems in Biometrics, National
Biometric Test Center Collected Works 1997-2000,
pp. 45-49, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.
646. Bibliografía
- The International Biometric Group, Comparative
Biometric Testing. Official Test Plan 2.12, 2003.
Disponible en http//www.ibgweb.com. - James y James, 2000 Kang James y Barry James,
The Penetration Rate in Automatic Fingerprint
Identification Systems, National Biometric Test
Center Collected Works 1997-2000, pp. 173-174,
Agosto 2000, Documento online http//www.engr.sjsu
.edu/biometrics/nbtccw.pdf. - Jovanic y Levy, 1997 B.D. Jovanovic y P.S.
Levy, A Look at the Rule of Three, The American
Statisticiam, vol. 51, no. 2, pp. 137-139, 1997. - Dario Maio, Davide Maltoni, Raffaele Cappeli, J.
L. Wayman y Anil K. Jain, FVC2000 Fingerprint
Verification Competition, IEEE Trans. On Pattern
Analysis and Machine Intelligence, vol. 24, No.
3, pp. 402-412, Marzo 2002. - Best Practices, 2002 A.J. Mansfield y J.L.
Wayman, Best Pratices in Testing and Reporting
Performance of Biometric Devices. Version 2.01,
Agosto 2002, Documento online http//www.cesg.gov.
uk/site/ast/biometrics/media/BestPractice.pdf. - T. Mansfield, G. Kelly, D. Chandler y J. Kane,
Biometric Product Testing Final Report, National
Physical Laboratory, UK, CESG contract
X92A/4009309, Marzo 2001, http//www.cesg.gov.uk/s
ite/ast/biometrics/media/BiometricTestReportpt1.pd
f . - Martin et al., 1997 A. Martin, G. Doddington,
T. Kamm, M. Ordowski y M. Przybocki, The DET
Curve in Assessment of Detection Task
Performance, Proc. Eurospeech, vol. 4, pp.
1895-1898, Septiembre 1997. - P. Jonathon Phillips, Alvin Martin, C. L. Wilson
y Mark Przybocki, An Introduction to Evaluation
Biometric Systems, IEEE Computer, pp. 56-63,
Febrero 2000. - P. Jonathon Phillips, Patrick Grother, Ross J.
Micheals, Duane M. Blackburn, Elham Tabassi y
Mike Bone, Face Recognition Vendor Test 2002
Evaluation Report, Marzo 2003, Disponible en
http//www.frvt.org/FRVT2002/documents.htm
656. Bibliografía
- Porter, 2000 Jack E. Porter, On the 30 Error
Criterion, National Biometric Test Center
Collected Works 1997-2000, pp. 51-56, Agosto
2000, Documento online http//www.engr.sjsu.edu/bi
ometrics/nbtccw.pdf. - Douglas A. Reynolds, Speaker Identification and
Verification using Gaussian Mixture Speakers
Models, Speech Communications, vol. 17, nos. 1-2,
pp. 91-108, Agosto 1995. - K.R. Sharp, Whose Face Is It Anyway?, idSYSTEMS,
vol. 20, no. 4, Abril 2000. Disponible en
www.scs-mag.com/reader/2000_04/whose0400. - Weicheng Shen, Marc Surette y Rajiv Khanna,
Evaluation of Automated Biometrics-Based
Identification and Verification Systems.
Proceedings of the IEEE, vol. 85, no. 9, pp.
1464-1478, Septiembre 1997. - J.L. Wayman, Biometric Technology Testing,
Evaluation, Results. Disponible en
http//www.engr.sjsu.edu/biometrics/publications.h
tml. - J. L. Wayman, Confidence Interval and Test Size
Estimation for Biometric Data, Proc. Automatic
Identification Advanced Technologies (AutoID),
Summit, NJ (USA), 1999. Y en National Biometric
Test Center Collected Works 1997-2000, pp.
91-102, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf - J. L. Wayman, Error Rate Equations for the
General Biometric System, IEEE Robotics and
Automation Magazine, vol. 6, no. 9, pp. 35-48,
Enero 1999. Y en National Biometric Test Center
Collected Works 1997-2000, pp. 103-128, Agosto
2000, Documento online http//www.engr.sjsu.edu/bi
ometrics/nbtccw.pdf. - J. L. Wayman, Degrees of Freedom as Related to
Biometric Device Performance. National Biometric
Test Center Collected Works 1997-2000, pp.
201-208, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.
666. Otra Bibliografía
- J. L. Wayman, Technical Testing and Evaluation of
Biometric Identification Devices, en Biometrics
Personal Identification in a Networked Society,
Editado por A. Jain, R. Bolle y S. Pankanti,
Kluwer Academic Press, Boston, 1999. Y en
National Biometric Test Center Collected Works
1997-2000, pp. 67-90, Agosto 2000, Documento
online http//www.engr.sjsu.edu/biometrics/nbtccw.
pdf. - J. L. Wayman, A. Jain, D. Maltoni y D. Maio,
Biometric Systems Technology, Design and
Performance Evaluation, Springer Verlag, 2003.