Evaluaci

About This Presentation

Title:

Evaluaci

Description:

Title: Sin t tulo de diapositiva Author: Departamento de Inform tica Last modified by: Quiliano Isaac Moro Sancho Created Date: 1/16/2004 9:40:09 AM – PowerPoint PPT presentation

Number of Views:57

Avg rating:3.0/5.0

Slides: 67

Provided by: Departame138

Category:

more less

Transcript and Presenter's Notes

Title: Evaluaci

1
Rendimiento y Evaluación de Dispositivos
Biométricos
Dr. Carlos Enrique Vivaracho Pascual
2
Índice Exposición

Introducción.
Planificando la Evaluación.
3. Los Datos.
4. Medida del Rendimiento.
Análisis Estadístico de los Resultados.
Bibliografía.

3
1. Introducción

Evaluar
Estimar aptitudes y rendimiento de los sistemas
?Sharp
Prestar igual atención a todos los aspectos,
desde la adquisición de los datos, a la
integración del sistema

4
1. Introducción

Aspectos a analizar en la evaluación
Rendimiento.
Seguridad, integridad y confidencialidad de los
datos.
Fiabilidad, disponibilidad y mantenimiento de la
aplicación informática.
Aceptación y/o facilidad de manejo.
Comercialización del producto.
Cuestiones legales.

5
1. Introducción

Objetivos
Comparar tecnologías.
Ver si es factible su realización práctica.
Analizar el cumplimiento de requisitos.
...
Importante objetiva.
Realizada por instituciones independientes.
Evaluaciones estándar.
Seguimiento de prácticas y criterio comunes.

6
1. Introducción

Evaluaciones estándar
Comercial
International Biometric Group (IBG).
International Biometric Industry Association
(IBIA).
No comercial
National Institute of Standars and Technology
(NIST).
Voz.
Caras, Face Recognition Vendor Test (FRVT) FERET
Fingerprint Verification Competition (FVC).
Audio and Video-Based Biometric Person
Authentification (AVBPA) face constest XM2VTS

7
1. Introducción

Criterios comunes.
En elaboración
ISO
JCT1/SC5 (Biometrics) / WG5 (Biometic Testing and
Reporting).
Documentos
Common Criteria
Common Evaluation Methodology, Biometric
Evaluation Methodology Supplement (V1.0, 2002).
Biometric Working Group
Best Practices in Testing and Reporting
Performance of Biometric Devices (V2.01, 2002).

8
Índice Exposición

Introducción.
Planificando la Evaluación.
2.1 Introducción.
2.2 Aspectos a Definir.
Los Datos.
Medida del Rendimiento.
Análisis Estadístico.
Bibliografía.

9
2.1 Planificando Introducción

Definición de aspectos que condicionan
Ámbito de aplicación.
Alcance.
La adquisición de los datos.
Alcance de los rendimientos obtenidos.

10
2.1 Planificando Introducción

Decisiones condicionadas por
El sistema.
Ej. Tiene o no dispositivos de almacenamiento.
El entorno de aplicación.
Ej. Voz vía teléfono - vía micrófono.
El fabricante del dispositivo.
Ej. Proporciona o no SDK.
El ámbito del estudio.
Ej. Tecnológico, de escenario u operacional.
Aspectos cuya influencia se quiere analizar.
Ej. Ruido de fondo, condiciones de iluminación,
...

11
2.1 Planificando Introducción

Definiciones
Muestra rasgo biométrico capturado.
Ej. Imagen huella dactilar o de la cara.
Patrón referencia almacenada del usuario
Muestras de entrenamiento.
Parámetros del clasificador.
Inscripción proceso de añadir nuevos usuarios
Operación intento por parte del usuario de
validación o identificación de su identidad.
Se pueden usar una o más muestras.

12
2.2 Planificando Aspectos a Definir

1. Clasificación de la muestra (I) Online
la inscripción o la clasificación se realiza en
el momento de la captura
No es necesario almacenar los datos.
Se aconseja permite su tratamiento posterior.
Si no es posible medidas más completas si se
toman decisiones con distintos niveles de
seguridad.

13
2.2 Planificando Aspectos a Definir

1. Clasificación de la muestra (II) Offline
la inscripción o la clasificación se realiza con
muestras previamente grabadas
Mayor control y versatilidad en las pruebas.
Coste pequeño al modificar la evaluación.
Problema definir la adquisición. El número y
características de los datos tomados condiciona
Las pruebas a realizar.
La fiabilidad de los resultados medidos.
El alcance del rendimiento observado.

14
2.2 Planificando Aspectos a Definir

2. Tipo de evaluación (I) Tecnológica
El objetivo es medir el estado de la tecnología,
determinar el progreso que ésta ha logrado e
identificar lo enfoques más prometedores
Más general.
Offline completamente repetible.
Tarea a abordar ni muy fácil, ni muy difícil.
Sólo así habrá separación entre sistemas.
Bases de datos no vistas de antemano.
Evaluaciones estándar FVC, NIST (voz, caras).
Bases de datos usadas estándares de hecho.
A tener en cuenta sesgos debido a los sensores

15
2.2 Planificando Aspectos a Definir

2. Tipo de evaluación (II) De Escenario
El objetivo es determinar si la tecnología está
suficientemente madura como para cumplir los
requisitos de una determinada aplicación
Medida del rendimiento en escenario prototipo.
Modela un determinado campo de aplicación.
Se extiende a todo el sistema.
No sólo clasificación, también etapa de captura.
Sensores captura distintos ? muestras distintas
Aconsejable probar combinaciones sensores -
algoritmos reconocimiento.
Ej. coordina NPL, patrocina CESG (UK).

16
2.2 Planificando Aspectos a Definir

2. Tipo de evaluación (II) Operacional
El objetivo es analizar si un sistema biométrico
concreto, cumplo los requisitos de una
determinada aplicación concreta
Similar a la de escenario, pero para un sistema
concreto y en un entorno de uso real.
Puede ser online u offline.

17
2.2 Planificando Aspectos a Definir

3. Tarea a abordar (I) Verificación
Se trata de autentificar la identidad reclamada
por el usuario
Comparación muestra/s - patrón usuario.
Respuesta identidad reclamada/rechazada.
Ej. de uso acceso a servicio de uso personal
(ordenador, cuenta bancaria, etc.)

18
2.2 Planificando Aspectos a Definir

3. Tarea a abordar (II) Identificación
Positiva Se trata de comprobar que un usuario
que reclama estar inscrito, lo está
Ej. uso control de acceso a lugares
restringidos.
Negativa Se trata de comprobar que un usuario
que reclama no estar inscrito, no lo está
Ej. uso evitar dobles inscripciones en
servicios, ej. desempleo.
Comparación muestra - patrones todos usuarios
O pertenecientes a una determinada partición.
Reclamación identidad
Implícita, sin dar identidad.
Explícita, proporcionando la identidad.

19
2.2 Planificando Aspectos a Definir

4. Factores que afectan al rendimiento Análisis
Buscando
Cuáles son poco relevantes control no importante
Cuáles afectan a la medida del rendimiento
Se Fijan de antemano sus valores.
Se diseñan las pruebas de modo que se pueda medir
su influencia en el sistema.
Prever potenciales problemas anticipar
controles.
Identificar casos excepcionales que puedan ser
interesantes a considerar en las pruebas.

20
2.2 Planificando Aspectos a Definir

4. Factores que afectan al rendimiento Tipos
Inherentes a la tecnología o al dispositivo
Ajenos al dispositivo. Destacar
Tiempo transcurrido entre inscripción-prueba.
Composición de la población bajo estudio.

Parámetro biométrico
Factor ambiental
21
2.2 Planificando Aspectos a Definir

5. Políticas de inscripción/operación.
A tener en cuenta en inscripción
Número de muestras usadas para crear el patrón.
Número y separación entre sesiones.
Permitir o no actualizar el patrón con muestras
rechazadas.
Si se permite validación del patrón los
resultados no se deben incluir en la prueba.
A tener en cuenta en operación
Número de muestras usadas para la decisión.
A tener en cuenta en ambas
Controlar o no la calidad de la muestra adquirida.

22
Índice Exposición

Introducción.
Planificando la Evaluación.
Los Datos.
3.1 Introducción.
3.2 Datos del Cliente.
3.3 Datos de Impostores.
3.3.1 Impostores Genuinos.
3.3.2 Impostores Simulados.
3.4 El tamaño de la Prueba.
Medida del Rendimiento.
Análisis Estadístico de los Resultados.
Bibliografía.

23
3.1 Los Datos Introducción

Idealmente habría que realizar pruebas sobre
todo posible usuario.
Imposible en la práctica.
?
Pruebas a realizar sobre un subconjunto.
Alcance de la evaluación.
Confianza en las medidas del rendimiento.

Composición y datos adquiridos condicionan
24
3.1 Los Datos Introducción

Consideraciones generales
No es aconsejable el uso de muestras creadas
artificialmente, tanto en lo que se refiere a la
muestra, como a las condiciones de adquisición.
Resultados no extrapolables a la realidad.
Cuidado con errores como dobles inscripciones,
inconsistencias muestras-individuo o muestras
incorrectas.
Es conveniente automatizar la adquisición.
Se evita la subjetividad del operador humano.
Datos más libres de errores.
Adquisición más cercana a la real.

25
3.1 Los Datos Introducción

Elementos importantes a tener en cuenta
Entorno de la adquisición.
Iluminación, ruido de fondo, tipo de sensor, ...
Composición de la población.

Evaluación tecnológica
Suficientemente genéricos y representativos para
permitir comparaciones objetivas.

Evaluación de escenario y operacional
Representativos de la aplicación a estudio.
Casos especiales correctamente representados.
Evitar sesgos en los resultados.

26
3.1 Los Datos Introducción

Definiciones
Intento auténtico la muestra a clasificar
pertenece al propietario del patrón con el que
compara.
Intento impostor la muestra a clasificar no
pertenece al propietario del patrón con el que
compara.
Cliente usuario inscrito.
Impostor usuario que se hace pasar por cliente.
Activo trata de imitar al cliente.
Pasivo no trata de imitar al cliente.

27
3.2 Los Datos Cliente

Problema envejecimiento del patrón.
El rendimiento del sistema decrece cuanto mayor
es el tiempo transcurrido entre la inscripción y
la operación
Hay que realizar pruebas con datos adquiridos con
una separación suficiente en el tiempo.
Suficiente
Imposible de obtener de forma exacta.
Aproximación tiempo necesario para que sane esa
parte del cuerpo.
Si está definido recoger muestras con la misma
frecuencia que en el uso real del sistema.

28
3.3 Los Datos Impostores

Formas de operar
Impostores genuinos datos provenientes de
usuarios diferentes a los clientes, y adquiridas
ex profeso para ese fin.
Impostores simulados se usan muestras de otros
clientes.

29
3.3.1 Los Datos Impostores Genuinos

Forma más realista de evaluar el sistema.
Mayor control sobre la definición de operaciones.
No siempre posible en la realidad.
Recomendable adquirir un número alto de datos, y
elegir aleatoriamente las pruebas por cliente.
Diferente modo de adquisición pasivos/activos.
Condiciones de adquisición las mismas que las de
los clientes.
No es aconsejable usar bases de datos distintas.
No usar muestras usadas para crear el
clasificador.

30
3.3.2 Los Datos Impostores Simulados

Formas de operar
Selección aleatoria de un subconjunto por
cliente.
Realizar comparaciones cruzadas completas.
Usando muestras entrenamiento y/o prueba.
Problema pruebas de impostores activos.

31
3.4 Los Datos Tamaño de la Prueba

Consideraciones generales
Definido por número de voluntario e intentos.
Fija la confianza en la estimación del error
medida.
Problema tamaño mínimo que asegure un nivel
prefijado de confianza

32
3.4 Los Datos Tamaño de la Prueba

Solución 1 Regla del 3
Mansfield y Wayman, 2002Jovanic y Levy, 1997
Suposiciones
Pruebas estadísticamente independientes.
Probabilidad de error p igual en todas ellas.
Distribución de errores observados binomial
Establece la probabilidad de error p mínima que
permite asegurar con una confianza del 95 que en
N ensayos se pueden tener 0 errores es 3/N.
Ej. 95 confianza de que p0.01, es necesario,
como mínimo, 300 pruebas sin error.

33
3.4 Los Datos Tamaño de la Prueba

Solución 2 Regla del 30 (Doddington)
Doddington,1998Porter,2000
Mismas suposiciones anteriores.
Establece para tener un 90 de confianza de que
la tasa de error verdadera está dentro del ?30
de la tasa de error observada, debe haber al
menos 30 errores.
Ej. Si tenemos 30 errores en 3000 pruebas
?
Con un 90 de confianza el error estará entre
0.7 y 1.3

34
3.4 Los Datos Tamaño de la Prueba

Problemas en las suposiciones anteriores
Independencia estadística entre pruebas, no se
puede asegurar si
Cada muestra de prueba no pertenece a un
individuo distinto.
Se simulan operaciones de impostores mediante
comparaciones cruzadas completas.
Igual distribución de errores. La realidad
demuestra los siguientes comportamientos
Oveja comportamiento normal.
Cabra personas difíciles de reconocer.
PFalsoRechazo alta.
Cordero personas fáciles de imitar.
PFalsaAceptación alta.
Lobo personas con facilidad para hacerse pasar
por otras. PFalsaAceptación alta.

35
3.4 Los Datos Tamaño de la Prueba

Conclusión
Reglas anteriores difícil aplicación práctica.
Se usan como referencia.
Recomendaciones Best Practices
Número de voluntarios tan grande como se pueda
cuanto mayor sea menor será el intervalo de
confianza sobre la estimación del error medida.
Adquirir suficientes muestras por voluntario, tal
que el número de pruebas exceda el requerido por
la regla del 3 o del 30, la que sea adecuada.
Calcular la confianza sobre la medida del error
estimada.

36
Índice Exposición

Introducción.
Planificando la Evaluación.
Los Datos.
Medida del Rendimiento.
4.1 Introducción.
4.2 Validación de la Muestra.
4.3 Clasificación de la Muestra.
4.4 El Algoritmo de Partición.
4.5 Decisión Final.
4.6 Productividad.
Análisis Estadístico de los Resultados.
Bibliografía.

37
4.1 Rendimiento Introducción

Esquema de un sistema biométrico

Parámetro biométrico
38
4.2 Rendimiento Validación

Errores.
Tasa de Fallos en Inscripción (TFI) proporción
de voluntarios que no han sido inscritos en el
sistema.
Tasa de Fallos en Operación (TFO) proporción de
operaciones (tanto del cliente, como de
impostores) que no han podido ser completadas.

39
4.3 Rendimiento Clasificación

Errores.
Tasa de Falsos Positivos (TFP) (False Match Rate,
FMR) probabilidad esperada de que una muestra de
un usuario sea incorrectamente clasificada como
coincidente con el patrón de otro usuario.
Se estima proporción de muestras falsamente
asignadas a un cliente al que no pertenecen.
Tasa de Falsos Negativos (TFN) (False Non Match
Rate, FNMR) probabilidad esperada de que una
muestra de un usuario sea incorrectamente
clasificada como no coincidente con el patrón de
ese usuario.
Se estima proporción de muestras del cliente
falsamente rechazadas como no pertenecientes a él.

40
4.3 Rendimiento Clasificación

Tasas de error centradas en el algoritmo.
Independientes de la política de decisión final.
Las normalmente usadas en la evaluación
tecnológica.
Cálculo aconsejable siempre.
Resultados etapa clasificación distribución
típica.
Solapamiento ? imposible 100 aciertos.
El rendimiento depende del umbral de decisión.

Impostores
Cliente
Resultado clasificador
41
4.3 Rendimiento Clasificación

Representación gráfica del rendimiento
Características
Muestran los valores de la TFP y la TFN para
diversos umbrales de decisión (puntos de
funcionamiento).
Permiten una visualización global del
rendimiento.
Permiten una comparación objetiva ente sistemas.

42
4.3 Rendimiento Clasificación

Representación gráfica del rendimiento Curvas
ROC.
(Receiver Operating Characteristics)
Muestran la variación de la TFP (eje X), con
respecto a la tasa de verdaderos positivos
(1-TFN) en el eje Y, para distintos umbrales de
decisión.
El eje Y y la recta y100 pueden ser consideradas
las asíntotas de la curva cuanto más se acerque
ésta a ellas mejor es el rendimiento del sistema.

Tasa de Verdaderos Positivos ()
Tasa de Falsos Positivos ()
43
4.3 Rendimiento Clasificación

Representación gráfica del rendimiento Curvas
DET.
(Detection Error Tradeoff) Martin et al., 1997
Representa el número de desviaciones normales en
la distribución normal estandarizada (media 0 y
varianza 1) correspondiente a la TFP (eje X) y a
la TFN (eje Y).
La escala original se cambia por la
correspondiente probabilidad.
Representación casi lineal.
Comparación más clara y fácil.
Distancia entre curvas diferencia entre
rendimientos.
Cuanto más cercana a la recta, más se acerca la
distribución de resultados a la normal.

Tasa de Falsos Negativos ()
Tasa de Falsos Positivos ()
44
4.3 Rendimiento Clasificación

El sistema en un número.
Se resume el rendimiento del sistema en un solo
valor se escoge un punto de funcionamiento
característico.
Comparación más fácil que con las anteriores.
Representación del rendimiento menos completa.
Medidas más usadas
Tasa de Equierror (TEE) (Equal Error Rate, EER)
punto donde se igualan la TFN y la TFP.
Medida muy popular.
Coste de Detección (Detection Cost, Cdet)
Cdet cfnTFNPcliente cfpTFp(1-Pcliente)
cfn y cfp los costes de los errores
correspondientes.
Pcliente y (1-Pcliente) las prob. a priori de
cliente e impostor
Ej. NIST cfn10, cfp1 y Pcliente0.01.

45
4.3 Rendimiento Clasificación

Dependencia con los errores de la etapa
anterior.
Cuanto mayor sea la exigencia con respecto a la
calidad de la muestra, mayor será la probabilidad
de fallos en operación, pero menor será la
probabilidad de errores en clasificación.

46
4.4 Rendimiento Algoritmo de Partición

Medidas de eficacia.
Rango de Penetración (RP) James y James,2000
proporción esperada de comparaciones a realizar
sobre cada muestra, con respecto al número total
de patrones, bajo la condición de comparación con
todos los patrones de la partición asignada.
Cálculo número medio de comparaciones por
muestra, dividido entre el número total de
patrones.
Cuanto menor sea RP, respuesta más rápida del
sistema.
Tasa de Error en la Asignación de la Partición
(TEAP) proporción de asignaciones erróneas.

47
4.4 Rendimiento Algoritmo de Partición

Relación entre ambas medidas.
Cuanto mayor sea el número de particiones, menor
será el RP, pero mayor será la TEAP, y a la
inversa.
RP/TEAPf(parámetros del algoritmo de partición).
Representación de esa relación curvas ROC y DET,
por ej.

48
4.5 Rendimiento Decisión Final

Errores.
Tasa de Falsas Aceptaciones (TFA) proporción de
operaciones con identidad o no identidad
falsamente reclamada que son incorrectamente
confirmadas.
Error de tipo II.
Identificación positiva y verificación identidad
falsamente asignada a un individuo.
Identificación negativa rechazo de un usuario
inscrito.
Tasa de Falsos Rechazos (TFR) proporción de
operaciones con identidad o no identidad
correctamente reclamada que son incorrectamente
rechazadas.
Error tipo I
Identificación positiva y verificación cliente
rechazado.
Identificación negativa sí inscrito un usuario
no inscrito.

49
4.5 Rendimiento Decisión Final

Relación con errores anteriores.
TFP/TFN def. para comparaciones sobre cada
muestra
TFA/TFR definidas sobre operaciones
Ej. verificación de usuario basada en 3 intentos
Falso Rechazo cada vez que tengamos 3 Falsos
Negativos.
TFA/TFR dependen de los anteriores.
Ej. Decisión final basada en muestra única y
operaciones de impostores simuladas mediante
comparación cruzada completa con las muestras de
prueba de cada cliente.
TFA(1-TFO)RPTFP
TFRTFO (1-TFO)TEAP (1-TFO)(1-TEAP)TFN
Dependencia de TFA/TFR con el umbral se
representa igual que para TFP/TPN.

?
50
4.6 Rendimiento Productividad

Medidas de la productividad del sistema.
Procesamiento en tiempo real número medio de
inscripciones y número medio de operaciones por
unidad de tiempo.
Procesamiento posterior a la adquisición de la
muestra tiempo medio por cliente del algoritmo
de creación de patrones y tiempo medio por
operación del algoritmo de clasificación.
Medidas interesantes desde el punto de vista
práctico.

51
Índice Exposición

Introducción.
Planificando la Evaluación.
Los Datos.
Medida del Rendimiento.
Análisis Estadístico de los Resultados.
5.1 Introducción.
5.2 Sensibilidad Frente a Cambios.
5.3 Confianza en los Errores Estimados.
Bibliografía.

52
5.1 Análisis Estadístico Introducción

Tipos de errores en el cálculo del rendimiento
Best Practices, 2002
Aleatorios debidos a la variación natural de las
muestras, los voluntarios, etc.
Condiciona la confianza en el resultado obtenido.
Sistemático debidos a sesgos en el procedimiento
de evaluación.
Ej. probar sólo bajo determinadas condiciones
ambientales, tipos de individuos sobre o
infrarrepresentados, etc.
Interesante estudiar como afecta al rendimiento
del sistema determinadas modificaciones en las
condiciones de prueba.

53
5.2 Análisis Estadístico Sensibilidad

Sensibilidad frente a cambios (error
sistemático).
Objetivo establecer la significación
estadísticas de las diferencias en el rendimiento
observadas al modificar determinadas condiciones
de prueba.
Alternativa Mansfield et al.,2001 prueba ?2
Evalúa la certeza sobre la hipótesis nula, H0 x
e y son independientes, con x e y los factores
bajo estudio.
Ej. xresultados para hombres, yres. para
mujeres

54
5.3 Análisis Estadístico Confianza

Confianza en las estimaciones (error aleatorio).
Única forma de calcular el error real p del
sistema sería probando sobre todo usuario y
condición de uso.
Imposible en la práctica se obtiene una
estimación p.
?
Problema deducir el comportamiento real del
sistema a partir del estimado.
Cuestiones importantes a resolver
Prefijado un nivel de confianza sobre la medida
de error, encontrar el número mínimo de pruebas
que lo garantice.
Prefijado el tamaño de la población de prueba, y
las condiciones experimentales, encontrar el
intervalo de confianza sobre la estimación de
error obtenida.

55
5.3 Análisis Estadístico Confianza

Aprox. gaussiana cálculo intervalo confianza.
Para un número suficiente de pruebas, ni muy
grande, ni muy pequeño la distribución del error
observado se puede aproximar por una gaussiana.
Con un nivel de confianza del 100(1-?), se puede
afirmar que el error real p de nuestro sistema
estará dentro del intervalo de confianza
V(p) estimación de la varianza del error
observado.
(1-?/2) el área de la distribución normal entre
-? y z1-?/2.
Ej. 95 nivel de confianza z0.975 1.96

56
5.3 Análisis Estadístico Confianza

Aprox. gaussiana condiciones cálculo anterior.
Los voluntarios son representativos de la
población bajo estudio.
Intentos de distintos voluntarios son
independientes.
La tasa de error puede variar entre voluntarios.
Se permite la existencia de lobos, ovejas,
cabras y corderos.
El número de errores observado no es muy pequeño.

57
5.3 Análisis Estadístico Confianza

Aprox. gaussiana cálculo de V(p).
Para TFN, n voluntarios, ai FN para voluntario i,
y con
1 intento por voluntario
Con
m intentos por voluntario
Con
mi intentos por vol.
Con
Con

58
5.3 Análisis Estadístico Confianza

Aprox. gaussiana cálculo de V(p).
Para TFP, n voluntarios, bi FP para voluntario i,
y con
1 intento por impostor
Con
Impostores simulados usando las muestras de
prueba de otros clientes, comparación cruzada
completa
m muestras por voluntario. bij muestras del
voluntario i FA como pertenecientes al cliente j
(bii 0).

59
5.3 Análisis Estadístico Confianza

Técnica del Bootstrap conceptos generales
Solución más general no presupone una forma en
la distribución de errores observados.
Descripción general
Crear muestras boostrap mediante muestreo con
reemplazo del conjunto de prueba original.
Muestra bootstrap reproduce la estructura y
dependencias del conjunto de prueba original.
Obtener de manera empírica la distribución de
errores, mediante el cálculo de éstos para cada
una de las muestras bootstrap.
Calcular a partir de esa distribución el
intervalo de confianza.

60
5.3 Análisis Estadístico Confianza

Técnica del Bootstrap ejemplo aplicación.
Estimación de TFN, n voluntarios, m intentos de
cada uno
Creación de la muestra bootstrap
Elegir aleatoriamente y con reemplazo n
voluntarios del conjunto original ?1, ?2, ...,
?n.
Elegir aleatoriamente y con reemplazo para cada
?i, m intentos de ese voluntario ti1, ti2, ...,
tim.
La muestra bootstrap es YX(?i,tij) / 1?i? n
1?j?m.
X(?i,tij) resultado del clasificador
perteneciente al cliente ?i sobre la muestra de
prueba tij.
Se genera un número grande de muestras bootstrap.
Se calcula para cada una la TFN.
Distribución obtenida aproximación a la real.

61
5.3 Análisis Estadístico Confianza

Técnica del Bootstrap cálculo intervalo
confianza.
Cálculo del intervalo L,M dentro del cual
estará con un 100(1-?) de confianza, la tasa de
error real p
L error para el que la fracción de muestras
bootstrap con tasas de error menor que L sea ?/2.
M error para el que la fracción de muestras
bootstrap con tasas de error mayor que M sea ?/2.
Recomendaciones Best Practices 2002 1000
muestras bootstrap si se quiere un nivel de
confianza del 95 y 5000 si se quiere del 99.

62
Índice Exposición

Introducción.
Planificando la Evaluación.
Los Datos.
Medida del Rendimiento.
Análisis Estadístico de los Resultados.
Bibliografía.

63
6. Bibliografía

UK Biometrics Working Group, Use of Biometric for
Identification and Authentication Advice on
Product Selection. Issue 2.0, Marzo 2002,
http//www.cesg.gov.uk/site/ast/biometrics/media/B
iometricsAdvice.pdf
J.P Campbell, Speaker Recognition A tutorial,
Proceedings of the IEEE, vol. 85, no. 9, pp.
1437-1462, Septiembre 1997.
The Common Criteria Biometric Evaluation
Methodology Working Group, Biometric Evaluation
Methodology. Common Criteria for Information
Technology Security Evaluation. Biometric
Evaluation Methodology Supplement. Version 1.0,
Agosto 2002, http//www.cesg.gov.uk/site/ast/biome
trics/media/BEM_10.pdf.
Doddington, 1998 G. Doddington, Speaker
Recognition Evaluation Methodology. An Overview
and Perspective, Proc. de Speaker Recognition and
its Commercial and Forensic Applications (RLA2C),
pp. 60-66, Abril 1998.
G. Doddington, W. Ligget, A. Martin, M. Przybocki
y D. Reynolds, Sheep, Goats, Lambs and Wolves. A
Statistical Analysis of Speaker Performance in
the NIST 1998 Speaker Recognition Evaluation, en
Proc. of International Conference on Spoken
Language Processing, Artículo 608 del CD-ROM,
Noviembre 1998.
G. Doddington, M. Przybocki, M. Martin y D.
Reynolds, The NIST Speaker Recognition
Evaluation Overview Methodology, Systems,
Results, Perspective, Speech Communication, vol.
31, no. 2-3, pp. 225-254, 2000.
C. L. Frenzen, Convolution Methods for
Mathematical Problems in Biometrics, Naval
Postgraduate School Technical Report,
NPS-MA-99-001, Enero 1999.
C. L. Frenzen, Convolution Methods for
Mathematical Problems in Biometrics, National
Biometric Test Center Collected Works 1997-2000,
pp. 45-49, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.

64
6. Bibliografía

The International Biometric Group, Comparative
Biometric Testing. Official Test Plan 2.12, 2003.
Disponible en http//www.ibgweb.com.
James y James, 2000 Kang James y Barry James,
The Penetration Rate in Automatic Fingerprint
Identification Systems, National Biometric Test
Center Collected Works 1997-2000, pp. 173-174,
Agosto 2000, Documento online http//www.engr.sjsu
.edu/biometrics/nbtccw.pdf.
Jovanic y Levy, 1997 B.D. Jovanovic y P.S.
Levy, A Look at the Rule of Three, The American
Statisticiam, vol. 51, no. 2, pp. 137-139, 1997.
Dario Maio, Davide Maltoni, Raffaele Cappeli, J.
L. Wayman y Anil K. Jain, FVC2000 Fingerprint
Verification Competition, IEEE Trans. On Pattern
Analysis and Machine Intelligence, vol. 24, No.
3, pp. 402-412, Marzo 2002.
Best Practices, 2002 A.J. Mansfield y J.L.
Wayman, Best Pratices in Testing and Reporting
Performance of Biometric Devices. Version 2.01,
Agosto 2002, Documento online http//www.cesg.gov.
uk/site/ast/biometrics/media/BestPractice.pdf.
T. Mansfield, G. Kelly, D. Chandler y J. Kane,
Biometric Product Testing Final Report, National
Physical Laboratory, UK, CESG contract
X92A/4009309, Marzo 2001, http//www.cesg.gov.uk/s
ite/ast/biometrics/media/BiometricTestReportpt1.pd
f .
Martin et al., 1997 A. Martin, G. Doddington,
T. Kamm, M. Ordowski y M. Przybocki, The DET
Curve in Assessment of Detection Task
Performance, Proc. Eurospeech, vol. 4, pp.
1895-1898, Septiembre 1997.
P. Jonathon Phillips, Alvin Martin, C. L. Wilson
y Mark Przybocki, An Introduction to Evaluation
Biometric Systems, IEEE Computer, pp. 56-63,
Febrero 2000.
P. Jonathon Phillips, Patrick Grother, Ross J.
Micheals, Duane M. Blackburn, Elham Tabassi y
Mike Bone, Face Recognition Vendor Test 2002
Evaluation Report, Marzo 2003, Disponible en
http//www.frvt.org/FRVT2002/documents.htm

65
6. Bibliografía

Porter, 2000 Jack E. Porter, On the 30 Error
Criterion, National Biometric Test Center
Collected Works 1997-2000, pp. 51-56, Agosto
2000, Documento online http//www.engr.sjsu.edu/bi
ometrics/nbtccw.pdf.
Douglas A. Reynolds, Speaker Identification and
Verification using Gaussian Mixture Speakers
Models, Speech Communications, vol. 17, nos. 1-2,
pp. 91-108, Agosto 1995.
K.R. Sharp, Whose Face Is It Anyway?, idSYSTEMS,
vol. 20, no. 4, Abril 2000. Disponible en
www.scs-mag.com/reader/2000_04/whose0400.
Weicheng Shen, Marc Surette y Rajiv Khanna,
Evaluation of Automated Biometrics-Based
Identification and Verification Systems.
Proceedings of the IEEE, vol. 85, no. 9, pp.
1464-1478, Septiembre 1997.
J.L. Wayman, Biometric Technology Testing,
Evaluation, Results. Disponible en
http//www.engr.sjsu.edu/biometrics/publications.h
tml.
J. L. Wayman, Confidence Interval and Test Size
Estimation for Biometric Data, Proc. Automatic
Identification Advanced Technologies (AutoID),
Summit, NJ (USA), 1999. Y en National Biometric
Test Center Collected Works 1997-2000, pp.
91-102, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf
J. L. Wayman, Error Rate Equations for the
General Biometric System, IEEE Robotics and
Automation Magazine, vol. 6, no. 9, pp. 35-48,
Enero 1999. Y en National Biometric Test Center
Collected Works 1997-2000, pp. 103-128, Agosto
2000, Documento online http//www.engr.sjsu.edu/bi
ometrics/nbtccw.pdf.
J. L. Wayman, Degrees of Freedom as Related to
Biometric Device Performance. National Biometric
Test Center Collected Works 1997-2000, pp.
201-208, Agosto 2000, Documento online
http//www.engr.sjsu.edu/biometrics/nbtccw.pdf.

66
6. Otra Bibliografía

J. L. Wayman, Technical Testing and Evaluation of
Biometric Identification Devices, en Biometrics
Personal Identification in a Networked Society,
Editado por A. Jain, R. Bolle y S. Pankanti,
Kluwer Academic Press, Boston, 1999. Y en
National Biometric Test Center Collected Works
1997-2000, pp. 67-90, Agosto 2000, Documento
online http//www.engr.sjsu.edu/biometrics/nbtccw.
pdf.
J. L. Wayman, A. Jain, D. Maltoni y D. Maio,
Biometric Systems Technology, Design and
Performance Evaluation, Springer Verlag, 2003.