Title: Aprendizaje Automtico en Bioinformtica
1Aprendizaje Automático en Bioinformática
- Pedro Larrañaga
- Intelligent Systems Group
- Departamento de CCIA
- UPV-EHU
- Lejona, 12 de noviembre de 2003
2Esquema
- Introducción
- Clustering
- Clasificación Supervisada
- Selección de Variables
- Conclusiones
3Introducción
- Gran volumen de datos
- Problemas de almacenamiento (bases de datos)
- Problemas de tratamiento de imagen
- Problemas de optimización
- Sistemas de ayuda predicción de enfermedades,
descubrimiento de conocimiento
4Clustering
- Tenemos caracterizados 50 pacientes, con su
expresión génica en 2000 genes - Nos interesa
- Grupos de pacientes con expresiones génicas
parecidas - Grupos de genes que se comportan de la misma forma
5Clustering
- Objetivo agrupar objetos en grupos, homogeneidad
dentro, heterogeneidad entre - Dos técnicas básicas
- Clustering particional k-means (MacQueen, 1967)
- Clustering jerárquico (McQuitty, 1962)
6k-means
- Paso 1 Seleccionar k centroides
- Paso 2 Asignar cada objeto a agrupar al
centroide más cercano - Paso 3 Iterar hasta convergencia
- Paso 3.1 Recalcular los centroides como
baricentros de los objetos de cada grupo - Paso 3.2 Reasignar cada objeto al centroide más
cercano
7k-means
8k-means
9k-means
10Clustering ascendente jerárquico
- Técnica aglomerativa
- Fusiona objetos de forma sucesiva
- Definición de distancia entre superobjetos
- Visualización
- Dendrograma (árbol)
- Diagrama de Venn
11Clustering ascendente jerárquico
- Enlace simple (single linkage)
- La distancia entre dos superobjetos se define
como la mínima distancia entre pares de objetos
pertenecientes a los mismos
x x x x
O O O O
12Clustering ascendente jerárquico
- Enlace medio (mean linkage)
- La distancia entre dos superobjetos se define
como la media entre las distancias de todos
los pares de objetos cada uno de ellos de
distintos superobjetos
x x x x
O O O O
13Clustering ascendente jerárquico
- Enlace completo (complete linkage)
- La distancia entre dos superobjetos se define
como el máximo entre las distancias de todos
los pares de objetos cada uno de ellos de
distintos superobjetos
x x x x
O O O O
14(No Transcript)
15Clasificación supervisada
- Objetivo a partir de unas muestras etiquetadas,
ser capaz de etiquetar nuevas muestras
16Clasificación supervisada
- Paradigmas clasificatorios
- Clasificadores Bayesianos
- Árboles de clasificación
- K-NN
- Inducción de reglas
- Redes neuronales
- Máquinas de soporte vectorial
17Clasificación supervisada
- Criterios de comparación de clasificadores
- Tasa de acierto
- Área bajo la curva ROC
- Complejidad algorítmica del inductor
- Interpretabilidad del modelo
- Simplicidad del modelo
18Clasificación supervisada
- Clasificadores Bayesianos naïve Bayes
C
...
X1 X2 X3
Xn
19Clasificación supervisada
gen_32
lt .34
gt .34
gen_27
gen_91
lt .72
gt .72
gt .59
lt .59
gen_40
gen_98
lt .29
gt .29
lt .63
gt .63
sano 26/2
sano 40/6
enfermo 3/17
enfermo 4/30
enfermo 2/40
sano 25/5
20Selección de variables
- Motivación
- Mejora en el eficacia, eficiencia y rapidez de
uso del modelo - Mejor comprensibilidad de los datos
- Variables redundantes, variables irrelevantes
- Dos tipos de aproximación
- Filtrado
- Envoltura
21Selección de variables
Porcentaje de casos bien clasificados para la
base de datos Leukemia (Golub et al., 1999)
7129 genes, 72 casos (25 AML, 47 ALL) (Inza y
col., 2003)
22Conclusiones
- Biología molecular rica en datos
- Técnicas de aprendizaje automático válidas para
- descubrir conocimiento
- sugerir nuevas hipótesis
- crear modelos predictivos
- estudiar la corregulación entre genes
- resolver problemas de optimización