Title: Alineamiento de secuencias'
1Alineamiento de secuencias. Motivos, perfiles y
dominios.
Paulino Gómez-Puertas Centro de Astrobiología
(CAB) pagomez_at_cnb.uam.es http//www.cab.inta.es/L
BIOINFO
2 Por qué comparar secuencias ? Cómo
comparar secuencias ?
3 Por qué comparar secuencias ?
- Cambios en las secuencias
- Reemplazo puntual
- Sinónimos/No-Sinónimos
- Inserción y Delección (InDels)
- Afecta pautas de lectura
- Traslocación
- Duplicación
GAT GCA TAG ATG GAC CCA CGT TCG GAG
MDPRSE DA
4 Por qué comparar secuencias ?
5(No Transcript)
6Actin
DnaK
Hsc70
FtsA
MreB
Hexokinase
7Structural alignment
8 Cómo comparar secuencias ?
FSSP
DaliDD
CATH
SCOP
9(No Transcript)
10Comparación de secuencias
11Conceptos Generales
Secuencia. Cadena lineal finita y ordenada de
símbolos pertenecientes a un
alfabeto Alfabeto. Conjunto de símbolos básicos
de las secuencias ADN A a,c,g,tu Protei
nas Aa,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y
ADN y Proteinas son cadenas co-lineales Exist
en otros diversos alfabetos Comparación.
Encontrar la posición relativa entre dos
secuencias que maximice su parecido
12Comparación por Identidades
- Seq X TCA GAC GAT TG (n11)
- Seq Y ATC GGA GCT G (m10)
Algoritmo Desplazar una secuencia debajo de la
otra anotando el número de coincidencias que
ocurren, seleccionando como resultado la posición
de mayor valor
13Comparación por Identidades
14Comparación por Identidades
0 1 2 3 4 5 6 7 8 9 10
11 -------------------------------------------
---- 0 T C A G A C G A T
T G ---------------------------
--------- -1 A 1 1
1 -----------------------
------------- -2 T 1
2 1 ------------------
------------------ -3 C 2
1 --------------
---------------------- -4 G
1 2 3
------------------------------------
-5 G 3 1
1 --------------------------------
---- -6 A 1 4 2
---------------------------
--------- -7 G 2 2
2 -----------------------
------------- -8 C 1 1
------------------
------------------ -9 T 1
3 1 --------------
---------------------- -10 G
2 3 2
-----------------------------------------------
- TCAGACGATTG (r4)
-
- ATCGGAGCTG
h 12345 sH ACCGT sV CAGT v
1234 D h v Si xh alínea con yv
Diagonal desplazamiento
relativo entre secuencias
15Comparación por Identidades
ACCGT ACCGT CAGT CAGT ACCGT
ACCGT CAGT CAGT ACCGT ACCGT CAGT
CAGT ACCGT ACCGT CAGT
CAGT
Desplazar una secuencia bajo la otra equivale a
recorrer una matriz por sus diagonales.
16Comparación por Identidades
Los fragmentos alineados aparecen como diagonales
en la matriz
17Comparación por Identidades
Matriz de Puntos Dot-Plot
18Algunos Números
EMBL Nucleotide Sequence Database (18.Enero.2000)
(http//www.ebi.ac.uk/embl/index.html)
? Nº Entradas gt 5.3 millones ? Nº Bases gt 5
GigaBytes ? Proyectos Genoma (Ene/Ago 99) gt
1.6 Mills de entradas nuevas ( gt 1.3 GB ) Media
6.400entradas (5.4 MegaBases/dia) Recursos
Computacionales CPU 4,77 MHz
(1983) Intel 8088 gt 500 MHz (Dic.99) (Pent
III-Xeon, Celeron, Itanium...) gt 1.5 GigaHz
(Feb.01) Transistores 0,029 x 106 (1983)
... gt 30 millones (hoy) lthttp//www.prisma.uvsq
.fr/mirror/CIC/summary/localgt
19 Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
Secuencia a comparar pos 1234567890 seqY
ATCGGAGCTG m10 Acumular identidades en cada
diagonal (d h - v, si xh alínea con yv) y1 (A)
en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1
(2-1), d7 (9-2) y d8 (10-2) ??? ???
Complejidad Cada elemento de sY vs el número
de elementos hash para ese símbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY)
20 Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
Secuencia a comparar pos 1234567890 seqY
ATCGGAGCTG m10 Acumular identidades en cada
diagonal (d h - v, si xh alínea con yv) y1 (A)
en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1
(2-1), d7 (9-2) y d8 (10-2) ??? ???
Complejidad Cada elemento de sY vs el número
de elementos hash para ese símbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY) k-tuplas entradas
(LlAlfk) -gt - elementos por entrada Proteinas
lAlf20, Si k2 gt L 202 400 entradas.
Long. Proteina N400 -gt 1 valor por entrada gt
complejidad O(NM)
21 Comparación por Semejanzas Mejoras en la
Sensibilidad
- Limitaciones de los Métodos
- basados en Identidad
- Código genético redundante
- Sustituciones sin influencia sobre la función
global - Inserción y pérdida de residuos.
- Cantidad de información (frecuencia) de cada
símbolo - Conocimiento biológico en la valoración
Distancia El coste de transformar una secuencia
en otra por medio de la aplicación de una serie
de operaciones (sustitución, inserción, borrado),
cada una con un coste asociado. Para cada
pareja de símbolos (ai,aj) ? A2 un esquema de
costes w(ai,aj) establece la relación entre ellos
22 Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Considerar los reemplazos conservativos y las
diferencias en las frecuencias observadas Matrice
s PAM. Dayhoff (1972) Evolutivo, proporcional
a log(fAB/f'AB) para alinear el residuo A con el
B fAB frecuencia AB en alineamientos
relacionados f'AB frecuencia en los alineamientos
no relacionados (f'ABfAxfB) fAB Depende de la
semejanza entre las proteinas Pequeña para
secuencias muy relacionadas Crece a mayores
distancias evolutivas Azar a distancias
evolutivas muy grandes
23Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Matrices BLOSUM. Altschul (1991) ? No se
conoce a priori lo semejante que son las
secuencias a buscar ? PAM extrapola las
relaciones lejanas a partir de relaciones
cercanas (Hipótesis que favorece las
posiciones más mutables)
Fuente Alineamientos de bloques de secuencias.
Bloque Matriz cuyas filas representan segmentos
de secuencias alineadas sin interrupciones
BLOSUMnn (BLOcks SUbstitution Matrices) (nn
umbral de identidad utilizado para la seleccionar
bloques) Un blosum bajo (umbral bajo de
identidad) se corresponde con un número alto de
PAM (distancia evolutiva grande).
24Esquemas de PuntuaciónCapturar el significado
biológico de las semejanzas
pam250 (inferior) y BLOSUM62 (superior)
A R N D C Q E G H I L K M F
P S T W Y V B Z X --------------------
--------------------------------------------------
-------- 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1
-1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 A
5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3
-2 -3 -1 0 -1 -4 R A 2 6 1 -3 0 0 0
1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
N R -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3
-1 0 -1 -4 -3 -3 4 1 -1 -4 D N 0 0 2
9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1
-3 -3 -2 -4 C D 0 -1 2 4 5 2 -2 0 -3
-2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 Q C
-2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0
-1 -3 -2 -2 1 4 -1 -4 E Q 0 1 1 2 -5 4
6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2
-1 -4 G E 0 -1 1 3 -5 2 4 8 -3 -3 -1
-2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 H G 1 -3
0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3
-1 3 -3 -3 -1 -4 I H -1 2 2 1 -3 3 1 -2
6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
L I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3
-1 0 -1 -3 -2 -2 0 1 -1 -4 K L -2 -3 -3 -4
-6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1
-3 -1 -1 -4 M K -1 3 1 0 -5 1 0 -2 0 -2
-3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 F M
-1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1
-1 -4 -3 -2 -2 -1 -2 -4 P F -4 -4 -4 -6 -4 -5
-5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0
0 -4 S P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1
-2 -5 6 5 -2 -2 0 -1 -1 0 -4 T S 1 0
1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11
2 -3 -4 -3 -2 -4 W T 1 -1 0 0 -2 -1 0 0
-1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4
Y W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0
-6 -2 -5 17 4 -3 -2 -1 -4 V Y -3 -4 -2 -4
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
4 1 -1 -4 B V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 Z B
0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0
-5 -3 -2 2 -1 -4 X Z 0 0 1 3 -5 3 3
-1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3
1 X 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
-----------------------------------------------
------------------------------- A R N D
C Q E G H I L K M F P S T W Y V B
Z X Otros distancias, i.e. Matriz de
Hidrofobicidad (Engleman Steitz)
Glx
Asx
25Comparación por Semejanzas (Global)
Esquema de Pesos ------------------- A
C G T --------------- A 4 -3
1 -3 --------------- C -3 4 -3
1 --------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
------------------- 4 Residuos iguales 1
Residuos del mismo tipo purinas (AG),
pirimidinas (CT) -3 Combinaciones
restantes. Score 1 4 4-3 4 4-3 1-3 4 SeqH G
T C C G A C T A G T G SeqV C A T C G G A G C T
G Acum 1 5 9 6 1 1 1 1 9 1 0 4 1
2 3
26 Comparación por Semejanzas (LOCAL)
Fragmento con puntuación acumulada máxima No se
puede incrementar estirando ni recortando por los
extremos
Inicia en Celda positiva Avanza acumulando
valores (mientras acumgt0) Fin Fin de
diagonal Acumulado lt 0 -gt regresar al
máximo No incorpora zonas no-conservadas
------------------- A C G T
--------------- A 4 -3 1 -3
--------------- C -3 4 -3 1
--------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
-------------------
Recorrido Exhaustivo de Diagonales
27Una Heurística para Comparar por
Semejanza Velocidad a cambio de Precisión
No asegura un resultado óptimo, pero en ocasiones
es la única solución Exhaustivo Recorrer todas
las diagonales O(NM) Heurístico Limitar las
diagonales a recorrer (aquellas con más
identidades)
28Las Interrupciones (Gaps) Aumentar el parecido
deformando los objetos
La idea Frg TT, CC, AG, GG, AA (Sc18)
puede (a) Extender en diagonal (C y G) sin gaps
(pierde 3 puntos, hasta 15). (b)
Emparejar C (sX) con alguno (CTC) sY (gaps en
sY) (c) Emparejar G (sY) con alguno (GATTG)
sX (gaps en la sec.X)
29 Programación Dinámica
Esquema de Pesos 4 residuos iguales 2
residuos del mismo tipo -3 Resto. iGap -5
eGap -2 Mejor alineamiento
TCAGACGATTG . .. ATCGGA--GCTG
30 Clasificación de las aplicaciones
N1, M1 Pairwise comparison (lo visto hasta
ahora). N1, Mgtgt1 Búsquedas en bases de datos
FASTA, BLAST, PSI-BLAST Ngt1, Mgt1 Alineamiento
múltiple PILEUP, CLUSTAL-W, T-COFFEE, HMMs
31Búsquedas Rápidas FASTA(Lipman Pearson, 1985,
Pearson Lipman 1988)
Reducir el espacio de búsqueda En qué
diagonales es más probable que se encuentre el
mejor alineamiento ?
Etapa I Búsqueda de Regiones (diagonales) por
Identidad y sin Gaps Uso de k-tuplas para
acelerar Resultado Las mejores diagonales
(10) Complejidad O(NM)Etapa IIRe-evaluación
de las regiones por semejanza Unión de regiones
con GapsEtapa IIIEvaluación exhaustiva de las
mejores secuencias
Reducciones de hasta 2 órdenes de magnitud en los
tiempos de búsqueda. Velocidad a cambio de
sensibilidad y selectividad(pierde reemplazos
conservativos y palabras más pequeñas que k)
32Basic Local Alignment Search Tool
(BLAST) Altschul, S.F., Gish W., Miller W.,
Myers E.W., and Lipman D.J. J. Mol. Biol. (1990)
215403-10.
- Artículo más citado en la década de los 90 -
Identificación de las mejores diagonales
utilizando criterios de semejanza
- Uso de k-tuplas por semejanza (amplía el espacio
de búsqueda de FASTA) - Corte estadístico (baja probabilidad de
ocurrencia) - Identificación rápida de segmentos (MSP maximal
segment pair. - Segmento sub-secuencia continua de cualquier
longitud. - Puntaje Suma de la semejanza de cada par
- Análisis detallado de MSPs con mas probabilidad
de formar el alineamiento final -
33Gapped BLAST and PSI-BLASTA new Generation of
Protein DB search ProgramsAltschul, S.F., Madden
T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller
W., and Lipman D.J. Nucleid Acids Research
(1997) v.25, n.17 3389-3402
Gapped BLAST Two-hits method. Exige la
presencia dos palabras (no solapen, misma
diagonal, distancia A entre ellas) Gapped
segments. Dos fragmentos forman el mismo
alineamiento ? Programación dinámica limitando
el ancho de ventana. Alineamientos alternativos
que no disminuyen el puntaje más de
Xg. PSI-BLAST Búsqueda iterativa Construcción
de una matriz de pesos específica por
posición. Uso de la matriz para realizar una
nueva búsqueda.
34Alineamientos múltiples
Si alinear 2 secuencias de 300 residuos tardase 1
segundo Entonces alinear 3 secuencias
tardaría 300 segundos alinear 10 secuencias ?
aprox 3008 segs ( que la edad del universo)
35CLUSTAL-Wimproving the sensitivity of
progressive multiple sequence alignment through
sequence weighting position specific gap
penalties and weight matrix choice.Thomson JD,
Higgins DG, Gibson TJ (1994) Nucleid Acids
Research 22 (22) 4673-4680
Formación de clusters de secuencias La pareja
más parecida se alinea para formas un único
cluster. Este cluster se toma ahora como una sola
secuencia y el proceso se repite hasta tener un
solo cluster con todas las secuencias
alineadas. Los alineamientos múltiples
permiten Inferir filogenias. Construir
perfiles.
36Motivos, perfiles y dominios
37A qué llamamos motivos?
Observación En proteínas de la misma familia
podemos detectar pequeñas regiones conservadas, a
menudo asociadas a su función. Ej. Sitios de
unión, centros activos de enzimas, etc.
Características La conservación no es perfecta.
No son detectables mediante técnicas de homología
de secuencia (BLAST, FASTA, etc).
38Y para qué se usan?
Los motivos se conservan incluso a grandes
distancias evolutivas debido a restricciones
estructurales o funcionales
luego...
Están relacionados con la función
Predicción
Detección de homólogos remotos
Se conservan
39Y cómo se usan?
Bases de datos de motivos
Herramientas para búsqueda de motivos en
secuencias o búsqueda de secuencias con un cierto
motivo.
40Motivos descripción
- Expresiones regulares
- Perfiles
- HMMs
41Expresiones regulares
ALRDFATHDDF SMTAEATHDSI ECDQAATHEAS
A-T-H-DE
42Expresiones regulares
- Cualquier aminoácido x
- Ambigüedad A,B A, o B... o A,B.. cualquiera
menos A, B - Repetición A(2,4) A-A o A-A-A o A-A-A-A
- N terminal lt, C-terminal gt
AC-x-V-x(4)-E,D.
Ala or Cys-any-Val-any-any-any-any-any but Glu
or Asp
43Perfiles
F K L L S H C L
L V F K A F G Q
T M F Q Y P I V
G Q E L L G F P
V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V
C A -18 -10 -1 -8 8 -3 3
-10 -2 -8 C -22 -33 -18 -18 -22
-26 22 -24 -19 -7 D -35 0 -32
-33 -7 6 -17 -34 -31 0 E -27
15 -25 -26 -9 23 -9 -24 -23 -1 F
60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22
-23 -10 I 3 -27 21 25 -29 -23
-8 33 19 -23 K -26 25 -25 -27
-6 4 -15 -27 -26 0 L 14 -28
19 27 -27 -20 -9 33 26 -21 M
3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26
-18 Q -32 5 -25 -26 -9 24 -16
-17 -23 7 R -18 9 -22 -22 -10
0 -18 -23 -22 -4 S -22 -8 -16
-21 11 2 -1 -24 -19 -4 T -10
-10 -6 -7 -5 -8 2 -10 -7 -11 V
0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0
0 -18
Usa pesos discriminatorios no solo para los AAs
que aparecen. Para los que no aparecen se basan
en las frecuencias observadas y en la
probabilidad de que el AA sea sustituido
A tiene más baja probabilidad que M que, aunque
no aparece, sabemos que M es fisicoquímicamente
más similar a L, I, V y F.
Más sensibles que las expresiones regulares
44HMMs
Hidden Markov models (HMMs) son modelos
estadísticos de la estructura primaria de las
secuencias. Se supone que lo que vemos es
resultado de un proceso oculto (hidden) del que
tenemos un modelo.
45HMMs y motivos
Este es el más usado. Corresponde a un
alineamiento con tres estados (m1, m2, m3) con 20
probabilidades de ser un residuo (barras) cuatro
estados de inserción (i0, i1, i2, i3) y tres
estados de delección (d1, d2, d3). Las flechas
representan las probabilidades de transición
entre estados
Todos o algunos de los parámetros pueden ser
estimados de los datos
46Cómo se construye un motivo?
Motivos conocidos (publicados o encontrados en
familias conocidas) PROSITE
Motivos empíricos obtenidos directamente de
alineamientos. En algunos casos no se sabe su
significado. Pfam.
47Procedimiento
Expresión regular perfil HMM
Conocido De alineamiento
Extracción
Base de datos de secuencias
Base de datos de motivos
Motivo
Iterativo Minimiza falsos positivos
Búsqueda
48PROSITE entry
ID MOLYBDOPTERIN_EUK PATTERN. AC PS00559 DT
DEC-1991 (CREATED) NOV-1995 (DATA UPDATE)
JUL-1998 (INFO UPDATE). DE Eukaryotic
molybdopterin oxidoreductases signature. PA
GA-x(3)-KRNQHT-x(11,14)-LIVMFYWS-x(8)-LIVMF
-x-C-x(2)-DEN-R- PA x(2)-DE. NR
/RELEASE38,80000 NR /TOTAL50(50)
/POSITIVE45(45) /UNKNOWN0(0)
/FALSE_POS5(5) NR /FALSE_NEG2
/PARTIAL5 CC /TAXO-RANGE??E??
/MAX-REPEAT1 DR P48034, ADO_BOVIN , T
Q06278, ADO_HUMAN , T P11832, NIA1_ARATH, T DR
P39867, NIA1_BRANA, T P27967, NIA1_HORVU, T
P16081, NIA1_ORYSA, T DR P39865, NIA1_PHAVU,
T P54233, NIA1_SOYBN, T P11605, NIA1_TOBAC, T
DR P11035, NIA2_ARATH, T P39868, NIA2_BRANA,
T P27969, NIA2_HORVU, T DR P39866,
NIA2_PHAVU, T P39870, NIA2_SOYBN, T P08509,
NIA2_TOBAC, T DR P49102, NIA3_MAIZE, T
P27968, NIA7_HORVU, T P36858, NIA_ASPNG , T DR
P43100, NIA_BEABA , T P27783, NIA_BETVE , T
P43101, NIA_CICIN , T DR P17569, NIA_CUCMA ,
T P22945, NIA_EMENI , T P39863, NIA_FUSOX , T
DR P36842, NIA_LEPMC , T P39869, NIA_LOTJA ,
T P17570, NIA_LYCES , T DR P08619, NIA_NEUCR
, T P36859, NIA_PETHY , T P49050, NIA_PICAN ,
T DR P23312, NIA_SPIOL , T Q05531, NIA_USTMA
, T P36841, NIA_VOLCA , T DR P07850,
SUOX_CHICK, T P51687, SUOX_HUMAN, T Q07116,
SUOX_RAT , T DR P80457, XDH_BOVIN , T
P08793, XDH_CALVI , T P47990, XDH_CHICK , T DR
P10351, XDH_DROME , T P22811, XDH_DROPS , T
P91711, XDH_DROSU , T DR P47989, XDH_HUMAN ,
T Q00519, XDH_MOUSE , T P22985, XDH_RAT , T
DR P80456, ADO_RABIT , P P17571, NIA1_MAIZE,
P P39871, NIA2_MAIZE, P DR Q01170, NIA_CHLVU
, P P39882, NIA_LOTTE , P DR P39864,
NIA_PHYIN , N Q12553, XDH_EMENI , N DR
P27034, BGLS_AGRTU, F P03598, COAT_TOBSV, F
P19235, EPOR_HUMAN, F DR P20054, PYR1_DICDI,
F Q23316, YHC6_CAEEL, F 3D 1SOX DO
PDOC00484 //
49Bases de datos
PROSITE Expresiones regulares y
perfiles. Basada en motivos conocidos
(SwissProt) BLOCKS Perfiles. Basada en
PROSITE. PRINTS Perfiles. Basada en motivos
conocidos Pfam Perfiles HMM. Generación
automática de motivos. SwissProt SP-TrEMBL
50Comparación
Información
Pfam
SP-TrEMBL
PROSITE
BLOCKS
PRINTS
SwissProt
Precisión
Expresiones regulares
Perfiles simples múltiples
HMMs
51Uso de motivos
Predicción de función Buscar motivos en una
secuencia Búsqueda de homólogos remotos Buscar
las secuencias que tienen un motivo. Definición
de motivos e investigación de su significado
52Predicción de función
Base de datos de motivos
A
B
Documentación A B función
53Ligand binding
Enoyl-CoA hydratase (rat) cocristallized with
octanoyl-CoA
Tetracycline repressor (E. coli) complexed with
7-chloro-tetracycline
54Búsqueda de homólogos remotos
Base de datos de secuencias
55Definición de motivos e investigación de su
significado
Base de datos de proteínas
Base de datos de motivos
Información A,B,C función
Información motivo función
56Programas
Secuencia ?
Motivo ?
PPsearch
pfsearch
Psi-BLAST
HMMER
Base de datos de motivos
Base de datos de secuencias
pfscan
ScanProsite
57Formate dehydrogenase
Calmodulin
TATA box binding protein
58subunit
heptamer
ATP
Molecular chaperonin GroEL
(Dr Jianpeng Ma, Harvard Univ.)
59En resumen...
- Motivos segmentos conservados que se utilizan
para - predicción de función y
- detección de homólogos remotos
Pfam HMMs es el sistema más preciso
60Gracias a
Oswaldo Trelles
Arquitectura de Computadores Universidad de Málaga
Joaquín Dopazo
Bioinformatics Unit CNIO
Alfonso Valencia P.D.G.
Protein Design Group CNB
61PRÁCTICAS
Luis Sánchez (Centro Nacional de Biotecnología)
Ramón Alonso-Allende (Centro Nacional de
Biotecnología)