Alineamiento de secuencias'

About This Presentation

Title:

Alineamiento de secuencias'

Description:

Paulino G mez Puertas. Centro de Astrobiolog a. Curso ... CAG Q CCG P CGG R CTG L. CAT H CCT P CGT R CTT L. GAA E GCA A GGA G GTA V. GAC D GCC A GGC G GTG V ... – PowerPoint PPT presentation

Number of Views:243

Avg rating:3.0/5.0

Slides: 62

Provided by: proteinde

Category:

more less

Transcript and Presenter's Notes

Title: Alineamiento de secuencias'

1
Alineamiento de secuencias. Motivos, perfiles y
dominios.
Paulino Gómez-Puertas Centro de Astrobiología
(CAB) pagomez_at_cnb.uam.es http//www.cab.inta.es/L
BIOINFO
2
Por qué comparar secuencias ? Cómo
comparar secuencias ?
3
Por qué comparar secuencias ?

Cambios en las secuencias
Reemplazo puntual
Sinónimos/No-Sinónimos
Inserción y Delección (InDels)
Afecta pautas de lectura
Traslocación
Duplicación

GAT GCA TAG ATG GAC CCA CGT TCG GAG
MDPRSE DA
4
Por qué comparar secuencias ?
5
(No Transcript)
6
Actin
DnaK
Hsc70
FtsA
MreB
Hexokinase
7
Structural alignment
8
Cómo comparar secuencias ?
FSSP
DaliDD
CATH
SCOP
9
(No Transcript)
10
Comparación de secuencias
11
Conceptos Generales
Secuencia. Cadena lineal finita y ordenada de
símbolos pertenecientes a un
alfabeto Alfabeto. Conjunto de símbolos básicos
de las secuencias ADN A a,c,g,tu Protei
nas Aa,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y
ADN y Proteinas son cadenas co-lineales Exist
en otros diversos alfabetos Comparación.
Encontrar la posición relativa entre dos
secuencias que maximice su parecido
12
Comparación por Identidades

Seq X TCA GAC GAT TG (n11)
Seq Y ATC GGA GCT G (m10)

Algoritmo Desplazar una secuencia debajo de la
otra anotando el número de coincidencias que
ocurren, seleccionando como resultado la posición
de mayor valor
13
Comparación por Identidades
14
Comparación por Identidades
0 1 2 3 4 5 6 7 8 9 10
11 -------------------------------------------
---- 0 T C A G A C G A T
T G ---------------------------
--------- -1 A 1 1
1 -----------------------
------------- -2 T 1
2 1 ------------------
------------------ -3 C 2
1 --------------
---------------------- -4 G
1 2 3
------------------------------------
-5 G 3 1
1 --------------------------------
---- -6 A 1 4 2
---------------------------
--------- -7 G 2 2
2 -----------------------
------------- -8 C 1 1
------------------
------------------ -9 T 1
3 1 --------------
---------------------- -10 G
2 3 2
-----------------------------------------------

TCAGACGATTG (r4)
ATCGGAGCTG

h 12345 sH ACCGT sV CAGT v
1234 D h v Si xh alínea con yv
Diagonal desplazamiento
relativo entre secuencias
15
Comparación por Identidades
ACCGT ACCGT CAGT CAGT ACCGT
ACCGT CAGT CAGT ACCGT ACCGT CAGT
CAGT ACCGT ACCGT CAGT
CAGT
Desplazar una secuencia bajo la otra equivale a
recorrer una matriz por sus diagonales.
16
Comparación por Identidades
Los fragmentos alineados aparecen como diagonales
en la matriz
17
Comparación por Identidades
Matriz de Puntos Dot-Plot
18
Algunos Números
EMBL Nucleotide Sequence Database (18.Enero.2000)
(http//www.ebi.ac.uk/embl/index.html)
? Nº Entradas gt 5.3 millones ? Nº Bases gt 5
GigaBytes ? Proyectos Genoma (Ene/Ago 99) gt
1.6 Mills de entradas nuevas ( gt 1.3 GB ) Media
6.400entradas (5.4 MegaBases/dia) Recursos
Computacionales CPU 4,77 MHz
(1983) Intel 8088 gt 500 MHz (Dic.99) (Pent
III-Xeon, Celeron, Itanium...) gt 1.5 GigaHz
(Feb.01) Transistores 0,029 x 106 (1983)
... gt 30 millones (hoy) lthttp//www.prisma.uvsq
.fr/mirror/CIC/summary/localgt
19
Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
Secuencia a comparar pos 1234567890 seqY
ATCGGAGCTG m10 Acumular identidades en cada
diagonal (d h - v, si xh alínea con yv) y1 (A)
en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1
(2-1), d7 (9-2) y d8 (10-2) ??? ???
Complejidad Cada elemento de sY vs el número
de elementos hash para ese símbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY)
20
Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
Secuencia a comparar pos 1234567890 seqY
ATCGGAGCTG m10 Acumular identidades en cada
diagonal (d h - v, si xh alínea con yv) y1 (A)
en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1
(2-1), d7 (9-2) y d8 (10-2) ??? ???
Complejidad Cada elemento de sY vs el número
de elementos hash para ese símbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY) k-tuplas entradas
(LlAlfk) -gt - elementos por entrada Proteinas
lAlf20, Si k2 gt L 202 400 entradas.
Long. Proteina N400 -gt 1 valor por entrada gt
complejidad O(NM)
21
Comparación por Semejanzas Mejoras en la
Sensibilidad

Limitaciones de los Métodos
basados en Identidad
Código genético redundante
Sustituciones sin influencia sobre la función
global
Inserción y pérdida de residuos.
Cantidad de información (frecuencia) de cada
símbolo
Conocimiento biológico en la valoración

Distancia El coste de transformar una secuencia
en otra por medio de la aplicación de una serie
de operaciones (sustitución, inserción, borrado),
cada una con un coste asociado. Para cada
pareja de símbolos (ai,aj) ? A2 un esquema de
costes w(ai,aj) establece la relación entre ellos
22
Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Considerar los reemplazos conservativos y las
diferencias en las frecuencias observadas Matrice
s PAM. Dayhoff (1972) Evolutivo, proporcional
a log(fAB/f'AB) para alinear el residuo A con el
B fAB frecuencia AB en alineamientos
relacionados f'AB frecuencia en los alineamientos
no relacionados (f'ABfAxfB) fAB Depende de la
semejanza entre las proteinas Pequeña para
secuencias muy relacionadas Crece a mayores
distancias evolutivas Azar a distancias
evolutivas muy grandes
23
Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Matrices BLOSUM. Altschul (1991) ? No se
conoce a priori lo semejante que son las
secuencias a buscar ? PAM extrapola las
relaciones lejanas a partir de relaciones
cercanas (Hipótesis que favorece las
posiciones más mutables)
Fuente Alineamientos de bloques de secuencias.
Bloque Matriz cuyas filas representan segmentos
de secuencias alineadas sin interrupciones
BLOSUMnn (BLOcks SUbstitution Matrices) (nn
umbral de identidad utilizado para la seleccionar
bloques) Un blosum bajo (umbral bajo de
identidad) se corresponde con un número alto de
PAM (distancia evolutiva grande).
24
Esquemas de PuntuaciónCapturar el significado
biológico de las semejanzas
pam250 (inferior) y BLOSUM62 (superior)
A R N D C Q E G H I L K M F
P S T W Y V B Z X --------------------
--------------------------------------------------
-------- 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1
-1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 A
5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3
-2 -3 -1 0 -1 -4 R A 2 6 1 -3 0 0 0
1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
N R -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3
-1 0 -1 -4 -3 -3 4 1 -1 -4 D N 0 0 2
9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1
-3 -3 -2 -4 C D 0 -1 2 4 5 2 -2 0 -3
-2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 Q C
-2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0
-1 -3 -2 -2 1 4 -1 -4 E Q 0 1 1 2 -5 4
6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2
-1 -4 G E 0 -1 1 3 -5 2 4 8 -3 -3 -1
-2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 H G 1 -3
0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3
-1 3 -3 -3 -1 -4 I H -1 2 2 1 -3 3 1 -2
6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
L I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3
-1 0 -1 -3 -2 -2 0 1 -1 -4 K L -2 -3 -3 -4
-6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1
-3 -1 -1 -4 M K -1 3 1 0 -5 1 0 -2 0 -2
-3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 F M
-1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1
-1 -4 -3 -2 -2 -1 -2 -4 P F -4 -4 -4 -6 -4 -5
-5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0
0 -4 S P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1
-2 -5 6 5 -2 -2 0 -1 -1 0 -4 T S 1 0
1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11
2 -3 -4 -3 -2 -4 W T 1 -1 0 0 -2 -1 0 0
-1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4
Y W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0
-6 -2 -5 17 4 -3 -2 -1 -4 V Y -3 -4 -2 -4
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
4 1 -1 -4 B V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 Z B
0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0
-5 -3 -2 2 -1 -4 X Z 0 0 1 3 -5 3 3
-1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3
1 X 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
-----------------------------------------------
------------------------------- A R N D
C Q E G H I L K M F P S T W Y V B
Z X Otros distancias, i.e. Matriz de
Hidrofobicidad (Engleman Steitz)
Glx
Asx
25
Comparación por Semejanzas (Global)
Esquema de Pesos ------------------- A
C G T --------------- A 4 -3
1 -3 --------------- C -3 4 -3
1 --------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
------------------- 4 Residuos iguales 1
Residuos del mismo tipo purinas (AG),
pirimidinas (CT) -3 Combinaciones
restantes. Score 1 4 4-3 4 4-3 1-3 4 SeqH G
T C C G A C T A G T G SeqV C A T C G G A G C T
G Acum 1 5 9 6 1 1 1 1 9 1 0 4 1
2 3
26
Comparación por Semejanzas (LOCAL)
Fragmento con puntuación acumulada máxima No se
puede incrementar estirando ni recortando por los
extremos
Inicia en Celda positiva Avanza acumulando
valores (mientras acumgt0) Fin Fin de
diagonal Acumulado lt 0 -gt regresar al
máximo No incorpora zonas no-conservadas
------------------- A C G T
--------------- A 4 -3 1 -3
--------------- C -3 4 -3 1
--------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
-------------------
Recorrido Exhaustivo de Diagonales
27
Una Heurística para Comparar por
Semejanza Velocidad a cambio de Precisión
No asegura un resultado óptimo, pero en ocasiones
es la única solución Exhaustivo Recorrer todas
las diagonales O(NM) Heurístico Limitar las
diagonales a recorrer (aquellas con más
identidades)
28
Las Interrupciones (Gaps) Aumentar el parecido
deformando los objetos
La idea Frg TT, CC, AG, GG, AA (Sc18)
puede (a) Extender en diagonal (C y G) sin gaps
(pierde 3 puntos, hasta 15). (b)
Emparejar C (sX) con alguno (CTC) sY (gaps en
sY) (c) Emparejar G (sY) con alguno (GATTG)
sX (gaps en la sec.X)
29
Programación Dinámica
Esquema de Pesos 4 residuos iguales 2
residuos del mismo tipo -3 Resto. iGap -5
eGap -2 Mejor alineamiento
TCAGACGATTG . .. ATCGGA--GCTG
30
Clasificación de las aplicaciones
N1, M1 Pairwise comparison (lo visto hasta
ahora). N1, Mgtgt1 Búsquedas en bases de datos
FASTA, BLAST, PSI-BLAST Ngt1, Mgt1 Alineamiento
múltiple PILEUP, CLUSTAL-W, T-COFFEE, HMMs
31
Búsquedas Rápidas FASTA(Lipman Pearson, 1985,
Pearson Lipman 1988)
Reducir el espacio de búsqueda En qué
diagonales es más probable que se encuentre el
mejor alineamiento ?
Etapa I Búsqueda de Regiones (diagonales) por
Identidad y sin Gaps Uso de k-tuplas para
acelerar Resultado Las mejores diagonales
(10) Complejidad O(NM)Etapa IIRe-evaluación
de las regiones por semejanza Unión de regiones
con GapsEtapa IIIEvaluación exhaustiva de las
mejores secuencias
Reducciones de hasta 2 órdenes de magnitud en los
tiempos de búsqueda. Velocidad a cambio de
sensibilidad y selectividad(pierde reemplazos
conservativos y palabras más pequeñas que k)
32
Basic Local Alignment Search Tool
(BLAST) Altschul, S.F., Gish W., Miller W.,
Myers E.W., and Lipman D.J. J. Mol. Biol. (1990)
215403-10.
- Artículo más citado en la década de los 90 -
Identificación de las mejores diagonales
utilizando criterios de semejanza

Uso de k-tuplas por semejanza (amplía el espacio
de búsqueda de FASTA)
Corte estadístico (baja probabilidad de
ocurrencia)
Identificación rápida de segmentos (MSP maximal
segment pair.
Segmento sub-secuencia continua de cualquier
longitud.
Puntaje Suma de la semejanza de cada par
Análisis detallado de MSPs con mas probabilidad
de formar el alineamiento final

33
Gapped BLAST and PSI-BLASTA new Generation of
Protein DB search ProgramsAltschul, S.F., Madden
T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller
W., and Lipman D.J. Nucleid Acids Research
(1997) v.25, n.17 3389-3402
Gapped BLAST Two-hits method. Exige la
presencia dos palabras (no solapen, misma
diagonal, distancia A entre ellas) Gapped
segments. Dos fragmentos forman el mismo
alineamiento ? Programación dinámica limitando
el ancho de ventana. Alineamientos alternativos
que no disminuyen el puntaje más de
Xg. PSI-BLAST Búsqueda iterativa Construcción
de una matriz de pesos específica por
posición. Uso de la matriz para realizar una
nueva búsqueda.
34
Alineamientos múltiples
Si alinear 2 secuencias de 300 residuos tardase 1
segundo Entonces alinear 3 secuencias
tardaría 300 segundos alinear 10 secuencias ?
aprox 3008 segs ( que la edad del universo)
35
CLUSTAL-Wimproving the sensitivity of
progressive multiple sequence alignment through
sequence weighting position specific gap
penalties and weight matrix choice.Thomson JD,
Higgins DG, Gibson TJ (1994) Nucleid Acids
Research 22 (22) 4673-4680
Formación de clusters de secuencias La pareja
más parecida se alinea para formas un único
cluster. Este cluster se toma ahora como una sola
secuencia y el proceso se repite hasta tener un
solo cluster con todas las secuencias
alineadas. Los alineamientos múltiples
permiten Inferir filogenias. Construir
perfiles.
36
Motivos, perfiles y dominios
37
A qué llamamos motivos?
Observación En proteínas de la misma familia
podemos detectar pequeñas regiones conservadas, a
menudo asociadas a su función. Ej. Sitios de
unión, centros activos de enzimas, etc.
Características La conservación no es perfecta.
No son detectables mediante técnicas de homología
de secuencia (BLAST, FASTA, etc).
38
Y para qué se usan?
Los motivos se conservan incluso a grandes
distancias evolutivas debido a restricciones
estructurales o funcionales
luego...
Están relacionados con la función
Predicción
Detección de homólogos remotos
Se conservan
39
Y cómo se usan?
Bases de datos de motivos
Herramientas para búsqueda de motivos en
secuencias o búsqueda de secuencias con un cierto
motivo.
40
Motivos descripción

Expresiones regulares
Perfiles
HMMs

41
Expresiones regulares
ALRDFATHDDF SMTAEATHDSI ECDQAATHEAS
A-T-H-DE
42
Expresiones regulares

Cualquier aminoácido x
Ambigüedad A,B A, o B... o A,B.. cualquiera
menos A, B
Repetición A(2,4) A-A o A-A-A o A-A-A-A
N terminal lt, C-terminal gt

AC-x-V-x(4)-E,D.
Ala or Cys-any-Val-any-any-any-any-any but Glu
or Asp
43
Perfiles
F K L L S H C L
L V F K A F G Q
T M F Q Y P I V
G Q E L L G F P
V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V
C A -18 -10 -1 -8 8 -3 3
-10 -2 -8 C -22 -33 -18 -18 -22
-26 22 -24 -19 -7 D -35 0 -32
-33 -7 6 -17 -34 -31 0 E -27
15 -25 -26 -9 23 -9 -24 -23 -1 F
60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22
-23 -10 I 3 -27 21 25 -29 -23
-8 33 19 -23 K -26 25 -25 -27
-6 4 -15 -27 -26 0 L 14 -28
19 27 -27 -20 -9 33 26 -21 M
3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26
-18 Q -32 5 -25 -26 -9 24 -16
-17 -23 7 R -18 9 -22 -22 -10
0 -18 -23 -22 -4 S -22 -8 -16
-21 11 2 -1 -24 -19 -4 T -10
-10 -6 -7 -5 -8 2 -10 -7 -11 V
0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0
0 -18
Usa pesos discriminatorios no solo para los AAs
que aparecen. Para los que no aparecen se basan
en las frecuencias observadas y en la
probabilidad de que el AA sea sustituido
A tiene más baja probabilidad que M que, aunque
no aparece, sabemos que M es fisicoquímicamente
más similar a L, I, V y F.
Más sensibles que las expresiones regulares
44
HMMs
Hidden Markov models (HMMs) son modelos
estadísticos de la estructura primaria de las
secuencias. Se supone que lo que vemos es
resultado de un proceso oculto (hidden) del que
tenemos un modelo.
45
HMMs y motivos
Este es el más usado. Corresponde a un
alineamiento con tres estados (m1, m2, m3) con 20
probabilidades de ser un residuo (barras) cuatro
estados de inserción (i0, i1, i2, i3) y tres
estados de delección (d1, d2, d3). Las flechas
representan las probabilidades de transición
entre estados
Todos o algunos de los parámetros pueden ser
estimados de los datos
46
Cómo se construye un motivo?
Motivos conocidos (publicados o encontrados en
familias conocidas) PROSITE
Motivos empíricos obtenidos directamente de
alineamientos. En algunos casos no se sabe su
significado. Pfam.
47
Procedimiento
Expresión regular perfil HMM
Conocido De alineamiento
Extracción
Base de datos de secuencias
Base de datos de motivos
Motivo
Iterativo Minimiza falsos positivos
Búsqueda
48
PROSITE entry
ID MOLYBDOPTERIN_EUK PATTERN. AC PS00559 DT
DEC-1991 (CREATED) NOV-1995 (DATA UPDATE)
JUL-1998 (INFO UPDATE). DE Eukaryotic
molybdopterin oxidoreductases signature. PA
GA-x(3)-KRNQHT-x(11,14)-LIVMFYWS-x(8)-LIVMF
-x-C-x(2)-DEN-R- PA x(2)-DE. NR
/RELEASE38,80000 NR /TOTAL50(50)
/POSITIVE45(45) /UNKNOWN0(0)
/FALSE_POS5(5) NR /FALSE_NEG2
/PARTIAL5 CC /TAXO-RANGE??E??
/MAX-REPEAT1 DR P48034, ADO_BOVIN , T
Q06278, ADO_HUMAN , T P11832, NIA1_ARATH, T DR
P39867, NIA1_BRANA, T P27967, NIA1_HORVU, T
P16081, NIA1_ORYSA, T DR P39865, NIA1_PHAVU,
T P54233, NIA1_SOYBN, T P11605, NIA1_TOBAC, T
DR P11035, NIA2_ARATH, T P39868, NIA2_BRANA,
T P27969, NIA2_HORVU, T DR P39866,
NIA2_PHAVU, T P39870, NIA2_SOYBN, T P08509,
NIA2_TOBAC, T DR P49102, NIA3_MAIZE, T
P27968, NIA7_HORVU, T P36858, NIA_ASPNG , T DR
P43100, NIA_BEABA , T P27783, NIA_BETVE , T
P43101, NIA_CICIN , T DR P17569, NIA_CUCMA ,
T P22945, NIA_EMENI , T P39863, NIA_FUSOX , T
DR P36842, NIA_LEPMC , T P39869, NIA_LOTJA ,
T P17570, NIA_LYCES , T DR P08619, NIA_NEUCR
, T P36859, NIA_PETHY , T P49050, NIA_PICAN ,
T DR P23312, NIA_SPIOL , T Q05531, NIA_USTMA
, T P36841, NIA_VOLCA , T DR P07850,
SUOX_CHICK, T P51687, SUOX_HUMAN, T Q07116,
SUOX_RAT , T DR P80457, XDH_BOVIN , T
P08793, XDH_CALVI , T P47990, XDH_CHICK , T DR
P10351, XDH_DROME , T P22811, XDH_DROPS , T
P91711, XDH_DROSU , T DR P47989, XDH_HUMAN ,
T Q00519, XDH_MOUSE , T P22985, XDH_RAT , T
DR P80456, ADO_RABIT , P P17571, NIA1_MAIZE,
P P39871, NIA2_MAIZE, P DR Q01170, NIA_CHLVU
, P P39882, NIA_LOTTE , P DR P39864,
NIA_PHYIN , N Q12553, XDH_EMENI , N DR
P27034, BGLS_AGRTU, F P03598, COAT_TOBSV, F
P19235, EPOR_HUMAN, F DR P20054, PYR1_DICDI,
F Q23316, YHC6_CAEEL, F 3D 1SOX DO
PDOC00484 //
49
Bases de datos
PROSITE Expresiones regulares y
perfiles. Basada en motivos conocidos
(SwissProt) BLOCKS Perfiles. Basada en
PROSITE. PRINTS Perfiles. Basada en motivos
conocidos Pfam Perfiles HMM. Generación
automática de motivos. SwissProt SP-TrEMBL
50
Comparación
Información
Pfam
SP-TrEMBL
PROSITE
BLOCKS
PRINTS
SwissProt
Precisión
Expresiones regulares
Perfiles simples múltiples
HMMs
51
Uso de motivos
Predicción de función Buscar motivos en una
secuencia Búsqueda de homólogos remotos Buscar
las secuencias que tienen un motivo. Definición
de motivos e investigación de su significado
52
Predicción de función
Base de datos de motivos
A
B
Documentación A B función
53
Ligand binding
Enoyl-CoA hydratase (rat) cocristallized with
octanoyl-CoA
Tetracycline repressor (E. coli) complexed with
7-chloro-tetracycline
54
Búsqueda de homólogos remotos
Base de datos de secuencias
55
Definición de motivos e investigación de su
significado
Base de datos de proteínas
Base de datos de motivos
Información A,B,C función
Información motivo función
56
Programas
Secuencia ?
Motivo ?
PPsearch
pfsearch
Psi-BLAST
HMMER
Base de datos de motivos
Base de datos de secuencias
pfscan
ScanProsite
57
Formate dehydrogenase
Calmodulin
TATA box binding protein
58
subunit
heptamer
ATP
Molecular chaperonin GroEL
(Dr Jianpeng Ma, Harvard Univ.)
59
En resumen...

Motivos segmentos conservados que se utilizan
para
predicción de función y
detección de homólogos remotos

Pfam HMMs es el sistema más preciso
60
Gracias a
Oswaldo Trelles
Arquitectura de Computadores Universidad de Málaga
Joaquín Dopazo
Bioinformatics Unit CNIO
Alfonso Valencia P.D.G.
Protein Design Group CNB
61
PRÁCTICAS