Titulo titulo, titulo titulo

About This Presentation

Title:

Titulo titulo, titulo titulo

Description:

Muchos genes y prote nas son miembros de familias que tienen funciones ... 1- que tipo de alineamiento hay que ... Clusters are counted as a single sequence. ... – PowerPoint PPT presentation

Number of Views:52

Avg rating:3.0/5.0

Slides: 73

Provided by: osc397

Category:

more less

Transcript and Presenter's Notes

Title: Titulo titulo, titulo titulo

1
Alineamientos de secuencias
2
Para qué hace falta la compoaración de
secuencias?

Bases biológicas
Muchos genes y proteínas son miembros de familias
que tienen funciones biológicas similares o un
origen filogenético común.
Se usa para
Identificar relacciones evolutivas.
Identificar patrones conservados.
en caso de secuencias con funciones desconocidas
encontrar dominios similares en otras proteinas
implica una función similar.

3
Alineamiento de secuencias

Claves
1- que tipo de alineamiento hay que considerar
2- que sistema de puntuacion scoring hay que
usar para clasificar los alineamientos
3- que algoritmos hay que usar para encontrar la
solución óptima (o buena)
4- métodos estadisiticos necesarios para evaluar
la significacion del score de los alineamientos

4
Tipos de comparación de secuencias

Pairwise Alignments
Alineamientos múltiples
Búsquedas en bases de datos

5
Pairwise Sequence Alignment

Principios de la comparación por pares de
secuencias
alineamientos globales / locales
sistemas de puntuación scoring
penalizaciones por GAP
Métodos de pairwise sequence alignment
Basados en deslizamiento de ventanas
window-based
programación dinámica

6
Pairwise Sequence Alignment

Alineamientos globales
Alineamientos locales

7
(Needleman Wunsch) crea alineamientos en toda
la longitud de la secuencia.
Alineamiento Global
Para secuencias que estan muy relaccionadas
8
Alineamiento Global
Dos secuencias con varias regiones de similaridad
1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAA
TTAAAGAGGAGGTAGACCG.... 67

1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAG
CACTAAAGCGTCAGCGAGACCG 70
Con un alineamiento local solo se obtendrá una
similaridad muy baja fragmento azul
9
Alineamiento Local
14 TCAGAAGCAGCTAAAGCGT 32
42 TCAGAAGCA.CTAAAGCGT 59 1
AGGATTGGAATGCT 14 1
AGGATTGGAATGCT 14 39 AGGATTGGAAT 49
1 AGGATTGGAAT 11 62 AGACCG 67
66 AGACCG 71
Alineamiento local encuentra la region que tiene
la mejor similaridad local.
10
Pairwise Sequence Alignment
alfa globina humana
beta-globina
leghemoglobina
Glutonina S-tranferasa nematodos
11
Parámetros a tener en cuenta en el alineamiento
de secuencias

Sistemas de puntuación
A cada par de símbolos se le asigna un valor
numerico
basado en una tabla de comparación de síbolos.
Penalizaciones por Gap
apertura Costo de introducir un gap
Extensión Costo de extender el gap

12
Sistemas de puntuación de secuencias de
nucleótidos
Sequencia 1 Sequencia 2
A G C T A 1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1
Match 1 Mismatch 0 Score 5
13
Sistemas de puntuación de secuencias de
nucleótidos
Sequencia 1 Sequencia 2
Valores negativos que penalizen los mismatches
A T C G A 5 -4 -4 -4 T -4
5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
Matches 5 Mismatches 19 Score 5 x 5 19
(-4) - 51
14
Sistemas de puntuación de secuencias de proteínas
Sequencia 1 Sequencia 2
PTHPLASKTQILPEDLASEDLTI
PTHPLAGERAIGLARLAEEDFGM
C S T P A G N D . . C 9 S -1 4 T -1 1
5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2
0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1
1 6 . .
C S T P A G N D . . C 9 S -1 4 T -1 1
5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2
0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1
1 6 . .
Scoring matrix
TG -2 TT 5 Score 48
210 valores
15
Protein Scoring Systems

Amino acidos tienen diferentes propiedades
bioquímicas y físicas
que pueden influenciar su capacidad de ser
reemplazados en la evolución

tiny
P
aliphatic
C
small
SS
G
G
I
A
S
V
C
N
SH
L
D
T
Y
hydrophobic
M
K
E
Q
F
W
H
R
positive
aromatic
polar
charged
16
Protein Scoring Systems

Las matrices reflejan
Probabilidades de substituciones mutuas
Probabilidad de ocurrencia de un aminoacido
Matrices mas usadas
PAM
BLOSUM

17
PAM (Percent Accepted Mutations) matrices

Derived from global alignments of protein
families .
Family members share at least 85 identity
(Dayhoff et al., 1978).
Construction of phylogenetic tree and ancestral
sequences of each protein family
Computation of number of replacements for each
pair of amino acids

18
PAM (Percent Accepted Mutations) matrices

The numbers of replacements were used to compute
a so-called
PAM-1 matrix.
PAM 1 significa 1 de mutaciones aceptadas, es
decir se utilizaría esta matriz cuando uno
esperara un 1 de substituciones. PAM matrices
para distancias evolucionarias mas grandes se
pueden extrapolar a partir de esta matriz.
PAM250 250 mutaciones por cada 100 residuos.
A mayor número mayor distancia evolutiva.

PAM250 es muy común. a esta distancia evolutiva,
48 de los triptófanos, 41 de las cisteinas y
20 de las histidinas permanecen inalteradas pero
solo 7 de las serinas
19
PAM 250
El valor de un par de aa idénticos representa la
probabilidad de que este aa permanezca inalterado
(e.g. triptófano)
A R N D C Q E G H I L K M F P
S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1
-1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2
6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2
-4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2
-3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1
2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4
-2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6
-5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1
2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2
3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0
-2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1
-3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1
2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2
-2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2
-2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1
-1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4
2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1
0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2
-2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5
-2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P
1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0
-6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1
-1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1
-1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3
-5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3
-5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3
-4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3
0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1
4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2
0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1
2 0 -4 1 1 1 -4 -3 0 5 6
20
BLOSUM (Blocks Substitution Matrix)

Derivada de alineamientos de dominios
pertenecientes aproteinas alejadas en la
evolucion (Henikoff Henikoff,1992).
Contaron la presencia de cada
par de aa en cada columna de cada
bloque de alineamientos.
Los números obtenidos del
análisis de todos los bloques se usaron
para calcular las matrices
de tipo BLOSUM.

A A C E C
A A C E C
A - C 4 A - E 2 C - E 2 A - A 1 C - C
1
21
BLOSUM (Blocks Substitution Matrix)

Las secuencias se clusterizan dentro de un
bloque de acuerdo a su grado de identidad.
Clusters are counted as a single sequence.
Las matrices BLOSUM difieren en el porcentaje
de identidad de secuencias usado para hacer el
clustering
El número de la matriz (e.g. 62 en BLOSUM62) se
refiere al porcentaje máximo de identidad entre
las secuencias utilizado para crear la matriz
Mayores número significan distancias evolutivas
menores.

22
Matrices de substitución Log-odds Ratio
Dado un par de secuencias alineadas queremos
asignar una score que mida el grado de
posibilidad likelihood, de que las secuencias
estan relaccionadas
x,y amino acids (A,C......Y) P likelyhood i
1....n (longitud de la secuencia n) q
probabilidad
P(x,yR) ?qx ?qy
Random model (unrelated)
i
i
i
i
P(x,yM) ?px y
Match model (related)
i
i
i
?px y
px y
P(x,yM)P(x,yR)
?
i
i
i
related unrelated
i
i

Odds ratio
?qx ?qy
qx qy
i
i
i
i
i
i
i
pab
?
where s(a,b) log
S s(xi,yi)
Log-odds ratio
qa qb
i
s(a,b) is the log likelyhood ratio of the residue
pair (a,b) occurring as an aligned pair, as
opposed to an unaligned pair.
23
Como escoger la matriz adecuada

Generally, BLOSUM matrices perform better than
PAM matrices for local similarity searches
(Henikoff Henikoff, 1993).
When comparing closely related proteins one
should use lower PAM or higher BLOSUM matrices,
for distantly related proteins higher PAM or
lower BLOSUM matrices.
For database searching the commonly used matrix
is BLOSUM62.

24
Como puntuar inserciones y delecciones
A T G T A A T G C A
T A T G T G G A A T G A
A T G T - - A A T G C A
T A T G T G G A A T G A
insertion / deletion
La creación de un gap se penaliza con un score
negativo.
25
Gap Penalties

Un alineamiento optimo
maximiza el numero de matches
minimiza el número de gaps
Permitir la inserción arbitraria de muchos gaps
puede dar lugar a scores altos entre secuencias
no homologas.
La penalización de los gaps fuerza a los
alineamientos a alcanzar los criterios optimos

26
Gap Penalties
Linear gap penalty score ?(g) - gd Affine
gap penalty score ?(g) -d - (g -1)e
?(g) gap penalty score of a gap of lenght g
d gap opening penalty e gap extension
penalty g gap lenght
27
Scoring Insertions and Deletions
match 1 mismatch 0
Total Score 4
Total Score 8 - 3.2 4.8
A T G T - - - T A T A C
Gap parameters d 3 (gap opening) e 0.1 (gap
extension) g 3 (gap lenght) ?(g) -d - (g
-1)e ?(g) -3 - (3 -1) 0.1 -3.2
T A T G T G C G T A T A
insertion / deletion
28
Pairwise Sequence Alignment

Principios de la comparación por pares de
secuencias
alineamientos globales / locales
sistemas de puntuación scoring
penalizaciones por GAP
Métodos de pairwise sequence alignment
Basados en deslizamiento de ventanas
window-based
programación dinámica

29
Pairwise Sequence Alignment
A T T C A C A T A T A C A T T A
C G T A C
Sequence 2
Sequence 1
30
Dotplot
A dotplot da una visión general del alineamiento
A ? ? ? ? T ? ? ? ?
T ? ? ? ? C ? ? ? A ? ?
? ? C ? ? ? A ? ? ? ?
T ? ? ? ? A ? ? ? ?
T A C A T T A C G T A C
Sequence 2
Sequence 1
31
Dotplot
Cada diagonal en elgráfico corresponde a un
posible alineamiento sin gap entre las dos
secuencias
A ? ? ? ? T ? ? ? ?
T ? ? ? ? C ? ? ? A ? ?
? ? C ? ? ? A ? ? ? ?
T ? ? ? ? A ? ? ? ?
T A C A T T A C G T A C
Sequence 2
Sequence 1
T A C A T T A C G T A C A T A C A C T
T A
One possible alignment
32
Pairwise Sequence Alignment

Principios de la comparación por pares de
secuencias
alineamientos globales / locales
sistemas de puntuación scoring
penalizaciones por GAP
Métodos de pairwise sequence alignment
Basados en deslizamiento de ventanas
window-based
programación dinámica

33
Window-based Approaches

Word Size
Window / Stringency

34
Word Size Algorithm
T A C G G T A T G A C A G T A T C
Word Size 3
C T A T
? G A
C A T A C G G T A T G
T A C G G T A T G A C A G T A T C
T A C G G T A T G A C A G T A T C
T A C G G T A T G A C A G T A T C
?
35
Window / Stringency
Window 5 / Stringency 4
T A C G G T A T G T C A G T A T C
C T A ? T
? G ? A CA
T A C G G T A T G
T A C G G T A T G T C A G T A T C
?
T A C G G T A T G T C A G T A T C
?
T A C G G T A T G T C A G T A T C
?
36
Considerations

The window/stringency method is more sensitive
than the wordsize
method (ambiguities are permitted).
The smaller the window, the larger the weight of
statistical
(unspecific) matches.
With large windows the sensitivity for short
sequences is reduced.
Insertions/deletions are not treated explicitly.

37
Insertions / Deletions in a Dotplot
T A C T G T C A T T A C T G T T C A T
Sequence 2
Sequence 1
T A C T G - T C A T T A C T G
T T C A T
38
Dotplot (Window 130 / Stringency 9)
Hemoglobin?-chain
Hemoglobin ?-chain
39
Dotplot (Window 18 / Stringency 10)
Hemoglobin?-chain
Hemoglobin ?-chain
40
Pairwise Sequence Alignment

Principles of pairwise sequence comparison
global / local alignments
scoring systems
gap penalties
Methods of pairwise sequence alignment
window-based approaches
dynamic programming approaches
Needleman and Wunsch
Smith and Waterman

41
Dynamic Programming
Procedimiento automático que encuentra el mejor
alineamiento con un score óptimo dependiendo de
los parámetros elegidos.
Soluciones recursivas. Los problemas pequeños
se solucionan primero y las soluciones se usan
para resolver problemas mayores despues. Las
soluciones intermedias se almacenan en matrices
tabulares.
42
Principios básicos de la programación dinámica

Initialization of alignment matrix the scoring
model
- Stepwise calculation of score values
(creation of an alignment path matrix)
- Backtracking (evaluation of the optimal path)

43
Initialization of Matrix (BLOSUM 50)
H E A G A W G H E E
P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A
-2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3
-3 -3 -3 15 -3 -3 -3 -3 H 10 0 -2
-2 -2 -3 -2 10 0 0 E 0 6 -1 -3
-1 -3 -3 0 6 6 A -2 -1 5 0 5 -3
0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3
0 6 6
44
Needleman and Wunsch (global alignment)
Sequence 1 H E A G A W G H E E Sequence 2 P A
W H E A E Scoring parameters BLOSUM50
matrix Gap penalty Linear gap penalty of 8
45
Creation of an alignment path matrix
IdeaCrear un alineamiento global optimo usando
soluciones precias para alineamientos optimos de
subsecuencias más pequeñas.

Construct matrix F indexed by i and j (one index
for each sequence)
F(i,j) es el score para el mejor alineamiento
entre el segmento inicial x1...i de x hasta xi y
el segmento inicial y1...j de y hasta yj
construir F(i,j) de forma recursiva empezando
con F(0,0) 0

- A
E E
H H
G -
W W
A A
G -
A P
E -
H -
Optimal global alignment
46
Creation of an alignment path matrix
F(i, j) F(i-1, j-1) s(xi ,yj) F(i, j)
max F(i, j) F(i-1, j) - d F(i, j) F(i,
j-1) - d
F(i-1, j-1) F(i, j-1) F(i-1,j) F(i, j)
HEAGAWGHE-E --P-AW-HEAE
s(xi ,yj)
-d
-d
47
Creation of an alignment path matrix

If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we
can calculate F(i,j)
Three possibilities
xi and yj are aligned, F(i,j) F(i-1,j-1)
s(xi ,yj)
xi is aligned to a gap, F(i,j) F(i-1,j) - d
yj is aligned to a gap, F(i,j) F(i,j-1) - d
The best score up to (i,j) will be the largest of
the three options

48
Creation of an alignment path matrix
H E A G A W G H
E E 0 P A W H E A E
-8 -16 -24 -32 -40 -48 -56 -64 -72 -80
-8 -16 -24 -32 -40 -48 -56
Boundary conditions F(i, 0) -i d
F(j, 0) -j d
49
Stepwise calculation of score values
H E A G A W G H
E E 0 -8 -16 -24 -32 -40 -48
-56 -64 -72 -80 P
-8 A -16 W -24 H -32 E -40 A -48
E -56
P-H-2 E-P-1 H-A-2 E-A-1
-2
-9
-10
-3
50
Backtracking
H E A G A W G H
E E 0 -8 -16 -24 -32 -40 -48
-56 -64 -72 -80 P
-8 -2 -9 -17 -25 -33 -42 -49 -57 -65
-73 A -16 -10 -3 -4 -12 -20 -28 -36
-44 -52 -60 W -24 -18 -11 -6 -7 -15
-5 -13 -21 -29 -37 H -32 -14 -18 -13
-8 -9 -13 -7 -3 -11 -19 E -40 -22
-8 -16 -16 -9 -12 -15 -7 3 -5 A -48
-30 -16 -3 -11 -11 -12 -12 -15 -5
2 E -56 -38 -24 -11 -6 -12 -14 -15
-12 -9 1
0
-8
-16
-25
-17
-20
-5
-13
-3
3
-5
1
- A
E E
H H
G -
W W
A A
G -
A P
E -
H -
Optimal global alignment
51
Smith and Waterman(local alignment)
Two differences 1. 2. An alignment can now
end anywhere in the matrix
0 F(i, j) F(i-1, j-1) s(xi ,yj) F(i,
j) F(i-1, j) - d F(i, j) F(i, j-1) - d
F(i, j) max
Example Sequence 1 H E A G A W G H E E Sequence
2 P A W H E A E Scoring parameters Log-odds
ratiosGap penalty Linear gap penalty of 8
52
Smith Waterman alignment
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 0 0 A
0 0 0 5 0 5 0 0 0 0
0 W 0 0 0 0 2 0 20 12
4 0 0 H 0 10 2 0 0 0 12
18 22 14 6 E 0 2 16 8 0
0 4 10 18 28 20 A 0 0 8
21 13 5 0 4 10 20 27 E 0 0
6 13 18 12 4 0 4 16 26
0
5
20
12
22
28
AA
G-
HH
WW
Optimal local alignment
53
Extended Smith Waterman

To get multiple local alignments
delete regions around best path
repeat backtracking

54
Extended Smith Waterman
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 A 0
0 0 5 0 0 0 0 0
0 W 0 0 0 0 2 0
0 0 H 0 10 2 0 0 0 E 0
2 16 8 0 0 A 0 0 8 21
13 5 0 E 0 0 6 13 18 12 4
0
55
Extended Smith Waterman
H E A G A W G H
E E 0 0 0 0 0 0 0 0
0 0 0 P 0
0 0 0 0 0 0 0 0 0 A
0 0 0 5 0 0 0 0 0
0 W 0 0 0 0 2 0
0 0 H 0 10 2 0 0 0 E 0
2 16 8 0 0 A 0 0 8 21
13 5 0 E 0 0 6 13 18 12 4
0
0
10
16
21
H H
EE
Second best local alignment
56
Further Extensions of Dynamic Programming

Overlap matches
Alignment with affine gap scores

57
Pairwise Sequence Alignment

Pairwise sequence comparison
global / local alignments
parameters
scoring systems
insertions / deletions
Methods of pairwise sequence alignment
dotplot
windows-based methods
dynamic programming
algorithm complexity

58
End.of.pa.irwise..sequence
align.ment.cours.e
59
Methods of Pairwise Comparison
Progressive Alignment step
Multiple Alignment
1.
Programs perform global alignments

Needleman Wunsch (Pileup, Tree, Clustal)
Word Size Method (Clustal)
X. Huang (MAlign)
(modified N-W)

60
Construction of a Guide Tree
Progressive Alignment step
Multiple Alignment
2.
1 2 3 4 5
Sequence
1 2 3 4 5
Similarity Matrix displays scores of all
sequence pairs.
The similarity matrix is transformed into
a distance matrix . . . . .
61
Construction of a Guide Tree
Progressive Alignment step
Multiple Alignment
2.
Guide Tree
1
5
Distance Matrix
2
3
4
Neighbour-Joining Method or UPGMA (unweighted
pair group method of arithmetic averages)
62
Multiple Alignment
Progressive Alignment step
Multiple Alignment
3.
Guide Tree
1
5
2
3
2
4
1
63
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - C A G G T T - C G C C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
64
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - C A G G T T - C G C C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
. . . . and new gaps are inserted.
65
Columns - once aligned - are never changed
Progressive Alignment step
Multiple Alignment
3.
G T C C G - - C A G G T T - C G C - C - G G
G T C C G - - C A G G T T - C G C - C - G G
T T A C T T C C A G G
T T A C T T C C A G G
A T C - T - - C A A T C T G - T C C C T A G
A T C T - - C A A T C T G T C C C T A G
66
Sub-sequence alignments
67
A K-means like clustering problem
68
Clustering resulting model
69
Clustering predictions
70
Assignments

Describe a pairwise alignment with a different
gap penalization.
Provide an example and perform a multiple global
alignment. Describe the recipe.
Provide an example and perform a multiple
alignment of subsequences. Describe the recipe.
Algorithms Order (polynomial, exponential, NP)

71
Algorithmic Complexity
How does an algorithms performance in CPU time
and required memory storage scale with the size
of the problem?

Needleman Wunsch
Storing (n1)x(m1) numbers
Each number costs a constant number of
calculations to compute (three sums and a max)
Algorithm takes O(nm) memory and O(nm) time
Since n and m are usually comparable O(n2)

72
Gracias porsu atención
http//www.m4m.es

Write a Comment

User Comments (0)