Title: ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
1ALINEAMIENTO MULTIPLEMETODOS ALTERNATIVOS
- Grace Velapatiño
- María Jesús Olarte
- Sofía Espinoza
- Jimena Murguía
2Alineamiento de dos secuencias - mismo principio
- alineamiento múltiple
Alinear óptimamente las secuencias para obtener
el mayor numero de caracteres similares dentro de
la misma columna del alineamiento
3Métodos usados para alineamiento múltiple
- Alineamiento global progresivo de las secuencias
- comienzan con un alineamiento de las secuencias
mas parecidas y luego construyen un alineamiento
adicionando mas secuencias. ( CLUSTAL) - Métodos iterativos que se basan en hacer un
alineamiento inicial de grupos de secuencias y
luego revisan los alineamientos para lograr un
resultado mas razonable.( DIALING) - Métodos estadísticos y modelos probabilísticos de
las secuencias.( modelos de Markov) - Alineamientos basados en patrones conservados
encontrados en el mismo orden en las secuencias.
4Método progresivo
Hay tres etapas importantes 1.Hacer un
alineamiento por pares 2.Crear un árbol
filogenetico 3.Usar el árbol filogenético para
llevar a cabo el alineamiento múltiple
5Principales problemas
- Dependencia de los alineamientos de los pares
iniciales utilizados. - Escoger una matriz adecuada y penalidad de gaps.
6METODOS ITERATIVOS
7- Repetitivo Instrucciones ejecutadas múltiples
veces, genera aproximaciones sucesivas a una
solución
- Realinear repetidamente subgrupos de las
secuencias y luego alinear éstos en un
alineamiento global de todas las secuencias
- Objetivo Mejorar el score general del
alineamiento (Suma de pares)
Orden de las secuencias en un árbol filogenético
Secuencia separadas
Selección aleatoria
- Programas PRRP, DIALIGN, SAGA, etc.
8Algoritmo Genético
Mediante rearreglos
Score cada vez más alto para el AM
- Simulación de los cambios evolutivos en
secuencias.
- Programa SAGA (Sequence Alignment by Genetic
Algorithm)
Población grupo de secuencias alineadas Fitness
score Generación grupo de alineamientos
resultantes de cambios en el grupo inicial o
anterior Operadores genéticos mutaciones
(inserciones gaps) y recombinación (rearreglos)
9Pasos del algoritmo
Población inicial
Se pone a prueba el fitness de cada individuo
Terminación Se alcanzó número máximo de
generaciones o fitness satisfactorio
Individuos con el mejor fitness son seleccionados
Son modificados
Mutación
Recombinación
Nueva población
10Pasos del algoritmo
Población de msa
Score1
Score2
Score3
Score4
Fitness
Se determina un score para cada msa
msas con los mejores scores
Inserción de gaps
Los demás msas
Mutación
Directamente a siguiente generación
Mover bloques de gaps
Siguiente generación
Recombinación
Condiciones de terminación
Nueva población
Nuevos msa
11Modelo Oculto de Markov (HHM)
12Modelo oculto de Markov (HMM)
Modelo estadístico que asume que el sistema a
modelar sigue un PROCESO DE MARKOV de parámetros
desconocidos ? dependencia del evento
anterior OBJETIVO ? determinar los parámetros
desconocidos (ocultos) a partir de parámetros
observables.
13- En el modelo de Markov normal los estados son
visibles. (a son los únicos parámetros)
- En el HMM el estado no es visible más sí las
variables influidas por el estado. - Cada estado tiene una distribución de
probabilidad sobre los posibles símbolos de
salida.
14HMM en el MSA
- Método que considera todas las posibles
combinaciones de matches, mismatches, gaps y las
transiciones para generar un alineamiento de un
conjunto se secuencias. - HMM aparte de ser utilizado para MSA también se
utiliza para analizar la composición de
secuencias, para localizar genes prediciendo ORF
y para producir predicciones de estructuras
secundarias de proteínas.
15En los términos de un típico modelo oculto de
Markov Estados observables ? columnas
individuales del alineamiento A C A -
- - A T G T C A A C T A T C A C A C
- - A G C A G A - - - A T C A C C G
- - A T C Estados ocultos ? la supuesta
secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han
descendido. El éxito de un HMM depende de tener
un buen modelo a priori.
- Cada columna es un estado - Contar el número
de bases en cada columna (probabilidades)
16Algoritmos asociados a HMM
El HMM comienza con un alineamiento al azar ?
construye un modelo ? mejora las probabilidades
en base a un entrenamiento iterativo ? se detiene
cuando los alineamientos no cambian.
EL algoritmo avance-retroceso reduce la
complejidad de encontrar todos los posibles
caminos para alinear las secuencias.
ALGORITMO DE AVANCE - RETROCESO
17Algoritmos asociados a HMM
El algoritmo de ViIterbi se usa para alinear
sucesivamente el MSA en crecimiento con la
siguiente secuencia del conjunto problema para
generar un nuevo MSA. ( DIFERENTE a MDAP).
ALGORITMO DE VITERBI
El algoritmo de Baum-Welch utiliza una técnica
iterativa que utiliza las probabilidades de
transición y emisión para generar un nuevo modelo
de HMM. (el proceso se repite hasta que no
obtenga mejora en el modelo)
ALGORITMO DE BAUM-WELCH
18- SOFTWARE
- HMMer realiza alineamiento de secuencias y
búsqueda en bases de datos. - SAM (Sequence Alignment and Modeling System,
sistema de alineamiento y modelado de secuencia). - SAM se ha usado como una fuente de alineamientos
para predicción de estructura de proteínas y para
desarrollar una base de datos de proteínas
predichas en la especie de levadura S. Cerevisiae
- Ventajas
- Usualmente un HHM arroja un MSA bueno.
- Es un método fundamentado por la teoría de la
probabilidad - No se requiere de un orden en las secuencias
- Las penalidades de inserción y deleción no son
necesarias. - Se puede utilizar información experimental
- Desventajas
- Se necesitan al menos 20 secuencias (si no más)
para poder acomodar la historia evolutiva.
19ALINEAMIENTOS LOCALIZADOS DE SECUENCIAS (motif
finding)
20Alineamientos Localizados de Secuencias (motif
finding)
- Localización de motivos en MSA globales.
-
- Dependiendo de si las regiones altamente
conservadas (motivos) contienen o no gaps - Profile Analysis (regiones con gaps)
- Block Analysis (sin gaps)
21- Profile Analysis (regiones con gaps)
- Se genera matriz, similar a una de sustitución,
denominada perfil (profile)
Buscar otras secuencias con motivos similares
(otros miembros de la misma familia???)
Para refinar los alineamientos múltiples de
secuencias (MSAs), mejorándolos.
22- Blocks Analysis (sin gaps)
- Los bloques se pueden generar desde un MSA o
pueden ser extraídos de secuencias sin alinear
usando un conjunto precalculado de motivos
previamente generado a partir de familias
conocidas de genes para lo cual se han
desarrollado métodos estadísticos de
descubrimiento de patrones (ej algoritmo
expectación-maximización, el muestreo de Gibbs,
HMM, etc). - La puntuación de los bloques depende generalmente
del espaciado de los caracteres con altas
frecuencias, en lugar de recaer sobre el cálculo
de una matriz de sustitución explícita. - Utilidad Alineamientos basados en patrones
localmente conservados