Title: Mtodos de Verosimilitud
1Métodos de Verosimilitud
Tania Hernández. Basado en James McInerney This
presentation is based almost entirely on Peter G.
Fosters - "The Idiots Guide to the Zen of
Likelihood in a Nutshell in Seven Days for
Dummies, Unleashed.http//www.bioinf.org/molsys/d
ata/idiots.pdf
2Ziheng Yang Department of Biology University
College London
Joe Felsenstein Department of Genetics,
University of Washington
Bruce Rannala Department Medical Genetics
University of Alberta
John Huelsenbeck Section of Ecology, Behavoir and
Evolution, University of California, San Diego
Nick Goldman EBI. European Bioinformatics
Institute
3 TODOS los métodos en sistemática molecular por
necesidad, asumen un modelo de sustitución para
las secuencias, pues hacen supuestos generales
acerca del proceso evolutivo
4- Métodos basados en verosimilitud
- Tienen un modelo probabilistico explicito
- Tienen importantes bases y soporte estadÃstico
- Buscan parámetros para obtener la respuesta más
probable
5- Maxima Verosimilitud (ML)
- También podria ser llamada Máxima Probabilidad
- Ha sido un método adoptado de manera muy lenta
por la comunidad cientÃfica, lo cual tiene que
ver con la dificultad de entender la base teórica
y con la falta de software adecuado - También resultaba impráctico por los tiempos
computacionales al hacer los calculos para muchos
datos - Recientemente, el desarrollo de mejores
computadoras, mejor software, mejores modelos y
mayor dibulgación de la teorÃa hacen que ML se
convierta en el método de elección. - Popularizado principalmente por Joseph
Felsenstein (Seattle, Washington)
6En general La verosimilitud es la probabilidad
de los datos dado un modelo. En sistemática se
puede decir que el árbol es parte del modelo,
entonces La verosimilitud es la probabilidad de
mis secuencias alineadas dado el modelo de
sustitución postulado y el árbol
Probabilidad de
dados
7Es decir, verosimilitud es Pr ( D H )
8 es decir, se busca el modelo y las longitudes
de ramas que maximicen la verosimilitud
(probabilidad) de mis datos
Long. ramas
9Verosimilitud en sistemática moleculargt
Diferentes tasas de evolución en diferentes
linajesLos modelos toman en cuenta las
diferentes longitudes de las ramas del árbol. gt
Los modelos son EXPLICITOS y no estan
escondidos(falsabilidad) gt Puedes buscar el
modelo que ajuste mejor a tus datos.gt Es un
método eficiente y poderoso. Utiliza todos los
datos considerando todas las posibilidades de
cambio.
10Verosimilitud otras ventajas - Gran facilidad
para formular y probar hipótesis - Proveen de una
manera de falsear los supuestos - Permiten
estimar la confianza en las filogenias obtenidas
y proveen herramientas para probar las hipótesis
filogenéticas con solidas bases estadÃsticas -
son métodos consistentes
11ML permite la inferencia de árboles filogenéticos
usando modelos evolutivos complejos - incluyendo
la habilidad de estimar los parámetros del modelo
y hacer inferencias de manera simultánea acerca
de los patrones y procesos de evolución - y
permite comparar diferentes modelos.
12Cuál es la probabilidad de observar un dato?
- Si tiramos un volado y obtenemos águila, y
pensamos que la moneda no esta cargada, entonces
la probabilidad de observar águila es de 0.5 - Si pensamos que la moneda esta cargada de manera
tal que esperamos que salga águila en un 80 de
veces, entonces la verosimilitud de observar ese
dato (águila) es 0.8 - Entonces La verosimilitud de hacer alguna
observación es enteramente dependiente del modelo
asumido.
Ojo El dato no ha cambiado, pero nuestro modelo
si. Entonces bajo el nuevo modelo, la
verosimilitud de observar el dato ha cambiado
p
?
13Cuál es la probabilidad de observar el
nucleótido 'G' ?
- Pregunta Si tenemos una secuencia de DNA de UN
nucleótido de largo. Y la identidad de ese
nucleótido es G, cuál es la verosimilitud de
observar ese G? - Respuesta Al igual que en el experimento del
volado, la verosimilitud de observar esa G
depende de el modelo de evolución de DNA que
pensamos que subyace a nuestros datos. - E.g.
- Model 1 frequency of G 0.4 gt likelihood(G)
0.4 - Model 2 frequency of G 0.1 gt likelihood(G)
0.1 - Model 3 frequency of G 0.25 gt likelihood(G)
0.25
14la regla de 1.
- La suma de las verosimilitudes para todas las
posibilidades siempre será igual a 1 - E.g. for DNA p(a)p(c)p(g)p(t)1
15Para secuenicas más largas
- Si consideramos un gen de longitud 2
- Gene 1 ga
- La probabilidad de observar ese gen es el
PRODUCTO de las probabilidades de observar cada
caracter. - E.g
- p(g) 0.4 p(a)0.15 (for instance)
- likelihood(ga) 0.4 x 0.15 0.06
16para secuencias aun más largas
- Gene 1 gactagctagacagatacgaattac
- Model (simple base frequency model)
- p(a)0.15 p(c)0.2 p(g)0.4 p(t)0.25
- (the sum of all probabilities must equal 1)
- Like(Gene 1) 0.000000000000000018452813
17Importancia del modelo
- Noten que el modelo que utilizamos anteriormente
de frecuenica de nucleótidos no es el óptimo. De
haber usado el siguiente modelo - p(a)0.4 p(c) 0.2 p(g) 0.2 p(t) 0.2
- La verosimilitud de observar el gen serÃa
- Like(gene 1) 0.000000000000335544320000
- (a value that is almost 10,000 times higher)
Ojo El dato no ha cambiado, pero nuestro modelo
si. Bajo el nuevo modelo la verosimilitud de
observar el dato ha cambiado.
18Para hacer filogenias moleculares
- Consider an alignment of two sequences
- Gene 1 gaac
- Gene 2 gacc
- We assume these genes are related by a (simple)
phylogenetic tree with branch lengths.
19Se incrementa la complejidad del modelo
- No es suficiente con solo considerar las
frecuencias de las bases. Debemos incluir el
MECANISMO DE CAMBIO Y ESTASIS. - Hay dos partes en el modelo -el árbol y el
proceso (ambos son parte del modelo).
Nota segiremos llamando modelo al proceso de
cambio para evitar confusión
20Modelos de sustituciónMatrices de probabilidad
de cambioVector de frecuencias
21Considerando el modelo simple reversible en el
tiempo
- A simple model is that the rate of change from a
to c or vice versa is 0.4, the composition of a
is 0.25 and the composition of c is 0.25 (a
simplified version of the Jukes and Cantor 1969
model)
P
22Para obtener la probabilidad de el tercer
nucleótido en nuestra alineación
- p(a) 0.25 p(c) 0.25
- Comenzando con a, la verosimilitud de el
nucleótido es 0.25, y la verosimilitud de la
sustitución (la rama o el proceso) es 0.4. La
verosimilitud de observar el dato serÃa - Likelihood(DM) 0.25 x 0.4 0.01
Nota obtendrás el mismo resultado si empezaras
con c, ya que el modelo es reversible.
The verosimilitud de los datos dado el modelo.
23Matrices de sustitución
- Para nucleótidos hay 16 posibles maneras de
describir los cambios, en una matriz de 4x4
Por convención, el orden de los nucleótidos es a,
c, g, t.
Nota para amino ácidos la matriz serÃa de 20x20
y para modelos basados en codones serÃa de 61x61.
24Matrices de sustitución. Un ejemplo
- In this matrix, the probability of an a changing
to a c is 0.01 and the probability of a c
remaining the same is 0.983, etc.
Nota Las filas de esta matriz suman 1, lo cual
significa que para cada nucleótido, hemos
cubierto todas las posibilidades de que que
ocurra caobio (o no ocurra). Las columnas no
suman a nada en particular.
25Para calcular la verosimilitud de un set completo
de datos, dada una matriz de sustitución, la
composición de bases y la longitud de la ramas
para una cierta distancia evolutiva (o una
unidad ced)
Gene 1 ccat Gene 2 ccgt
Verosimilitud de dado
p0.1,0.4,0.2,0.3
26Verosimilitud para alineación de dos secuencias
0.4x0.983x0.4x0.983x0.1x0.007x0.3x0.979 0.000030
0
La verosimilitud de ir de la primera a la segunda
secuencia es de 0.0000300
27Diferentes longitudes de las ramas
- Para ramas muy cortas, la probabilidad de que el
carácter permanezca igual es ALTA, y la
probabilidad de cambio es BAJA (para nuestra
matriz particular). - Para ramas más largas, la probabilidad de que el
carácter cambie se hace ALTA, y la probabilidad
de que permanezca igual es BAJA. - Los cálculos anteriores se basan en el supuesto
de que la longitud de la rama describe CIERTA
DISTANCIA EVOLUTIVA (CED) - Si queremos considerar una rama del DOBLE DE
LARGO (o sea dos CEDs), multiplicamos la matriz
de sustitución por si misma una vez (matriz2).
282 CED model
X
Which gives a likelihood of 0.0000559
Note the higher likelihood, la anerior 0.00003
29Para 3 CED
This gives a likelihood of 0.0000782
Noten que mientras la longitud de la rama se
incrementa, los valores de la diagonal decrecen y
los valores fuera de la diagonal aumentan.
30Para valores mayores de unidades CED
Likelihood
1 0.0000300 2 0.0000559 3 0.0000782 10 0.000162
0 15 0.0001770 20 0.0001750 30 0.0001520
Branch Length
31Si elevamos P a valores mucho mayores
- Si elevamos P a valores muy altos, encntramos que
la composición de ML alcanza p. - De manera tal que la composición nucleotidica
esta contenida dentro de la matriz de
probabilidad.
32Matrices de tasas
This does make sense doesnt it??
Consideren la siguiente ecuación
- De la misma manera, elevar una matriz a una
potencia puede calcularse también tomando el log
de la matriz, multiplicarlo por la longitud de la
rama y tomar el exponente del producto. - De esta forma, puedes exponenciar la matriz a un
número que no sea entero (e.g. 4.5698 o lo que
sea) - E.g. The log of the previous matrix, P is
Noten que la suma de cada fila es cero.
33- Esta matriz corresponde a una CED. Lo que
queremos es derivar la matriz de manera tal que
cuando la exponenciemos, los valores correspondan
a sustituciones por sitio (tasas de cambio) - Entonces debemos escalar logP de manera tal
que cuando las filas de logP sean multiplicadas
por los elementos fuera de la diagonal
sumen 1. - La resultante matriz escalada logP (que se llama
Q), cuando tomamos su exponente nos da una P
correspondiente a 1 sustitución por sitio.
34Convirtiendo a sustituciones por sitio.
- Para una longitud de rama con valor v
- Si escalamos logP apropiadamente, obtendremos la
matriz Q. Si multiplicamos la matriz Q por el
vector de frecuencias, obtenemos una matriz donde
los elementos fuera de la diagonal suman 1 y en
la diagonal suman -1.
35Scaling logP appropriately.
LogP scaled by a factor of 50 (for instance)
Off-diagonal elements sum to 1, diagonal elements
sum to -1
(diagonal matrix of the composition)
Ps generated from this Q will give branch
lengths in substitutions per site.
36Separando la composición de las tasas.
- Si dividimos las columnas de Q por el vector de
frecuencias , entonces separamos la
composición de las tasas de cambio. De esta forma
se puede usar la misma matriz de tasas con
diferentes matrices de composición de bases. - Para el modelo que hemos estado usando, la matriz
de tasas R es - Los elementos de la diagonal no importan. El
modelo es simétrico (reversible en el tiempo).
37Relationships between R, Q and P matrices.
Multiply columns by the composition, scale so
that the off-diagonals of sum to 1
Multiply by branch length, then exponentiate
R
Q
P
Log, then scale so that off-diagonals of sum
to 1
Divide columns by the composition
38Likelihood of the alignment at various branch
lengths
The maximum likelihood value is 0.0001777 at a
branch length of 0.330614
39Verosimilitud para un árbol de dos ramas
Para la matriz Q anterior, suponga que las
matrices P correspondientes a 0.1, 0.2 y 0.3
sustituciones por sitio son
40Verosimilitud para un árbol de dos ramas
A
0.1
O
0.2
B
- O Es el origen o raÃz. Los números represental
longitudes de las ramas. La verosimilitud puede
ser calculada de tres maneras distintas - de A a B en un paso (como el método anterior)
- de A a B en dos pasos (pasando por O)
- en dos partes empezando en O.
41Acerca de O
- O es una secuencia desconocida.
- Solo podemos especular sobre el estado que podrÃa
tener el caracter en O - Entonces debemos sumar las verosimilitudes para
todas las posibilidades en O - Lo cual es computacionalmente costoso.
c
A
0.1
0.1
a,c,g,t
O
For position 1
0.2
0.2
c
B
42Modo 1. De A a B en un paso. Se hace de la misma
manera que el cálculo para 1 rama. La
probabilidad de A a O usando la matriz P(0.3) es
la suma de las 4 posibilidades
c
0.1
a,c,g,t
0.2
c
43Modo 2. De A a B en dos pasos. Obtenemos primero
la probabilidad de A a O usando la matriz P(0.1)
es la suma de las 4 posibilidades
c
0.1
a,c,g,t
0.2
c
44Ahora adicionamos la segunda rama, de O a B. Ya
no necesitamos poner los términos de frecuencia,
por que ya los introdujimos anteriormente. Usamos
la matriz P(0.2)
c
0.1
a,c,g,t
0.2
c
Y lo mismo se hace para todos los demás sitios
nos da la misma verosimilitud, 0.000177.
45Modo 3. En dos partes empezando en O. Sumamos
todas las probabilidades para las cuatro
posibilidades. La verosimilitud para la primer
posición serÃa Y asi para todos los
sitios.
c
0.1
a,c,g,t
0.2
c
46- Verosimilitud
- CONCLUSIONES
- Tienen un modelo probabilistico explicito de
evolución de secuencias. - Consideran diferencias en las tasas de evolución
en diferentes linajes (diferentes longitudes de
las ramas del árbol). - Gran facilidad para formular y probar hipótesis.
Proveen de una manera de falsear los supuestos - Tienen importantes bases y soporte estadÃstico
- Buscan parámetros para obtener la respuesta más
probable - Es un método estadÃstico consistente
- Es un método estadÃstico poderoso. Utiliza todos
los datos considerando todas las posibilidades de
cambio - Permite la inferencia de árboles filogenéticos
usando modelos evolutivos complejos
47(No Transcript)
48La muestra consiste de n vectores (tantos
vectores como sitios en la secuencia) con los
elementos de cada vector denotando el estado del
nucleotido i en cada sitio de las diferentes
secuencias. Hay un total de patrones
de sitios para s especies Por ejemplo, la
siguiente matriz Tiene
patrones de sitios posibles.
49(No Transcript)
50(No Transcript)
51(No Transcript)
52(No Transcript)