Mtodos de Verosimilitud - PowerPoint PPT Presentation

1 / 52
About This Presentation
Title:

Mtodos de Verosimilitud

Description:

La verosimilitud es la probabilidad de los datos dado un modelo. ... Verosimilitud de dado. Verosimilitud para alineaci n de dos secuencias. ccat. ccgt ... – PowerPoint PPT presentation

Number of Views:77
Avg rating:3.0/5.0
Slides: 53
Provided by: elenaalva
Category:

less

Transcript and Presenter's Notes

Title: Mtodos de Verosimilitud


1
Métodos de Verosimilitud
Tania Hernández. Basado en James McInerney This
presentation is based almost entirely on Peter G.
Fosters - "The Idiots Guide to the Zen of
Likelihood in a Nutshell in Seven Days for
Dummies, Unleashed.http//www.bioinf.org/molsys/d
ata/idiots.pdf
2
Ziheng Yang Department of Biology University
College London
Joe Felsenstein Department of Genetics,
University of Washington
Bruce Rannala Department Medical Genetics
University of Alberta
John Huelsenbeck Section of Ecology, Behavoir and
Evolution, University of California, San Diego
Nick Goldman EBI. European Bioinformatics
Institute
3
TODOS los métodos en sistemática molecular por
necesidad, asumen un modelo de sustitución para
las secuencias, pues hacen supuestos generales
acerca del proceso evolutivo
4
  • Métodos basados en verosimilitud
  • Tienen un modelo probabilistico explicito
  • Tienen importantes bases y soporte estadístico
  • Buscan parámetros para obtener la respuesta más
    probable

5
  • Maxima Verosimilitud (ML)
  • También podria ser llamada Máxima Probabilidad
  • Ha sido un método adoptado de manera muy lenta
    por la comunidad científica, lo cual tiene que
    ver con la dificultad de entender la base teórica
    y con la falta de software adecuado
  • También resultaba impráctico por los tiempos
    computacionales al hacer los calculos para muchos
    datos
  • Recientemente, el desarrollo de mejores
    computadoras, mejor software, mejores modelos y
    mayor dibulgación de la teoría hacen que ML se
    convierta en el método de elección.
  • Popularizado principalmente por Joseph
    Felsenstein (Seattle, Washington)

6
En general La verosimilitud es la probabilidad
de los datos dado un modelo. En sistemática se
puede decir que el árbol es parte del modelo,
entonces La verosimilitud es la probabilidad de
mis secuencias alineadas dado el modelo de
sustitución postulado y el árbol
Probabilidad de
dados
7
Es decir, verosimilitud es Pr ( D H )
8
es decir, se busca el modelo y las longitudes
de ramas que maximicen la verosimilitud
(probabilidad) de mis datos
Long. ramas
9
Verosimilitud en sistemática moleculargt
Diferentes tasas de evolución en diferentes
linajesLos modelos toman en cuenta las
diferentes longitudes de las ramas del árbol. gt
Los modelos son EXPLICITOS y no estan
escondidos(falsabilidad) gt Puedes buscar el
modelo que ajuste mejor a tus datos.gt Es un
método eficiente y poderoso. Utiliza todos los
datos considerando todas las posibilidades de
cambio.
10
Verosimilitud otras ventajas - Gran facilidad
para formular y probar hipótesis - Proveen de una
manera de falsear los supuestos - Permiten
estimar la confianza en las filogenias obtenidas
y proveen herramientas para probar las hipótesis
filogenéticas con solidas bases estadísticas -
son métodos consistentes
11
ML permite la inferencia de árboles filogenéticos
usando modelos evolutivos complejos - incluyendo
la habilidad de estimar los parámetros del modelo
y hacer inferencias de manera simultánea acerca
de los patrones y procesos de evolución - y
permite comparar diferentes modelos.
12
Cuál es la probabilidad de observar un dato?
  • Si tiramos un volado y obtenemos águila, y
    pensamos que la moneda no esta cargada, entonces
    la probabilidad de observar águila es de 0.5
  • Si pensamos que la moneda esta cargada de manera
    tal que esperamos que salga águila en un 80 de
    veces, entonces la verosimilitud de observar ese
    dato (águila) es 0.8
  • Entonces La verosimilitud de hacer alguna
    observación es enteramente dependiente del modelo
    asumido.

Ojo El dato no ha cambiado, pero nuestro modelo
si. Entonces bajo el nuevo modelo, la
verosimilitud de observar el dato ha cambiado
p
?
13
Cuál es la probabilidad de observar el
nucleótido 'G' ?
  • Pregunta Si tenemos una secuencia de DNA de UN
    nucleótido de largo. Y la identidad de ese
    nucleótido es G, cuál es la verosimilitud de
    observar ese G?
  • Respuesta Al igual que en el experimento del
    volado, la verosimilitud de observar esa G
    depende de el modelo de evolución de DNA que
    pensamos que subyace a nuestros datos.
  • E.g.
  • Model 1 frequency of G 0.4 gt likelihood(G)
    0.4
  • Model 2 frequency of G 0.1 gt likelihood(G)
    0.1
  • Model 3 frequency of G 0.25 gt likelihood(G)
    0.25

14
la regla de 1.
  • La suma de las verosimilitudes para todas las
    posibilidades siempre será igual a 1
  • E.g. for DNA p(a)p(c)p(g)p(t)1

15
Para secuenicas más largas
  • Si consideramos un gen de longitud 2
  • Gene 1 ga
  • La probabilidad de observar ese gen es el
    PRODUCTO de las probabilidades de observar cada
    caracter.
  • E.g
  • p(g) 0.4 p(a)0.15 (for instance)
  • likelihood(ga) 0.4 x 0.15 0.06

16
para secuencias aun más largas
  • Gene 1 gactagctagacagatacgaattac
  • Model (simple base frequency model)
  • p(a)0.15 p(c)0.2 p(g)0.4 p(t)0.25
  • (the sum of all probabilities must equal 1)
  • Like(Gene 1) 0.000000000000000018452813

17
Importancia del modelo
  • Noten que el modelo que utilizamos anteriormente
    de frecuenica de nucleótidos no es el óptimo. De
    haber usado el siguiente modelo
  • p(a)0.4 p(c) 0.2 p(g) 0.2 p(t) 0.2
  • La verosimilitud de observar el gen sería
  • Like(gene 1) 0.000000000000335544320000
  • (a value that is almost 10,000 times higher)

Ojo El dato no ha cambiado, pero nuestro modelo
si. Bajo el nuevo modelo la verosimilitud de
observar el dato ha cambiado.
18
Para hacer filogenias moleculares
  • Consider an alignment of two sequences
  • Gene 1 gaac
  • Gene 2 gacc
  • We assume these genes are related by a (simple)
    phylogenetic tree with branch lengths.

19
Se incrementa la complejidad del modelo
  • No es suficiente con solo considerar las
    frecuencias de las bases. Debemos incluir el
    MECANISMO DE CAMBIO Y ESTASIS.
  • Hay dos partes en el modelo -el árbol y el
    proceso (ambos son parte del modelo).

Nota segiremos llamando modelo al proceso de
cambio para evitar confusión
20
Modelos de sustituciónMatrices de probabilidad
de cambioVector de frecuencias
21
Considerando el modelo simple reversible en el
tiempo
  • A simple model is that the rate of change from a
    to c or vice versa is 0.4, the composition of a
    is 0.25 and the composition of c is 0.25 (a
    simplified version of the Jukes and Cantor 1969
    model)

P
22
Para obtener la probabilidad de el tercer
nucleótido en nuestra alineación
  • p(a) 0.25 p(c) 0.25
  • Comenzando con a, la verosimilitud de el
    nucleótido es 0.25, y la verosimilitud de la
    sustitución (la rama o el proceso) es 0.4. La
    verosimilitud de observar el dato sería
  • Likelihood(DM) 0.25 x 0.4 0.01

Nota obtendrás el mismo resultado si empezaras
con c, ya que el modelo es reversible.
The verosimilitud de los datos dado el modelo.
23
Matrices de sustitución
  • Para nucleótidos hay 16 posibles maneras de
    describir los cambios, en una matriz de 4x4

Por convención, el orden de los nucleótidos es a,
c, g, t.
Nota para amino ácidos la matriz sería de 20x20
y para modelos basados en codones sería de 61x61.
24
Matrices de sustitución. Un ejemplo
  • In this matrix, the probability of an a changing
    to a c is 0.01 and the probability of a c
    remaining the same is 0.983, etc.

Nota Las filas de esta matriz suman 1, lo cual
significa que para cada nucleótido, hemos
cubierto todas las posibilidades de que que
ocurra caobio (o no ocurra). Las columnas no
suman a nada en particular.
25
Para calcular la verosimilitud de un set completo
de datos, dada una matriz de sustitución, la
composición de bases y la longitud de la ramas
para una cierta distancia evolutiva (o una
unidad ced)
Gene 1 ccat Gene 2 ccgt
Verosimilitud de dado
p0.1,0.4,0.2,0.3
26
Verosimilitud para alineación de dos secuencias
  • ccat
  • ccgt

0.4x0.983x0.4x0.983x0.1x0.007x0.3x0.979 0.000030
0
La verosimilitud de ir de la primera a la segunda
secuencia es de 0.0000300
27
Diferentes longitudes de las ramas
  • Para ramas muy cortas, la probabilidad de que el
    carácter permanezca igual es ALTA, y la
    probabilidad de cambio es BAJA (para nuestra
    matriz particular).
  • Para ramas más largas, la probabilidad de que el
    carácter cambie se hace ALTA, y la probabilidad
    de que permanezca igual es BAJA.
  • Los cálculos anteriores se basan en el supuesto
    de que la longitud de la rama describe CIERTA
    DISTANCIA EVOLUTIVA (CED)
  • Si queremos considerar una rama del DOBLE DE
    LARGO (o sea dos CEDs), multiplicamos la matriz
    de sustitución por si misma una vez (matriz2).

28
2 CED model
X

Which gives a likelihood of 0.0000559
Note the higher likelihood, la anerior 0.00003
29
Para 3 CED
This gives a likelihood of 0.0000782
Noten que mientras la longitud de la rama se
incrementa, los valores de la diagonal decrecen y
los valores fuera de la diagonal aumentan.
30
Para valores mayores de unidades CED
Likelihood
1 0.0000300 2 0.0000559 3 0.0000782 10 0.000162
0 15 0.0001770 20 0.0001750 30 0.0001520
Branch Length
31
Si elevamos P a valores mucho mayores
  • Si elevamos P a valores muy altos, encntramos que
    la composición de ML alcanza p.
  • De manera tal que la composición nucleotidica
    esta contenida dentro de la matriz de
    probabilidad.

32
Matrices de tasas
This does make sense doesnt it??
Consideren la siguiente ecuación
  • De la misma manera, elevar una matriz a una
    potencia puede calcularse también tomando el log
    de la matriz, multiplicarlo por la longitud de la
    rama y tomar el exponente del producto.
  • De esta forma, puedes exponenciar la matriz a un
    número que no sea entero (e.g. 4.5698 o lo que
    sea)
  • E.g. The log of the previous matrix, P is

Noten que la suma de cada fila es cero.
33
  • Esta matriz corresponde a una CED. Lo que
    queremos es derivar la matriz de manera tal que
    cuando la exponenciemos, los valores correspondan
    a sustituciones por sitio (tasas de cambio)
  • Entonces debemos escalar logP de manera tal
    que cuando las filas de logP sean multiplicadas
    por los elementos fuera de la diagonal
    sumen 1.
  • La resultante matriz escalada logP (que se llama
    Q), cuando tomamos su exponente nos da una P
    correspondiente a 1 sustitución por sitio.

34
Convirtiendo a sustituciones por sitio.
  • Para una longitud de rama con valor v
  • Si escalamos logP apropiadamente, obtendremos la
    matriz Q. Si multiplicamos la matriz Q por el
    vector de frecuencias, obtenemos una matriz donde
    los elementos fuera de la diagonal suman 1 y en
    la diagonal suman -1.

35
Scaling logP appropriately.
LogP scaled by a factor of 50 (for instance)
Off-diagonal elements sum to 1, diagonal elements
sum to -1
(diagonal matrix of the composition)
Ps generated from this Q will give branch
lengths in substitutions per site.
36
Separando la composición de las tasas.
  • Si dividimos las columnas de Q por el vector de
    frecuencias , entonces separamos la
    composición de las tasas de cambio. De esta forma
    se puede usar la misma matriz de tasas con
    diferentes matrices de composición de bases.
  • Para el modelo que hemos estado usando, la matriz
    de tasas R es
  • Los elementos de la diagonal no importan. El
    modelo es simétrico (reversible en el tiempo).

37
Relationships between R, Q and P matrices.
Multiply columns by the composition, scale so
that the off-diagonals of sum to 1
Multiply by branch length, then exponentiate
R
Q
P
Log, then scale so that off-diagonals of sum
to 1
Divide columns by the composition
38
Likelihood of the alignment at various branch
lengths
  • ccat
  • ccgt

The maximum likelihood value is 0.0001777 at a
branch length of 0.330614
39
Verosimilitud para un árbol de dos ramas
Para la matriz Q anterior, suponga que las
matrices P correspondientes a 0.1, 0.2 y 0.3
sustituciones por sitio son
40
Verosimilitud para un árbol de dos ramas
A
0.1
O
0.2
B
  • O Es el origen o raíz. Los números represental
    longitudes de las ramas. La verosimilitud puede
    ser calculada de tres maneras distintas
  • de A a B en un paso (como el método anterior)
  • de A a B en dos pasos (pasando por O)
  • en dos partes empezando en O.

41
Acerca de O
  • O es una secuencia desconocida.
  • Solo podemos especular sobre el estado que podría
    tener el caracter en O
  • Entonces debemos sumar las verosimilitudes para
    todas las posibilidades en O
  • Lo cual es computacionalmente costoso.

c
A
0.1
0.1
a,c,g,t
O
For position 1
0.2
0.2
c
B
42
Modo 1. De A a B en un paso. Se hace de la misma
manera que el cálculo para 1 rama. La
probabilidad de A a O usando la matriz P(0.3) es
la suma de las 4 posibilidades
c
0.1
a,c,g,t
0.2
c
43
Modo 2. De A a B en dos pasos. Obtenemos primero
la probabilidad de A a O usando la matriz P(0.1)
es la suma de las 4 posibilidades
c
0.1
a,c,g,t
0.2
c
44
Ahora adicionamos la segunda rama, de O a B. Ya
no necesitamos poner los términos de frecuencia,
por que ya los introdujimos anteriormente. Usamos
la matriz P(0.2)
c
0.1
a,c,g,t
0.2
c
Y lo mismo se hace para todos los demás sitios
nos da la misma verosimilitud, 0.000177.
45
Modo 3. En dos partes empezando en O. Sumamos
todas las probabilidades para las cuatro
posibilidades. La verosimilitud para la primer
posición sería Y asi para todos los
sitios.
c
0.1
a,c,g,t
0.2
c
46
  • Verosimilitud
  • CONCLUSIONES
  • Tienen un modelo probabilistico explicito de
    evolución de secuencias.
  • Consideran diferencias en las tasas de evolución
    en diferentes linajes (diferentes longitudes de
    las ramas del árbol).
  • Gran facilidad para formular y probar hipótesis.
    Proveen de una manera de falsear los supuestos
  • Tienen importantes bases y soporte estadístico
  • Buscan parámetros para obtener la respuesta más
    probable
  • Es un método estadístico consistente
  • Es un método estadístico poderoso. Utiliza todos
    los datos considerando todas las posibilidades de
    cambio
  • Permite la inferencia de árboles filogenéticos
    usando modelos evolutivos complejos

47
(No Transcript)
48
La muestra consiste de n vectores (tantos
vectores como sitios en la secuencia) con los
elementos de cada vector denotando el estado del
nucleotido i en cada sitio de las diferentes
secuencias. Hay un total de patrones
de sitios para s especies Por ejemplo, la
siguiente matriz Tiene
patrones de sitios posibles.
49
(No Transcript)
50
(No Transcript)
51
(No Transcript)
52
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com