Title: Diapositiva 1
1Laboratorio de BioSistemas del Departamento de
Ingeniería Genética del CINVESTAV Unidad Irapuato
Marcadores moleculares más allá de
la reconstrucción filogenética
AAAAAAAAAAAAAAA CCCCCCCCCCCCCCCCCC GGGGGGGGGGGGGGG
G TTTTTTTTTTTTTTTT
Dra. Amanda Castillo Cobián Depto. de Ingeniería
Genética CINVESTAV-Irapuato IPN
2Objetivos 1) Dar a conocer los fundamentos
teórico-prácticos de las técnicas más comúnmente
utilizadas en el estudio de evolución molecular.
Desde la selección de un buen marcador hasta la
fechación molecular, pasando por la
reconstrucción filogenética como fundamento de
todos los estudios en biología evolutiva
moderna. 2) Demostrar el tipo de preguntas que
pueden resolverse mediante los estudios de
evolución molecular y el alcance que pueden
tener. 3) Que los participantes adquieran un
panorama general sobre los análisis estadísticos
y el software disponible para el análisis de
datos moleculares. 4) Demostrar el impacto que
los estudios evolutivos pueden tener en trabajos
aplicados y como han creado un puente de análisis
para entender los procesos macro y
microevolutivos.
3 DNA that registry of chance, that tone-deaf
conservatory where the noise is preserved with
the music -Jaques Monod
Procesos estocásticos
Procesos demográficos
Historia
4- Análisis de datos moleculares
- Proteínas
- DNA
- Puede cubrir varios aspectos como
- Estudios a nivel genética de poblaciones
- (estructura de poblaciones naturales)
- Estudios de selección natural
- (Adaptación molecular)
- Cálculos de tiempos de divergencia
- (Relojes moleculares)
5- A partir de la teoría Darwin-Wallace
- Se generaron dos campos de estudio
- la historia evolutiva de los organismos
- elucidación de las fuerzas evolutivas
- que moldean la biodiversidad y sus adaptaciones
Wallace
Darwin
6La representación de relaciones evolutivas es
ancestral...
7Evolución Cambio "Evolution is the idea that
all existing animals and plants are descended
from some one ancestor many millions of years
ago or at least a small number of ancestors
many millions of years ago John Maynard Smith
8Darwin defined evolution as "descent with
modification" and the word 'descent' refers to
the way evolutionary modification takes place in
a series of populations that are descended from
one another.
9Fuerzas Evolutivas
Selección Natural Mutación Deriva Génica
Migración Endogamia
10Tasa
Porqué es importante la reconstrucción de las
relaciones de ancestría-descendencia/
reconstruir la filogenia de los organismos?
11FILOGENIA Hipótesis estadística de relaciones
evolutivas
Nos habla no sólo de las relaciones sino del
proceso..
12Reconstrucción filogenética Metodología que
seguimos para estimar relaciones evolutivas
Mirada al pasado.
13- HOMOLOGÍA
- Relación entre dos especies que han descendido a
partir - de un origen en común, comparten un mismo
ancestro, divergencia - evolutiva.
- ANALOGÍA
- Relación entre características comúnes, pero no a
partir de un - ancestro común, no de origen, relación
convergente. - Datos curiosos
- La homología no es una cantidad, se es o no
homólogo, no hay tal - cosa como un porcentaje de homología.
- 2) Se dice que dos secuencias poseen un 95 de
SIMILITUD!!!!! - o identidad.
- 3) Sólo podemos hacer reconstrucción filogenética
con caracteres
14(No Transcript)
15- Las relaciones entre los genes homólogos pueden
ser del tipo - Ortólogos relacionados a un evento de
especiación. - Parálogos relacionados a un evento de
duplicación génica. - Xenólogos producto de un evento de
transferencia horizontal.
16(No Transcript)
17Se pueden obtener distintos arboles filogenéticos
donde las relaciones descritas entre las especies
sean monofiléticas, polifiléticas o
parafiléticas.
18Monofilético
Polifilético
19Un árbol filogenético es un diagrama compuesto
por nodos y ramas.
nodo terminal
nodo interno
A
B
C
D
E
(OTU)
Rama
Enraizado
Por lo tanto un árbol filogenético es una
hipótesis de relaciones evolutivas. Posee dos
componentes tasa y tiempo (la que se acerca más
a la descripción real de tiempo evolutivo)
20Árbol de especies
Árboles de especies contiene un representativo
de cada especie, los nodos se refieren a eventos
de especiación.
21Árboles de genes (genealogías) representan la
historia de un gen en particular, los nodos
pueden ser relacionados con eventos de
especiación o de duplicación génica.
Árbol de genes
22 Los árboles se construyen en base a las
similitudes entre los distintos OTUs (Unidades
taxonómicas). Estas diferencias o similitudes
son cuantificadas con diferentes métodos para
generar la topología del árbol basado en las
distancias existentes en los organismos. En
las filogenias moleculares la base de la
comparación son sustituciones en nucleótidos
cuando se trata de DNA o amino ácidos para las
proteínas.
23Ser o no ser un marcador molecular. Ese es el
dilema. O mejor dicho.. Qué es un marcador
molecular?
24Un marcador molecular es un indicador de la
historia evolutiva, es lo que vamos a analizar
para poder dilucidar historia, así como,
diferentes procesos evolutivos. Posee
información genética y/o fenotípica y sobre todo
estadística acerca del proceso evolutivo.
- Marcadores moleculares utilizados para análisis
filogenético - RFLPS.
- Fingerprints genómicos (AFLPs, RAPDS, SNPs,).
- Análisis de enzimas multilocus.
- Secuencias DNA y proteínas.
25- Características ideales de un marcador molecular
- Suficiente información (estadísticamente
hablando) - /- de 500 pb
- 2) Que posea resolución (dependerá del nivel
taxonómico) - 3) Que nos relate la historia de la especie
(ortólogos, - dependiendo del tipo de estudio).
26- Los marcadores moleculares, al ser marcadores del
proceso evolutivo, - poseen restricciones de diversos tipos
- Sitios catalíticos (función)
- Exones
- Intrones
- Secuencias reguladoras
- Estructura
- Posiciones
- Pseudogenes
- Diferencias en tasas de sustitución (cambio)
27Un árbol filogenético es un diagrama compuesto
por nodos y ramas.
nodo terminal
nodo interno
A
B
C
D
E
(OTU)
Rama
Enraizado
Por lo tanto un árbol filogenético es una
hipótesis de relaciones evolutivas. Posee dos
componentes tasa y tiempo (la que se acerca más
a la descripción real de tiempo evolutivo)
28Topología con longitudes de ramas (aditiva)
Clados resueltos
politomía
29- La reconstrucción filogenética requiere de la
estimación - de las relaciones evolutivas, y dependiendo del
método - de reconstrucción se tendrá también la estimación
de - la diferencia o divergencia genética.
- Se estima
- Topología
- Distancia genética
- Mediante el uso de algoritmos o métodos
de optimización. - (NJ/UPGMA)
(Parsimonia/Verosimilitud)
1) Los algoritmos hacen estimación de topología y
distancia, al mismo tiempo. Por lo mismo son muy
rápidos. 2) Los métodos basados en un criterio
de optimización, hacen una separación y escogen
en un espacio de óptimos los mejores, para
posteriormente describir el proceso evolutivo
como un espacio de probabilidades. Por lo mismo
son computacionalmente intensivos y lentos.
30- Pero, cómo se determina la homología en los
caracteres moleculares? - Alineación de secuencias (aa ó nucleótidos)
- -Cada sitio es un caracter con origen compartido
(homólogo). - Equivale a una característica morfológica.
- Estadísticamente es más robusto.
- Para mantener la correspondencia en
- sitios homólogos es necesario la
- introducción de gaps.
- Indeles
- Gaps e indeles NO se introducen de
- manera aleatoria.
31- Existen diversos programas que realizan
alineaciones de secuencias - ClustalW (y sus variaciones)
- Muscle
- T-Coffe
Estos programas realizan una alineación global,
es decir, fuerzan el alineamiento de las
secuencias en su longitud total.
32(No Transcript)
33- Otros algoritmos de alineación
- FASTA
- BLAST
- Son programas de alineación local sólo buscan
segmentos con - la puntuación más alta.
- (por ejemplo, localizan dominios de proteínas)
34A mayor distancia genética es mayor la
acumulación de mutaciones. Dependiendo del
tiempo de acumulación de estos cambios puede
llegar a ser muy difícil o imposible la
alineación en algunas regiones de las
secuencias. (Saturación) Las regiones que no son
alineables o de homología dudosa deben de ser
excluidas de cualquier análisis
filogenético, pues meten ruido y generan
hipótesis de relaciones falsas.
35Para los métodos que utilizan un CO, es necesario
el desarrollo de un modelo de sustitución
(nucleótidos, aa o codones). Estos modelos son
aproximaciones a los procesos naturales de
sustitución en el tiempo. Debido a que los
métodos con CO ajustan los datos observados a un
determinado modelo de sustitución y de acuerdo a
esto modelan las diferentes topologías y les
brindan un soporte estadístico, es de suma
importancia la determinación del modelo de
sustitución que más se ajuste a los datos. Los
modelos de sustitución describen las
probabilidades de cambio ya sea de un nucleótido
por otro (A-G, A-C), de un aa por otro Ala-Try,
de un codon por otro AGT-GGG, por ejemplo.
36- La reconstrucción filogenética requiere de
estimaciones de - Topología
- Proceso evolutivo (requiere de un modelo de
sustitución o cambio) - Estos modelos de sustitución nos describen las
probabilidades en que - se dan las sustituciones.
- 4) Los métodos que determinan una distancia
genética o usan un criterio - de optimización ocupan un modelo explícito de
sustitución. - 5) Los métodos de distancia estiman un parámetro
(Número de sust. por sitio) - 6) Los métodos con criterio de optimización
estiman el valor de cada uno - de los parámetros del modelo dada una topología y
un grupo de datos. - 7) Es necesario usar una prueba estadística para
seleccionar el modelo de - sustitución que posea un mayor ajuste a nuestros
datos.
37Modelos de sustitución
A ltgt G T ltgt C
38- Existen dos aproximaciones para la construcción
de modelos - de sustitución
- Modelos empíricos Calculados a partir de la
comparación de - numerosas alineaciones y que resultan en valores
fijos de los - parámetros de sustitución. Se utilizan
principalmente para AAs. - (Matrices Dayhoff, BLOSUM,etc)
- 2) Modelos paramétricos Se basan en el modelado
de ciertas - propiedades químicas (AAs) o composicionales,
inferidos a partir - de cada base de datos. Se utilizan principalmente
para nucleótidos - y codones (Uso diferencial de codones).
- Ambos resultan en modelos de procesos
Markovianos, definidos por - matrices que contienen tasas relativas de
ocurrencia de todos los - tipos de sustituciones.
39Ambos métodos describen las tasas relativas,
ocurrencia de todos los tipos de cambio en el
tiempo. Se asume que esta matriz es reversible
no existe dirección en el tiempo evolutivo,
árboles no enraizados, el proceso puede fluir en
ambas direcciones. Las sustituciones se
describen como resultado de un proceso de
mutación al azar, es decir, las mutaciones
futuras ocurren al azar y son independientes del
estado anterior, dependen únicamente del estado
actual (proceso Markoviano). La probabilidad de
intercambio de un carácter (mutación) por otro
está modelada por una distribución de Poisson.
40- Se manejan tres tipos de parámetros en el
modelado del - proceso de sustitución
- Frecuencia (proporción de cada nucleótido en la
muestra) - Tasas de cambio (transiciones, transversiones,
- uso de codones)
- Heterogeneidad en tasas de sustitución (entre
posiciones, - regiones codificantes VS no codificantes, etc)
- (Distribución gamma)
41- Los diferentes modelos se distinguen por algunos
factores básicos - Frecuencias de nucleótidos
- Frecuencia ?A ?G ?T ?C (JC69, K2P,K3P..)
- ? Frecuencia ?A ? ?G ? ?T ? ?C (F81, HKY85, Tr93,
GTR) - 2) Tasas de transición VS. transversión
- ti/tv ? 0.5 existe un sesgo en algún tipo de
sustituciones - Generalmente las transiciones son mayores a las
transversiones.
42- Los diversos modelos de sustitución se distinguen
por su - parametrización
- Frecuencia nucleótidos
- o ?
- 2) Tasas de sustitución (ti/tv)
- Tasa 1 Modelo Jukes-Cantor, 1969
- Tasa 2 Modelo Kimura-2, F84
- Tasa 3 Modelo TrN (2 ti, 1tv)
- Tasa 6 Modelo GTR (cada sustitución su tasa)
43Jukes-Cantor (JC) (Jukes-Cantor, 1969)
Equal base frequencies, all substitutions are
equally likely.
Equal base frequencies
T C A G
T fN a a a
C a fN a a
A a a fN a
G a a a fN
Rate matrix
44Jukes-Cantor (un parámetro)
a
A
G
a
a
a
a
C
T
a
45Kimura 2-parameters (K80) (Kimura, 1980)
Equal base frequencies, variable transition and
transversion frequencies.
Equal base frequencies
Rate matrix
T C A G
T fN a b b
C a fN b b
A b b fN a
G b b a fN
46Kimura-dos parámetros
a
A
G
b
b
b
b
C
T
a
47Felsenstein (F81) (Felsenstein, 1981)
Variable base frequencies, all substitutions
equally likely.
Variable base frequencies
Rate matrix
T C A G
T fT a a a
C a fC a a
A a a fA a
G a a a fG
48Hasegawa-Kishino-Yano (HKY85) (Hasegawa,Kishino,Ya
no, 1985)
Variable base frequencies, variable transition
and transversion frequencies.
Variable base frequencies
Rate matrix
T C A G
T fT a b b
C a fC b b
A b b fA a
G b b a fG
49Tamura-Nei (TN93) (Tamura and Nei, 1993)
Distinguish between two different types of
transition (AltgtG) is different to (C ltgt T),
equal transversion frequencies.
Variable base frequencies
T C A G
T fT a b b
C a fC b b
A b b fA c
G b b c fG
Rate matrix
50Kimura 3-parameter (K3P)
Variable base frequencies, distinguish between
two different types of transvesions (AltgtT) is
different to (G ltgtC), equal transition
frequencies.
Variable base frequencies
T C A G
T fN a b c
C a fN c b
A b c fN a
G c b a fN
51General Time Reversible (GTR) (Tavaré, 1986)
Variable base frequencies, symmetrical
substituion matrix.
General Time Reversible
Variable base frequencies
T C A G
T fT a b c
C a fC d e
A b d fA f
G c e f fG
Rate matrix
General Time Reversible
52Distribución gamma Modela la heterogeneidad de
tasas. Cada sitio posee una tasa
tomada aleatoriamente de esta distribución. a
controla la forma de la distribución, arriba de 1
es forma de campana, lo que significa baja
heterogeneidad en tasas, arriba de uno, parece
una L y refleja una gran heterogeneidad de tasas.
53Modelos de substitución de codones
Durante la traducción se involucra el
reconocimiento de tripletes o codones que
comprenden el Código Genético Universal, de los
64 codones sabemos que tres de ellos son de
término, por lo tanto tenemos 61 codones, lo que
supone que algunos aminoácidos serán codificados
por más de un codón. Debido a la degeneración
del código genético, existen tasas de
sustitución diferenciales para los codones y por
lo consiguiente para cada una de las diferentes
posiciones. Existen sustituciones sinónimas
(que no cambian el tipo de aa) y no sinónimas que
cambian el tipo de aa.
1a
2a
3a
A T G
dS dN
dS dN
dN
541Base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base 3Base
1Base U U C C A A G G 3Base
U UUU Phe UCU Ser UAU Tyr UGU Cys U
U UUC Phe UCC Ser UAC Tyr UGC Cys C
U UUA Leu UCA Ser UAA Stop UGA Stop A
U UUG Leu UCG Ser UAG Stop UGG Trp G
C CUU Leu CCU Pro CAU His CGU Arg U
C CUC Leu CCC Pro CAC His CGC Arg C
C CUA Leu CCA Pro CAA Gln CGA Arg A
C CUG Leu CCG Pro CAG Gln CGG Arg G
A AUU Ile ACU Thr AAU Asn AGU Ser U
A AUC Ile ACC Thr AAC Asn AGC Ser C
A AUA Ile ACA Thr AAA Lys AGA Arg A
A AUG Met ACG Thr AAG Lys AGG Arg G
G GUU Val GCU Ala GAU Asp GGU Gly U
G GUC Val GCC Ala GAC Asp GGC Gly C
G GUA Val GCA Ala GAA Glu GGA Gly A
G GUG Val GCG Ala GAG Glu GGG Gly G
55(No Transcript)
56Modelos de substitución de aminoácidos
PAM matrices- Matriz que describe el cambio en
tiempo evolutivo del 1 de los aminoácidos de una
proteína. Dayhoff matrices Se llevo a cabo
utilizando 34 superfamilias conocidas de
proteínas cercanas entre sí y sus tasas de
mutación. BLOSSUM matrices Utilizan
comparaciones entre familias distantes de
proteínas y sus valores de similitud.
57- La reconstrucción filogenética es un proceso de
estimación de la - topología y la longitud de las ramas.
- Los métodos de reconstrucción filogenética
están basados en - dos estrategias diferentes
- Definición de un algoritmo que determina los
pasos a seguir - para la reconstrucción de la topología. (Combinan
la inferencia de la - topología con la mejor topología posible, esto
los hace más rápidos) - 2) Usando un criterio de optimización que permite
decidir cuál de - las topologías se ajusta más a nuestros datos.
(En este caso topología - y su soporte están desacoplados, son más lentos)
58- Existen varios métodos de reconstrucción
filogenética - Distancia (Algoritmo)
- (sustituciones de caracteres)
- 2) Parsimonia (CO)
- (estados de carácter, sitios informativos)
- 3) Máxima verosimilitud (CO)
- (distribución de probabilidades)
- 4) Bayesianos (CO)
59- Dentro de estos mismos métodos los más utilizados
- históricamente han sido
- UPGMA (Parsimonia)
- 2) NJ (Vecino más cercano) (Distancia)
- 3) MP (Máxima Parsimonia) (Parsimonia)
- 4) ML (Máxima verosimilitud)
- 5)Bayesianos
60Los métodos de distancia convierten primero la
alineación en una matriz de distancias. Los más
utilizados se basan en el criterio de mínima
evolución (UPGMA y NJ). Se apoya el
árbol/topología cuya longitud total minimice las
distancias entre los otus, a partir de una
matriz de distancias pareadas.
61Distancias ultramétricas Usualmente se ajustan a
un árbol bajo el supuesto de reloj
molecular. Son equidistantes a la raíz del
árbol. Las distancias son aditivas. Para un par
de secuencias el valor en la matriz corresponde a
la suma de longitudes de ramas en el camino más
corto que las une (dentro del árbol). En los
métodos de evolución mínima se busca el árbol
cuya longitud de ramas sea mínima.
62UPGMA (Unweighted pair-group method with
arithmetic mean)
(a)
A
A
A
B
B
B
C
C
D
dAB/2
d(AB)C/2
d(ABC)D/2
Tasas de cambio constantes, distancias
aritméticas, escala las distancias, reloj
molecular, distancias equidistantes, árbol
enraizado, topología enraizada se obtiene las
longitudes de rama simultáneamente a la topología.
63Neighbor-joinig method (vecino más cercano)
8
7
1
6
2
X
X
Y
3
5
4
Se escoge el que da la mínima suma de las
distancias entre las ramas, minimiza la longitud
total del árbol, se obtiene un solo árbol,
64Máxima Parsimonia (MP)
Busca el árbol que requiere el mínimo número de
pasos evolutivos (árbol más parsimonioso) Utiliz
a el concepto de sitios informativos, todos los
demás sitios no son tomados en consideración
para la reconstrucción de la topología. Se apoya
el árbol con mayor número de sitios
informativos. Para el caso de MP la situación se
complica pues podemos reconstruir más de un
árbol igualmente parsimonioso.
65 1 2 3 4 5 1 A T A T T 2 A T C G T 3 G C A G
T 4 G C C G T
Este proceso se repite para otros árboles.
661
2
2
1
3
3
4
4
67Unweighted Parsimony Todas las sustituciones son
iguales. Weighted parsimony Hace diferencias
entre transiciones y transversiones.
68(No Transcript)
69- Métodos de búsqueda de árboles óptimos
- Exactos .- Garantizan la obtención de un solo
árbol. - Búsqueda exhaustiva
- Búsqueda branch-bound
- 2) Heurísticos (aproximados). Encontrar
soluciones óptimas. - Stepwise addition (adición secuencial)
- Branch swapping (intercambio de ramas)
- Star decomposition (descomposición a manera de
estrella)
70Atracción de ramas largas Se refiere a
situaciones en las que linajes con una tasas de
cambio muy diferente al promedio, muestran
relaciones con otros linajes a pesar de no ser
cierto. Una estrategia para reducir el efecto es
agregar más outgroups a nuestra base de datos o
secuencias que pudiesen romper estas relaciones
aparentes.
71Métodos de Máxima verosimilitud (ML)
Requiere un modelo probabilístico de substitución
de nucleótidos, es decir, necesitamos
especificar la probabilidad de transición o
cambio de un tipo de nucleótido a otro en un
intervalo de tiempo para cada rama.
72Probabilidad de los datos dada una hipótesis
P ( D H) Hipótesis (H) - árbol (topología) -
longitud de ramas - parámetros del modelo de
substitución Datos (D) - secuencias de
nucleótidos - secuencias de aminoácidos
- Método paramétrico que utiliza explícitamente
un modelo de sustitución. - Utiliza la matriz original de los datos.
- CO para escoger entre árboles
73i
j
k
l
1
2
3
4
X- nucleótido del nodo ancestral
t3
Z
t2
Y
La probabilidad de encontrar el nucleótido l en
la Secuencia 4 Pxl (t1t2t3) (tiempo total de
X a l, entre los dos nodos) La probabilidad de
encontrar el nucleótido Y en el nodo Ancestral de
las secs 1, 2, 3 es Pxy (t1) Y así
sucesivamente
t1
X
74Por lo tanto, la probabildiad de tener i, j, k, l
en las puntas del árbol se calcula Pxl
(t1t2t3) Pxy (t1) Pyk (t2t3) Pyz 8t2) Pzi (t3)
Pzj (t3) Sólo podemos asumir probabilidades
porque en la práctica no conocemos el nucleótido
ancestral real. Esta probabilidad se puede
inferir a partir de la frecuencia del nucleótido
en la muestra real de las secuencias. El cálculo
de la función de verosimilitud para una secuencia
se puede definir como n L P pni
Prob (ni mi, t) i1
La verosimilitud para una secuencia de DNA con un
número n de bases que posea la base mi en el
sitio i y base ni en el mismo sitio de otra
secuencia.
75(No Transcript)
76(No Transcript)
77(No Transcript)
78(No Transcript)
79Validación estadística de las reconstrucciones
filogenéticas
- Existen numerosos métodos los más utilizados en
la actualidad son - Bootstrap
80BOOTSTRAP
Método estadístico más utilizado. Se basa en el
remuestreo de las secuencias, es decir,
aleatoriamente cambia las posiciones de las bases
y rehace la construcción filogenética. La medida
de soporte estadístico se refiere a un intervalo
de confianza de 0 a 100. Supongamos que
tenemos la sig. Secuencias AGTCGGTAA AGTGGGTAAA
TCTTGTAA Si cambiamos la posición
7 TAGTCGGAA TAGTGGGAA TATCTTGAA (esta es una
submuestra de la distribución original)
81(No Transcript)
82Bootstrapping - an example
Ciliate SSUrDNA - parsimony bootstrap
Ochromonas (1)
Symbiodinium (2)
100
Prorocentrum (3)
Euplotes (8)
84
Tetrahymena (9)
96
Loxodes (4)
100
Tracheloraphis (5)
100
Spirostomum (6)
100
Gruberia (7)
83Inferencia Bayesiana
84(No Transcript)
85(No Transcript)
86(No Transcript)
87Teorema de Bayes Población hipotética
1 2
60
40 Población total Tipo
de enfermedad 1
0.01 Muestreo al azar de 100
individuos (incluyendo grupo I y II) Cuál es
la probabilidad que 3 de ellos estén enfermos?
88D (probabilidad) definida por P P(D) P(G1)
P(DI G1) P(G2) P(D IG2)
0.60.01 0.40.001 0.0064 Probabilidad de
que un individuo esté enfermo 1- 0.0064
La probabilidad de no estar enfermo.
89Probabilidada de que 3 de cada 100 estén
enfermos P 100! P3 (1-P)97 / 3! 97!
0.0227 BAYES Lo realizamos de manera
inversa Cuál es la probabilidad de que un
individuo de la muestra al azar que se encuentre
enfermo pertenezca al grupo I?
90PI G1I D I P(G1) P(DI G1)/P(D)
0.60.01/0.00640.94 (Esta es la
probabilidad de que pertenezca al
grupo I) D - datos topología de un árbol G1
clase de sitio, probabilidad de transcición, etc)
91(No Transcript)
92- cadenas markovianas de Monte Carlo - la
probabilidad posterior de un árbol puede
interpretarse como la probabilidad de que dicho
árbol o clado sea correcto - es imposible
estimar dicha pP analíticamente ni siquiera para
el caso más simple de 4 OTUs ( (2s - 3)!/2s - 2
(s - 2)! topologías y 2n-3 long. de rama, para
arb. no enraiz.) - existen métodos numéricos que
permiten aproximar la probabilidad posterior de
un árbol (o de cualquier otra hipótesis
compleja). El más útil es el de las cadenas
markovianas de Monte Carlo (MCMC), implementado
en algoritmos como el de Metropolis-Hastings -
MCMC se basa en el muestreo de una distribución
simulada en vez de calcular dicha distribución
mediante integración. Así es posible aproximar el
área bajo la curva que representa la distribución
de densidad probabilística posterior para
inferencias complejas
93(No Transcript)
94(No Transcript)
95(No Transcript)
96(No Transcript)
97(No Transcript)
98(No Transcript)
99- Impacto de la reconstrucción filogenética
- Cálculo de tiempos de divergencia
- Selección natural
- Evolución de la patogénesis
- Determinación de tasas de sustitución molecular
- Criminología