Diapositiva 1

About This Presentation

Title:

Diapositiva 1

Description:

Laboratorio de BioSistemas del Departamento de Ingenier a Gen tica del CINVESTAV Unidad Irapuato Marcadores moleculares: m s all de la reconstrucci n – PowerPoint PPT presentation

Number of Views:79

Avg rating:3.0/5.0

Slides: 100

Provided by: Amanda347

Category:

more less

Transcript and Presenter's Notes

Title: Diapositiva 1

1
Laboratorio de BioSistemas del Departamento de
Ingeniería Genética del CINVESTAV Unidad Irapuato
Marcadores moleculares más allá de
la reconstrucción filogenética
AAAAAAAAAAAAAAA CCCCCCCCCCCCCCCCCC GGGGGGGGGGGGGGG
G TTTTTTTTTTTTTTTT
Dra. Amanda Castillo Cobián Depto. de Ingeniería
Genética CINVESTAV-Irapuato IPN
2
Objetivos 1) Dar a conocer los fundamentos
teórico-prácticos de las técnicas más comúnmente
utilizadas en el estudio de evolución molecular.
Desde la selección de un buen marcador hasta la
fechación molecular, pasando por la
reconstrucción filogenética como fundamento de
todos los estudios en biología evolutiva
moderna. 2) Demostrar el tipo de preguntas que
pueden resolverse mediante los estudios de
evolución molecular y el alcance que pueden
tener. 3) Que los participantes adquieran un
panorama general sobre los análisis estadísticos
y el software disponible para el análisis de
datos moleculares. 4) Demostrar el impacto que
los estudios evolutivos pueden tener en trabajos
aplicados y como han creado un puente de análisis
para entender los procesos macro y
microevolutivos.
3
DNA that registry of chance, that tone-deaf
conservatory where the noise is preserved with
the music -Jaques Monod
Procesos estocásticos
Procesos demográficos
Historia
4

Análisis de datos moleculares
Proteínas
DNA
Puede cubrir varios aspectos como
Estudios a nivel genética de poblaciones
(estructura de poblaciones naturales)
Estudios de selección natural
(Adaptación molecular)
Cálculos de tiempos de divergencia
(Relojes moleculares)

A partir de la teoría Darwin-Wallace
Se generaron dos campos de estudio
la historia evolutiva de los organismos
elucidación de las fuerzas evolutivas
que moldean la biodiversidad y sus adaptaciones

Wallace
Darwin
6
La representación de relaciones evolutivas es
ancestral...
7
Evolución Cambio "Evolution is the idea that
all existing animals and plants are descended
from some one ancestor many millions of years
ago or at least a small number of ancestors
many millions of years ago John Maynard Smith
8
Darwin defined evolution as "descent with
modification" and the word 'descent' refers to
the way evolutionary modification takes place in
a series of populations that are descended from
one another.
9
Fuerzas Evolutivas
Selección Natural Mutación Deriva Génica
Migración Endogamia
10
Tasa
Porqué es importante la reconstrucción de las
relaciones de ancestría-descendencia/
reconstruir la filogenia de los organismos?
11
FILOGENIA Hipótesis estadística de relaciones
evolutivas
Nos habla no sólo de las relaciones sino del
proceso..
12
Reconstrucción filogenética Metodología que
seguimos para estimar relaciones evolutivas
Mirada al pasado.
13

HOMOLOGÍA
Relación entre dos especies que han descendido a
partir
de un origen en común, comparten un mismo
ancestro, divergencia
evolutiva.
ANALOGÍA
Relación entre características comúnes, pero no a
partir de un
ancestro común, no de origen, relación
convergente.
Datos curiosos
La homología no es una cantidad, se es o no
homólogo, no hay tal
cosa como un porcentaje de homología.
2) Se dice que dos secuencias poseen un 95 de
SIMILITUD!!!!!
o identidad.
3) Sólo podemos hacer reconstrucción filogenética
con caracteres

14
(No Transcript)
15

Las relaciones entre los genes homólogos pueden
ser del tipo
Ortólogos relacionados a un evento de
especiación.
Parálogos relacionados a un evento de
duplicación génica.
Xenólogos producto de un evento de
transferencia horizontal.

16
(No Transcript)
17
Se pueden obtener distintos arboles filogenéticos
donde las relaciones descritas entre las especies
sean monofiléticas, polifiléticas o
parafiléticas.
18
Monofilético
Polifilético
19
Un árbol filogenético es un diagrama compuesto
por nodos y ramas.
nodo terminal
nodo interno
A
B
C
D
E
(OTU)
Rama
Enraizado
Por lo tanto un árbol filogenético es una
hipótesis de relaciones evolutivas. Posee dos
componentes tasa y tiempo (la que se acerca más
a la descripción real de tiempo evolutivo)
20
Árbol de especies
Árboles de especies contiene un representativo
de cada especie, los nodos se refieren a eventos
de especiación.
21
Árboles de genes (genealogías) representan la
historia de un gen en particular, los nodos
pueden ser relacionados con eventos de
especiación o de duplicación génica.
Árbol de genes
22
Los árboles se construyen en base a las
similitudes entre los distintos OTUs (Unidades
taxonómicas). Estas diferencias o similitudes
son cuantificadas con diferentes métodos para
generar la topología del árbol basado en las
distancias existentes en los organismos. En
las filogenias moleculares la base de la
comparación son sustituciones en nucleótidos
cuando se trata de DNA o amino ácidos para las
proteínas.
23
Ser o no ser un marcador molecular. Ese es el
dilema. O mejor dicho.. Qué es un marcador
molecular?
24
Un marcador molecular es un indicador de la
historia evolutiva, es lo que vamos a analizar
para poder dilucidar historia, así como,
diferentes procesos evolutivos. Posee
información genética y/o fenotípica y sobre todo
estadística acerca del proceso evolutivo.

Marcadores moleculares utilizados para análisis
filogenético
RFLPS.
Fingerprints genómicos (AFLPs, RAPDS, SNPs,).
Análisis de enzimas multilocus.
Secuencias DNA y proteínas.

Características ideales de un marcador molecular
Suficiente información (estadísticamente
hablando)
/- de 500 pb
2) Que posea resolución (dependerá del nivel
taxonómico)
3) Que nos relate la historia de la especie
(ortólogos,
dependiendo del tipo de estudio).

Los marcadores moleculares, al ser marcadores del
proceso evolutivo,
poseen restricciones de diversos tipos
Sitios catalíticos (función)
Exones
Intrones
Secuencias reguladoras
Estructura
Posiciones
Pseudogenes
Diferencias en tasas de sustitución (cambio)

27
Un árbol filogenético es un diagrama compuesto
por nodos y ramas.
nodo terminal
nodo interno
A
B
C
D
E
(OTU)
Rama
Enraizado
Por lo tanto un árbol filogenético es una
hipótesis de relaciones evolutivas. Posee dos
componentes tasa y tiempo (la que se acerca más
a la descripción real de tiempo evolutivo)
28
Topología con longitudes de ramas (aditiva)
Clados resueltos
politomía
29

La reconstrucción filogenética requiere de la
estimación
de las relaciones evolutivas, y dependiendo del
método
de reconstrucción se tendrá también la estimación
de
la diferencia o divergencia genética.
Se estima
Topología
Distancia genética
Mediante el uso de algoritmos o métodos
de optimización.
(NJ/UPGMA)
(Parsimonia/Verosimilitud)

1) Los algoritmos hacen estimación de topología y
distancia, al mismo tiempo. Por lo mismo son muy
rápidos. 2) Los métodos basados en un criterio
de optimización, hacen una separación y escogen
en un espacio de óptimos los mejores, para
posteriormente describir el proceso evolutivo
como un espacio de probabilidades. Por lo mismo
son computacionalmente intensivos y lentos.
30

Pero, cómo se determina la homología en los
caracteres moleculares?
Alineación de secuencias (aa ó nucleótidos)
-Cada sitio es un caracter con origen compartido
(homólogo).
Equivale a una característica morfológica.
Estadísticamente es más robusto.
Para mantener la correspondencia en
sitios homólogos es necesario la
introducción de gaps.
Indeles
Gaps e indeles NO se introducen de
manera aleatoria.

Existen diversos programas que realizan
alineaciones de secuencias
ClustalW (y sus variaciones)
Muscle
T-Coffe

Estos programas realizan una alineación global,
es decir, fuerzan el alineamiento de las
secuencias en su longitud total.
32
(No Transcript)
33

Otros algoritmos de alineación
FASTA
BLAST
Son programas de alineación local sólo buscan
segmentos con
la puntuación más alta.
(por ejemplo, localizan dominios de proteínas)

34
A mayor distancia genética es mayor la
acumulación de mutaciones. Dependiendo del
tiempo de acumulación de estos cambios puede
llegar a ser muy difícil o imposible la
alineación en algunas regiones de las
secuencias. (Saturación) Las regiones que no son
alineables o de homología dudosa deben de ser
excluidas de cualquier análisis
filogenético, pues meten ruido y generan
hipótesis de relaciones falsas.
35
Para los métodos que utilizan un CO, es necesario
el desarrollo de un modelo de sustitución
(nucleótidos, aa o codones). Estos modelos son
aproximaciones a los procesos naturales de
sustitución en el tiempo. Debido a que los
métodos con CO ajustan los datos observados a un
determinado modelo de sustitución y de acuerdo a
esto modelan las diferentes topologías y les
brindan un soporte estadístico, es de suma
importancia la determinación del modelo de
sustitución que más se ajuste a los datos. Los
modelos de sustitución describen las
probabilidades de cambio ya sea de un nucleótido
por otro (A-G, A-C), de un aa por otro Ala-Try,
de un codon por otro AGT-GGG, por ejemplo.
36

La reconstrucción filogenética requiere de
estimaciones de
Topología
Proceso evolutivo (requiere de un modelo de
sustitución o cambio)
Estos modelos de sustitución nos describen las
probabilidades en que
se dan las sustituciones.
4) Los métodos que determinan una distancia
genética o usan un criterio
de optimización ocupan un modelo explícito de
sustitución.
5) Los métodos de distancia estiman un parámetro
(Número de sust. por sitio)
6) Los métodos con criterio de optimización
estiman el valor de cada uno
de los parámetros del modelo dada una topología y
un grupo de datos.
7) Es necesario usar una prueba estadística para
seleccionar el modelo de
sustitución que posea un mayor ajuste a nuestros
datos.

37
Modelos de sustitución
A ltgt G T ltgt C
38

Existen dos aproximaciones para la construcción
de modelos
de sustitución
Modelos empíricos Calculados a partir de la
comparación de
numerosas alineaciones y que resultan en valores
fijos de los
parámetros de sustitución. Se utilizan
principalmente para AAs.
(Matrices Dayhoff, BLOSUM,etc)
2) Modelos paramétricos Se basan en el modelado
de ciertas
propiedades químicas (AAs) o composicionales,
inferidos a partir
de cada base de datos. Se utilizan principalmente
para nucleótidos
y codones (Uso diferencial de codones).
Ambos resultan en modelos de procesos
Markovianos, definidos por
matrices que contienen tasas relativas de
ocurrencia de todos los
tipos de sustituciones.

39
Ambos métodos describen las tasas relativas,
ocurrencia de todos los tipos de cambio en el
tiempo. Se asume que esta matriz es reversible
no existe dirección en el tiempo evolutivo,
árboles no enraizados, el proceso puede fluir en
ambas direcciones. Las sustituciones se
describen como resultado de un proceso de
mutación al azar, es decir, las mutaciones
futuras ocurren al azar y son independientes del
estado anterior, dependen únicamente del estado
actual (proceso Markoviano). La probabilidad de
intercambio de un carácter (mutación) por otro
está modelada por una distribución de Poisson.
40

Se manejan tres tipos de parámetros en el
modelado del
proceso de sustitución
Frecuencia (proporción de cada nucleótido en la
muestra)
Tasas de cambio (transiciones, transversiones,
uso de codones)
Heterogeneidad en tasas de sustitución (entre
posiciones,
regiones codificantes VS no codificantes, etc)
(Distribución gamma)

Los diferentes modelos se distinguen por algunos
factores básicos
Frecuencias de nucleótidos
Frecuencia ?A ?G ?T ?C (JC69, K2P,K3P..)
? Frecuencia ?A ? ?G ? ?T ? ?C (F81, HKY85, Tr93,
GTR)
2) Tasas de transición VS. transversión
ti/tv ? 0.5 existe un sesgo en algún tipo de
sustituciones
Generalmente las transiciones son mayores a las
transversiones.

Los diversos modelos de sustitución se distinguen
por su
parametrización
Frecuencia nucleótidos
o ?
2) Tasas de sustitución (ti/tv)
Tasa 1 Modelo Jukes-Cantor, 1969
Tasa 2 Modelo Kimura-2, F84
Tasa 3 Modelo TrN (2 ti, 1tv)
Tasa 6 Modelo GTR (cada sustitución su tasa)

43
Jukes-Cantor (JC) (Jukes-Cantor, 1969)
Equal base frequencies, all substitutions are
equally likely.
Equal base frequencies
T C A G
T fN a a a
C a fN a a
A a a fN a
G a a a fN
Rate matrix
44
Jukes-Cantor (un parámetro)
a
A
G
a
a
a
a
C
T
a
45
Kimura 2-parameters (K80) (Kimura, 1980)
Equal base frequencies, variable transition and
transversion frequencies.
Equal base frequencies
Rate matrix
T C A G
T fN a b b
C a fN b b
A b b fN a
G b b a fN
46
Kimura-dos parámetros
a
A
G
b
b
b
b
C
T
a
47
Felsenstein (F81) (Felsenstein, 1981)
Variable base frequencies, all substitutions
equally likely.
Variable base frequencies
Rate matrix
T C A G
T fT a a a
C a fC a a
A a a fA a
G a a a fG
48
Hasegawa-Kishino-Yano (HKY85) (Hasegawa,Kishino,Ya
no, 1985)
Variable base frequencies, variable transition
and transversion frequencies.
Variable base frequencies
Rate matrix
T C A G
T fT a b b
C a fC b b
A b b fA a
G b b a fG
49
Tamura-Nei (TN93) (Tamura and Nei, 1993)
Distinguish between two different types of
transition (AltgtG) is different to (C ltgt T),
equal transversion frequencies.
Variable base frequencies
T C A G
T fT a b b
C a fC b b
A b b fA c
G b b c fG
Rate matrix
50
Kimura 3-parameter (K3P)
Variable base frequencies, distinguish between
two different types of transvesions (AltgtT) is
different to (G ltgtC), equal transition
frequencies.
Variable base frequencies
T C A G
T fN a b c
C a fN c b
A b c fN a
G c b a fN
51
General Time Reversible (GTR) (Tavaré, 1986)
Variable base frequencies, symmetrical
substituion matrix.
General Time Reversible
Variable base frequencies
T C A G
T fT a b c
C a fC d e
A b d fA f
G c e f fG
Rate matrix
General Time Reversible
52
Distribución gamma Modela la heterogeneidad de
tasas. Cada sitio posee una tasa
tomada aleatoriamente de esta distribución. a
controla la forma de la distribución, arriba de 1
es forma de campana, lo que significa baja
heterogeneidad en tasas, arriba de uno, parece
una L y refleja una gran heterogeneidad de tasas.
53
Modelos de substitución de codones
Durante la traducción se involucra el
reconocimiento de tripletes o codones que
comprenden el Código Genético Universal, de los
64 codones sabemos que tres de ellos son de
término, por lo tanto tenemos 61 codones, lo que
supone que algunos aminoácidos serán codificados
por más de un codón. Debido a la degeneración
del código genético, existen tasas de
sustitución diferenciales para los codones y por
lo consiguiente para cada una de las diferentes
posiciones. Existen sustituciones sinónimas
(que no cambian el tipo de aa) y no sinónimas que
cambian el tipo de aa.
1a
2a
3a
A T G
dS dN
dS dN
dN
54
1Base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base Segunda base 3Base
1Base U U C C A A G G 3Base
U UUU Phe UCU Ser UAU Tyr UGU Cys U
U UUC Phe UCC Ser UAC Tyr UGC Cys C
U UUA Leu UCA Ser UAA Stop UGA Stop A
U UUG Leu UCG Ser UAG Stop UGG Trp G
C CUU Leu CCU Pro CAU His CGU Arg U
C CUC Leu CCC Pro CAC His CGC Arg C
C CUA Leu CCA Pro CAA Gln CGA Arg A
C CUG Leu CCG Pro CAG Gln CGG Arg G
A AUU Ile ACU Thr AAU Asn AGU Ser U
A AUC Ile ACC Thr AAC Asn AGC Ser C
A AUA Ile ACA Thr AAA Lys AGA Arg A
A AUG Met ACG Thr AAG Lys AGG Arg G
G GUU Val GCU Ala GAU Asp GGU Gly U
G GUC Val GCC Ala GAC Asp GGC Gly C
G GUA Val GCA Ala GAA Glu GGA Gly A
G GUG Val GCG Ala GAG Glu GGG Gly G

55
(No Transcript)
56
Modelos de substitución de aminoácidos
PAM matrices- Matriz que describe el cambio en
tiempo evolutivo del 1 de los aminoácidos de una
proteína. Dayhoff matrices Se llevo a cabo
utilizando 34 superfamilias conocidas de
proteínas cercanas entre sí y sus tasas de
mutación. BLOSSUM matrices Utilizan
comparaciones entre familias distantes de
proteínas y sus valores de similitud.
57

La reconstrucción filogenética es un proceso de
estimación de la
topología y la longitud de las ramas.
Los métodos de reconstrucción filogenética
están basados en
dos estrategias diferentes
Definición de un algoritmo que determina los
pasos a seguir
para la reconstrucción de la topología. (Combinan
la inferencia de la
topología con la mejor topología posible, esto
los hace más rápidos)
2) Usando un criterio de optimización que permite
decidir cuál de
las topologías se ajusta más a nuestros datos.
(En este caso topología
y su soporte están desacoplados, son más lentos)

Existen varios métodos de reconstrucción
filogenética
Distancia (Algoritmo)
(sustituciones de caracteres)
2) Parsimonia (CO)
(estados de carácter, sitios informativos)
3) Máxima verosimilitud (CO)
(distribución de probabilidades)
4) Bayesianos (CO)

Dentro de estos mismos métodos los más utilizados
históricamente han sido
UPGMA (Parsimonia)
2) NJ (Vecino más cercano) (Distancia)
3) MP (Máxima Parsimonia) (Parsimonia)
4) ML (Máxima verosimilitud)
5)Bayesianos

60
Los métodos de distancia convierten primero la
alineación en una matriz de distancias. Los más
utilizados se basan en el criterio de mínima
evolución (UPGMA y NJ). Se apoya el
árbol/topología cuya longitud total minimice las
distancias entre los otus, a partir de una
matriz de distancias pareadas.
61
Distancias ultramétricas Usualmente se ajustan a
un árbol bajo el supuesto de reloj
molecular. Son equidistantes a la raíz del
árbol. Las distancias son aditivas. Para un par
de secuencias el valor en la matriz corresponde a
la suma de longitudes de ramas en el camino más
corto que las une (dentro del árbol). En los
métodos de evolución mínima se busca el árbol
cuya longitud de ramas sea mínima.
62
UPGMA (Unweighted pair-group method with
arithmetic mean)
(a)
A
A
A
B
B
B
C
C
D
dAB/2
d(AB)C/2
d(ABC)D/2
Tasas de cambio constantes, distancias
aritméticas, escala las distancias, reloj
molecular, distancias equidistantes, árbol
enraizado, topología enraizada se obtiene las
longitudes de rama simultáneamente a la topología.
63
Neighbor-joinig method (vecino más cercano)
8
7
1
6
2
X
X
Y
3
5
4
Se escoge el que da la mínima suma de las
distancias entre las ramas, minimiza la longitud
total del árbol, se obtiene un solo árbol,
64
Máxima Parsimonia (MP)
Busca el árbol que requiere el mínimo número de
pasos evolutivos (árbol más parsimonioso) Utiliz
a el concepto de sitios informativos, todos los
demás sitios no son tomados en consideración
para la reconstrucción de la topología. Se apoya
el árbol con mayor número de sitios
informativos. Para el caso de MP la situación se
complica pues podemos reconstruir más de un
árbol igualmente parsimonioso.
65
1 2 3 4 5 1 A T A T T 2 A T C G T 3 G C A G
T 4 G C C G T
Este proceso se repite para otros árboles.
66
1
2
2
1
3
3
4
4
67
Unweighted Parsimony Todas las sustituciones son
iguales. Weighted parsimony Hace diferencias
entre transiciones y transversiones.
68
(No Transcript)
69

Métodos de búsqueda de árboles óptimos
Exactos .- Garantizan la obtención de un solo
árbol.
Búsqueda exhaustiva
Búsqueda branch-bound
2) Heurísticos (aproximados). Encontrar
soluciones óptimas.
Stepwise addition (adición secuencial)
Branch swapping (intercambio de ramas)
Star decomposition (descomposición a manera de
estrella)

70
Atracción de ramas largas Se refiere a
situaciones en las que linajes con una tasas de
cambio muy diferente al promedio, muestran
relaciones con otros linajes a pesar de no ser
cierto. Una estrategia para reducir el efecto es
agregar más outgroups a nuestra base de datos o
secuencias que pudiesen romper estas relaciones
aparentes.
71
Métodos de Máxima verosimilitud (ML)
Requiere un modelo probabilístico de substitución
de nucleótidos, es decir, necesitamos
especificar la probabilidad de transición o
cambio de un tipo de nucleótido a otro en un
intervalo de tiempo para cada rama.
72
Probabilidad de los datos dada una hipótesis
P ( D H) Hipótesis (H) - árbol (topología) -
longitud de ramas - parámetros del modelo de
substitución Datos (D) - secuencias de
nucleótidos - secuencias de aminoácidos

Método paramétrico que utiliza explícitamente
un modelo de sustitución.
Utiliza la matriz original de los datos.
CO para escoger entre árboles

73
i
j
k
l
1
2
3
4
X- nucleótido del nodo ancestral
t3
Z
t2
Y
La probabilidad de encontrar el nucleótido l en
la Secuencia 4 Pxl (t1t2t3) (tiempo total de
X a l, entre los dos nodos) La probabilidad de
encontrar el nucleótido Y en el nodo Ancestral de
las secs 1, 2, 3 es Pxy (t1) Y así
sucesivamente
t1
X
74
Por lo tanto, la probabildiad de tener i, j, k, l
en las puntas del árbol se calcula Pxl
(t1t2t3) Pxy (t1) Pyk (t2t3) Pyz 8t2) Pzi (t3)
Pzj (t3) Sólo podemos asumir probabilidades
porque en la práctica no conocemos el nucleótido
ancestral real. Esta probabilidad se puede
inferir a partir de la frecuencia del nucleótido
en la muestra real de las secuencias. El cálculo
de la función de verosimilitud para una secuencia
se puede definir como n L P pni
Prob (ni mi, t) i1
La verosimilitud para una secuencia de DNA con un
número n de bases que posea la base mi en el
sitio i y base ni en el mismo sitio de otra
secuencia.
75
(No Transcript)
76
(No Transcript)
77
(No Transcript)
78
(No Transcript)
79
Validación estadística de las reconstrucciones
filogenéticas

Existen numerosos métodos los más utilizados en
la actualidad son
Bootstrap

80
BOOTSTRAP
Método estadístico más utilizado. Se basa en el
remuestreo de las secuencias, es decir,
aleatoriamente cambia las posiciones de las bases
y rehace la construcción filogenética. La medida
de soporte estadístico se refiere a un intervalo
de confianza de 0 a 100. Supongamos que
tenemos la sig. Secuencias AGTCGGTAA AGTGGGTAAA
TCTTGTAA Si cambiamos la posición
7 TAGTCGGAA TAGTGGGAA TATCTTGAA (esta es una
submuestra de la distribución original)
81
(No Transcript)
82
Bootstrapping - an example
Ciliate SSUrDNA - parsimony bootstrap
Ochromonas (1)
Symbiodinium (2)
100
Prorocentrum (3)
Euplotes (8)
84
Tetrahymena (9)
96
Loxodes (4)
100
Tracheloraphis (5)
100
Spirostomum (6)
100
Gruberia (7)
83
Inferencia Bayesiana
84
(No Transcript)
85
(No Transcript)
86
(No Transcript)
87
Teorema de Bayes Población hipotética
1 2
60
40 Población total Tipo
de enfermedad 1
0.01 Muestreo al azar de 100
individuos (incluyendo grupo I y II) Cuál es
la probabilidad que 3 de ellos estén enfermos?
88
D (probabilidad) definida por P P(D) P(G1)
P(DI G1) P(G2) P(D IG2)
0.60.01 0.40.001 0.0064 Probabilidad de
que un individuo esté enfermo 1- 0.0064
La probabilidad de no estar enfermo.
89
Probabilidada de que 3 de cada 100 estén
enfermos P 100! P3 (1-P)97 / 3! 97!
0.0227 BAYES Lo realizamos de manera
inversa Cuál es la probabilidad de que un
individuo de la muestra al azar que se encuentre
enfermo pertenezca al grupo I?
90
PI G1I D I P(G1) P(DI G1)/P(D)
0.60.01/0.00640.94 (Esta es la
probabilidad de que pertenezca al
grupo I) D - datos topología de un árbol G1
clase de sitio, probabilidad de transcición, etc)
91
(No Transcript)
92
- cadenas markovianas de Monte Carlo - la
probabilidad posterior de un árbol puede
interpretarse como la probabilidad de que dicho
árbol o clado sea correcto - es imposible
estimar dicha pP analíticamente ni siquiera para
el caso más simple de 4 OTUs ( (2s - 3)!/2s - 2
(s - 2)! topologías y 2n-3 long. de rama, para
arb. no enraiz.) - existen métodos numéricos que
permiten aproximar la probabilidad posterior de
un árbol (o de cualquier otra hipótesis
compleja). El más útil es el de las cadenas
markovianas de Monte Carlo (MCMC), implementado
en algoritmos como el de Metropolis-Hastings -
MCMC se basa en el muestreo de una distribución
simulada en vez de calcular dicha distribución
mediante integración. Así es posible aproximar el
área bajo la curva que representa la distribución
de densidad probabilística posterior para
inferencias complejas
93
(No Transcript)
94
(No Transcript)
95
(No Transcript)
96
(No Transcript)
97
(No Transcript)
98
(No Transcript)
99