Title: Folie 1
1Graphical Models and Biological Networks
Lecture room A 0.01
2Organisational Issues
Lectures Tue 14hct 16h Exercises Tue 16h -
16.45h 1 Exercise sheet per week participation
obligatory submission of solutions highly
recommended Credit Points 3 ECTS Location
Seminar Room 0.4 Gene Center
Feodor-Lynen-Str.25 81377 Munich
Time Date OK? Other preferences? Final exam
Written or oral? Online materials
http//www.lmb.uni-muenchen.de/tresch/graphicalmod
els.html
3Schedule
- Introduction to statistics (probability
distributions, conditional probability, maximum
likelihood, Bayes' Theorem, priors and
posteriors) - Bayesian networks, Markov Random fields and their
applications - Factor graphs I Definitions and examples in
computational biology - Factor graphs II Sum-product and max-sum
algorithms - Applications to regulatory networks, gene
prediction, and data clustering - Introduction to hidden Markov models and
applications in sequence searching - Conditional random fields
- Applications in protein structure prediction and
sequence searching
4References
- Theory
- Theory Duda, Hart, Storck (2000), "Pattern
Classification", chapter 3 - Bishop (2006), "Pattern recognition and Machine
learning", chapters 1,8 - Kschischang, Frey, Loeliger (1998) Factor graphs
and sum-product algorithm, IEEE Transactions
Information Theory - Kschischang, Frey, Loeliger (2001) Factor graphs
and sum-product algorithm, IEEE Transactions
Info Theory - Durbin, Eddy, Krogh, Mitchison, (1998)
"Biological sequence analysis", chapters 3,5
Sutton, - McCallum (2006) "An introduction to conditional
random fields for relational learning",
Introduction to Statistical Relational Learning.
MIT Press, 2006.
5References
- Applications
- Heckermann (1996) A Tutorial on Learning with
Bayesian Networks, Microsoft Technical Report,
MSR TR 95-06 - Friedman (1998) The Bayesian structural EM
algorithm, Proc. 14th Conf. UAI Huang, - Bystroff (2006) "Improved pairwise alignments of
proteins in the Twilight Zone using local
structure predictions", Bioinformatics - Zhao, Li, Sterner, Xu (2008) "Discriminative
learning for protein conformation sampling",
Proteins - Vaske et al. (2009) "A factor graph nested
effects model to identify networks from genetic
perturbations", PLoS Comput Biol - Gat-Viks, Tanay, Raijman, Shamir, (2006) "A
Probabilistic Methodology for Integrating
Knowledge and Experiments on Biological
Networks", Journal of Computational Biology - Yeang et al. (2005) "Validation and refinement of
gene-regulatory pathways on a network of physical
interactions", Genome Biology - Frey a al. (2005) "Genome-wide analysis of mouse
transcripts using exon microarrays and factor
graphs", Nature Genetics
6Introduction
Experiment
design
measure,evaluate
formalize
interpret
Graphical Models
predict
Biological Networks
(e.g. Markov random fields)
(e.g. protein-protein interaction map)
observe, hypothesize
observe
Nature
7Introduction
Definition of Graphical Models Jordan99
Short Graphical models are a class of
probabilistic models that provide a compact
encoding of a joint probability distribution in
terms of a graph strucure and a set of local
distributions.
8Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Task Sorting two kinds of fish species using
optical sensing
Taken from Duda, Hart, Stork
9Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Idea Classify according to length(-distributions)
Choose a threshold x above which we classify an
object as sea bass, and below which we classify
as salmon.
10Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Similarly, classify according to
lightness(-distributions)
11Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
Combine length and lightness(-distributions)
length
12Example Probabilistic Models
Beispiel Unterscheidung von Lachs und Seebarsch
How to find a good decision boundary (
prediction algorithm, classifier)?
13Beispiel Unterscheidung von Lachs und Seebarsch
Task Find a (two) model(s) that describe(s) the
probability distribution (/density) of length and
lightness, given a salmon resp. a sea bass.
For a given observation (length, lightness),
define the likelihood
L(fish?) p(length,lightness ?)
The likelihood is a function of the
model(-parameters), not of the data!
14Bayessche Entscheidungstheorie
Use a model to construct a good decision rule (in
one dimension) Consider the lightness density
for salmon resp. sea bass.
P(x ?salmon)
P(x ?sea bass)
How would you decide when observing a new fish of
lightness 10.5 ?
Without additional information on the overall
frequency of salmon and sea bass, it is sensible
to decide for the maximum likelihood (ML)
estimate, ?ML argmax ? L(?)
15Bayessche Entscheidungstheorie
Assume that we exclusively catch salmon and sea
bass. Picking a fish at random, there is a prior
probability (prior for short) for grabbing a
salmon resp. sea bass, P(?salmon), P(?sea
bass) This means that we regard ? as a random
variable.
NB. In the absence of any prior knowledge, one
usually assumes a uniform prior over the possible
outcomes of a variable. In our case, this would
mean P(?salmon)
P(?sea bass) 0.5
For given lightness x, we want to decide
whether P( ?salmon x) gt P( ?sea bass x)
(then decide for salmon) Question What does
this expression mean? How can we calculate it?
16Bayessche Entscheidungstheorie
Recall the (informal) definition of conditional
probability p( x , ? ) p( x ? ) P(?)
P( ? x) p(x)
Bayes Theorem
Bayes Essay Towards Solving a Problem in the
Doctrine of Chances, which contains the above
formula, was published only three years after his
death.
Reverend Thomas Bayes, 1702, 1761English
mathematician and Presbyterian minister.
17Bayessche Entscheidungstheorie
Bayes Theorem
Likelihood
Prior
Posterior
The decision rule can be formulated without
knowing p(x) salmon, if P( x ? salmon)
P(? salmon) gt P( x ?bass) P(?bass) sea
bass, if P( x ? salmon) P(? salmon) P(
x ?bass) P(?bass)
This maximum a posteriori (MAP) decision rule is
also called the Bayes classifier, ?MAP
argmax ? P(?x)
It can be shown that the Bayes classifier is
optimal in the sense that it minimizes the risk
of misclassification Exercise.
18Bayessche Entscheidungstheorie
P(?sea bass x)
P(?salmon x)
19Beispiel The O.J. Simpson Trial
O.J. SimpsonIn 1995, Simpson was accused of the
murder of Nicole Simpson and Ronald Goldman.
Traces of blood were found at the murder scene
which could be attributed to O.J. Simpson with a
1 in 170 million chance . In spite of this
evidence, he was acquitted of the murder after a
lengthy, highly publicized criminal trial.
preemption of the Jury, factors from prior
knowledge
20Bayes-Entscheidungn bei normalverteiltem Posterior
Exkurs Die Normalverteilung
21Bayes-Entscheidungn bei normalverteiltem Posterior
22Bayes-Entscheidungn bei normalverteiltem Posterior
p(x) p((x1,x2))
x2
x1
23Bayes-Entscheidungn bei normalverteiltem Posterior
Geometrische Interpretation der multivariaten
Normalverteilung
Sei ej die Standardnormalbasis,
?
?
Lemma Es existiert eine Orthonormalbasis vj
(bzgl. des euklid. Skalarprodukts) von
Eigenvektoren von G
?
mit nicht-negativen reellen Eigenwerten ?j
?
?
?
mit
24Bayes-Entscheidungn bei normalverteiltem Posterior
25Bayes-Entscheidungn bei normalverteiltem Posterior
26MAP- und ML-Schätzung. Beispiel
Wie konstruiert man aus gegebenen Daten geeignete
Priors und Likelihoods?
1. Versuch Benutze die empirischen Häufigkeiten
PEmp(?j) als Annäherung an die wahren Priors
P(?j) Benutze die empirischen Verteilungen
PEmp(x?j) als Annäherung an die wahre Likelihood
P(x?j).
Daten (Beobachtungen)
Empirische Verteilung(en)
PEmp(x Lachs)
PEmp(x Barsch)
Das Auszählen der Klassenhäufigkeiten liefert
meist eine gute Approximation der wahren Priors.
Problem Die empirische Verteilung ist meist
eine schlechte Approximation der Likelihood. Es
existieren zu wenige Beobachtungen, um
insbesondere hochdimensionale Verteilungen genau
zu schätzen.
27MAP- und ML-Schätzung. Beispiel
Lösungsmöglichkeit Lasse Wissen über die Art des
Problems, d.h. über die Form der Likelihood,
einfließen. ? Mache zusätzliche Modellannahmen.
Beispiel Daten D x1 , ... ,xk , xj
Größe von Barsch j in mm D.h. die gesuchte
Verteilung die der Zufallsvariable X Länge
eines Barsches.
tatsächliche Dichte von X
empirische Dichtefunktion
Modellannahme X ist eine normalverteilte
Zufallsvariable N(µ,s2)
28MAP- und ML-Schätzung
Modellannahmen können helfen, eine
Zufallsvariable (bzw. deren Verteilung) besser zu
approximieren. Modellannahmen fließen meist durch
die Wahl einer Modellklasse ein. Eine
Modellklasse ist eine Menge von Zufallsvariablen,
von denen jedes Element durch eine feste, kleine
Zahl von Parametern beschrieben werden kann.
- Beispiele
- Die Modellklasse aller eindimensionalen
Normalverteilungen N(µ,s2) µ?R , s2gt0 - Die Modellklasse aller multivariaten
(n-dimensionalen) Normalverteilungen N(µ,S)
µ?Rn , S positiv definite n x n Matrix - Die Klasse der Bayesnetze BN(V, L) V
gerichteter azyklischer Graph, L Menge von
lokalen bedingten Wahrscheinlichkeitsverteilungen
- Die Klasse der Hidden Markov Modelle
HMM(S,A,B,p,V) , Zustandsmenge S, Übergangsmatrix
A, Menge Emissionswahrscheinlichkeitsverteilungen
B, Anfangsverteilung p, Merkmalsraum V - u.v.m.
Problem (Modellselektion) Welches ist die
richtige Modellklasse? Welches ist eine
vernünftige Modellklasse?
29MAP- und ML-Schätzung
Sei eine Modellklasse P?(x) ??O gegeben.
D.h. jedes konkrete Modell ist eine
Wahrscheinlichkeitsverteilung P?(x), welche durch
einen Satz von Parametern ??O definiert wird.
Es soll nun das bestpassende Modell P?(x)
gefunden werden, d.h. der Parametersatz ??O ,
welcher die beste Approximation der wahren
Verteilung P(X) der Daten liefern.
? Problem (Parameteridentifikation) Wie finde
ich die richtigen Parameter? Gesucht Ein
Verfahren, das aus den beobachteten Daten
Dx1,,xn die Parameter O eines möglichst gut
passenden Modells schätzt.
1. Möglichkeit Maximum Likelihood Schätzung
(ML). Finde das (ein) ?O (den ML-Schätzer),
für welches die Beobachtung der Daten D am
wahrscheinlichsten ist. Anm. Fast immer nimmt
man die Unabhängigkeit der Daten an. D.h. die
Daten sind i.i.d. (independent, identically
distributed) Realisierungen der Zufallsvariablen
X. Somit entsteht jedes xj durch unabhängiges
Ziehen aus der gleichen Verteilung P?(x). Dann ist
und
30MAP- und ML-Schätzung
2. Möglichkeit Maximum A Posteriori Schätzung
(MAP). Nimm an, der Parameterraum O sei ein
Wahrscheinlichkeitsraum mit Dichte P(?). Dann ist
Likelihood
Modellrior
Posterior
Unabhängigkeit der Einzelbeobachtugnen
angenommen, ergibt sich
und
Formal unterscheiden sich MAP- und ML-Schätzer
nur durch den Modellprior P(?). Ist der Prior
uniform ( P(?) const. ), so sind MAP- und
ML-Schätzer identisch. Konzeptionell sind beide
Verfahren verschieden ML betrachtet die Daten
als Realisierungen eines festen Modells P?(x),
MAP betrachtet die Daten als fest und die Modelle
als Realisierungen einer Zufallsvariablen mit der
Dichte P(?Daten).
31Maximum Likelihood bei Normalverteilungen
Die eingezeichneten Werte (schwarze Punkte)
wurden aus einer Normalverteilung N(?,s2) mit
bekannter Standardabweichung s, aber unbekanntem
Erwartungswert ? gezogen.
?2
?3
?4
?1
Verschiedene Dichten P(x ?j)
Likelihoodfunktion P(D?). Dies ist i.d.R. keine
Wahrscheinlichkeitsdichte!
log-Likelihoodfunktion l(?) ln
P(D?) (Oft ist es leichter, die log-Likelihood
zu maximieren)
32Maximum Likelihood bei Normalverteilungen
33Maximum Likelihood bei Normalverteilungen
(Beweis Übung)
34Maximum a posteriori bei Normalverteilungen
n
Wir wollen P(µD) ? P(D µ) P(µ) maximieren.
Spezifikation des Priors P(µ) N(µ0,s02) , µ0
und s02 sind festgelegt
35Maximum a posteriori bei Normalverteilungen
Somit hat p(µD) die Gestalt
Koeffizientenvergleich ergibt
und
, wobei
36Maximum a posteriori bei Normalverteilungen
Auflösen nach µn, sn ergibt (mit
)
Der Posterior versammelt seine Masse mit n?8
immer enger um µn. Mit zunehmendem n wird der
Einfluss des Priors (µ0,s0) auf den Posterior
bzw. den MAP-Schätzer immer geringer.
37Maximum a posteriori bei Normalverteilungen
Während der ML-Schätzer ein Punktschätzer ist (es
wird nur ein Satz Parameter ermittelt), liefert
der MAP-Ansatz neben einem Punktschätzer eine
Wahrscheinlichkeitsverteilung der Parameter,
p(µD).
38Maximum a posteriori bei Binomialverteilungen
Einmaliger Münzwurf mit Kopfwahrscheinlichkeit ?
n-faches Werfen derselben Münze (Dx1,,xn,
davon nK Mal Kopf und nZ Mal Zahl)
Die Betaverteilung
Wir suchen den Posterior P(?D), gegeben ein
geeigneter Prior. Es gibt eine geschickte
Priorwahl
39Konjugierte Prior
Der Posterior kann nämlich in geschlossener Form
ausgerechnet werden, und hat wieder eine
Beta-Verteilung, stammt also aus der gleichen
Verteilungsfamilie wie der Prior
Sei eine Likelihoodfunktion gegeben. Ein Prior,
bezüglich dessen der Posterior aus der gleichen
Familie von Wahrscheinlichkeitsverteilungen wie
der Prior stammt, heißt konjugierter
Prior.Vorteil konjugierter Prior Die Berechnung
des Posteriors ist besonders leicht, da nur die
Parameter der Verteilung geupdated werden
müssen, wie in obigem Beispiel Likelihood
Binomialvert. Parameter des Priors (a,ß)
Parameter des Posteriors (anK,ßnZ)
40Konjugierte Prior
True parameter ? 0.3
samples
Posterior P(?Data)
Uniform Prior P(?)Beta(1,1)
41Konjugierte Prior
from Wikipedia, conjugate prior
42Was ist R ?
- Framework for statistical data analysis
- Open source, largely compatible with Splus
(commercial software) - Active community, easy integration of new
functionality (packages) - Most widespread statistics tool in science
(together with SAS and SPSS) - The standard for Computational Biology
43Installation von R/Bioconductor
http//cran.r-project.org/
44Installation von R/Bioconductor
http//www.bioconductor.org/docs/install/
45Installation von R/Bioconductor
46R-Syntax, elementare Rechenoperationen
gt x 020 gt y xx gt plot(x,y)
47R-Syntax, elementare Rechenoperationen
gt x 14 gt y x2 gt z xc(0,1)
48R-Syntax, elementare Rechenoperationen
gt x rnorm(100,mean0,sd1) gt hist(x) gt
density(x)
49R-Syntax, elementare Rechenoperationen
- gt x rnorm(6,mean0,sd1)
- gt x
- 1 -1.08095279 -1.32442492 -0.77553316
-0.44245375 0.03208035 0.03687350 - gt likelihood function(mu0,sigma1,datax)
prod(dnorm(data,meanmu,sdsigma)) - gt theta seq(from-5,to5,length100)
- gt plot(theta,sapply(theta,likelihood))
- gt optimize(likelihood,interval
c(-5,5),maximumTRUE) - maximum
- 1 -0.5924009
- objective
- 1 0.001796537
50Konjugierte Prior
R-Code for the calculation of the posterior for
the coin flip experiment
gt theta0.3 gt alpha 1 beta 1 gt x
seq(0,1,length200) gt plot(x,dbeta(x,alpha,beta),t
ype"l",lwd2,ylab"Density",
xlab"",ylimc(0,5.5)) gt abline(vtheta) gt n10 gt
for (j in 25) nk rbinom(1,sizen,probth
eta) nz n-nk alpha alpha nk beta
beta nz points(x,dbeta(x,alpha,beta),type"l",
lwd2,colj) gt legend(0.6,5,legendpaste("n",
(04)n),col15,lty1)