Title: Promotor Prediction Programms (PPP)
1Promotor Prediction Programms (PPP)
Evolution eukaryontischer Promotorsequenzen
-
- Christian Ehrlich
- Falko Krause
2Übersicht
- Einführung
- Bilogischer Hintergrund
- Maschinenlernen
- Eponine
- Relevance Vector Machine
- FirstEF
- Quadratische Diskriminanzanalyse
- Vergleich von PPPs
3Der Promotor
Einführung Eponine
FirstEF Vergleich von PPPs
- Ort
- vor und nach der Transkriptionsstart- stelle
(TSS) - Merkmale
- Transkriptionsfaktor-bindungsstellen (TFBS) z.B.
TATA-Box - CpG-Inseln
- TSS
- Initiator Sequenz
4Maschienenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
Neuronale Netze (NN)
Hidden Markov Modelle (HMM)
5Maschienenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
Sampling Relevance Vector Machine (RVM)
Quadratische Diskriminanz- analyse (QDA)
6Eponine
Einführung Eponine
FirstEF Vergleich von PPPs
- What can we learn from noncoding regions of
similarity between regions - T.Down, T.J.P. Hubbard
- 2004 , BMC Bioinformatics
7Maschinenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
- Überwachtes Maschinenlernen
- annotierte Daten (Promoter Regionen, TSS,
proteincodierende Bereiche) - Modellerstellung aus diesen Daten
- automatische Daten Annotierung
- überwacht unüberwacht
8Trainingset
Einführung Eponine
FirstEF Vergleich von PPPs
H Chromosome 6
Human
Maus
M Genome
9Relevance Vector Machine
Einführung Eponine
FirstEF Vergleich von PPPs
- Bayessche automatische Relevanz Determination
(ARD) - für Modelle mit linearen Parametern (RVM 2000
M.E.Tipping M) - wenige Basis-Funktionen können von einem
Generalisierten Linearem Modell (GLM) gelernt
werden - Basis-Funktionen können selbst gewählt werden
(SVM nur Kernel Funktionen) - Anzahl der Basis-Funktionen wird reduziert
10Relevance Vector Maschine
Einführung Eponine
FirstEF Vergleich von PPPs
Trainingsset
- Trainingsset
PWM
RVM
Trainings Modell
11Sampling
Einführung Eponine
FirstEF Vergleich von PPPs
- Sequenzen in der Nähe der TATA-Box sind auch für
Promotoren spezifisch - generiere eine neue PWM aus einer vorhanden durch
Veränderung der Gewichte (Dirichlet verteilt) - generiere eine neue PWM durch weglassen der
ersten oder letzten Spalte
12EAS, EWS, cEWS
Einführung Eponine
FirstEF Vergleich von PPPs
- Eponine Anchored Sequence (EAS)
- Anker
- Eponine Windowed Sequence (EWS)
- zufallige PWMs
- Convolved Eponine Windowed Sequence(C-EWS)
- PWM Gerüste
13EWS Ergebnisse
Einführung Eponine
FirstEF Vergleich von PPPs
- Receiver Operating Characteristic curve
14First Exon Finder (FirstEF)
Einführung Eponine
FirstEF Vergleich von PPPs
- Computational identification of promoters and
first exon in the human genome - Ramana V. Davuluri. Ivo Gross Michael Q. Zhang
- Nature genetics, Volume 29, December 2001
15Motivation
Einführung Eponine
FirstEF Vergleich von PPPs
- Gen Vorhersage erreicht 90 Sensitivität
- Genscan
- FGENES
- MZEF
- Promoter Vorhersage erreicht 50 Sensitivität
- PromoterInspector
- Eponine
- DragonPF
\\// (o
o) -. .-. .-oOOo(_)oOOo-. .-. .-. .-.
X\ /X\ /X\ /X\ /X /
\X/ \X/ \X/ \X/ ' -'
-' -' -' -' -' -' -' Genscan
DragonPF
16Methoden
Einführung Eponine
FirstEF Vergleich von PPPs
- Diskriminanzanalyse
- Idee Klassifizierung eines Objektes anhand
mind. einer Zufallsvariablen - Voraussetzung
- Günstig
- Benötigt
17Methoden
Einführung Eponine
FirstEF Vergleich von PPPs
- Quadratische Diskriminanzanalyse (QDA)
- Idee Klassifizierung eines Objektes anhand
mind. einer Zufallsvariablen - Voraussetzung
- Günstig
- Benötigt
18Algorithmen Design
Einführung Eponine
FirstEF Vergleich von PPPs
Suche nach Splice Donor Site (GT)
P(donor site GT) gt 0.4
Suche 1500bp/500bp up-/downstream nach GT
nicht CpG
CpG
Fenster Promotor Region
Fenster Promotor Region
P(promotor Fenster) gt 0.4
P(promotor Fenster) gt 0.4
P(exon alle) gt 0.5
first-Exon gefunden
19Training
Einführung Eponine
FirstEF Vergleich von PPPs
- QDF Training
- Probleme Nicht viele GenBank Einträge
beinhalten first-Exon - Annotationen
- Idee Sammele first-Exons und Promotoren durch
Mapping von vollständige 5 UTRs auf
Gensequenzen - 2.139 first-Exons welche durch eine 500bp
- 5 Region (Promotor) und 500bp 3 Region
(Intron) flankiert sind - 61 teilweise codierend und 39 nicht cod.
20Training
Einführung Eponine
FirstEF Vergleich von PPPs
(sensitivity)
(specificity)
21Evaluation
Einführung Eponine
FirstEF Vergleich von PPPs
UCSC
GenBank
Genes Promoters (Chrom. 21/22)
Chromosom 21/22 mit repeats ohne repeats
BLAT
aliniere G. P. mit Chromosom Sequenz
121annotierte first-Exons (42 nicht-codierent)
FirstEF 106/12187 vorhergesagt (33/4278
nicht-codierent)
22PPPs
Einführung Eponine
FirstEF Vergleich von PPPs
- Promoter prediction analysis on
- the whole human genome
- V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano
- Nature biotechnology, Volume 22, Number 11,
November 2004
23Testset
Einführung Eponine
FirstEF Vergleich von PPPs
- basiert auf experimental Daten (full-length
oligo-capped cDNA) - nicht bei allen PPPs möglich
- einige false negatives werden in kauf genommen
Humanes Genom
-2000bp , TSS , 2000bp
24Funktion
Einführung Eponine
FirstEF Vergleich von PPPs
CpG Insel
HMM
TATA-Box
Weitere Konzepte
CG Gehalt
ANN
Name
only
stat. regelbasiertes System
CpgProD
X
X
X
Dragon GSF/PF
X
RVM
Eponine
X
QDA
First EF
X
pysikalische Eigenschaften
X
MC Promoter
X
INR Abstand
X
NNPP
X
X
Promoter 2.0
25(No Transcript)
26PPPs im Vergleich Gewinner?
Einführung Eponine
FirstEF Vergleich von PPPs
- PPPs haben oft schlechtere Ergebnisse geliefert
als angegeben - Eponine p.p.v.72,73 angegenen 66,97 erreicht
- FirstEF p.p.v 86 angegeben 67,1 erreicht
- nicht CpG-Insel Promotoren werden schlecht
erkannt - höchste p.p.v. lt 65 ( 2 Richtige 1 Falsche )
- RepeatMasker verbessert oft das Ergebniss
- Traue keiner Statistik die du nicht selbst
gemacht hast
27PPPs in Kombiation
Einführung Eponine
FirstEF Vergleich von PPPs
- Kombination von PPPs verbessert Ergebnisse
- Vorgehen
- Scannen mit Fensterbreite von 2000bp
- Wahlverfahren
- Regel 1 Fester k bekommt Vorhersagen von s PPPs
- Regel 2 Fester k bekommt Vorhersagen von s PPPs
von einer festgelegten Untergruppe
28Zusammenfassung
- Lerverfahren ?
- Relevance Vector Machine
- Quadratische Diskriminierungs Analyse
- Wie bekomme ich Promotor-Regionen ?
- Evaluierung von PPPs ?
- Verfahren
- Vergleichbarkeit
- Probleme der Promotor Vorhersage ?
29ENDE
30Literatur
- What can we learn from noncoding regions of
similarity between regions, T.Down, T.J.P.
Hubbard, http//www.biomedcentral.com/1471-2105/5/
131 - Relevance Vector Machines for classifying points
and regions in biological sequences, T.Down,
T.J.P. Hubbard - A Machine Learning Strategy to Identity Exonic
Splice Enhancers in Human Protein-coding
Sequence, T.Down, B.Leong, T.J.P. Hubbard - Chapter 4. Learning from comparative genomics,
http//library.sanger.ac.uk/uhtbin/cgisirsi/0/0/52
0/a12334d?user_idHYP-REST - The Relevance Vector Machine, M.Tipping
- Crouching Introns,Hidden Exons, B.Leong
- Promoter prediction analysis on the whole human
genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano - Computational identification of promoters and
first exon in the human genome, R.V.Davuluri,
I.Gross, M.Q.Zhang