Promotor Prediction Programms (PPP) - PowerPoint PPT Presentation

About This Presentation
Title:

Promotor Prediction Programms (PPP)

Description:

Evolution eukaryontischer Promotorsequenzen Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause bersicht Einf hrung Bilogischer Hintergrund ... – PowerPoint PPT presentation

Number of Views:111
Avg rating:3.0/5.0
Slides: 31
Provided by: DOER
Category:

less

Transcript and Presenter's Notes

Title: Promotor Prediction Programms (PPP)


1
Promotor Prediction Programms (PPP)
Evolution eukaryontischer Promotorsequenzen
  • Christian Ehrlich
  • Falko Krause

2
Übersicht
  • Einführung
  • Bilogischer Hintergrund
  • Maschinenlernen
  • Eponine
  • Relevance Vector Machine
  • FirstEF
  • Quadratische Diskriminanzanalyse
  • Vergleich von PPPs

3
Der Promotor
Einführung Eponine
FirstEF Vergleich von PPPs
  • Ort
  • vor und nach der Transkriptionsstart- stelle
    (TSS)
  • Merkmale
  • Transkriptionsfaktor-bindungsstellen (TFBS) z.B.
    TATA-Box
  • CpG-Inseln
  • TSS
  • Initiator Sequenz

4
Maschienenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
Neuronale Netze (NN)

Hidden Markov Modelle (HMM)
5
Maschienenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
Sampling Relevance Vector Machine (RVM)

Quadratische Diskriminanz- analyse (QDA)
6
Eponine
Einführung Eponine
FirstEF Vergleich von PPPs
  • What can we learn from noncoding regions of
    similarity between regions
  • T.Down, T.J.P. Hubbard
  • 2004 , BMC Bioinformatics

7
Maschinenlernen
Einführung Eponine
FirstEF Vergleich von PPPs
  • Überwachtes Maschinenlernen
  • annotierte Daten (Promoter Regionen, TSS,
    proteincodierende Bereiche)
  • Modellerstellung aus diesen Daten
  • automatische Daten Annotierung
  • überwacht unüberwacht

8
Trainingset
Einführung Eponine
FirstEF Vergleich von PPPs
H Chromosome 6
Human
Maus
M Genome
9
Relevance Vector Machine
Einführung Eponine
FirstEF Vergleich von PPPs
  • Bayessche automatische Relevanz Determination
    (ARD)
  • für Modelle mit linearen Parametern (RVM 2000
    M.E.Tipping M)
  • wenige Basis-Funktionen können von einem
    Generalisierten Linearem Modell (GLM) gelernt
    werden
  • Basis-Funktionen können selbst gewählt werden
    (SVM nur Kernel Funktionen)
  • Anzahl der Basis-Funktionen wird reduziert

10
Relevance Vector Maschine
Einführung Eponine
FirstEF Vergleich von PPPs
Trainingsset
- Trainingsset
PWM
RVM
Trainings Modell
11
Sampling
Einführung Eponine
FirstEF Vergleich von PPPs
  • Sequenzen in der Nähe der TATA-Box sind auch für
    Promotoren spezifisch
  • generiere eine neue PWM aus einer vorhanden durch
    Veränderung der Gewichte (Dirichlet verteilt)
  • generiere eine neue PWM durch weglassen der
    ersten oder letzten Spalte

12
EAS, EWS, cEWS
Einführung Eponine
FirstEF Vergleich von PPPs
  • Eponine Anchored Sequence (EAS)
  • Anker
  • Eponine Windowed Sequence (EWS)
  • zufallige PWMs
  • Convolved Eponine Windowed Sequence(C-EWS)
  • PWM Gerüste

13
EWS Ergebnisse
Einführung Eponine
FirstEF Vergleich von PPPs
  • Hits dist. TSS
  • ohne CpG
  • Receiver Operating Characteristic curve
  • Testset
  • Seedwort Länge

14
First Exon Finder (FirstEF)
Einführung Eponine
FirstEF Vergleich von PPPs
  • Computational identification of promoters and
    first exon in the human genome
  • Ramana V. Davuluri. Ivo Gross Michael Q. Zhang
  • Nature genetics, Volume 29, December 2001

15
Motivation
Einführung Eponine
FirstEF Vergleich von PPPs
  • Gen Vorhersage erreicht 90 Sensitivität
  • Genscan
  • FGENES
  • MZEF
  • Promoter Vorhersage erreicht 50 Sensitivität
  • PromoterInspector
  • Eponine
  • DragonPF

\\// (o
o) -. .-. .-oOOo(_)oOOo-. .-. .-. .-.
X\ /X\ /X\ /X\ /X /
\X/ \X/ \X/ \X/ ' -'
-' -' -' -' -' -' -' Genscan
DragonPF
16
Methoden
Einführung Eponine
FirstEF Vergleich von PPPs
  • Diskriminanzanalyse
  • Idee Klassifizierung eines Objektes anhand
    mind. einer Zufallsvariablen
  • Voraussetzung
  • Günstig
  • Benötigt

17
Methoden
Einführung Eponine
FirstEF Vergleich von PPPs
  • Quadratische Diskriminanzanalyse (QDA)
  • Idee Klassifizierung eines Objektes anhand
    mind. einer Zufallsvariablen
  • Voraussetzung
  • Günstig
  • Benötigt

18
Algorithmen Design
Einführung Eponine
FirstEF Vergleich von PPPs
Suche nach Splice Donor Site (GT)

P(donor site GT) gt 0.4
Suche 1500bp/500bp up-/downstream nach GT
nicht CpG
CpG
Fenster Promotor Region
Fenster Promotor Region
P(promotor Fenster) gt 0.4
P(promotor Fenster) gt 0.4
P(exon alle) gt 0.5
first-Exon gefunden
19
Training
Einführung Eponine
FirstEF Vergleich von PPPs
  • QDF Training
  • Probleme Nicht viele GenBank Einträge
    beinhalten first-Exon
  • Annotationen
  • Idee Sammele first-Exons und Promotoren durch
    Mapping von vollständige 5 UTRs auf
    Gensequenzen
  • 2.139 first-Exons welche durch eine 500bp
  • 5 Region (Promotor) und 500bp 3 Region
    (Intron) flankiert sind
  • 61 teilweise codierend und 39 nicht cod.

20
Training
Einführung Eponine
FirstEF Vergleich von PPPs
  • QDF Training Evaluation

(sensitivity)
(specificity)
21
Evaluation
Einführung Eponine
FirstEF Vergleich von PPPs
  • Evaluation procedure

UCSC
GenBank
Genes Promoters (Chrom. 21/22)
Chromosom 21/22 mit repeats ohne repeats
BLAT
aliniere G. P. mit Chromosom Sequenz
121annotierte first-Exons (42 nicht-codierent)
FirstEF 106/12187 vorhergesagt (33/4278
nicht-codierent)
22
PPPs
Einführung Eponine
FirstEF Vergleich von PPPs
  • Promoter prediction analysis on
  • the whole human genome
  • V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano
  • Nature biotechnology, Volume 22, Number 11,
    November 2004

23
Testset
Einführung Eponine
FirstEF Vergleich von PPPs
  • basiert auf experimental Daten (full-length
    oligo-capped cDNA)
  • nicht bei allen PPPs möglich
  • einige false negatives werden in kauf genommen

Humanes Genom
-2000bp , TSS , 2000bp
24
Funktion
Einführung Eponine
FirstEF Vergleich von PPPs
CpG Insel
HMM
TATA-Box
Weitere Konzepte
CG Gehalt
ANN
Name
only
stat. regelbasiertes System
CpgProD
X
X
X
Dragon GSF/PF
X
RVM
Eponine
X
QDA
First EF
X
pysikalische Eigenschaften
X
MC Promoter
X
INR Abstand
X
NNPP
X
X
Promoter 2.0
25
(No Transcript)
26
PPPs im Vergleich Gewinner?
Einführung Eponine
FirstEF Vergleich von PPPs
  • PPPs haben oft schlechtere Ergebnisse geliefert
    als angegeben
  • Eponine p.p.v.72,73 angegenen 66,97 erreicht
  • FirstEF p.p.v 86 angegeben 67,1 erreicht
  • nicht CpG-Insel Promotoren werden schlecht
    erkannt
  • höchste p.p.v. lt 65 ( 2 Richtige 1 Falsche )
  • RepeatMasker verbessert oft das Ergebniss
  • Traue keiner Statistik die du nicht selbst
    gemacht hast

27
PPPs in Kombiation
Einführung Eponine
FirstEF Vergleich von PPPs
  • Kombination von PPPs verbessert Ergebnisse
  • Vorgehen
  • Scannen mit Fensterbreite von 2000bp
  • Wahlverfahren
  • Regel 1 Fester k bekommt Vorhersagen von s PPPs
  • Regel 2 Fester k bekommt Vorhersagen von s PPPs
    von einer festgelegten Untergruppe

28
Zusammenfassung
  • Lerverfahren ?
  • Relevance Vector Machine
  • Quadratische Diskriminierungs Analyse
  • Wie bekomme ich Promotor-Regionen ?
  • Evaluierung von PPPs ?
  • Verfahren
  • Vergleichbarkeit
  • Probleme der Promotor Vorhersage ?

29
ENDE
  • Noch Fragen?

30
Literatur
  • What can we learn from noncoding regions of
    similarity between regions, T.Down, T.J.P.
    Hubbard, http//www.biomedcentral.com/1471-2105/5/
    131
  • Relevance Vector Machines for classifying points
    and regions in biological sequences, T.Down,
    T.J.P. Hubbard
  • A Machine Learning Strategy to Identity Exonic
    Splice Enhancers in Human Protein-coding
    Sequence, T.Down, B.Leong, T.J.P. Hubbard
  • Chapter 4. Learning from comparative genomics,
    http//library.sanger.ac.uk/uhtbin/cgisirsi/0/0/52
    0/a12334d?user_idHYP-REST
  • The Relevance Vector Machine, M.Tipping
  • Crouching Introns,Hidden Exons, B.Leong
  • Promoter prediction analysis on the whole human
    genome, V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano
  • Computational identification of promoters and
    first exon in the human genome, R.V.Davuluri,
    I.Gross, M.Q.Zhang
Write a Comment
User Comments (0)
About PowerShow.com