Bioinformatika: iz statisticke perspektive - PowerPoint PPT Presentation

1 / 39
About This Presentation
Title:

Bioinformatika: iz statisticke perspektive

Description:

Bioinformatika: iz statisti ke perspektive Bojan Basrak PMF-Matemati ki odjel Sveu ili te u Zagrebu Bioinformatika Nezgrapna kovanica, nastala 1979. ozna ava ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 40
Provided by: Boj63
Category:

less

Transcript and Presenter's Notes

Title: Bioinformatika: iz statisticke perspektive


1
Bioinformatika iz statisticke perspektive
  • Bojan Basrak
  • PMF-Matematicki odjel
  • Sveucilište u Zagrebu

2
Bioinformatika
  • Nezgrapna kovanica, nastala 1979. oznacava
    znanost koja se bavi primjenom racunalnih i
    statistickih metoda u molekularnoj biologiji
  • Strucnjaci raznih podrucja sudjeluju u
  • izradi baza podataka (npr. human genome project)
  • njihovoj analizi, odn. statistickoj i racunalnoj
    obradi
  • Karakteristike ogromne kolicine podataka, ali i
    sve veci broj metoda, procedura za njihovu obradu

3
Osnovne teme
  • Sequence analysis
  • Gene finding
  • Computational evolutionary biology
  • Analysis of gene expression
  • Analysis of regulation
  • Prediction of protein structure
  • Modeling of biological systems
  • itd.

4
Osnove molekularne biologije
Središnja dogma mol. biologije
Živi organizmi
Biološki nizovi DNA - nizovi u alfabetu od 4
slova A,C,G,T RNA - nizovi u alfabetu od 4
slova A,C,G,U proteini - nizovi u alfabetu od
20 slova - aminokiselina
ARNDCEQGHILKMFPSTWYV
5
Transkripcija
6
Evolucija nizova
Mutation (mutacija)
Deletion (brisanje)
Insertion (ubacivanje)
ACGGTGCAGTTACCA
AC----CAGTCACCGTGTAA
REARRANGEMENTS
Inversion
Translocation
Duplication
7
No, mi vidimo samo
  • nekoliko više ili manje slicnih nizova, npr.
  • GCGCATGGATTGAGCGA
  • TGCGCCATTGATGACCA
  • koji mogu (a ne moraju) dijeliti zajednicku
    evoluciju (a ne moraju biti ni iste duljine).

8
Poravnanje (alignment)
  • -GCGC-ATGGATTGAGCGA
  • TGCGCCATTGAT-GACC-A
  • Tri skupine poravnatih slova
  • perfect matches
  • mismatches
  • insertions / deletions (indel)

9
  • Poravnanje zapravo nizove

w ACGGTGCAGTTACCA
wACCAGTCACCGTGTAA
preslika u dulje nizove s jednim dodatnim znakom
-
v ACGGTGCAGTTACC-----A
v AC----CAGTCACCGTGTAA
Formalna definicija je jasna (iako
nezgrapna). Postavlja se pitanje odabira
najboljeg alignmenta. Za to nam je potrebna
funkcija skora - score function - na alfabetu
proširenim znakom -.
10
Score function
11
  • Bliskost nizova (kvaliteta poravnanja) ukazuje
    na
  • (djelomicnu) zajednicku evoluciju kod DNA nizova
  • zajednicku evoluciju ili što je zanimljivije istu
    funkciju kod proteinskih nizova
  • Slicno, jako sacuvani podnizovi (s malo mutacija)
    impliciraju
  • funkcionalno znacajne pozicije

12
Vjerojatnosni model za nizove
  • Najjednostavnije je pretpostaviti da su
    generirani kao neki njd niz iz danog alfabeta,
    npr.
  • Mada se ponekad koriste i složeniji modeli koju
    ukljucuju zavisnost

13
Vjerojatnosni modeli za evoluciju
  • Važno je znati i koliko su vjerojatne pojedine
    mutacije (nukleotida ili aminokiselina)
  • a prirodno je pretpostaviti da vrijedi za
    stacionarne vjerojatnosti qy
  • Tipicno se modelira Markovljevim procesima,
    zadanim matricama intenziteta.

14
Globalno poravnanje
wn
gdje maksimum tražimo po svim poravnanjima v,v
originalnih nizova w,w
w1
w1
wm
15
  • Iz Kingmanovog subaditivnog ergodskog teorema
    poznato je (Chvatal-Sankoff,1975), ako oba niza
    imaju duljinu n koja konvergira u beskonacno
  • Konstanta nije poznata, cak ni za binarne njd
    nizove i najjednostavniju funkciju s. Poznato je
    tek
  • (longest common subsequence problem)

16
Lokalno poravnanje
wn
gdje maksimum tražimo po svim podnizovima jednake
duljine od originalnih nizova w,w, koji
završavaju na mjestu i,j
w1
w1
wm
17
Lokalno poravnanje
  • Povezano s Erdos-Renyievim problemom
  • Chen-Steinovom metodom može se pokazati da
    vrijedi aproksimativni zakon razdiobe za
    optimalno lokalno poravnanje
  • Uocite da je testna statistika zapravo maksimum
    od n x n lokalnih poravnanja, a teoretski
    rezultat vodi racuna o tome da smo zapravo izveli
    n x n testova i korigira za višestruko testiranje

18
  • Erdos-Renyiev problem odrediti distribuciju
    najduljeg niza uspjeha u Bernoullijevom njd nizu
  • ekvivalentno je znati (za fiksni alignment!!)
    koliko je dug najdulji potpuno poravnati podniz.
    Ako je p vjerojatnost poravnanja, poznato je da
  • Ima približno Gumbelovu razdiobu

19
  • Primjer. Ako pretpostavimo da su DNK nizovi
    realizacije nizova njd slucajnih varijabli s
    uniformnom distribucijom i njihova duljina je
    jednaka n 100 000, onda, ako je najdulji
    primjeceni zajednicki niz duljine 10, korištenjem
    prethodne formule dobivamo da je
  • p-vrijednost približno jednaka
    0,069,
  • a ako je najdulji primjeceni zajednicki
    segment duljine 12, pripadna
  • p-vrijednost iznosi približno
    0,0045.
  • Uocimo da je posljednja p-vrijednost manja
    od 0,05, što je uobicajena granica kod koje
    odbacujemo nulhipotezu (u ovom slucaju o
    nezavisnom podrijetlu nizova).

20
Dodatne napomene
  • Naci optimalno lokalno ili globalno poravnanje
    zahtjevan je algoritamski problem (riješen je
    dinamickim programiranjem)
  • Needleman-Wunsch (globalno)
  • Smith-Waterman (lokalno)
  • Postoji više nacina na koji se penaliziraju
    gapovi u poravnanju,
  • biološki relevantnim se smatra i afino
    penaliziranje gapova.

21
Specificity determining residues
  • Pretpostavimo da su nam proteini podijeljeni u
    dvije (funkcionalne) podgrupe, te da nam je dano
    njihovo višestruko poravnanje

from M.GelfandIdentification of
specificity-determining positions in protein
alignments
22
20 aminokiselina
Amino Acid  1-Letter Side chain polarity Side chain charge (pH 7.4)   Hydropathy index 
Alanine A nonpolar neutral 1.8
Arginine R polar positive -4.5
Asparagine N polar neutral -3.5
Aspartic acid D polar negative -3.5
Cysteine C nonpolar neutral 2.5
Glutamic acid E polar negative -3.5
Glutamine Q polar neutral -3.5
Glycine G nonpolar neutral -0.4
Histidine H polar positive(10) neutral(90) -3.2
Isoleucine I nonpolar neutral 4.5
Leucine L nonpolar neutral 3.8
Lysine K polar positive -3.9
Methionine M nonpolar neutral 1.9
Phenylalanine F nonpolar neutral 2.8
Proline P nonpolar neutral -1.6
Serine S polar neutral -0.8
Threonine T polar neutral -0.7
Tryptophan W nonpolar neutral -0.9
Tyrosine Y polar neutral -1.3
Valine V nonpolar neutral 4.2
23
Struktura proteina
Primarna struktura poznat nam je samo niz
aminokiselina npr V H L T P E E
K Sekundarna struktura poznate su neki
pravilni dijelovi npr alpha-helix,
beta-sheets Tercijarna struktura poznat je
trodimenzionalan položaj molekula
24
Evolucijski model za aminokiseline
  • Kao što smo vidjeli evol. modeli se odreduju
    preko matrica prijelaznih vjerojatnosti -gt da
    bismo ih uveli koristit cemo matrice substitucije
  • Matrice supstitucije kao što je BLOSUM (Blocks
    Substitution Matrices - Henikoff and Henikoff,
    1992) takoder sadrže informacije o vjerojatnosti
    pojedinih mutacija
  • Matrice sadrže tzv. log-odds koji se koriste
    ujedno i za izvodenje skorova tj. score function

25
  • Log-odds
  • Gornji izraz se zapravo koristi u definicije
    fukcije skora s

26
  • Uocimo
  • Ovo nam daje sljedecu ideju za model

27
Testne statistike
  • Krecemo od poravnanja
  • Za dani stupac poravnanja k izracunamo testnu
    statistiku

28
  • Trebaju nam vjerojatnosti da pod H0 na mjestu k
    vidimo ovako ekstremnu statistiku recimo u, tj.
  • gdje je H0 k nije SDR tj. specificity
    determining residue (funkcionalno specificna
    pozicija).
  • To napravimo za sve stupce, pitanje je da li neki
    stupci (i koji?) indiciraju posebno znacajna i
    funkcionalno specificna mjesta u poravnanju.

29
  • Prema poznatoj statistickoj teoriji
    log-likelihood ratio statistike poput ove koju mi
    racunamo imaju asimptotski chi-kvadrat razdiobu.
    (Kod nas uvjeti iza ovakvih teorijski rezultata
    nisu zadovoljeni)
  • Mi simulacijama odredujemo približnu razdiobu za
    testnu statistiku pod nul-hipotezom
  • Tako odredujemo približne p-vrijednosti
  • No i dalje provodimo puno testova! Svaki nam daje
    svoju p-vrijednost

30
  • Stoga pitanje moramo preformulirati
  • Koliko je vjerojatno da vidimo ovako male
    p-vrijednosti ako vrijedi H0 niti jedan k nije
    SDR?
  • Tj. želimo znati

31
  • Uvijek možemo odrediti gornju granicu tzv.
    Bonferroni korekciju
  • Stoga naše rezultate proglašavamo znacajnim (i
    odbacujemo H0 ) ako je
  • Kako su u stvarnosti susjedne pozicije pozitivno
    korelirane, pa prema tome i testne statistike ovo
    je vrlo gruba ocjena
  • Dovest ce do konzervativnog testa, male jakosti.

32
Alternativni pristupi višestrukom testiranju
hipoteza
  • Permutation test
  • False discovery rate - FDR
  • ukoliko je izvedeno m testova

33
Alternativni pristupi otkrivanju SDR Mutual
information, Z-scores.
  • Between Group Analysis (BGA), Higgins, Wallace
    (2007.)
  • Sequence Harmony (SH), Heringa, Feenstra,
    Pirovano, Krab (2007.)
  • SDPpred, Rakhmaninova et al. (2004.)

34
Usporedba s objavljenim rezultatima u literaturi.
Top 10 naših rangiranih pozicija su ujedno
signifikantne cak i uz Bonferroni korekciju na
nivou znac. 10
MI POTVRÐENO SH SH SDP BGA
rank position LLR Yadav rank SH rank rank
1 212 361.86 3 0.07 1
2 73 276.58 12 0.13 - 5
3 105 265.46 4 0.09 - 14
4 82 258.63 - - - -
5 264 257.43 15 0.15 - 6
6 209 252.87 6 0.11 - 2
7 71 243.82 1 0.03 - 9
8 210 225.07 9 0.12 - 13
9 221 224.41 - 14 0.14 - 16
10 234 210.49 - 7 0.11 - -
11 12 203.40 - - - 24
12 86 196.85 - - - - -
13 224 190.29 - - - - 20
14 128 188.88 - 13 0.14 - 19
15 137 186.16 - 11 0.12 - 17
16 262 183.05 - 25 0.19 - -
17 265 180.88 - 21 0.17 - 4
35
Sažetak predložene procedure
  • SDR predstavljaju mjesta na proteinima koja
    (potencijalno) specificiraju njihovu funkciju
  • Odrediti ih nije jednostavno. Moramo posebno
    voditi racuna o višestrukom testiranju.
  • Procedura je implementirana online
    compbio.math.hr
  • Nezavršen projekt za sada radimo samo sa dvije
    grupe

36
Protein clustering
  • Esencijalno isti vjerojatnosni model, iskoristili
    smo u izradi algoritma za klasteriranje neke
    familije proteina v.
  • Goldstein et al (2009) Clustering of protein
    domains for functional and evolutionary studies,
    BMC Bioinformatics

37
Drugi primjeri
  • Višestruko testiranje hipoteza javlja se i u
  • Mapiranju tzv QTLova (odn. gena)
  • Analizi DNA microarrays
  • Forenzickoj DNA analizi
  • Filogenetskoj analizi
  • itd.

38
Literatura
  • Biological sequence analysis by Durbin, Eddy,
    Krogh, Mitchinson
  • Introduction to computational biology by
    Waterman
  • Vidi takoder http//www.cs.tau.ac.il/bchor/CG05/C
    G1-alignment.pps, http//ai.stanford.edu/serafim/
    CS262_2005/Slides/CS262_2005_Lecture2.ppt ,
  • Wikipedia za dodatne informacije o biološkoj
    analizi nizova

39
Acknowledgments
  • P. Goldstein (PMF-MO)
  • J. Žucko (PBF)
  • I. Vujaklija (FER)
  • D. Špoljaric (PBF)
Write a Comment
User Comments (0)
About PowerShow.com