Title: Bioinformatika: iz statisticke perspektive
1Bioinformatika iz statisticke perspektive
- Bojan Basrak
- PMF-Matematicki odjel
- Sveucilište u Zagrebu
2Bioinformatika
- Nezgrapna kovanica, nastala 1979. oznacava
znanost koja se bavi primjenom racunalnih i
statistickih metoda u molekularnoj biologiji - Strucnjaci raznih podrucja sudjeluju u
- izradi baza podataka (npr. human genome project)
- njihovoj analizi, odn. statistickoj i racunalnoj
obradi - Karakteristike ogromne kolicine podataka, ali i
sve veci broj metoda, procedura za njihovu obradu
3Osnovne teme
- Sequence analysis
- Gene finding
- Computational evolutionary biology
- Analysis of gene expression
- Analysis of regulation
- Prediction of protein structure
- Modeling of biological systems
- itd.
4Osnove molekularne biologije
Središnja dogma mol. biologije
Živi organizmi
Biološki nizovi DNA - nizovi u alfabetu od 4
slova A,C,G,T RNA - nizovi u alfabetu od 4
slova A,C,G,U proteini - nizovi u alfabetu od
20 slova - aminokiselina
ARNDCEQGHILKMFPSTWYV
5Transkripcija
6Evolucija nizova
Mutation (mutacija)
Deletion (brisanje)
Insertion (ubacivanje)
ACGGTGCAGTTACCA
AC----CAGTCACCGTGTAA
REARRANGEMENTS
Inversion
Translocation
Duplication
7No, mi vidimo samo
- nekoliko više ili manje slicnih nizova, npr.
- GCGCATGGATTGAGCGA
- TGCGCCATTGATGACCA
- koji mogu (a ne moraju) dijeliti zajednicku
evoluciju (a ne moraju biti ni iste duljine).
8Poravnanje (alignment)
- -GCGC-ATGGATTGAGCGA
- TGCGCCATTGAT-GACC-A
- Tri skupine poravnatih slova
- perfect matches
- mismatches
- insertions / deletions (indel)
9- Poravnanje zapravo nizove
w ACGGTGCAGTTACCA
wACCAGTCACCGTGTAA
preslika u dulje nizove s jednim dodatnim znakom
-
v ACGGTGCAGTTACC-----A
v AC----CAGTCACCGTGTAA
Formalna definicija je jasna (iako
nezgrapna). Postavlja se pitanje odabira
najboljeg alignmenta. Za to nam je potrebna
funkcija skora - score function - na alfabetu
proširenim znakom -.
10Score function
11- Bliskost nizova (kvaliteta poravnanja) ukazuje
na - (djelomicnu) zajednicku evoluciju kod DNA nizova
- zajednicku evoluciju ili što je zanimljivije istu
funkciju kod proteinskih nizova - Slicno, jako sacuvani podnizovi (s malo mutacija)
impliciraju - funkcionalno znacajne pozicije
12Vjerojatnosni model za nizove
- Najjednostavnije je pretpostaviti da su
generirani kao neki njd niz iz danog alfabeta,
npr. - Mada se ponekad koriste i složeniji modeli koju
ukljucuju zavisnost
13Vjerojatnosni modeli za evoluciju
- Važno je znati i koliko su vjerojatne pojedine
mutacije (nukleotida ili aminokiselina) - a prirodno je pretpostaviti da vrijedi za
stacionarne vjerojatnosti qy - Tipicno se modelira Markovljevim procesima,
zadanim matricama intenziteta.
14Globalno poravnanje
wn
gdje maksimum tražimo po svim poravnanjima v,v
originalnih nizova w,w
w1
w1
wm
15- Iz Kingmanovog subaditivnog ergodskog teorema
poznato je (Chvatal-Sankoff,1975), ako oba niza
imaju duljinu n koja konvergira u beskonacno - Konstanta nije poznata, cak ni za binarne njd
nizove i najjednostavniju funkciju s. Poznato je
tek - (longest common subsequence problem)
16Lokalno poravnanje
wn
gdje maksimum tražimo po svim podnizovima jednake
duljine od originalnih nizova w,w, koji
završavaju na mjestu i,j
w1
w1
wm
17Lokalno poravnanje
- Povezano s Erdos-Renyievim problemom
- Chen-Steinovom metodom može se pokazati da
vrijedi aproksimativni zakon razdiobe za
optimalno lokalno poravnanje - Uocite da je testna statistika zapravo maksimum
od n x n lokalnih poravnanja, a teoretski
rezultat vodi racuna o tome da smo zapravo izveli
n x n testova i korigira za višestruko testiranje
18- Erdos-Renyiev problem odrediti distribuciju
najduljeg niza uspjeha u Bernoullijevom njd nizu - ekvivalentno je znati (za fiksni alignment!!)
koliko je dug najdulji potpuno poravnati podniz.
Ako je p vjerojatnost poravnanja, poznato je da - Ima približno Gumbelovu razdiobu
19- Primjer. Ako pretpostavimo da su DNK nizovi
realizacije nizova njd slucajnih varijabli s
uniformnom distribucijom i njihova duljina je
jednaka n 100 000, onda, ako je najdulji
primjeceni zajednicki niz duljine 10, korištenjem
prethodne formule dobivamo da je - p-vrijednost približno jednaka
0,069, - a ako je najdulji primjeceni zajednicki
segment duljine 12, pripadna - p-vrijednost iznosi približno
0,0045. - Uocimo da je posljednja p-vrijednost manja
od 0,05, što je uobicajena granica kod koje
odbacujemo nulhipotezu (u ovom slucaju o
nezavisnom podrijetlu nizova).
20Dodatne napomene
- Naci optimalno lokalno ili globalno poravnanje
zahtjevan je algoritamski problem (riješen je
dinamickim programiranjem) - Needleman-Wunsch (globalno)
- Smith-Waterman (lokalno)
- Postoji više nacina na koji se penaliziraju
gapovi u poravnanju, - biološki relevantnim se smatra i afino
penaliziranje gapova.
21Specificity determining residues
- Pretpostavimo da su nam proteini podijeljeni u
dvije (funkcionalne) podgrupe, te da nam je dano
njihovo višestruko poravnanje
from M.GelfandIdentification of
specificity-determining positions in protein
alignments
2220 aminokiselina
Amino Acid 1-Letter Side chain polarity Side chain charge (pH 7.4) Hydropathy index
Alanine A nonpolar neutral 1.8
Arginine R polar positive -4.5
Asparagine N polar neutral -3.5
Aspartic acid D polar negative -3.5
Cysteine C nonpolar neutral 2.5
Glutamic acid E polar negative -3.5
Glutamine Q polar neutral -3.5
Glycine G nonpolar neutral -0.4
Histidine H polar positive(10) neutral(90) -3.2
Isoleucine I nonpolar neutral 4.5
Leucine L nonpolar neutral 3.8
Lysine K polar positive -3.9
Methionine M nonpolar neutral 1.9
Phenylalanine F nonpolar neutral 2.8
Proline P nonpolar neutral -1.6
Serine S polar neutral -0.8
Threonine T polar neutral -0.7
Tryptophan W nonpolar neutral -0.9
Tyrosine Y polar neutral -1.3
Valine V nonpolar neutral 4.2
23Struktura proteina
Primarna struktura poznat nam je samo niz
aminokiselina npr V H L T P E E
K Sekundarna struktura poznate su neki
pravilni dijelovi npr alpha-helix,
beta-sheets Tercijarna struktura poznat je
trodimenzionalan položaj molekula
24Evolucijski model za aminokiseline
- Kao što smo vidjeli evol. modeli se odreduju
preko matrica prijelaznih vjerojatnosti -gt da
bismo ih uveli koristit cemo matrice substitucije - Matrice supstitucije kao što je BLOSUM (Blocks
Substitution Matrices - Henikoff and Henikoff,
1992) takoder sadrže informacije o vjerojatnosti
pojedinih mutacija - Matrice sadrže tzv. log-odds koji se koriste
ujedno i za izvodenje skorova tj. score function
25- Log-odds
- Gornji izraz se zapravo koristi u definicije
fukcije skora s
26- Uocimo
- Ovo nam daje sljedecu ideju za model
27Testne statistike
- Krecemo od poravnanja
- Za dani stupac poravnanja k izracunamo testnu
statistiku
28- Trebaju nam vjerojatnosti da pod H0 na mjestu k
vidimo ovako ekstremnu statistiku recimo u, tj. -
- gdje je H0 k nije SDR tj. specificity
determining residue (funkcionalno specificna
pozicija). - To napravimo za sve stupce, pitanje je da li neki
stupci (i koji?) indiciraju posebno znacajna i
funkcionalno specificna mjesta u poravnanju.
29- Prema poznatoj statistickoj teoriji
log-likelihood ratio statistike poput ove koju mi
racunamo imaju asimptotski chi-kvadrat razdiobu.
(Kod nas uvjeti iza ovakvih teorijski rezultata
nisu zadovoljeni) - Mi simulacijama odredujemo približnu razdiobu za
testnu statistiku pod nul-hipotezom - Tako odredujemo približne p-vrijednosti
- No i dalje provodimo puno testova! Svaki nam daje
svoju p-vrijednost
30- Stoga pitanje moramo preformulirati
- Koliko je vjerojatno da vidimo ovako male
p-vrijednosti ako vrijedi H0 niti jedan k nije
SDR? - Tj. želimo znati
31- Uvijek možemo odrediti gornju granicu tzv.
Bonferroni korekciju - Stoga naše rezultate proglašavamo znacajnim (i
odbacujemo H0 ) ako je - Kako su u stvarnosti susjedne pozicije pozitivno
korelirane, pa prema tome i testne statistike ovo
je vrlo gruba ocjena - Dovest ce do konzervativnog testa, male jakosti.
32Alternativni pristupi višestrukom testiranju
hipoteza
- Permutation test
- False discovery rate - FDR
- ukoliko je izvedeno m testova
33Alternativni pristupi otkrivanju SDR Mutual
information, Z-scores.
- Between Group Analysis (BGA), Higgins, Wallace
(2007.) - Sequence Harmony (SH), Heringa, Feenstra,
Pirovano, Krab (2007.) - SDPpred, Rakhmaninova et al. (2004.)
34Usporedba s objavljenim rezultatima u literaturi.
Top 10 naših rangiranih pozicija su ujedno
signifikantne cak i uz Bonferroni korekciju na
nivou znac. 10
MI POTVRÐENO SH SH SDP BGA
rank position LLR Yadav rank SH rank rank
1 212 361.86 3 0.07 1
2 73 276.58 12 0.13 - 5
3 105 265.46 4 0.09 - 14
4 82 258.63 - - - -
5 264 257.43 15 0.15 - 6
6 209 252.87 6 0.11 - 2
7 71 243.82 1 0.03 - 9
8 210 225.07 9 0.12 - 13
9 221 224.41 - 14 0.14 - 16
10 234 210.49 - 7 0.11 - -
11 12 203.40 - - - 24
12 86 196.85 - - - - -
13 224 190.29 - - - - 20
14 128 188.88 - 13 0.14 - 19
15 137 186.16 - 11 0.12 - 17
16 262 183.05 - 25 0.19 - -
17 265 180.88 - 21 0.17 - 4
35Sažetak predložene procedure
- SDR predstavljaju mjesta na proteinima koja
(potencijalno) specificiraju njihovu funkciju - Odrediti ih nije jednostavno. Moramo posebno
voditi racuna o višestrukom testiranju. - Procedura je implementirana online
compbio.math.hr - Nezavršen projekt za sada radimo samo sa dvije
grupe
36Protein clustering
- Esencijalno isti vjerojatnosni model, iskoristili
smo u izradi algoritma za klasteriranje neke
familije proteina v. - Goldstein et al (2009) Clustering of protein
domains for functional and evolutionary studies,
BMC Bioinformatics
37Drugi primjeri
- Višestruko testiranje hipoteza javlja se i u
- Mapiranju tzv QTLova (odn. gena)
- Analizi DNA microarrays
- Forenzickoj DNA analizi
- Filogenetskoj analizi
- itd.
38Literatura
- Biological sequence analysis by Durbin, Eddy,
Krogh, Mitchinson - Introduction to computational biology by
Waterman - Vidi takoder http//www.cs.tau.ac.il/bchor/CG05/C
G1-alignment.pps, http//ai.stanford.edu/serafim/
CS262_2005/Slides/CS262_2005_Lecture2.ppt , - Wikipedia za dodatne informacije o biološkoj
analizi nizova
39Acknowledgments
- P. Goldstein (PMF-MO)
- J. Žucko (PBF)
- I. Vujaklija (FER)
- D. Špoljaric (PBF)