Title: 3.7 Bioinformatika
13.7 Bioinformatika
- Bioinformatika tai informaciniu technologiju
taikymas biologines informacijos saugojimui,
tvarkymui ir analizei (naudojimui). - Biologine informacija tai DNR ir RNR nukleotidu
sekos (cDNR, genai, sekvenuoti genomai,
molekuliniai žymenys), genolapiai, koduojamu
baltymu charakteristika, moksliniu tyrimu
rezultatai. - Informacines technologijos tai duomenu masyvu
tvarkymas, analize ir rezultatu pateikimas
kompiuteriniu programu pagalba.
Sutrumpintai, bioinformatika tai informaciniu
technologiju pritaikymas biologijoje.
2Bioinformatikos poreikis (1)
- Brangiai kainuojanciu biotechnologijos tyrimu
efektyvumas priklauso nuo spartaus tyrimu
rezultatu informacijos praeinamumo (kam tirti ar
sekvenuoti DNR jei tikslines nukleotidu sekos jau
yra žinomos). - Biotechnologija sparciai besivystanti kryptis
pasaulyje dirba tukstanciai mokslininku grupiu ir
produkuoja gausybe informacijos. - Reikia sujungti visu mokslininku kompiuterius i
viena tinkla ir ši tinka tinkamai tvarkyti ir
suprantamai pateikti informacija.
Biologines informacija srautai taip padidejo, kad
ju analize galima vadinti duomenu kasyklomis
(ang. data mining).
3Bioinformatikos poreikis (2)
- DNR seku duomenu masyvai yra per dideli, kad
efektyviai juos analizuoti rankiniu budu
(pavyzdys DNR sekos atitikimo paieška žinomu
genu DNR seku duomenu bazese). - Duomenu masyvai talpinami i genetines duomenu
bazes (pagrinde DNR sekos) sparciai dideja tokiu
lygmeniu kad - a) yra poreikis specialiai šios informacijos
tvarkymui paruoštu specialistu bioinformatiku
bei - b) specialiu informacijos tvarkymo priemoniu
(duomenu baziu ir e-programu) specialiai
pritaikytu bioinformacijos tvarkymui ir analizei.
4Bioinformatikos principas (1)
- Bioinformatika suderina tokius komponentus kaip
- Kompiuterines analizes metodai (paieškos
varikliai, analizes programos). - Nemaži duomenu masyvai yra nemokami ir laisvai
prieinami per Interneta, tai ypac patogu
nedidelio biudžeto centrams, kurie gali atlikti
komiuterines genu seku analizes ir atrasti naujus
genus. - Duomenu bazes
- DNR, RNR sekos (sekvenuoti genomai, žymenys ir
pan.). - Baltymu amino rugšciu sekos (virš 120 000
baltymu). - Baltymu molekuline struktura (virš 20 0000
baltymu erdvine struktura).
5Bioinformatikos principas (2)
Dideli srautai atskiru sriciu informacijos
Susisteminta, lengvai prieinama informacija
Bioinformatika
- DNR seku rinkimas ir analize
- Duomenu masyvu valdymas ir komunikacijos.
- E-programos ir analizes automatizavimas.
Genetines ivairoves tyrimai
Fiziologija
Sekvenuoti genomai
Baltymu struktura
Genolapiai
cDNR sekos
DNR žymenys
Kandidatiniai genai
Baltymu sekos
6Bioinformatikos raida
- Genomines revoliucijos pradžioje bioinformatika
apeme tik tokios biologines informacijos kaip
nukleotidu ar aminorugšciu seku duomenu baziu
palaikyma. - Veliau reikejo tobulinti duomenu bazes ijungiant,
interaktyvu naudojima (nauju duomenu
inkorporacija ir analize). - Dabartiniu metu, pagrindinis demesys yra paruošti
ivairiu sriciu interaktyvia biologines
informacijos derinio valdymo, analizes ir
interpretacijos sistema (nuo DNR seku iki baltymu
erdvines strukturos)
Pagrindiniai bioinformatikos duomenys tai DNR ir
RNR nukleotidu sekos bei baltymu amino rugšciu
sekos.
7Pagrindines bioinformatikos sritys
- Genomu seku analize
- Sekvenuotu genomu sekos, cDNR sekos, EST, SNP
žymenu sistemu sekos QTL ir genu paieškos
tyrimai. - Molekulinis modeliavimas
- Kompiuterine baltymu sudeties ir erdvines
strukturos prognoze pagal nukleotidu sekas. - Filogenija ir evoliucija
- Informacija apie rušiu ir populiaciju evoliucija
pagal genu seku panašumus. - Statistine biologija
- Biologines informacijos apdorojimo ir analizes
e-priemoniu ir statistiniu metodu kurimas ir
vystymas.
8Genomu seku analize (1)
- Tikslas gausiu DNR ir RNR seku informacijos
sisteminimas genominiu žemelapiu pagalba ir
analize specialiomis kompiuterinemis programomis. - Kompiuterizuoti interaktyvus genominiai
žemelapiai tai atitinkamai susisteminti
nukleotidu seku rinkiniai paversti i elektronini
interaktyvu formata. - Genominiai žemelapiai tai efektyvus irankis genu,
genominiu seku, išreikštu seku (cDNR) ar
molekuliniu žymenu sankibos grupiu paieškai ir
palyginimui (panašu i elektrinines knygu
bibliotekas). Pavyzdžiai - Ar tiriamas genas yra kitos rušies genome, kada
išreikštas? - Kaip homologiniu seku genai išsideste
chromosomose ir kokia tvarka? - Su kokio žinomo geno sekomis, tyrimuose išreikšto
geno sekos buvo panašios? - Kokius pasigaminti PCR pradus, kad efektyviau
aptikti genetine variacija norimame požymyje? - Kaip atskirti koduojamas ir nekoduojamas
sekvenuoto genomo dalis?
9Genomu seku analize (2)
Seku analizes apžvalga
Genomo nukleotidu seku failas
Panašiu seku paieška
Molekuliniu žymenu kurimas (restriktazes, PCR,
EST)
Koduojanciu atkarpu paieška
coding
Baltymu seku failas
Paversti i baltyma
nekoduojanti
koduojanti
Genu paieška
Žinomu SSR identifikacija
Erdvines strukturos modeliai
Panašiu seku paieška
Seku palyginimas
RNR strukturos modeliai
Palyginamoji daugelio seku analize
Sukurti seku palyginimo profili
Profilio analize
Baltymu šeimu (panašiu tarp rušiu) analize
Homologiniu seku (genu) identifikacija
Filogenija
10Palyginamoji DNR seku analize
Specialiu kompiuteriniu programu pagalba
lyginamos DNR sekos išskleidžiamos šalia, ir
identiški nukleotidai atitinkamai pažymimi (pvz.,
vertikliais brukšniais) kur reikalinga paliekami
tarpai, ieškant maksimaliu sutapimu tarp lyginamu
seku.
768 TT....TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGA
GCTG 813
87 TTGACAGGTACCCAACTGTGTGTGCTGA
TGTA.TTGCTGGCCAAGGACTG 135 .
. . . . 814
AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG
863
136 AAGGATC.............TCAGTAATTAATCAT
GCACCTATGTGGCGG 172 . .
. . . 864 AAATTGTGGAATGTGTATGCT
CATAGCACTGAGTGAAAATAAAAGATTGT 913
173
AAA.TATGGGATATGCATGTCGA...CACTGAGTG..AAGGCAAGATTAT
216
11Genu paieška DNR sekose
Kodono pirmumo principas taikomas sekvenuotu
genomu tolesneje analizeje. Žinant tam tikra
medžio biochemineje sudetyje gausaus baltymo
pagrindine amino rugšti, kompiuterio pagalba
galima ieškoti DNR atkarpu, kuriuose vyrauja šia
amino rugšti koduojantis tripletas (kodonas, pvz.
CUG).
Analizes metu, tiksliniam kodonui suteikiamas
pirmumas ir pagal kodono pasikartojimo dažni
apskaiciuojant kodono pirmumo rodiklis, kuris
identifikuojamas kaip intronas ir baltyma
koduojancio geno dalis.
Kodono pirmumo rodiklis
12Restriktaziu kirpimo modeliavimas
Speciali kompiuterine programa parodo kuriuose
tam tikro DNR fragmento vietose kiekviena
restriktaze perkirps DNR (pažymeta brukšneliu).
Tai padeda parinkti tinkamas restriktazes (pvz.
siekiant padalinti DNR fragmenta i vienodas
dalis.)
Restriktaze
Kerpimo vietu sekos
13Specialios programos PCR pradu gamybai
OPTIMAL primer length --gt
20 MINIMUM primer length --gt
18 MAXIMUM primer length --gt 22
OPTIMAL primer melting temperature --gt
60.000 MINIMUM acceptable melting temp --gt
57.000 MAXIMUM acceptable melting temp --gt
63.000 MINIMUM acceptable primer GC --gt
20.000 MAXIMUM acceptable primer GC --gt
80.000 Salt concentration (mM) --gt
50.000 DNA concentration (nM) --gt
50.000 MAX no. unknown bases (Ns) allowed --gt 0
MAX acceptable self-complementarity --gt 12
14Filogenija ir evoliucija
- Šios disciplinos tikslas yra homologiniu
(panašiu) genu seku paieška tarp organizmu,
genciu ir rušiu - Bendru vystymasis sasaju tarp ivairiu rušiu
nustatymas (principas panašios rušys turi
panašesnes baltymu amino rugšciu ar DNR
nukleotidu sekas) - Baltymai, kuriu pirmine struktura panaši tarp
rušiu, sudaro baltymu šeimas, o erdvine
struktura- blokus. - Mokslininkai rekonstruoja evoliucinius ryšius
tarp rušiu ir nustato kada paskutini karta
lyginamos rušys turejo bendrus tevus.
Filogenija tai biologijos šaka tirianti
asociacijas tarp ivairiu organizmu (genciu ,
rušiu, porušiu ir pan.)
15Filogeniniai medžiai
Bakteriju rušiu giminyste pagal ju DNR seku
panašuma
16Molekulinis modeliavimas
- Tikslas kompiuterine baltymu sudeties ir
erdvines (3-D) strukturos prognoze pagal
nukleotidu sekas (viena iš proteomikos daliu). - Puiki išeitis jei neimanoma atlikti gana brangiu
baltymu strukturos nustatymo metodu rentgeno
kristalografijos pagalba. - Baltymu sekos aprašomas raidemis (kiekviena
aminorugštis- raide (viso 20 raidžiu). - Pagrindiniai 4 etapai
- Rasti žinomos erdvines strukturos baltymus, kuriu
aminorugšciu sekos panašios i tiriamo baltymo
sekas, - Palyginti abieju baltymu sekas tikslu nustatyti
identiškas dalis, kurios bus naudojamos kaip
jungciu pavydžiai modeliavimui, - Sudaryti tiriamo baltymo erdvini modeli pagal
jungciu pavydžius, - Išbandyti erdvini modeli pagal eile testavimo
kriteriju.
17Palyginamoji baltymu seku analize
Ivairiu organizmu baltymu sekos lyginamos kartu
jas išdestant panašiai kaip DNR atkarpas.
Baltymu sekos aprašomas raidemis (kiekviena
aminorugštis viena raide (viso 20 raidžiu).
18Baltymu strukturos prognoze
- Prognozuojama baltymu struktura pagal žinomos
strukturos panašios sudeties baltymus. - 3D struktura naudojama baltymo funkcijos tyrimu
prognozei.
Nežinomos strukturos baltymo seka
?
Strukturos modelis
A - A - K- M
A - A - K- M
Analize
A - L - K- M
A - L - K- M
Katalizuojamos reakcijos ir funkcijos prognoze
Žinomos strukturos baltymo seka
19Statistine biologija
- Tikslas biologiniu duomenu analizes ir
interpretacijos priemoniu kurimas - Priemones, kurios igalina efektyvu priejima prie
duomenu masyvu, ju tvarkyma ir naudojima
(pagrinde, duomenu baziu programos, glaustame,
naudojimui internete tinkanciame formate). - Kurimas nauju algoritmu (matematiniu formuliu) ir
rodikliu, kurie padetu kompleksiniu duomenu
masyvu analizeje (pvz. DNR seku asociaciju
tyrimai, baltymu strukturos modeliai ir baltymu
grupavimas pagal ju panašuma).
20BLAST seku panašumo analize
- BLAST (Basic Local Alignment Search Tool) tai
specialiai seku palyginimui duomenu bazese skirta
programa - BLAST viena iš pagrindiniu nemokamu seku
palyginimo programu ir yra laisvai prieinama
Internete (pvz. NCBI www puslapis). - Žemiau patiektas BLAST padygimosios analizes
rezultatas (panašios sekos ir ju panašumo
rodiklis p tai tikimybe kad panašumas yra
atsitiktinis).
Sequences producing significant alignments
(bits) Value gnlPIDe252316
(Z74911) ORF YOR003w Saccharomyces cerevisiae
112 7e-26 gi603258 (U18795) Prb1p vacuolar
protease B Saccharomyces ce... 106
5e-24 gnlPIDe264388 (X59720) YCR045c, len491
Saccharomyces cerevi... 69 7e-13 gnlPIDe23970
8 (Z71514) ORF YNL238w Saccharomyces
cerevisiae 30 0.66 gnlPIDe239572
(Z71603) ORF YNL327w Saccharomyces cerevisiae
29 1.1 gnlPIDe239737 (Z71554) ORF YNL278w
Saccharomyces cerevisiae 29 1.5
gnlPIDe252316 (Z74911) ORF YOR003w
Saccharomyces cerevisiae Length
478 Score 112 bits (278), Expect
7e-26 Identities 85/259 (32), Positives
117/259 (44), Gaps 32/259 (12) Query 2
QSVPWGISRVQAPAAHNRG---------LTGSGVKVAVLDTGIST-HPDL
NIRGG-ASFV 50 PWG RV G
G GV VLDTGI T H D R Sbjct 174
EEAPWGLHRVSHREKPKYGQDLEYLYEDAAGKGVTSYVLDTGIDTEHEDF
EGRAEWGAVI 233 Query 51 PGEPSTQDGNGHGTHVAGTIAAL
NNSIGVLGVAPSAELYXXXXXXXXXXXXXXXXXQGLE 110
P D NGHGTH AG I GVA
GE Sbjct 234 PANDEASDLNGHGTHCAGIIGSKH-
----FGVAKNTKIVAVKVLRSNGEGTVSDVIKGIE 288
21Informacines sistemos
- Pagrindines miško medžiu biologines informacines
sistemos (Duomenys apie DNR RNR ir baltymu sekas,
On-line analizes programos (pvz. BLAST)) - NCBI (JAV nacionalinis biotechnologines
informacijos centras). - EMBL (Europos molekulines biologijos
laboratorija) (http//www.embl.org/ ) ir EBI
(Europos bioinformatikos institutas
http//www.ebi.ac.uk/).
- Miško medžiai pagrinde TreeGenes informacine
sistema (Dendrome projektas, JAV).
(http//dendrome.ucdavis.edu)
22EMBL ir EBI informacine sistema
EBI- European bioinformatics institute.
- DNR ir RNR sekos
- Baltymu sekos
- BLAST palyginimas
- Literatura
23Dendrome projektas
Dendrome miško medžiu genomikos projekto
remuose sukurta eile medžiu genomo analizes
priemoniu TreeGenes duomenu baze (genolapiai,
žymenys, QTL) BLAST seku panašumo pieškos irankis
Mokslines literturos paieškos variklis
24TreeGenes medžiu genomo duomenu baze
- TreeGenes yra genolapiu duomenu baze
- EST,
- SNP,
- Genolapiai,
- Molekuliniai žymenys,
- QTL,
- Literatura.
- Palyginamieji genolapiai (Pinus taeda, P.
menziessi, Picea abies, ir t.t.)
25NCBI informacine sistema
DNR ir RNR sekos, baltymu sekos, BLAST
palyginimas, referencijos
NCBI sistema apjungia keliolika duomenu baziu,
naudojant bendrus paieškos variklius (vienu metu
galima atlikti paieška visose duomenu bazese)
26Duomenu baziu naudojimas (1)
- Pavyzdys. Planuojami Picea EST žymenu paieškos
tyrimai. Reikalinga jau nustatytu EST žymenu
analize. - Priemone NCBI duomenu bazes paieškos varikliai.
27Duomenu baziu naudojimas (2)
3. Paieškos rezultatas
4. Dominantis rezultatas
28Duomenu baziu naudojimas (3)
5. Geno išreikšto velyvoje embriogenezes
stadijoje radimo žymenys
6. Referencija i tyrimo rezultatu straipsni
7. Dominancios sekos
29Ateities poreikiai
- Informacinis sprogimas
- Reikia greitesniu, labiau automatizuotu analizes
priemoniu. - Glaudesnes integracijos tarp ivairiu duomenu
kategoriju (DNR sekos, baltymu sekos, literatura,
klasikine genetika ir selekcija ir tt.). - Reikia gudresniu ypac dideliu duomenu masyvu
analizes priemoniu. - Bioinformatikos specialistu trukumas
- Kompiuteristai turetu daugiu žinoti apie
biologija. - Biologai turetu daugiau žinoti apie kompiuterija
(programas, ju naudojimas ir rezultatu
interpretacija).
30Literaturos sarašas
Baxevanis, A.D., Ouellette, B. F. 2004.
Bioinformatics A Practical Guide to the Analysis
of Genes and Proteins, Third Edition.
Wiley-Interscience ISBN 0471478784. Claverie,
J-M., Notredame, C..2003. Bioinformatics for
Dummies. For Dummies 1st edition, ISBN
0764516965. Jones, N.C., Pevzner, P.A. 2004. An
Introduction to Bioinformatics Algorithms
(Computational Molecular Biology). The MIT Press.
ISBN 0262101068 Krutovskii, K.V., Neale, D. B.
Forest genomics for conserving adaptive genetic
diversity. Forest Genetic Resource Working Paper
FGR/3(E), FAO, Rome Italy. Mount, D.W. 2004.
Bioinformatics Sequence and Genome Analysis.
Cold Spring Harbor Laboratory Press 2nd edition,
ISBN 0879697121.