Title: Zastosowania sieci neuronowych w bioinformatyce
1Zastosowania sieci neuronowych w bioinformatyce
2Zastosowania sieci neuronowych w bioinformatyce
- Predykcja struktury bialek
- Struktura 2 i 3 - rzedowa
- Mapy i wektory kontaktów
- Badanie ekspresji genów
- (mikromacierze DNA)
3Predykcja struktury bialek podstawy biologiczne
- Struktura 1-rzedowa
- Sekwencja aminokwasów slowo nad
- 20-elementowym alfabetem A, C, D, E, F, G, H,
I, K, L, M, N, P, Q, R, S, T, V, W, Y - Typowa dlugosc 100 1500 aminokwasów
- AYIAKQRQISFVKSHFSRQLEERLGLIEV
4Predykcja struktury bialek podstawy biologiczne
- Struktura 2-rzedowa
- Polipeptyd spontanicznie zwija sie
- w regularne struktury
-
- a helisa struktura ß
5Predykcja struktury bialek podstawy biologiczne
- Struktura 3-rzedowa
- Wzajemne przestrzenne
- ulozenie struktur
- 2-rzedowych
-
6Predykcja struktury bialek biologiczna
istotnosc problemu
- Struktura determinuje funkcje bialka
- Struktura 1-rzedowa gt
- gt Struktura 3-rzedowa gt Funkcja bialka
- Kilkadziesiat milionów znanych sekwencji DNA
- Kilkadziesiat tysiecy bialek o znanej strukturze
3-rzedowej - Duzy koszt eksperymentalnego okreslania struktury
3-rzedowej
7Predykcja struktury bialek dane
- PDB
- (Protein Data Bank http//www.pdb.org)
- szczególowe informacje na temat struktury
- 1 i 3-rzedowej ok. 37500 bialek
- (dane na styczen 2007)
- reprezentatywne podzbiory bialek z bazy PDB (tzw.
pdb_select)
8Predykcja struktury 2-rzedowej dane
- PDB nie zawiera jawnych danych na temat struktury
2-rzedowej - DSSP
- Wolfgang Kabsch, Chris Sander
- Uzyskiwanie informacji o strukturze
- 2-rzedowej na podstawie danych z PDB
- 7 klas H, G, I, E, B, T, S
7 klas H G I E B T S
3 klasy H H H E E L L
9Predykcja struktury 2-rzedowej perceptron
- Wejscie
- Informacja na temat w sasiednich aminokwasów (w
nieparzysta) tzw. okno wejsciowe - Kodowanie ortogonalne aminokwasów
- wektor o wymiarze 20
- na jednej pozycji 1, a na pozostalych 0
- (20w) elementów wejsciowych
10Predykcja struktury 2-rzedowej perceptron
- Wyjscie
- 3 neurony wyjsciowe odpowiadajace poszczególnym
klasom struktury 2-rzedowej (wartosc rzeczywista
z przedzialu 0,1) - H a helisa
- E struktura ß
- L petla laczaca
- Wynik predykcji klasa odpowiadajaca neuronowi
wyjsciowemu o maksymalnej wartosci - Predykcja dla centralnego aminokwasu z okna
wejsciowego
11Predykcja struktury 2-rzedowej 2-poziomowa
siec neuronowa
- 1. poziom
- v sieci neuronowych (v nieparzysta) dla
sasiednich okien wejsciowych architektura
identyczna jak w poprzednim podejsciu - AQSVPYGISQIKAP
- AQSVPYGISQIKAP
- AQSVPYGISQIKAP
12Predykcja struktury 2-rzedowej 2-poziomowa
siec neuronowa
- 2. poziom
- Jednokierunkowa siec neuronowa o wejsciach
bedacych wyjsciami sieci neuronowych z 1. poziomu - Wyjscie identyczne jak w przypadku sieci
neuronowych z 1. poziomu - Predykcja dla centralnego aminokwasu z okna
wejsciowego
13Predykcja struktury 2-rzedowej informacja
ewolucyjna
- Pojedyncza sekwencja zastapiona uliniowieniem
spokrewnionych (homologicznych) sekwencji - Profil
- Wartosci binarne na wejsciu sieci zastapione
wartosciami rzeczywistymi z przedzialu 0,1 - Poprawa jakosci predykcji (z 65 do gt70)
A C D
ACAA 0.75 0.25 0
DDCA 0.25 0.25 0.5
ACDA 0.5 0.25 0.25
DAAA 0.75 0 0.25
14Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
15Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
- Obliczenia bi-rekurencyjnej sieci neuronowej
-
- gdzie
- Ot wynik predykcji dla t-tego aminokwasu
- Ft lewy kontekst (forward)
- Bt prawy kontekst (backward)
- N dlugosc polipeptydu (liczba aminokwasów)
16Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
- 824 sekwencje (2/3 dane uczace, 1/3 testowe)
-
- Najlepszy wynik ok. 76
Predykcja H Predykcja E Predykcja L
H 80.03 2.88 17.09
E 4.68 62.01 33.31
L 10.60 9.62 79.78
17Predykcja map i wektorów kontaktów
- Mapa kontaktów
- N liczba aminokwasów w polipeptydzie
- Macierz S o wymiarze N x N
- Si,j 1, jesli i-ty i j-ty aminokwas sa w
kontakcie - Si,j 0, w p.p.
- i-ty i j-ty aminokwas sa w kontakcie
- Odleglosc pomiedzy atomami wegla i-tego i j-tego
aminokwasu mniejsza od ustalonej wartosci - Minimalna odleglosc pomiedzy dwoma dowolnymi
atomami - i-tego i j-tego aminokwasu mniejsza od ustalonej
wartosci
18Predykcja map i wektorów kontaktów
- Wektor kontaktów
- N liczba aminokwasów w polipeptydzie
- Wektor V o wymiarze N
- Vi liczba aminokwasów, z którymi jest w
kontakcie i-ty aminokwas - Definicja na podstawie mapy kontaktów
19Predykcja map i wektorów kontaktów
- Wektory kontaktów
- Metody analogiczne jak w przypadku predykcji
struktury 2-rzedwej bialek - Dla kazdego aminokwasu przewidywana jest liczba
aminokwasów bedacych z nim w kontakcie - Mapy kontaktów
- Rekurencyjne sieci neuronowe
20Predykcja map kontaktów rekurencyjna siec
neuronowa
- Uogólnienie bi-rekurencyjnej sieci neuronowej na
przypadek 2-wymiarowy - Obliczenia rekurencyjnej sieci neuronowej
21Predykcja struktury 3-rzedowej
- Problem otwarty (brak dobrych predyktorów
struktury 3-rzedowej bialek) - Mozliwe rozwiazanie
- 1. etap predykcja
- struktury 2-rzedowej
- map i wektorów kontaktów
- parametrów biochemicznych (np. hydrofobowosc)
- 2. etap predykcja struktury 3-rzedowej z
wykorzystaniem wyników 1. etapu
22Badanie ekspresji genów mikromacierze DNA
- Ekspresja genów
- W tkance zdrowej i chorej
- Zmiana w czasie
- Róznica miedzy gatunkami
- Mikromacierze DNA
- Pojedyncza mikromacierz pojedynczy pomiar
ekspresji genów w okreslonych warunkach - Dane z wielu mikromacierzy profil
- Wiersze geny
- Kolumny wartosci ekspresji dla róznych
mikromacierzy
23Badanie ekspresji genów przykladowy profil
24Badanie ekspresji genów SOM
- Profile ekspresji genów
- duza ilosc danych
- Koniecznosc uporzadkowania, klasteryzacji
- Self Organizing Map (Kohonen, 1990)
- Zalety
- Podzial danych na klasy
- Tolerancja zaszumionych danych
- Wady
- Brak hierarchicznosci
- Stala liczba klas
25Badanie ekspresji genów SOTA
- Self-Organizing Tree Algorithm (Dopazo, Carazo,
1997) - Samoorganizujaca siec neuronowa
- Struktura drzewiasta
- Dynamiczne generowanie struktury w procesie
uczenia - Dowolna liczba klas
26Badanie ekspresji genów SOTA
- Wezly kolumny profilu ekspresji genów
- Uczenie
- Stan poczatkowy 2 liscie polaczone z wezlem
wewnetrznym - Dla kolejnych danych wejsciowych
- Wybór wezla zwycieskiego (sposród terminali)
- Modyfikacje sasiednich wezlów
- Dwa rodzaje sasiedztwa wezlów
- Lokalne obaj potomkowie rodzica sa liscmi
- Ograniczajace (restrictive)
- Podzial wezla
- Wygenerowanie dwóch identycznych kopii wezly
potomne
27Badanie ekspresji genów SOTA
28Badanie ekspresji genów SOTA
29Bibliografia
- Paolo Frasconi, Ron Shamir Artificial
Intelligence and Heuristic Methods in
Bioinformatics, NATO Science Series, 2003 - P. Baldi, S. Brunak Exploiting the past and
the future in protein secondary structure
prediction, Bioinformatics, 1999 - G. Pollastri, P. Baldi Prediction of contact
maps by GIOHMMs and recurrent neural networks
using lateral propagation from all four cardinal
corners, Bioinformatics, 2002 - Javier Herrero, Alfonso Valencia, Joaquin Dopazo
A hierarchical unsupervised growing neural
network for clustering gene expression paterns,
Bioinformatics, 2001 - A.D. Baxevanis, B.F.F. Quellette
- Bioinformatyka, PWN, 2004
- P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H.
White Biologia molekularna, PWN, 2005