Zastosowania sieci neuronowych w bioinformatyce - PowerPoint PPT Presentation

About This Presentation
Title:

Zastosowania sieci neuronowych w bioinformatyce

Description:

... 1999 G. Pollastri, P. Baldi Prediction of contact maps by GIOHMMs and recurrent neural networks using lateral propagation from all four cardinal corners ... – PowerPoint PPT presentation

Number of Views:31
Avg rating:3.0/5.0
Slides: 30
Provided by: raf45
Category:

less

Transcript and Presenter's Notes

Title: Zastosowania sieci neuronowych w bioinformatyce


1
Zastosowania sieci neuronowych w bioinformatyce
  • Autor Rafal Grodzicki

2
Zastosowania sieci neuronowych w bioinformatyce
  • Predykcja struktury bialek
  • Struktura 2 i 3 - rzedowa
  • Mapy i wektory kontaktów
  • Badanie ekspresji genów
  • (mikromacierze DNA)

3
Predykcja struktury bialek podstawy biologiczne
  • Struktura 1-rzedowa
  • Sekwencja aminokwasów slowo nad
  • 20-elementowym alfabetem A, C, D, E, F, G, H,
    I, K, L, M, N, P, Q, R, S, T, V, W, Y
  • Typowa dlugosc 100 1500 aminokwasów
  • AYIAKQRQISFVKSHFSRQLEERLGLIEV

4
Predykcja struktury bialek podstawy biologiczne
  • Struktura 2-rzedowa
  • Polipeptyd spontanicznie zwija sie
  • w regularne struktury
  • a helisa struktura ß

5
Predykcja struktury bialek podstawy biologiczne
  • Struktura 3-rzedowa
  • Wzajemne przestrzenne
  • ulozenie struktur
  • 2-rzedowych

6
Predykcja struktury bialek biologiczna
istotnosc problemu
  • Struktura determinuje funkcje bialka
  • Struktura 1-rzedowa gt
  • gt Struktura 3-rzedowa gt Funkcja bialka
  • Kilkadziesiat milionów znanych sekwencji DNA
  • Kilkadziesiat tysiecy bialek o znanej strukturze
    3-rzedowej
  • Duzy koszt eksperymentalnego okreslania struktury
    3-rzedowej

7
Predykcja struktury bialek dane
  • PDB
  • (Protein Data Bank http//www.pdb.org)
  • szczególowe informacje na temat struktury
  • 1 i 3-rzedowej ok. 37500 bialek
  • (dane na styczen 2007)
  • reprezentatywne podzbiory bialek z bazy PDB (tzw.
    pdb_select)

8
Predykcja struktury 2-rzedowej dane
  • PDB nie zawiera jawnych danych na temat struktury
    2-rzedowej
  • DSSP
  • Wolfgang Kabsch, Chris Sander
  • Uzyskiwanie informacji o strukturze
  • 2-rzedowej na podstawie danych z PDB
  • 7 klas H, G, I, E, B, T, S

7 klas H G I E B T S
3 klasy H H H E E L L
9
Predykcja struktury 2-rzedowej perceptron
  • Wejscie
  • Informacja na temat w sasiednich aminokwasów (w
    nieparzysta) tzw. okno wejsciowe
  • Kodowanie ortogonalne aminokwasów
  • wektor o wymiarze 20
  • na jednej pozycji 1, a na pozostalych 0
  • (20w) elementów wejsciowych

10
Predykcja struktury 2-rzedowej perceptron
  • Wyjscie
  • 3 neurony wyjsciowe odpowiadajace poszczególnym
    klasom struktury 2-rzedowej (wartosc rzeczywista
    z przedzialu 0,1)
  • H a helisa
  • E struktura ß
  • L petla laczaca
  • Wynik predykcji klasa odpowiadajaca neuronowi
    wyjsciowemu o maksymalnej wartosci
  • Predykcja dla centralnego aminokwasu z okna
    wejsciowego

11
Predykcja struktury 2-rzedowej 2-poziomowa
siec neuronowa
  • 1. poziom
  • v sieci neuronowych (v nieparzysta) dla
    sasiednich okien wejsciowych architektura
    identyczna jak w poprzednim podejsciu
  • AQSVPYGISQIKAP
  • AQSVPYGISQIKAP
  • AQSVPYGISQIKAP

12
Predykcja struktury 2-rzedowej 2-poziomowa
siec neuronowa
  • 2. poziom
  • Jednokierunkowa siec neuronowa o wejsciach
    bedacych wyjsciami sieci neuronowych z 1. poziomu
  • Wyjscie identyczne jak w przypadku sieci
    neuronowych z 1. poziomu
  • Predykcja dla centralnego aminokwasu z okna
    wejsciowego

13
Predykcja struktury 2-rzedowej informacja
ewolucyjna
  • Pojedyncza sekwencja zastapiona uliniowieniem
    spokrewnionych (homologicznych) sekwencji
  • Profil
  • Wartosci binarne na wejsciu sieci zastapione
    wartosciami rzeczywistymi z przedzialu 0,1
  • Poprawa jakosci predykcji (z 65 do gt70)

A C D
ACAA 0.75 0.25 0
DDCA 0.25 0.25 0.5
ACDA 0.5 0.25 0.25
DAAA 0.75 0 0.25
14
Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
15
Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
  • Obliczenia bi-rekurencyjnej sieci neuronowej
  • gdzie
  • Ot wynik predykcji dla t-tego aminokwasu
  • Ft lewy kontekst (forward)
  • Bt prawy kontekst (backward)
  • N dlugosc polipeptydu (liczba aminokwasów)

16
Predykcja struktury 2-rzedowej bi-rekurencyjna
siec neuronowa
  • 824 sekwencje (2/3 dane uczace, 1/3 testowe)
  • Najlepszy wynik ok. 76

Predykcja H Predykcja E Predykcja L
H 80.03 2.88 17.09
E 4.68 62.01 33.31
L 10.60 9.62 79.78
17
Predykcja map i wektorów kontaktów
  • Mapa kontaktów
  • N liczba aminokwasów w polipeptydzie
  • Macierz S o wymiarze N x N
  • Si,j 1, jesli i-ty i j-ty aminokwas sa w
    kontakcie
  • Si,j 0, w p.p.
  • i-ty i j-ty aminokwas sa w kontakcie
  • Odleglosc pomiedzy atomami wegla i-tego i j-tego
    aminokwasu mniejsza od ustalonej wartosci
  • Minimalna odleglosc pomiedzy dwoma dowolnymi
    atomami
  • i-tego i j-tego aminokwasu mniejsza od ustalonej
    wartosci

18
Predykcja map i wektorów kontaktów
  • Wektor kontaktów
  • N liczba aminokwasów w polipeptydzie
  • Wektor V o wymiarze N
  • Vi liczba aminokwasów, z którymi jest w
    kontakcie i-ty aminokwas
  • Definicja na podstawie mapy kontaktów

19
Predykcja map i wektorów kontaktów
  • Wektory kontaktów
  • Metody analogiczne jak w przypadku predykcji
    struktury 2-rzedwej bialek
  • Dla kazdego aminokwasu przewidywana jest liczba
    aminokwasów bedacych z nim w kontakcie
  • Mapy kontaktów
  • Rekurencyjne sieci neuronowe

20
Predykcja map kontaktów rekurencyjna siec
neuronowa
  • Uogólnienie bi-rekurencyjnej sieci neuronowej na
    przypadek 2-wymiarowy
  • Obliczenia rekurencyjnej sieci neuronowej

21
Predykcja struktury 3-rzedowej
  • Problem otwarty (brak dobrych predyktorów
    struktury 3-rzedowej bialek)
  • Mozliwe rozwiazanie
  • 1. etap predykcja
  • struktury 2-rzedowej
  • map i wektorów kontaktów
  • parametrów biochemicznych (np. hydrofobowosc)
  • 2. etap predykcja struktury 3-rzedowej z
    wykorzystaniem wyników 1. etapu

22
Badanie ekspresji genów mikromacierze DNA
  • Ekspresja genów
  • W tkance zdrowej i chorej
  • Zmiana w czasie
  • Róznica miedzy gatunkami
  • Mikromacierze DNA
  • Pojedyncza mikromacierz pojedynczy pomiar
    ekspresji genów w okreslonych warunkach
  • Dane z wielu mikromacierzy profil
  • Wiersze geny
  • Kolumny wartosci ekspresji dla róznych
    mikromacierzy

23
Badanie ekspresji genów przykladowy profil
24
Badanie ekspresji genów SOM
  • Profile ekspresji genów
  • duza ilosc danych
  • Koniecznosc uporzadkowania, klasteryzacji
  • Self Organizing Map (Kohonen, 1990)
  • Zalety
  • Podzial danych na klasy
  • Tolerancja zaszumionych danych
  • Wady
  • Brak hierarchicznosci
  • Stala liczba klas

25
Badanie ekspresji genów SOTA
  • Self-Organizing Tree Algorithm (Dopazo, Carazo,
    1997)
  • Samoorganizujaca siec neuronowa
  • Struktura drzewiasta
  • Dynamiczne generowanie struktury w procesie
    uczenia
  • Dowolna liczba klas

26
Badanie ekspresji genów SOTA
  • Wezly kolumny profilu ekspresji genów
  • Uczenie
  • Stan poczatkowy 2 liscie polaczone z wezlem
    wewnetrznym
  • Dla kolejnych danych wejsciowych
  • Wybór wezla zwycieskiego (sposród terminali)
  • Modyfikacje sasiednich wezlów
  • Dwa rodzaje sasiedztwa wezlów
  • Lokalne obaj potomkowie rodzica sa liscmi
  • Ograniczajace (restrictive)
  • Podzial wezla
  • Wygenerowanie dwóch identycznych kopii wezly
    potomne

27
Badanie ekspresji genów SOTA
28
Badanie ekspresji genów SOTA
29
Bibliografia
  • Paolo Frasconi, Ron Shamir Artificial
    Intelligence and Heuristic Methods in
    Bioinformatics, NATO Science Series, 2003
  • P. Baldi, S. Brunak Exploiting the past and
    the future in protein secondary structure
    prediction, Bioinformatics, 1999
  • G. Pollastri, P. Baldi Prediction of contact
    maps by GIOHMMs and recurrent neural networks
    using lateral propagation from all four cardinal
    corners, Bioinformatics, 2002
  • Javier Herrero, Alfonso Valencia, Joaquin Dopazo
    A hierarchical unsupervised growing neural
    network for clustering gene expression paterns,
    Bioinformatics, 2001
  • A.D. Baxevanis, B.F.F. Quellette
  • Bioinformatyka, PWN, 2004
  • P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H.
    White Biologia molekularna, PWN, 2005
Write a Comment
User Comments (0)
About PowerShow.com