Title: Identifica
1Identificação dos Genes de uma cadeia de DNA com
a ferramenta GENSCAN
Junho de 2001
2O que é mesmo ...
- ... DNA?
- ... Gene?
- ... Identificação de Gene?
- ... Genscan?
3Como identificar o que é e o que não é Gene numa
cadeia de DNA? (parte 1)
- Analogia de um DNA com um programa...
- Os Genes seriam blocos responsáveis por uma única
rotina do programa.
... // esta rotina define a cor dos olhos da
pessoa. begin // a cor dos olhos será azul
cor_dos_olhos AZUL end // esta rotina define
se a pessoa escreve com // a mão esquerda ou
direita. begin // esta pessoa aqui será
canhota! escreve_com_a_mao ESQUERDA end ...
4Como identificar o que é e o que não é Gene numa
cadeia de DNA? (parte 2)
- Num programa todo bloco...
- ... começa com um begin ...
- ... e termina com um end
... // esta rotina define a cor dos olhos da
pessoa. begin // a cor dos olhos será azul
cor_dos_olhos AZUL end // esta rotina define
se a pessoa escreve com // a mão esquerda ou
direita. begin // esta pessoa aqui será
canhota! escreve_com_a_mao ESQUERDA end ...
5Como identificar o que é e o que não é Gene numa
cadeia de DNA? (parte 3)
- No programa todo bloco pode ser identificado
simplesmente procurando as palavras begin e end. - Será que todo gene também tem uma palavra begin
e uma palavra end?
- Empiricamente podemos dizer que sim!
- Agora vem a pergunta mais importante Será que é
possível definir como é a palavra begin e a
palavra end de um gene para possamos
indentificá-los assim como no programa (nossa
analogia)?
- Definir exatamente ainda não é possível. Porém
sabemos mais ou menos a cara do begin e do end
de um gene e utilizamos este conhecimento para
identificar estatisticamente (não é 100) onde
estão os genes de uma cadeia de DNA.
6O que sabemos... (parte 1)
- O Gene está situado em uma das fitas do DNA e é
base para a codificação de um tipo de proteína.
7O que sabemos...(parte 2)
- Identificar um Gene é equivalente a saber
exatamente - Em que fita do DNA se encontra o Gene.
- Onde estão seus Exons
8O que sabemos...(parte 3)
- Alguns detalhes de como são mais ou menosos
sinais begin e end de um Gene - Antes do início de um Gene existe a região
promotora rica em TATA (pares de Timina Adenina). - Num dos exons iniciais existe um códon (tripla de
nucleotídeos) normalmente ATG que será o marcador
do início da tradução, ou seja, o próximo códon
já definirá um aminoácido na proteína que será
sintetizada. - Entre um exon e um intron existe a chamada região
de corte doadora (donor splice site ou 5 splice
site). - Entre um intron e um exon existe a chamada região
de corte aceitadora (acceptor splice site ou 3
splice site). - No último exon do Gene existe um códon de parada,
a partir do qual nenhum aminoácido entrará mais
na proteína que está sendo sintetizada. - A região após o último exon do gene é rica em As
(Adenina) chamada cauda polyA
9GENSCAN
- Ferramenta para identificação de genes numa
cadeia de DNA baseda num modelo probabilistico
para a estrutura do Gene descrito por Chris Burge
e Samuel Karlin, ambos do departamento de
matemática da universidade de Stanford. - Modelo adequado para eucariotos.
- Modelo baseado num Generalized Hidden Markov
Model (GHMM).
10Características do GENSCAN
- Identificação da estrutura completa de
intron/exon de um Gene numa cadeia de DNA. - Capacidade de identificar múltiplos genes, genes
parciais e genes completos. - Capacidade de identificar um conjunto de Genes
ocorrendo em ambas as fitas do DNA. - Capacidade de identificar tanto exons otimais
quanto exons sub-otimais (em relação ao modelo)
11Como usar o GENSCAN
Pedaço contíguo de uma fita de DNA ACGAAGGTTCATAT
C...
- Matriz de Parâmetros (três opções)
- Vertebrados
- Arabidopsis
- Maize
Sub-Optimal cutoff 1.00, 0.50, 0.25, 0.10,
0.05, 0.02, 0.01 (se for 1.00 só gera á melhor
saída do modelo).
12Exemplo (parte 1)
- Identificar os genes da seqüência X66401, que
contém 66109 bp. Esta seqüência está presente no
cromossomo 6 do homem e se sabe que ela contém 5
genes (4 na fita que está registrada e 1 na fita
oposta).
13Exemplo (parte 2)
- A saída detalhada do GENSCAN tem a seguinte forma
(apenas o primeiro gene downstream)...
Os scores têm a seguinte interpretação gt 100, é
muito bom 50100, é bom 0-50, é regular lt 0, é
ruim
14Referências
- Transparência on-line (autor Terry Speed)
- http//www.ludwig.edu.au/CRCCGF/bioinformatics/rec
og/index.htm - Papers
- Burge,C. and Karlin,S. (1997) Prediction of
complete gene structures in human genomic DNA. J.
Mol. Biol., 268,78--94. - Burge,C. and Karlin,S. (1998) Finding the genes
in genomic DNA. Current Opinion in Structural
Biology, 8346-354. - Site do GENSCAN no MIT
- http//genes.mit.edu/GENSCAN.html
15GENSCAN
The state-of-the-art program for finding Genes