Title: Banco de Dados Biol
1Banco de Dados Biológicos
- Marcílio C. P. de Souto
- DIMAp/UFRN
2Banco de Dados (BD) Biológicos
- Por que?
- Disponibilizar dados biológicos para os
cientistas - O máximo possível de um tipo particular de
informação deveria estar disponível em um único
lugar - Dados publicados podem ser difíceis de encontrar
ou acessar - Coleta-los da literatura consume muito tempo
- Disponibilizar dados em formato que possa ser
lido por um computador
3BD de Seqüências
- Há uma quantidade gigantesca de informação sobre
biomoléculas em BD públicos - Mais de 348 BD
- BD de seqüências de nucleotídeos
- EMBL (http//www.ebi.ac.uk/embl)
- GenBank (http//www.ncbi.nlm.nih.gov/GenBank)
- DDBJ (http//www.ddbj.nig.ac.jp)
- UniGene (http//www.ncbi.nlm.nih.gov/UniGene)
- BD de seqüências de proteínas
- SWISS-PROT, TrEMBL (http//www.expansy.ch/sprot)
- PIR (http//pir.georgetown.edu)
- BD de motivos
- Pfam (http//www.sanger.ac.uk/Software/Pfam)
- PROSITE (http//www.expansy.ch/prosite)
- BD de estruturas macromoleculares 3D
- PDB (http//www.rcsb.org/pdb)
4Usos de BD de Seqüências
- O que se pode descobrir sobre um gene por meio de
uma busca a um BD? - Informação evolutiva genes homólogos,
freqüências dos alelos, ... - Informação genômica localização no cromossomo,
intros, UTRs, regiões reguladoras, ... - Informação estrutural estruturas da proteína
correspondente, tipos de folds, domínios
estruturais, ... - Informação de expressão expressão específica a
um dado tecido, fenótipos, doenças, ... - Informação funcional função molecular/enzimática,
papel em diferentes rotas, papel em doenças, ...
5Busca de Informação
- Busca de informação sobre genes e produtos
gênicos - Gene e produtos gênicos são geralmente
organizados por seqüência - Seqüências genômicas codificam todas
características de um organismo - Produtos gênicos são descritos unicamente por sua
seqüência - Seqüências similares entre biomoléculas indica
tanto uma função similar quanto um relacionamento
evolutivo - Seqüências de macromoléculas proporciona chaves
biologicamente significativas para busca em BD
6Busca em BD de Seqüências
- Comece com uma seqüência, encontre informação
sobre ela - Muitos tipos de seqüências de entrada
- Pode ser uma seqüência de aminoácido ou de
nucleotídeo - Genômica, cDNA/mRNA, proteína
- Completa ou fragmentada
- Matches exatos são raros
- Em geral, o objetivo é recuperar um conjunto de
seqüências similares
7Busca em BD de Seqüências
- O que queremos saber sobre a seqüência?
- Ela é similar ao algum gene conhecido? Quão
próximo é o melhor match? Significância? - O que sabemos sobre este gene?
- Genômica (localização no cromossomo, regiões
reguladoras, ...) - Estrutural (estrutura conhecida? ...)
- Funcional (molecular, celular e doença)
- Informação evolutiva
- Este gene é encontrado em outros organismos?
- Qual é sua árvore taxonômica?
8NCBI e Entrez
- A mais usada interface para a recuperação de
informação de BD biológicos é o sistema Entrez do
NCBI (http//www.ncbi.nlm.nih.gov/Entrez) - NCBI (National Center for Biotechnology
Information) - O sistema Entrez tira vantagem do fato que há
relacionamentos lógicos pré-existentes entre as
entradas indíviduas encontradas em diversos BD
públicos - Por um exemplo, um artigo no PuBMed pode
descrever o sequenciamento de um gene cuja
seqüência aparece no GenBank - A seqüência de nucleotídeos, por sua vez, pode
codificar o produto de uma proteína cuja
seqüência está armazenada em um BD de proteínas - A estrutura 3D desta proteína pode ser conhecida
- as coordenadas da estrutura podem aparecer em
um BD de estruturas - Finalmente, o gene pode ter sido mapeado para uma
região específica do cromossomo - BD de
mapeamento - A existência dessas conexões naturais, levou ao
desenvolvimento de um método por meio do qual
toda a informação poderia ser encontrada sem ter
que visitar sequencialmente BD distintos
9O Sistema Entrez (1/2)
- Para ser claro, Entrez não é um BD
- É a interface por meio da qual todos os seus BDs
componentes podem ser acessados - O espaço de informação do Entrez inclui
- Registros do PubMed
- Dados sobre seqüências de nucleotídeos e
proteínas - Informação sobre estruturas 3D
- Informação de mapeamento
- A vantagem do Entrez está no fato que toda esta
informação pode ser acessada por meio de apenas
uma query (consulta)
10O Sistema Entrez (2/2)
11BLAST Busca com uma Seqüência
- O objetivo é encontrar outras seqüências que são
mais similares a query (consulta) do que seria
esperado por ter acontecido ao acaso - Homologia
- Pode começar com seqüências de nucleotídeos ou
aminoácidos - Pode fazer a busca por nucleotídeos/aminoácidos
12BLAST
13Mais que NCBI
- Links para anotações funcionais fora do NCBI
- Gene Ontology - nomes padrões para
- Funções moleculares
- Localização celular
- Processos
- Links para BD de enzimas
- Funções da enzimas
- Links para o BD KEGG (vias)
14KEGG
15Referências
- A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics a practical guide to the analysis
of genes e proteins. John Wiley Sons. 2001. - The Molecular Biology Database Collection 2003
update -- Nucleic Acids Research 31(1)1-12
16Busca em Banco de Dados
- Marcílio C. P. de Souto
- DIMAp/UFRN
17Primeiro Atrás da Tela
- Banco de dados são muito usados para buscas
- Integridade, segurança, ...
- Busca significa receber uma query (consulta) e
recuperar algum entrada do banco de dados que
match (case) com ela - Comparação inexata de seqüências (alinhamento)
- Programação dinâmica e BLAST search
- Eficiência é fundamental
- Queremos encontrar coisas rápidas,
independentemente de quão grande o banco de dados
se torne
18Alinhamento de Seqüências
- Possibilitar ao pesquisador determinar se duas
seqüências apresentam suficiente similaridade tal
que um inferência sobre homologia pode ser
justificada - Homologia significa dizer que duas (ou mais)
seqüências tem um ancestral comum - História evolutiva
- Similaridade é uma medida da qualidade do
alinhamento entre duas seqüências, baseada em
algum critério - Não se refere a nenhum processo histórico
- Apenas uma comparação das seqüências com algum
método - É uma afirmação logicamente mais fraca
- Em bioinformática, esses dois termos são muitas
vezes confundidos - A razão é provavelmente porque uma similaridade
significativa é um forte argumento para homologia
e, a partir disso, para a dedução de que as
seqüências codificam um gene com uma função
biológica similar
19Bases Evolucionárias
- Mutações
- Os eventos mais simples que ocorrem durante o
curso da evolução molecular são substituições de
um nucleotídeo por outro e a deleção ou inserção
de uma par de base - Quando uma alinhamento de seqüências refletem
genuinamente a história evolutiva de dois genes
ou proteínas - Resíduos que foram alinhados mas não são
idênticos representaria uma substituição - Regiões onde os resíduos de uma seqüência não
correspondem a nada na outra seria interpretado
como ou uma inserção uma seqüência ou uma deleção
na outra
A L I G N M E N T - L I G A M E
N T
20Relação entre Sequências
21Similaridade
- Similaridade pode ser definida contando posições
que são idênticas entre duas seqüências - Gaps (inserções/deleções) podem ser importantes
G A A T T C A G T T A G G
A T T C G - A
22Substituições
- Nem todo mismatch (substituições) são iguais
- Alguns aminoácidos são mais substituível entre si
- Serina e treonina são mais parecidos do que
triptofan e alanina - Podemos adicionar um custo diferente para cada
tipo de mismatch (substituição) - Em geral, não usamos custos diferentes para os
mismatches no alinhamento de nucleotídeos - Nenhuma substituição, por si, é melhor do que
outra
23Gaps
- Sem gaps, há NM possíveis alinhamentos entre
seqüências de comprimentos N e M - Uma vez gaps são permitidos, isto se torna um
número muito grande - O número de possíveis alinhamentos torna-se
exponencial no tamanho das seqüências - Logo, não podemos experimentar todos
24Alinhamento Aleatórios
- A introdução de gaps também pode levar a
alinhamentos sem sentido
S O M E T I M E S Q U I P S E N T I C E
S - - E - - - Q U - -
- E N - - C E
- É necessário distinguir entre alinhamentos que
ocorreram devidoa homologia daqueles que são
esperados a acontecer ao acaso - Defina um esquema (função) de score (pontuação)
que leve em consideração ambos mismatches e
penalidades para gaps
25Match Scores
- Match scores são em geral calculadoscom base na
freqüência de mutações particulares em
seqüências muito similares
26Alinhamento Global e Local (1/2)
- Global
- Seqüências são comparadas como um todo
- Útil quando temos seqüências que diferem pouco
entre si - Inclui gaps
- Local
- O alinhamento localiza fragmentos de seqüências
que são mais similares - Algumas vezes não inclui gaps
- Muitas proteínas não apresentam um padrão global
de similaridade - Mosaico de domínios modulares
- Alinhamento de seqüências de nucleotídeos de um
mRNA processado (spliced) com sua seqüencia
genômica (Exon/Intron)
27Alinhamento Global e Local (2/2)
28Score do Alinhamento
- Um score (pontuação) do alinhamento é a soma de
todos os match scores, com a penalidade subtraída
para cada gap
A B C D E F G A C C - F G
match gap score
score 8 2 8 8 8 gt 34 - (102) 22
29Métodos de Alinhamento de Seqüências
- Dado um par de seqüências e função de score
(pontuação), identifique o alinhamento que obteve
o melhor score - Alinhamento ótimo
- Lembre, há um número exponencial de alinhamentos
possíveis - A maioria deles com scores muito ruins
- Alinhamento de pares de seqüências
- Matriz de pontos (dot matrix)
- Programação dinâmica
- Dicionário de palavras ou k-tuplas (BLAST)
30Matriz de Pontos
- Permite a inspeção visual de um possível
alinhamento entre duas seqüências - Permite que repeats e inversões sejam detectadas
- Permite a identificação de regiões
auto-complementares (e.g., RNA com estrutura
secundária) - O alinhamento não é produzido
31Exemplo
- Seqüências
- ATGCGTCGTT
- ATCCGCGAT
- Passos
- Organize as seqüências em uma matriz
- Coloque um ponto em cada lugar que houver um
match entre duas bases - Trechos diagonais (indicados por linhas) são
áreas de alinhamento - Mais de um alinhamento pode surgir
32Programação Dinâmica (PD)
- Método computacional que calcula o melhor
alinhamento possível entre sequências - Abordagem indutiva, em que são definidos os
scores para as seqüências menores, e a partir
dessas, novos scores são computados os scores de
cadeias maiores - Sejam s e t duas seqüências, com sm e
tn, construir uma matriz (m1) x (n1), em
que M(i, j) contém a similaridade entre
s1..i e t1..j - Algoritmo de Needleman-Wunch
33Exemplo (1/12)
- Sequence 1 GAATTCAGTTA (m 11)
- Sequence 2 GGATCGA (n 7)
- Esquema de Pontuação (scoring)
- S(aibj) 2 if ai bj (match score)
- S(aibj) -1 if ai ? bj (mismatch score)
- w -2 (gap penalty)
- Pontuação Máxima na posição i,j da matriz
- Mi,j MAX
- Mi-1, j-1 s(ai,bj) (match/mismatch),
- Mi,j-1 w (gap na seqüência 1),
- Mi-1,j w (gap na seqüência 2)
34Exemplo (2/12)
- Inicialização
- Crie uma matriz com m1 colunas e n1 linhas, em
que m e n correspondem ao tamanho das seqüências
a serem alinhadas - A primeira linha e a primeira coluna podem ser
inicialmente preenchidas com 0
35Exemplo (3/12)
- Preenchimento da Matriz
- M1,1 MAXM0,0 2, M1,0 - 2, M0,1 - 2 MAX2,
-2, -2 -
36Exemplo (4/12)
- Preenchimento da Matriz
- M1,2 MAXM0,1 2, M1,1 - 2, M0,2 - 2
MAX02, 2-2, 0-2 MAX2, 0, -2 -
37Exemplo (5/12)
- Preenchimento da Matriz
- M1,3 MAXM0,2 - 1, M1,2 - 2, M0,3 - 2
MAX0-1, 2-2, 0-2 MAX-1, 0, -2 -
38Exemplo (6/12)
- Preenchimento da Matriz
- M32 MAXM21 - 1, M31 - 2, M22 - 2 MAX0-1,
-1 - 2, 1-2 MAX-1, -3, -1 -
39Exemplo (7/12)
- Preenchimento da Matriz
- Dois caminhos diferentes para se obter o score
máximo para célula M32 -
40Exemplo (8/12)
- Preenchimento da Matriz
- Matriz Final
-
41Exemplo (9/12)
A A
42Exemplo (10/12)
T C A G T T A T C G -
A
43Exemplo (11/12)
G A A T T C A G T T A
G G A T C G - A
44Exemplo (12/12)
G A A T T C A G T T A
G G A T - C G - A
45Score do Alinhamento
- G A A T T C A G T T A
-
- G G A T C G - A
-
- - - - - -
- 2 1 2 2 2 2 2 2 2 2 2
-
- 2 1 2 2 2 2 2 2 2 2 2 3?
46Significância de um Alinhamento
- Teste de significância é um ramo da estatística
que se preocupa com a avaliação da probabilidade
que um resultado particular poderia ter
acontecido ao acaso - Como podemos calcular a probabilidade de que um
alinhamento aconteceu por acaso? - Com um modelo de evolução
- Empiricamente, por meio do embaralhamento de
nossas seqüências e o cálculo dos scores nessas
seqüências aleatórias
47Busca em BD por Similaridade (1/2)
- Até agora o foco era sobre o alinhamento de pares
específicos de seqüências - Porém, para uma seqüência nova determinada,
geralmente não como saber qual seqüência (ou
seqüências) é apropriada para a comparação - Busca em BD por similaridade nos permite
determinar quais das várias seqüências são
potencialmente relacionadas a uma seqüência
particular de interesse - Este processo pode levar a descobertas
inesperadas - Um dos primeiros resultados com esse processo
venho com a descoberta de que o oncogene viral
v-sis é uma forma modificada de um gene celular
normal - Naquela época, as bases de dados de seqüências
eram pequenos o suficiente tal que esse achado
pode ser considerado um fato surpreendente - Hoje, porém, seria mais surpreendente fazer uma
busca em um BD e não encontrar nenhum hit
48Busca em BD por Similaridade (2/2)
- A operação básica é sequencialmente alinhar uma
seqüência query com cada seqüência subject no BD - Os resultados são apresentados como uma lista de
ranks seguida por uma série de alinhamento
individuais de seqüências, mais vários scores e
estatísticas - ADICIONAR FIGURA
49Métodos Heurísticos
- Soluções de programação dinâmica para problemas
de alinhamento são relativamente lentas - Não levam a buscas eficientes nos imensos BD de
seqüências - Necessidade de uma técnica para fazer busca em
grandes BD para encontrar seqüências que tenha um
match inexato com a seqüência query - Soluções competidoras FASTA BLAST
- Métodos heurísticos (aproximação) de programação
dinâmica - Baseado na estratégia de quebrar uma seqüência em
cadeias pequenas de letras consecutivas, chamadas
de palavras - Idéia alinhamento representando um
relacionamento verdadeiro entre as seqüências
conterá pelo menos uma palavra que é comum a
ambas seqüências - Estas palavras hits podem ser identificadas
rapidamente pre-indexando todas as palavras da
query e então consultando o índece na medida que
o BD é pecorrido - Programação dinâmica encontra relacionamentos em
seqüências distantemente relacionada que
aproximações não conseguem
50BLAST
- O BLAST é uma heurística para comparação local
mais utilizada - Basic Local Aligment Search Tool (Altschull et
al., 1990) - Há várias variantes do BLAST, dependendo do tipo
da seqüência query (DNA ou proteínas) e do BD
sendo consultado
51Referências
- A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics a practical guide to the analysis
of genes e proteins. John Wiley Sons. 2001. - M. S. Waterman. Introduction to Computational
Biology maps, sequences and genomes. Chapman
Hall. 2000. - http//www.sbc.su.se/per/molbioinfo2001/seqali-dy
n.html (ótimo tutorial sobre programação
dinâmica)
52Análise de Genomas
- Então, o que fazer com um genoma completo?
Afinal, um genoma sequenciado consiste apenas de
um infinidade de bases em uma ordem definida - Análise é obviamente necessária a fim de se obter
informações biologicamente interessantes. A
análise de um genoma cobre muitos aspectos
diferentes - Definição da localização dos genes (regiões
codificadoras, regiões reguladoras)
identificação de gene - Predição de genes ab initio usando software
baseado em regras e padrões. - Identificação de genes por meio de alinhamento
com proteínas conhecidas e seqüências EST - Predição de genes por meio de similaridade com
proteínas e seqüências ESTem outros organismos - Predição de genes por meio de comparação com
outros genomas - Regiões conservadas são provavelmente regiões
codificadoras ou reguladoras
53Análise de Genomas
- Anotação de genes comparar com genes/proteínas
com funções conhecidas em outros organismos.
Essencialmente o mesmo que rotular um gene. - Classificação funcional. Grupos amplos de
caracterização funcional, tais como proteínas
ribossomais, .... - Vias metabólica
- Há