Title: Gen
1Genômica e Proteômica
2Introdução
- Queremos conhecer a seqüência de parte ou de todo
o DNA de um organismo - A tecnologia disponível só recupera pequenas
seqüências de DNA. No máximo 700-800 pb. Em média
450 pb - Se queremos pedaços maiores de DNA, temos que a
partir destas pequenas seqüências, montar um
quebra-cabeças
3Introdução
- Um tipo diferente de quebra-cabeças. Temos as
peças, mas não sabemos o resultado final - Freqüentemente, nem temos todas as peças
- É um problema computacional complexo!
- Como ?
4Introdução
- Definir a estratégia de seqüenciamento
- Gerar as seqüências
- Construção e validação de bibliotecas
- Seqüênciar
- Montar
- Finalizar a seqüência genômica
5Estratégia de seqüenciamento
- Clone-by-clone (Primeiro mapear, depois
seqüênciar) - Whole-genome shotgun sequencing
- Hybrid shotgun sequencing
- Expressed Sequence Tag - EST
6Clone-by-clone e Whole-genome shotgun sequencing
7Whole-genome shotgun sequencing
8Whole-genome shotgun sequencing
9Hybrid shotgun sequencing
10Expressed Sequence Tag
11Bibliotecas
- Em qualquer estratégia temos que construir
bibliotecas de seqüências de DNA - As bibliotecas devem ser validadas. Garantir
- Que as seqüências tenham o tamanho esperado
- Que não exista contaminação e presença excessiva
de vetores - Que a distribuição das seqüências seja a esperada
- Para EST as bibliotecas podem ser de diferentes
tecidos
12Bibliotecas
13Administração e gerência
- No caso de redes de seqüenciamento, recepcionar
os cromatogramas - Armazenar os cromatogramas
- Gerar relatórios sobre o seqüenciamento
- Divulgação de estatísticas sobre o
desenvolvimento do projeto
14Administração e gerência
15Administração e gerência
16Administração e gerência
17Estratégia híbrida
- Leitura dos cromatogramas ? converter os dados
provenientes de seqüenciadores (reads) em
seqüências de nucleotídeos, associando a cada um
o seu respectivo valor de qualidade - Montagem ? comparar as seqüências, utilizando
também os valores de qualidade, para encontrar a
sobreposição entre elas e gerar as seqüências de
consenso, chamadas contigs - Objetivo Um contig !!!
18Estratégia híbrida
- Analisar a montagem
- Acompanhar a evolução do número de contigs ?
Determinar quando se deve parar o seqüenciamento
de bibliotecas e/ou iniciar o processo de
finalização do genoma - Identificar problemas de montagem. Ex. Presença
de repetições gerando montagens erradas
19Estratégia híbrida
- Finalizar o genoma
- Ordenar e orientar os contigs (scaffold)
- Utilizar os clones de shotgun e de outras
bibliotecas (cosmídoes, bacs etc) para construir
os scaffolds - Definir estratégias específicas para fechar
gaps espaços entre contigs no genoma - Garantir que todas as bases tenham um valor
mínimo de qualidade, para que tenhamos no máximo
uma base errada em um milhão.
20Leitura dos cromatogramas
- A leitura dos cromatogramas é a realizada pelo
programa phred - O phred nomeia cada base e atribue um valor de
qualidade para cada base lida - A qualidade está relacionada a probabilidade que
tenha ocorrido um erro na nomeação da base
21Leitura dos cromatogramas
- Q -10 log10( Pe )
- Q ? Qualidade e Pe ? Probabilidade de erro
- Ex. 1 erro em 100 bases
- Q -10 log10(1/100) ? Q 20
- Ex. 1 erro em 10000 bases
- Q -10 log10(1/10000) ? Q 40
- Ex. 1 erro em 1000000 bases
- Q -10 log10(1/1000000) ? Q 60
22Leitura dos cromatogramas
23Leitura dos cromatogramas
24Leitura dos cromatogramas
- O phred gera um arquivo contendo as bases e as
respectivas qualidades
25Filtragem de vetores
- Trechos de seqüências de DNA correspondentes a
vetores devem ser filtradas - Utiliza-se um programa (cross_match) de
alinhamento de seqüências para procurar na
seqüência de cada fragmento a presença do vetor - O trecho correspondente tem cada uma de suas base
substituídas por x
26Filtragem de vetores
27Montagem
- Determinar a ordem e orientação de uma coleção de
fragmentos de um mesmo DNA
28Montagem
29Programas / pacotes de montagem
- Assembler (www.tigr.org)
- Bambus Programa para gerar scaffold
- CAP3 (genome.cs.mtu.edu)
- phred/phrap/consed (www.phrap.org)
- Staden (www.mrc-lmb.cam.ac.uk) GAP4
- Pode utilizar o CAP3 ou o phrap
30CAP3
- Identificação e remoção de regiões de baixa
qualidade, no início e no fim dos reads - Alinhamento entre reads para identificação de
sobreposição - Identificação e remoção de falsos alinhamentos
31CAP3
- Formação dos contigs através da junção dos reads
em ordem decrescente da pontuação dos
alinhamentos - Correção nos contigs através da validação
forward-reverse - Alinhamento múltiplo dos reads para a construção
da seqüência de consenso - Geração dos arquivos de saída (links, ace etc)
32phrap
- Tratamento das seqüências
- Conversão de trechos de bases iguais, no início e
no fim dos reads em N - Identificação e exclusão de reads iguais
- Exclusão de regiões, provavelmente não filtradas,
de vetores do alinhamento - Determinação dos singlets (reads que não tem
alinhamento com nenhum outro read)
33phrap
- Identificação de sobreposição
- Formação dos contigs
- Determinação do consenso
- Determinação dos links entre contigs e do
scaffold - Geração dos arquivos de saída (log, ace, contigs
etc)
34Pipeline da montagem
Conversão (phd2fasta) phd_files ? multifasta e
multifasta.qual
Montagem (phrap / cap3)
Filtragem (cross_match) de vetores e repetições
? multifasta.screen
Arquivo de Clones (formcon) ?
multifasta.screen.con
Somente para o CAP3
35Análise da montagem
36Análise da montagem
37Análise da montagem
38Análise da montagem
39Identificação de repetições
- Repetição trechos de DNA ao longo do(s)
cromossomo(s) - Se a repetição tiver um tamanho próximo ou maior
que a média do tamanha dos reads, o programa de
montagem pode colocá-lo em uma região errada
40Identificação de repetições
41Identificação de repetições
42Identificação de repetições
- Como identificar
- Regiões de contigs que empilham reads
- Regiõe(s) que têm match com outras regiõe(s)
- Regiões que apresentam links de pontas de clones
inconsistentes - Regiões em que existem mais de um read com bases
discrepantes em relação ao consenso
43Identificação de repeats
- Regiões que empilham reads
44Identificação de repeats
- Regiõe(s) que têm match com outras regiõe(s)
45Identificação de repeats
- Regiõe(s) que têm match com outras regiõe(s)
46Identificação de repeats
- Regiões que apresentam links de pontas de clones
inconsistentes
47Identificação de repeats
- Regiões em que existem mais de um read com bases
discrepantes em relação ao consenso
48Problemas nos contigs
- Low Consensus Quality (LCQ) ? É uma região do
consenso, cujas bases possuem qualidade menor ou
igual a 25. Indica uma região que está coberta
por reads de baixa qualidade. - High Quality Discrepancies (HQD) ? São bases de
um read que estão discrepantes em relação ao
consenso e são de qualidade superior a 40. - Positions not Confirmed on both Strands (NCBS) ?
Posições no consenso que não estão confirmadas
nas duas fitas. - Reads quiméricos
49Problemas nos contigs - LCQ
50Problemas nos contigs - HQD
51Problemas nos contigs - HQD
52Problemas nos contigs - NCBS
53Problemas nos contigs - Quimera
54Finalização do genoma
- Estratégias para resolver os problemas de
montagem dos contigs (LCQ, HQD, NCBS, quimeras) - Estratégias para resolver os problemas de
repetição ? Fechar os gaps gerados pelos filtros - Estratégias para fechar os demais gaps. Gaps
dentro de scaffolds (virtuais) e entre scaffolds
(reais)
55Finalização do genoma -- HQD
- Retirar os reads que contenham HQD, remontar o
contig isoladamente e comparar as seqüências - Retirar o(s) read(s)s que determina(m) o
consenso, remontar o contig isoladamente e
comparar as seqüências (muitos reads e muitas
bases com HQD) - Ressequenciar reads da região
56Finalização do genoma LCQ e NCBS
- Ressequenciar reads que estejam com baixa
qualidade - Desenhar e sequenciar reads de primer
- Gerar uma subblioteca de um clone e sequenciá-lo
completamente.
57Finalização do genoma Quimeras
- Retirar os reads quiméricos . Realizar a montagem
isolada e comparar os consensos - Se houver diferença, ressequenciar reads da
região, inclusive o quimérico
58Finalização do genoma fechamento de gaps
- Ressequenciar reads que estejam com baixa
qualidade nas extremidades dos contigs - Desenhar e sequenciar reads de primer
- Gerar uma subblioteca de um clone e sequenciá-lo
completamente.
59Finalização do genoma fechamento de gaps
(filtro)
- Montar separadamente os dois contigs de cada gap,
ou apenas, as duas extremidades. - Pode ser necessário montar com diferentes
programas (cap3 e phrap) para estabelecermos
comparações - Garantir que, na medida do possível, os clones
estejam com as duas pontas (forward e reverse).
Resgatar, para isto, as pontas que se tornaram
singlets
60Finalização do genoma fechamento de gaps
(filtro)
- Realizar experimentos que confirmem que os dois
contigs do gap realmente estão juntos e na
orientação indicada pelo scaffold (Ex. PCR
combinatório) - Desenhar e sequenciar reads de primer
- Gerar uma subblioteca de um clone e sequenciá-lo
completamente. - Sequenciar o produto de PCR
61Genomas montados no LABINFO
- Chromobacterium violaceum e Mycoplasma synoviae
(www.brgene.lncc.br) - Mycoplasma hyopneumoniae J e Mycoplasma
hyopneumoniae 7448 (www.genesul.lncc.br)
62Genomas em andamento no LABINFO
- Xylella fastidiosa Ann1 e Xylella fastidiosa
Dixon (www.xylella.lncc.br) - Rhizobium tropici (www.nbf.lncc.br)
- Leifsonia xyli cynodontis (www.leifsonia.lncc.br)
63EST
- A montagem de EST, é na verdade, a construção de
clusters (grupos) de seqüências de EST que são
originadas da expressão de um mesmo gene - O pipeline é semelhante a montagem de genomas
completos. Com exceção da filtragem de repeats. - Tanto o programa CAP3, quanto o phrap podem ser
utilizados
64Referências
- Green, ED Strategies for the systematic
sequencing of comples genomes (Nature Reviews
Genetics, vol 2, agosto 2001, 573-583)
(http//www.nature.com/cgi-taf/DynaPage.taf?file/
nrg/journal/v2/n8/full/nrg0801_573a_fs.html) - Huang, X e Madan, A CAP3 A DNA Sequence
Assembly Program (Genome Research) - www.phrap.org
- Telles, GP et all - Bioinformatics of the
sugarcane EST project (Genetics and Molecular
Biology, vol 24, n1-4, 2001) - Telles, GP e Silva FR Trimming and clustering
sugarcane ESTs (Genetics and Molecular Biology,
vol 24, n1-4, 2001)