Gen - PowerPoint PPT Presentation

1 / 64

About This Presentation

Title:

Gen

Description:

... Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br) Genomas em andamento no LABINFO Xylella fastidiosa Ann1 e Xylella ... – PowerPoint PPT presentation

Number of Views:110

Avg rating:3.0/5.0

Slides: 65

Provided by: lnccBrlg

Category:

more less

Transcript and Presenter's Notes

Title: Gen

1
Genômica e Proteômica

Montagem de genomas

2
Introdução

Queremos conhecer a seqüência de parte ou de todo
o DNA de um organismo
A tecnologia disponível só recupera pequenas
seqüências de DNA. No máximo 700-800 pb. Em média
450 pb
Se queremos pedaços maiores de DNA, temos que a
partir destas pequenas seqüências, montar um
quebra-cabeças

3
Introdução

Um tipo diferente de quebra-cabeças. Temos as
peças, mas não sabemos o resultado final
Freqüentemente, nem temos todas as peças
É um problema computacional complexo!
Como ?

4
Introdução

Definir a estratégia de seqüenciamento
Gerar as seqüências
Construção e validação de bibliotecas
Seqüênciar
Montar
Finalizar a seqüência genômica

5
Estratégia de seqüenciamento

Clone-by-clone (Primeiro mapear, depois
seqüênciar)
Whole-genome shotgun sequencing
Hybrid shotgun sequencing
Expressed Sequence Tag - EST

6
Clone-by-clone e Whole-genome shotgun sequencing
7
Whole-genome shotgun sequencing
8
Whole-genome shotgun sequencing
9
Hybrid shotgun sequencing
10
Expressed Sequence Tag
11
Bibliotecas

Em qualquer estratégia temos que construir
bibliotecas de seqüências de DNA
As bibliotecas devem ser validadas. Garantir
Que as seqüências tenham o tamanho esperado
Que não exista contaminação e presença excessiva
de vetores
Que a distribuição das seqüências seja a esperada
Para EST as bibliotecas podem ser de diferentes
tecidos

12
Bibliotecas
13
Administração e gerência

No caso de redes de seqüenciamento, recepcionar
os cromatogramas
Armazenar os cromatogramas
Gerar relatórios sobre o seqüenciamento
Divulgação de estatísticas sobre o
desenvolvimento do projeto

14
Administração e gerência
15
Administração e gerência
16
Administração e gerência
17
Estratégia híbrida

Leitura dos cromatogramas ? converter os dados
provenientes de seqüenciadores (reads) em
seqüências de nucleotídeos, associando a cada um
o seu respectivo valor de qualidade
Montagem ? comparar as seqüências, utilizando
também os valores de qualidade, para encontrar a
sobreposição entre elas e gerar as seqüências de
consenso, chamadas contigs
Objetivo Um contig !!!

18
Estratégia híbrida

Analisar a montagem
Acompanhar a evolução do número de contigs ?
Determinar quando se deve parar o seqüenciamento
de bibliotecas e/ou iniciar o processo de
finalização do genoma
Identificar problemas de montagem. Ex. Presença
de repetições gerando montagens erradas

19
Estratégia híbrida

Finalizar o genoma
Ordenar e orientar os contigs (scaffold)
Utilizar os clones de shotgun e de outras
bibliotecas (cosmídoes, bacs etc) para construir
os scaffolds
Definir estratégias específicas para fechar
gaps espaços entre contigs no genoma
Garantir que todas as bases tenham um valor
mínimo de qualidade, para que tenhamos no máximo
uma base errada em um milhão.

20
Leitura dos cromatogramas

A leitura dos cromatogramas é a realizada pelo
programa phred
O phred nomeia cada base e atribue um valor de
qualidade para cada base lida
A qualidade está relacionada a probabilidade que
tenha ocorrido um erro na nomeação da base

21
Leitura dos cromatogramas

Q -10 log10( Pe )
Q ? Qualidade e Pe ? Probabilidade de erro
Ex. 1 erro em 100 bases
Q -10 log10(1/100) ? Q 20
Ex. 1 erro em 10000 bases
Q -10 log10(1/10000) ? Q 40
Ex. 1 erro em 1000000 bases
Q -10 log10(1/1000000) ? Q 60

22
Leitura dos cromatogramas
23
Leitura dos cromatogramas
24
Leitura dos cromatogramas

O phred gera um arquivo contendo as bases e as
respectivas qualidades

25
Filtragem de vetores

Trechos de seqüências de DNA correspondentes a
vetores devem ser filtradas
Utiliza-se um programa (cross_match) de
alinhamento de seqüências para procurar na
seqüência de cada fragmento a presença do vetor
O trecho correspondente tem cada uma de suas base
substituídas por x

26
Filtragem de vetores
27
Montagem

Determinar a ordem e orientação de uma coleção de
fragmentos de um mesmo DNA

28
Montagem
29
Programas / pacotes de montagem

Assembler (www.tigr.org)
Bambus Programa para gerar scaffold
CAP3 (genome.cs.mtu.edu)
phred/phrap/consed (www.phrap.org)
Staden (www.mrc-lmb.cam.ac.uk) GAP4
Pode utilizar o CAP3 ou o phrap

30
CAP3

Identificação e remoção de regiões de baixa
qualidade, no início e no fim dos reads
Alinhamento entre reads para identificação de
sobreposição
Identificação e remoção de falsos alinhamentos

31
CAP3

Formação dos contigs através da junção dos reads
em ordem decrescente da pontuação dos
alinhamentos
Correção nos contigs através da validação
forward-reverse
Alinhamento múltiplo dos reads para a construção
da seqüência de consenso
Geração dos arquivos de saída (links, ace etc)

32
phrap

Tratamento das seqüências
Conversão de trechos de bases iguais, no início e
no fim dos reads em N
Identificação e exclusão de reads iguais
Exclusão de regiões, provavelmente não filtradas,
de vetores do alinhamento
Determinação dos singlets (reads que não tem
alinhamento com nenhum outro read)

33
phrap

Identificação de sobreposição
Formação dos contigs
Determinação do consenso
Determinação dos links entre contigs e do
scaffold
Geração dos arquivos de saída (log, ace, contigs
etc)

34
Pipeline da montagem
Conversão (phd2fasta) phd_files ? multifasta e
multifasta.qual
Montagem (phrap / cap3)
Filtragem (cross_match) de vetores e repetições
? multifasta.screen
Arquivo de Clones (formcon) ?
multifasta.screen.con
Somente para o CAP3
35
Análise da montagem
36
Análise da montagem
37
Análise da montagem
38
Análise da montagem
39
Identificação de repetições

Repetição trechos de DNA ao longo do(s)
cromossomo(s)
Se a repetição tiver um tamanho próximo ou maior
que a média do tamanha dos reads, o programa de
montagem pode colocá-lo em uma região errada

40
Identificação de repetições

Repetições ambíguas

41
Identificação de repetições

Repetições colapsadas

42
Identificação de repetições

Como identificar
Regiões de contigs que empilham reads
Regiõe(s) que têm match com outras regiõe(s)
Regiões que apresentam links de pontas de clones
inconsistentes
Regiões em que existem mais de um read com bases
discrepantes em relação ao consenso

43
Identificação de repeats

Regiões que empilham reads

44
Identificação de repeats

Regiõe(s) que têm match com outras regiõe(s)

45
Identificação de repeats

Regiõe(s) que têm match com outras regiõe(s)

46
Identificação de repeats

Regiões que apresentam links de pontas de clones
inconsistentes

47
Identificação de repeats

Regiões em que existem mais de um read com bases
discrepantes em relação ao consenso

48
Problemas nos contigs

Low Consensus Quality (LCQ) ? É uma região do
consenso, cujas bases possuem qualidade menor ou
igual a 25. Indica uma região que está coberta
por reads de baixa qualidade.
High Quality Discrepancies (HQD) ? São bases de
um read que estão discrepantes em relação ao
consenso e são de qualidade superior a 40.
Positions not Confirmed on both Strands (NCBS) ?
Posições no consenso que não estão confirmadas
nas duas fitas.
Reads quiméricos

49
Problemas nos contigs - LCQ
50
Problemas nos contigs - HQD
51
Problemas nos contigs - HQD
52
Problemas nos contigs - NCBS
53
Problemas nos contigs - Quimera
54
Finalização do genoma

Estratégias para resolver os problemas de
montagem dos contigs (LCQ, HQD, NCBS, quimeras)
Estratégias para resolver os problemas de
repetição ? Fechar os gaps gerados pelos filtros
Estratégias para fechar os demais gaps. Gaps
dentro de scaffolds (virtuais) e entre scaffolds
(reais)

55
Finalização do genoma -- HQD

Retirar os reads que contenham HQD, remontar o
contig isoladamente e comparar as seqüências
Retirar o(s) read(s)s que determina(m) o
consenso, remontar o contig isoladamente e
comparar as seqüências (muitos reads e muitas
bases com HQD)
Ressequenciar reads da região

56
Finalização do genoma LCQ e NCBS

Ressequenciar reads que estejam com baixa
qualidade
Desenhar e sequenciar reads de primer
Gerar uma subblioteca de um clone e sequenciá-lo
completamente.

57
Finalização do genoma Quimeras

Retirar os reads quiméricos . Realizar a montagem
isolada e comparar os consensos
Se houver diferença, ressequenciar reads da
região, inclusive o quimérico

58
Finalização do genoma fechamento de gaps

Ressequenciar reads que estejam com baixa
qualidade nas extremidades dos contigs
Desenhar e sequenciar reads de primer
Gerar uma subblioteca de um clone e sequenciá-lo
completamente.

59
Finalização do genoma fechamento de gaps
(filtro)

Montar separadamente os dois contigs de cada gap,
ou apenas, as duas extremidades.
Pode ser necessário montar com diferentes
programas (cap3 e phrap) para estabelecermos
comparações
Garantir que, na medida do possível, os clones
estejam com as duas pontas (forward e reverse).
Resgatar, para isto, as pontas que se tornaram
singlets

60
Finalização do genoma fechamento de gaps
(filtro)

Realizar experimentos que confirmem que os dois
contigs do gap realmente estão juntos e na
orientação indicada pelo scaffold (Ex. PCR
combinatório)
Desenhar e sequenciar reads de primer
Gerar uma subblioteca de um clone e sequenciá-lo
completamente.
Sequenciar o produto de PCR

61
Genomas montados no LABINFO

Chromobacterium violaceum e Mycoplasma synoviae
(www.brgene.lncc.br)
Mycoplasma hyopneumoniae J e Mycoplasma
hyopneumoniae 7448 (www.genesul.lncc.br)

62
Genomas em andamento no LABINFO

Xylella fastidiosa Ann1 e Xylella fastidiosa
Dixon (www.xylella.lncc.br)
Rhizobium tropici (www.nbf.lncc.br)
Leifsonia xyli cynodontis (www.leifsonia.lncc.br)

63
EST

A montagem de EST, é na verdade, a construção de
clusters (grupos) de seqüências de EST que são
originadas da expressão de um mesmo gene
O pipeline é semelhante a montagem de genomas
completos. Com exceção da filtragem de repeats.
Tanto o programa CAP3, quanto o phrap podem ser
utilizados

64
Referências

Green, ED Strategies for the systematic
sequencing of comples genomes (Nature Reviews
Genetics, vol 2, agosto 2001, 573-583)
(http//www.nature.com/cgi-taf/DynaPage.taf?file/
nrg/journal/v2/n8/full/nrg0801_573a_fs.html)
Huang, X e Madan, A CAP3 A DNA Sequence
Assembly Program (Genome Research)
www.phrap.org
Telles, GP et all - Bioinformatics of the
sugarcane EST project (Genetics and Molecular
Biology, vol 24, n1-4, 2001)
Telles, GP e Silva FR Trimming and clustering
sugarcane ESTs (Genetics and Molecular Biology,
vol 24, n1-4, 2001)