Gen - PowerPoint PPT Presentation

1 / 64
About This Presentation
Title:

Gen

Description:

... Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br) Genomas em andamento no LABINFO Xylella fastidiosa Ann1 e Xylella ... – PowerPoint PPT presentation

Number of Views:105
Avg rating:3.0/5.0
Slides: 65
Provided by: lnccBrlg
Category:

less

Transcript and Presenter's Notes

Title: Gen


1
Genômica e Proteômica
  • Montagem de genomas

2
Introdução
  • Queremos conhecer a seqüência de parte ou de todo
    o DNA de um organismo
  • A tecnologia disponível só recupera pequenas
    seqüências de DNA. No máximo 700-800 pb. Em média
    450 pb
  • Se queremos pedaços maiores de DNA, temos que a
    partir destas pequenas seqüências, montar um
    quebra-cabeças

3
Introdução
  • Um tipo diferente de quebra-cabeças. Temos as
    peças, mas não sabemos o resultado final
  • Freqüentemente, nem temos todas as peças
  • É um problema computacional complexo!
  • Como ?

4
Introdução
  • Definir a estratégia de seqüenciamento
  • Gerar as seqüências
  • Construção e validação de bibliotecas
  • Seqüênciar
  • Montar
  • Finalizar a seqüência genômica

5
Estratégia de seqüenciamento
  • Clone-by-clone (Primeiro mapear, depois
    seqüênciar)
  • Whole-genome shotgun sequencing
  • Hybrid shotgun sequencing
  • Expressed Sequence Tag - EST

6
Clone-by-clone e Whole-genome shotgun sequencing
7
Whole-genome shotgun sequencing
8
Whole-genome shotgun sequencing
9
Hybrid shotgun sequencing
10
Expressed Sequence Tag
11
Bibliotecas
  • Em qualquer estratégia temos que construir
    bibliotecas de seqüências de DNA
  • As bibliotecas devem ser validadas. Garantir
  • Que as seqüências tenham o tamanho esperado
  • Que não exista contaminação e presença excessiva
    de vetores
  • Que a distribuição das seqüências seja a esperada
  • Para EST as bibliotecas podem ser de diferentes
    tecidos

12
Bibliotecas
13
Administração e gerência
  • No caso de redes de seqüenciamento, recepcionar
    os cromatogramas
  • Armazenar os cromatogramas
  • Gerar relatórios sobre o seqüenciamento
  • Divulgação de estatísticas sobre o
    desenvolvimento do projeto

14
Administração e gerência
15
Administração e gerência
16
Administração e gerência
17
Estratégia híbrida
  • Leitura dos cromatogramas ? converter os dados
    provenientes de seqüenciadores (reads) em
    seqüências de nucleotídeos, associando a cada um
    o seu respectivo valor de qualidade
  • Montagem ? comparar as seqüências, utilizando
    também os valores de qualidade, para encontrar a
    sobreposição entre elas e gerar as seqüências de
    consenso, chamadas contigs
  • Objetivo Um contig !!!

18
Estratégia híbrida
  • Analisar a montagem
  • Acompanhar a evolução do número de contigs ?
    Determinar quando se deve parar o seqüenciamento
    de bibliotecas e/ou iniciar o processo de
    finalização do genoma
  • Identificar problemas de montagem. Ex. Presença
    de repetições gerando montagens erradas

19
Estratégia híbrida
  • Finalizar o genoma
  • Ordenar e orientar os contigs (scaffold)
  • Utilizar os clones de shotgun e de outras
    bibliotecas (cosmídoes, bacs etc) para construir
    os scaffolds
  • Definir estratégias específicas para fechar
    gaps espaços entre contigs no genoma
  • Garantir que todas as bases tenham um valor
    mínimo de qualidade, para que tenhamos no máximo
    uma base errada em um milhão.

20
Leitura dos cromatogramas
  • A leitura dos cromatogramas é a realizada pelo
    programa phred
  • O phred nomeia cada base e atribue um valor de
    qualidade para cada base lida
  • A qualidade está relacionada a probabilidade que
    tenha ocorrido um erro na nomeação da base

21
Leitura dos cromatogramas
  • Q -10 log10( Pe )
  • Q ? Qualidade e Pe ? Probabilidade de erro
  • Ex. 1 erro em 100 bases
  • Q -10 log10(1/100) ? Q 20
  • Ex. 1 erro em 10000 bases
  • Q -10 log10(1/10000) ? Q 40
  • Ex. 1 erro em 1000000 bases
  • Q -10 log10(1/1000000) ? Q 60

22
Leitura dos cromatogramas
23
Leitura dos cromatogramas
24
Leitura dos cromatogramas
  • O phred gera um arquivo contendo as bases e as
    respectivas qualidades

25
Filtragem de vetores
  • Trechos de seqüências de DNA correspondentes a
    vetores devem ser filtradas
  • Utiliza-se um programa (cross_match) de
    alinhamento de seqüências para procurar na
    seqüência de cada fragmento a presença do vetor
  • O trecho correspondente tem cada uma de suas base
    substituídas por x

26
Filtragem de vetores
27
Montagem
  • Determinar a ordem e orientação de uma coleção de
    fragmentos de um mesmo DNA

28
Montagem
29
Programas / pacotes de montagem
  • Assembler (www.tigr.org)
  • Bambus Programa para gerar scaffold
  • CAP3 (genome.cs.mtu.edu)
  • phred/phrap/consed (www.phrap.org)
  • Staden (www.mrc-lmb.cam.ac.uk) GAP4
  • Pode utilizar o CAP3 ou o phrap

30
CAP3
  • Identificação e remoção de regiões de baixa
    qualidade, no início e no fim dos reads
  • Alinhamento entre reads para identificação de
    sobreposição
  • Identificação e remoção de falsos alinhamentos

31
CAP3
  • Formação dos contigs através da junção dos reads
    em ordem decrescente da pontuação dos
    alinhamentos
  • Correção nos contigs através da validação
    forward-reverse
  • Alinhamento múltiplo dos reads para a construção
    da seqüência de consenso
  • Geração dos arquivos de saída (links, ace etc)

32
phrap
  • Tratamento das seqüências
  • Conversão de trechos de bases iguais, no início e
    no fim dos reads em N
  • Identificação e exclusão de reads iguais
  • Exclusão de regiões, provavelmente não filtradas,
    de vetores do alinhamento
  • Determinação dos singlets (reads que não tem
    alinhamento com nenhum outro read)

33
phrap
  • Identificação de sobreposição
  • Formação dos contigs
  • Determinação do consenso
  • Determinação dos links entre contigs e do
    scaffold
  • Geração dos arquivos de saída (log, ace, contigs
    etc)

34
Pipeline da montagem
Conversão (phd2fasta) phd_files ? multifasta e
multifasta.qual
Montagem (phrap / cap3)
Filtragem (cross_match) de vetores e repetições
? multifasta.screen
Arquivo de Clones (formcon) ?
multifasta.screen.con
Somente para o CAP3
35
Análise da montagem
36
Análise da montagem
37
Análise da montagem
38
Análise da montagem
39
Identificação de repetições
  • Repetição trechos de DNA ao longo do(s)
    cromossomo(s)
  • Se a repetição tiver um tamanho próximo ou maior
    que a média do tamanha dos reads, o programa de
    montagem pode colocá-lo em uma região errada

40
Identificação de repetições
  • Repetições ambíguas

41
Identificação de repetições
  • Repetições colapsadas

42
Identificação de repetições
  • Como identificar
  • Regiões de contigs que empilham reads
  • Regiõe(s) que têm match com outras regiõe(s)
  • Regiões que apresentam links de pontas de clones
    inconsistentes
  • Regiões em que existem mais de um read com bases
    discrepantes em relação ao consenso

43
Identificação de repeats
  • Regiões que empilham reads

44
Identificação de repeats
  • Regiõe(s) que têm match com outras regiõe(s)

45
Identificação de repeats
  • Regiõe(s) que têm match com outras regiõe(s)

46
Identificação de repeats
  • Regiões que apresentam links de pontas de clones
    inconsistentes

47
Identificação de repeats
  • Regiões em que existem mais de um read com bases
    discrepantes em relação ao consenso

48
Problemas nos contigs
  • Low Consensus Quality (LCQ) ? É uma região do
    consenso, cujas bases possuem qualidade menor ou
    igual a 25. Indica uma região que está coberta
    por reads de baixa qualidade.
  • High Quality Discrepancies (HQD) ? São bases de
    um read que estão discrepantes em relação ao
    consenso e são de qualidade superior a 40.
  • Positions not Confirmed on both Strands (NCBS) ?
    Posições no consenso que não estão confirmadas
    nas duas fitas.
  • Reads quiméricos

49
Problemas nos contigs - LCQ
50
Problemas nos contigs - HQD
51
Problemas nos contigs - HQD
52
Problemas nos contigs - NCBS
53
Problemas nos contigs - Quimera
54
Finalização do genoma
  • Estratégias para resolver os problemas de
    montagem dos contigs (LCQ, HQD, NCBS, quimeras)
  • Estratégias para resolver os problemas de
    repetição ? Fechar os gaps gerados pelos filtros
  • Estratégias para fechar os demais gaps. Gaps
    dentro de scaffolds (virtuais) e entre scaffolds
    (reais)

55
Finalização do genoma -- HQD
  • Retirar os reads que contenham HQD, remontar o
    contig isoladamente e comparar as seqüências
  • Retirar o(s) read(s)s que determina(m) o
    consenso, remontar o contig isoladamente e
    comparar as seqüências (muitos reads e muitas
    bases com HQD)
  • Ressequenciar reads da região

56
Finalização do genoma LCQ e NCBS
  • Ressequenciar reads que estejam com baixa
    qualidade
  • Desenhar e sequenciar reads de primer
  • Gerar uma subblioteca de um clone e sequenciá-lo
    completamente.

57
Finalização do genoma Quimeras
  • Retirar os reads quiméricos . Realizar a montagem
    isolada e comparar os consensos
  • Se houver diferença, ressequenciar reads da
    região, inclusive o quimérico

58
Finalização do genoma fechamento de gaps
  • Ressequenciar reads que estejam com baixa
    qualidade nas extremidades dos contigs
  • Desenhar e sequenciar reads de primer
  • Gerar uma subblioteca de um clone e sequenciá-lo
    completamente.

59
Finalização do genoma fechamento de gaps
(filtro)
  • Montar separadamente os dois contigs de cada gap,
    ou apenas, as duas extremidades.
  • Pode ser necessário montar com diferentes
    programas (cap3 e phrap) para estabelecermos
    comparações
  • Garantir que, na medida do possível, os clones
    estejam com as duas pontas (forward e reverse).
    Resgatar, para isto, as pontas que se tornaram
    singlets

60
Finalização do genoma fechamento de gaps
(filtro)
  • Realizar experimentos que confirmem que os dois
    contigs do gap realmente estão juntos e na
    orientação indicada pelo scaffold (Ex. PCR
    combinatório)
  • Desenhar e sequenciar reads de primer
  • Gerar uma subblioteca de um clone e sequenciá-lo
    completamente.
  • Sequenciar o produto de PCR

61
Genomas montados no LABINFO
  • Chromobacterium violaceum e Mycoplasma synoviae
    (www.brgene.lncc.br)
  • Mycoplasma hyopneumoniae J e Mycoplasma
    hyopneumoniae 7448 (www.genesul.lncc.br)

62
Genomas em andamento no LABINFO
  • Xylella fastidiosa Ann1 e Xylella fastidiosa
    Dixon (www.xylella.lncc.br)
  • Rhizobium tropici (www.nbf.lncc.br)
  • Leifsonia xyli cynodontis (www.leifsonia.lncc.br)

63
EST
  • A montagem de EST, é na verdade, a construção de
    clusters (grupos) de seqüências de EST que são
    originadas da expressão de um mesmo gene
  • O pipeline é semelhante a montagem de genomas
    completos. Com exceção da filtragem de repeats.
  • Tanto o programa CAP3, quanto o phrap podem ser
    utilizados

64
Referências
  • Green, ED Strategies for the systematic
    sequencing of comples genomes (Nature Reviews
    Genetics, vol 2, agosto 2001, 573-583)
    (http//www.nature.com/cgi-taf/DynaPage.taf?file/
    nrg/journal/v2/n8/full/nrg0801_573a_fs.html)
  • Huang, X e Madan, A CAP3 A DNA Sequence
    Assembly Program (Genome Research)
  • www.phrap.org
  • Telles, GP et all - Bioinformatics of the
    sugarcane EST project (Genetics and Molecular
    Biology, vol 24, n1-4, 2001)
  • Telles, GP e Silva FR Trimming and clustering
    sugarcane ESTs (Genetics and Molecular Biology,
    vol 24, n1-4, 2001)
Write a Comment
User Comments (0)
About PowerShow.com