BIOLOGIA/MEDICINA - PowerPoint PPT Presentation

About This Presentation
Title:

BIOLOGIA/MEDICINA

Description:

BIOLOGIA/MEDICINA A Revolu o da Gen mica/Bioinform tica Hist ria da Biologia Molecular 1951 Fred Sanger, Amino Acid Sequence of Insulin 1953 Watson/Crick ... – PowerPoint PPT presentation

Number of Views:464
Avg rating:3.0/5.0
Slides: 137
Provided by: LIC81
Category:

less

Transcript and Presenter's Notes

Title: BIOLOGIA/MEDICINA


1
BIOLOGIA/MEDICINA
A Revolução da Genômica/Bioinformática
2
A Verdadeira Revolução
Início do séc. 20 Mendel e as leis da
hereditariedade. 1944 DNA como elemento
carreador da informação genética
(Avery) 1953 Watson/Crick e aestrutura do
DNA. Anos 70 e 80 Biologia Molecular/Biotecnolo
gia Anos 90 e séc. 21 Genômica/Bioinformática
3
História da Biologia Molecular
  • 1951 Fred Sanger, Amino Acid Sequence of Insulin
  • 1953 Watson/Crick, Estrutura do DNA
  • 1957 Francis Crick, Central Dogma, DNA ? RNA ?
    Protein
  • 1960s Nirenberg, Matthaei, The Genetic Code
  • 1967 Shapiro and Beckwith, First gene cloned,
    LacZ
  • 1972 Paul Berg, First recombinant DNA molecule
  • 1973 Cohen/Boyer, First recombinant organism
  • 1977 Maxam/Gilbert and Fred Sanger, DNA
    sequencing
  • 1977 Fred Sanger, Complete sequence of phage
    ?X174
  • 1978 David Botstein, Restriction Fragment Length
    Polymorphisms (RFLP)
  • 1980 Kerry Mullis, PCR
  • 1983 Lee Hood, First Automated DNA Sequencer

4
Sequenciamentodo DNASanger, Gilbert (Nobel 1980)
5
Sequenciamento Automático
Leroy Hood
30kb por corrida
6
A era genômica
7
376 Genomas Concluídos! 251 como rascunho! 342
em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic
  • 1995, Haemophilus influenzae
  • 1996, Methanococcus jannaschii
  • 1997, Saccharomyces cerevisiae
  • 1997, Escherichia coli
  • 1998, Caenorhabditis elegans
  • 2000, Drosophila melanogaster
  • 2000, Arabidopsis thaliana
  • 2001, Homo sapiens
  • 2002, Schizosaccharomyces pombe
  • 2002, Oryza sativa
  • 2002, Mus musculus
  • 2005, Pan troglodites

http//www.ncbi.nlm.nih.gov 09/07/2006
8
Um modelo genético
9
Genoma Humano2001
  • International Consortium
  • Grupos acadêmicos
  • Celera Genomics
  • Companhia Privada

10
A nova revolução da Genômica
454
SOLiD - ABI
Solexa - Illumina
03 GB de DNA por corrida
120 MB de DNA por corrida
01 GB de DNA por corrida
12KB/US 100KB/US 300KB/US
Tecnologia de Capilar 0.5KB/US
11
Nova tecnologia
  • Dispensa clonagem dos fragmentos em sistemas
    bacterianos
  • Dispensa a preparação de DNA molde para
    sequenciamento
  • Reações feitas em paralelo em volume extremamente
    pequeno - nanotecnologia

12
Aplicações
  • Sequenciamento de Genomas
  • sequenciamento de novo
  • re-sequenciamento - variabilidade SNPs e mutações
  • Sequenciamento de Transcriptomas
  • variabilidade - splicing, poliadenilação
  • quantificação de expressão gênica

13
Sequenciamento de novo
14
Re-sequenciamento
15
Transcriptoma
16
Projeto 454
Participantes LICR-SP, LICR-NY, Venter
Institute Objetivo Sequenciamento extensivo dos
genes expressos na linhagem celular HCC1954
(tumor de mama) buscando conhecer, com um único
set de dados, alterações genéticas e
epi-genéticas neste tipo de câncer. Sequenciador
454
17
Fapesp/LICR Genoma Humano do Câncer Projeto 454
Venter/LICR
sequências 1.2 milhões 520 mil
sequenciadores 05 MegaBaces 01 454
corridas 15,000 01
Custo (US) 12 milhões 10 mil Excluindo
o preço dos aparelhos
18
Um objetivo a curto prazo
19
Os sequenciadores de nova geraçãopromovem uma
mudança no paradigma
Geração de dados deixa de ser o fator limitante
Com os bilhões de datapoints gerados em horas, o
processamento e análise dos dados tornou-se o
maior gargalo das pesquisas biomédicas.
20
Bioinformática
  • Computação
  • Matemática
  • Biologia

21
O que é Bioinformática?
22
(No Transcript)
23
(No Transcript)
24
Bioinformática - História
  • 1970, Needleman/Wunch, Alinhamento Global.
  • 1972, Margaret Dayhoff, Matrizes de
    Comparação.
  • 1979, Walter Goad, GenBank.
  • 1981, Smith/Waterman, Alinhamento Local.
  • 1989, NHGRI, Projeto Genoma Humano.
  • 1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
  • 1994, Eddy/Krogh/Durbin, Hidden Markov Models
    (HMMs).

25
Bioinformática - Importância
  • Poucas pessoas adequadamente treinadas em
    Biologia e Computação.
  • Biologia em larga-escala. Produção de dados em
    massa gera uma demanda para análises
    computacionais.
  • Economiza tempo e dinheiro.

26
Bioinformática
  • Desenvolvimento de ferramentas.
  • Forma de explorar novos dados.
  • Processamento de dados gerados por projetos em
    larga-escala.
  • Uma nova forma de se fazer ciência dirigida por
    hipóteses.

27
Bioinformática
O Bioinformata O Usuário
  • Manipula a informação.
  • Desenvolve ferramentas
  • Bancos de dados locais.
  • Local.
  • Mta programação.
  • Habilidades de TI.
  • Recursos da Web.
  • Local ou remoto.
  • nada de programação.
  • pouca habilidade de TI.

28
Cinco websites que todos devem conhecer
  • NCBI (The National Center for Biotechnology
    Information
  • http//www.ncbi.nlm.nih.gov/
  • EBI (The European Bioinformatics Institute)
  • http//www.ebi.ac.uk/
  • The UCSC Genome Browser
  • http//genome.ucsc.edu/
  • SwissProt/ExPASy (Swiss Bioinformatics Resource)
  • http//expasy.cbr.nrc.ca/sprot/
  • PDB (The Protein Databank)
  • http//www.rcsb.org/PDB/

29
NCBI (http//www.ncbi.nlm.nih.gov/)
  • Acesso aos bancos de dados via Entrez
  • Medline/OMIM
  • Genbank/Genpept/Structures
  • Servidor de BLAST
  • Todos os tipos de Blast
  • Portal do Genoma Humano
  • Muito, muito mais..

30
(No Transcript)
31
(No Transcript)
32
EBI (http//www.ebi.ac.uk/)
  • Acesso a bancos de dados via SRS
  • EMBL, SwissProt,
  • Muitas outras ferramentas
  • ClustalW, DALI,

33
(No Transcript)
34
UCSC Genome Browser (http//genome.ucsc.edu/)
  • Banco de dados e Browser para genomas de
    diferentes espécies
  • Humano, camundongo, rato, zebrafish, etc.
  • Muitas outras ferramentas
  • SNPs, domínios prtéicos, genômica comparativa,
    etc.

35
(No Transcript)
36
SwissProt (http//www.expasy.ch/sprot/)
  • Checagem manual.
  • O número de entradas errôneas é bastante
    reduzido.
  • Cross-link extensivo com outros bancos
  • SwissProt é o gold-standard em termos de bancos
    de dados e é o melhor lugar para se começar uma
    análise se vc procura info para uma ou poucas

37
(No Transcript)
38
Protein Data Bank PDB (http//www.rcsb.org/pdb/)
  • Armazena a estrutura tri-dimensional para
    milhares de proteínas
  • Acesso a vários serviços relacionados a biologia
    estrutural

39
(No Transcript)
40
Bancos de Sequência Primários
GenBank (USA) http//www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa) http//www.ebi.ac.uk/embl/ DDBJ
(Japão) http//www.ddbj.nig.ac.jp/
41
Homologia - Ortologia - Paralogia
42
Dois conceitos importantes
  • Paralogia O evento que originou às duas
    sequências é um evento de duplicação gênica!
  • Orthologia O evento que deu origem às duas
    sequências é um evento de especiação!

FUNÇÕES SIMILARES!
FUNÇÕES IDÊNTICAS!
43
Como definir função?
  • Alinhamento de sequências
  • Motivos (padrões consensuais)
  • Blocos, perfis, etc....
  • Hidden Markov Models - HMM

44
Similarity Searches on Sequence Databases, EMBnet
Course, October 2003
45
Alinhamento
0 1 2 3 4 5 6 7 8 9 10 G A A -
G G A T T A G G A T C G G A - - A
G
  • Identidade - MATCH
  • Semelhança / divergência - MISMATCH
  • Lacunas - GAPS
  • Inserção/Deleção - INDELS

46
Alinhamento
  • Qual é o melhor alinhamento ?
  • Alinhamento 1
  • A C G G A C T

  • -
  • A T C G G A T C T 
  • Alinhamento 2
  • A T C G
    G A T C T

  • -
  • A C G G A C T

47
Pontuação
  • Esquema de pontuação
  • match 2
  • mismatch 1
  • indel 2
  • Alinhamento 1 (5 2) (11) (4-2) 10 1
    8 3
  • Alinhamento 2 (6 2) (11) (2-2) 12 1
    4 9
  • Escore final soma dos escores para cada posição
  • Favorece os matches, penaliza os gaps

48
Matriz de Substituição
  • Tabela de comparação
  • Reflete a probabilidade ou frequência de
    determinada substituição em sequências
    biologicamente relacionadas
  • p(A ? B) p(B ? A)
  • Construídas pelo estudo do alinhamento de
    diversas sequências relacionadas
  • AA ou nucleotídeos

49
Percent Accepted Mutation (PAM - Dayhoff)
  • Margaret Dayhoff (1978)
  • Probabilidade de substituição de aa em
    alinhamentos globais de sequências homólogas
  • Cada matriz reflete as mutações entre sequências
    que divergiram por determinado período de tempo
  • Mutações aceitas gt não afetam negativamente a
    viabilidade da proteína
  • Primeira matriz
  • 71 grupos de proteínas, 85 de similaridade
  • 1572 substitutições de aminoácidos
  • Expansão do número de proteínas gt 1991 database

50
Matrizes PAM
  • Premissa gt cada mutação é independente das
    mutações anteriores
  • Consequência gt as substituições observadas em
    curtos períodos podem ser extrapoladas para
    longos períodos
  • PAM 1 gt sequências com 1 ou menos de
    divergência gt1 mutação aceita a cada 100
    aminoácidos
  • PAM N mutações (PAM 1)N
  • PAM 250 gt 250 mutações por 100 aa gt 250
    mutações em 2500 milhões anos
  • PAM 250 20 similar - PAM 120 40 - PAM 80
    50 - PAM 60 60

51
http//www.blc.arizona.edu/courses/bioinformatics/
dayhoff.html
52
Blocks Substitution Matrix (BLOSUM)
  • Kenikoff Henikoff (1992)
  • Frequência de substituição de aa em um conjunto
    de 2000 padrões (blocos)
  • Maior número de sequências consideradas gt mais
    de 500 famílias
  • Alinhamentos locais de sequências relacionadas e
    não geradas a partir de extrapolações
  • BLOSUM 62 é o padrão para BLAST 2.0 gt sequências
    moderadamente distantes ou mais próximas
  • Sequências Consenso
  • 60 idênticas BLOSUM 60
  • 80 idênticas BLOSUM 80

53
http//www.blc.arizona.edu/courses/bioinformatics/
blosum.html
G A V C T K I G V V C Y R E
6049(-2)2(-3) 16
54
Relação ente BLOSUM e PAM
http//www.ncbi.nlm.nih.gov/Education/BLASTinfo/Sc
oring2.html
  • PAM gt origens evolutivas de proteínas
  • BLOSUM gt domínios conservados

55
Global vs. Local
  • Global
  • Alinhamento de toda a sequência utilizado o
    maior número de caracteres possíveis
  • Sequências similares e de tamanho aproximado
  • Local
  • Segmentos com o maior número de identidades
  • Regiões alinhadas e não alinhadas (? mismatch)
  • Sequências similares em algumas regiões, que
    diferem em tamanho ou que compartilham domínios
    conservados

56
Aplicações
  • Global
  • Deduzir histórias evolutivas entre membros da
    mesma família
  • Estabelecer a existência de um ancestral comum
    (homologia)
  • Local
  • Inferir funções biológicas
  • Identificar regiões conservadas e de alta
    similaridade (sítio ativo, domínios) entre outras
    pouco conservadas
  • Reconstruir sequências de DNA a partir de seus
    fragmentos
  • Comparar sequências de mRNA (sem íntrons) à
    sequência genômica

57
Métodos de Análise
  • Diagramas - DOT PLOT
  • Algoritmo de Programação Dinâmica
  • Algoritmos Heurísticos - Word-Based ou K-tuples

58
Dot Plot
59
Inserções Deleções
60
Repetições Inversões
61
Programas Disponíveis
  • Dotter (http//www.cgr.ki.se/cgr/groups/sonnhammer
    /Dotter.html)
  • COMPARE DOTPLOT (Genetics Computer Group)
  • PLALIGN (http//fasta.bioch.virginia.edu/fasta/fas
    ta_list.html)
  • Web browser (http//www.isrec.isb-sib.ch/java/dotl
    et/Dotlet.html)

62
Programação Dinâmica
  • Needleman Wunsch (1970)
  • Compara cada par de caracteres nas duas
    sequências
  • Posiciona os gaps de forma a obter o maior número
    de alinhamentos idênticos ou similares
  • Gera uma matriz de números que representa todos
    os possíveis alinhamentos de acordo com um
    sistema de escore
  • Alinhamento ótimo gt maior escore

63
Limitações
  • Computacionalmente lento
  • Número de alinhamentos cresce exponencialmente
    com a média dos comprimentos das sequências (n)
  • Número de cálculos gt proporcional a n2 ou n3
  • Memória gt capacidade da ordem de n2

64
Needleman-Wunsch
As sequências abcdefghajklm abbdhijk São
alinhadas e scores são dados a b
c d e f g h a j k l m
a b b d . . . h i j k
match 4 4 4 4 4 4
mismatch -3 -3 gap_open
-2 gap_extend -1-1-1 Score total
de 24-6-2-3 13.
65
Needleman-Wunsch
O alinhamento de maior score entre as
duas sequências é considerado o mais provável.
66
Needleman-Wunsch
Saída típica
Global HBA_HUMAN vs HBB_HUMAN Score
290.50 HBA_HUMAN 1
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44

HBB_HUMAN 1
VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE
43 HBA_HUMAN 45 HF.DLS.....HGSAQVKGHG
KKVADALTNAVAHVDDMPNALSAL 83

HBB_HUMAN 44 SFGDLSTPDAVMGNPKVKAHGKK
VLGAFSDGLAHLDNLKGTFATL 88 HBA_HUMAN 84
SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF
128
HBB_HUMAN 89
SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV
133 HBA_HUMAN 129 LASVSTVLTSKYR
141
HBB_HUMAN 134
VAGVANALAHKYH
146 id 45.32 similarity
63.31 Overall id 43.15 Overall similarity
60.27
67
Razões para se usar um banco de sequências
  • Eu acabei de obter uma sequência. O que é sabido
    à respeito desta sequência? Ela é única?
  • Eu tenho uma sequência única. Ela tem
    similaridade com alguma outra sequência de função
    conhecida?
  • Eu encontrei uma nova proteína em um determinado
    organismo. Existe um ortólogo conhecido?
  • Eu decidi trabalhar com um gene novo. Eu não
    tenho como obter um clone contendo a sequência
    deste gene. Eu preciso da sequência do cDNA para
    fazer uma PCR.

68
O que envolve uma busca ?
  • Algoritmos de busca (BLAST, FASTA)
  • Matrizes de comparação (PAM vs. BLOSUM)
  • Banco de dados (nr, dbEST)
  • Parâmetros de busca (filtros on/off, threshold,
    etc)

69
Basic Local Alignment Search Tool
  • Método heurístico gt método empírico, que utiliza
    a fórmula tentativa e erro para encontrar as
    soluções
  • Significado estatístico gt determina se um
    alinhamento ocorre aleatoriamente ou não
  • Vantagem gt pelo menos 50 vezes mais rápido que
    os algoritmos de programação dinâmica e mais
    apropriados para busca em bancos de dados
  • Desvantagem gt não garante uma solução com um
    alinhamento ótimo como os algoritmos de
    programação dinâmica

70
Aplicações
  • Identificar sequências ortólogas e parálogas
  • Descobrir novos genes ou proteínas
  • Descobrir variantes de genes e proteínas
  • Investigar Expressed Sequence Tags - ESTs
  • Explorar a estrutura e função de proteínas

71
BLAST WEB Pages
  • BLAST (NCBI National Center for Biotechnology
    Information) http//www.ncbi.nlm.nih.gov/BLAST/
  • BLAST2 (Swiss EMBnet server - European Molecular
    Biology network??) http//www.ebi.ac.uk/blastall/
  • WU-BLAST (Washington University)
    http//blast.wustl.edu/

72
(No Transcript)
73
Blast é Heurístico
  • 1) Tabela de busca com todas as palavras
    (words) de comprimento W (3 aa ou11 nucleot.)
    mais as palavras vizinhas semelhantes, que
    aparecem pelo menos T vezes na sequência query.
  • 2) Busca de sementes (hits, hot spots) na
    sequência do banco de dados que alinhem com as
    palavras previamente estabelecidas.
  • 3) Extensão das sementes em ambas as direções,
    produzindo alinhamentos locais máximos (HSP -
    high scoring pair) com ou sem lacunas, de acordo
    com os parâmetros estabelecidos.
  • 4) Registro da informação em um arquivo
    SeqAlign (ASN.1).
  • 5) A informação é utilizada para buscar
    sequências similares. Os resultados podem ser
    reformatados sem a necessidade de refazer a busca.

74
Sensibilidade vs. Seletividade
  • Sensibilidade
  • Habilidade de encontrar a maior parte dos membros
    relacionados à família da sequência query
  • Seletividade
  • Habilidade de não identificar sequências de
    outras famílias como falso-positivos
  • Grau de cobertura dos membros da família dado um
    nível de falso-positivos

75
Escores e Estatística
  • Bit Score
  • Indica quão bom é o alinhamento. Quanto maior o
    escore, melhor o alinhamento
  • Considera o número de resíduos idênticos ou
    similares e a quantidade de gaps
  • Influenciado pela Matriz de Substituição (padrão
    BLOSUM 62 )
  • Exceção blastn and MegaBLAST
  • Normalização bit scores de diferentes
    alinhamentos podem ser comparados

76
Escores e Estatística
  • E-value
  • Significado estatístico do alinhamento
  • Quanto menor o escore, mais significativo é o
    alinhamento
  • E-value 0.05. Significa que existem 5 chances
    em 100 (1 em 20) da similaridade entre as
    sequências ocorrer aleatoriamente
  • Influenciado pelo tamanho do banco de dados e o
    sistema de escore utilizado

77
Etapas de Busca
  • 1) Selecionar a sequência (query)
  • 2) Selecionar o banco de dados
  • 3) Selecionar o programa
  • 4) Definir os parâmetros

78
Passo 1 Escolha da sequência
  • Natureza
  • Tamanho
  • Formatos Identificadores (ID), FASTA (gtseq
    name), sequências puras (txt?)

79
(No Transcript)
80
(No Transcript)
81
Passo 2 Seleção do Banco de Dados
  • Proteínas
  • GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
  • Nucleotídeos
  • GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69,
    STS70, vetores, sequências de mitocôndrias,
    GSS71, sequências HTGS72
  • Conteúdo
  • não-redundância,
  • periodicidade de atualização
  • organismos ou espécies
  • sequências patenteadas
  • interesse imunológico
  • elementos repetitivos, etc.

82
http//www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
83
(No Transcript)
84
Passo 3 Seleção do Programa
  • Natureza da sequência
  • Finalidade da busca
  • Banco de dados

85
DNA codifica 6 proteínas potenciais
5 CAT CAA 5 ATC AAC 5 TCA ACT
5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACC
CAC 3 3 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTT
TGGATGGGTG 5
5 GTG GGT 5 TGG GTA 5 GGG TAG
86
Tipos de Programas
programa entrada banco de dados
1 blastn DNA DNA 1 blastp
protein protein 6 blastx DNA
protein 6 tblastn protein
DNA 36 tblastx DNA DNA
87
Passo 4 Seleção dos parâmetros
  • Tamanho da palavra (w-er)
  • Filtros
  • E value
  • Matriz de substituição penalidades para gap

Sensibilidade e velocidade gt W, T e
X Seletividade gt cutoff score
88
Entrez
Filter
Expect
organism
Word size
Scoring matrix
89
Filtro
90
Report Header
  • Tipo de programa (BLASTP), versão (2.2.1) e data
    da versão
  • Artigo que descreve o BLAST, request ID (issued
    by QBLAST), a definição da sequência e resumo do
    banco de dados
  • Taxonomy reports mostra o resultado deste BLAST
    na base de informação do banco de dados Taxonomy

91
Taxonomy Report
92
Graphical Overview
query
database hits
  • Quanto mais próximas da query, mais semelhantes
  • Barras em rosa lower-scoring matches que alinham
    em 2 regiões (resíduos 3-60 e 220-500)
  • Segmento rachurado as duas regiões de
    similaridade estão na mesma proteína mas esta
    região não alinha
  • Outras barras lower-scoring matches

93
One-line Descriptions
  • (a) gi number, designação do banco de dados,
    número de acesso e o nome do locus para as
    sequências encontradas, separados por barras
    verticais
  • (b) Definição da sequência
  • (c) Escore de alinhamento ( bits)
  • (d) E-value

94
Pairwise Sequence Alignment
95
(No Transcript)
96
Famílias de Elementos Repetitivos
  • Alu
  • L1
  • L2
  • Tais sequências podem gerar alinhamentos espúrios.

97
Alu
  • Constitutes about 5 of the human genome.
  • Short interspersed repeats.
  • Found in primate genomes.
  • ALU elements often found in 3 regions or introns.

98
Blast usando uma sequência de Alu
99
(No Transcript)
100
Como identificar e remover elementos repetitivos
  • Filter para elementos repetitivos no servidor de
    Blast do NCBI
  • Repeat Masker http//ftp.genome.washington.edu/cg
    i-bin/RepeatMasker

101
Nair Rost, 2002
102
Way out!
  • psi-Blast
  • pattern (phi-Blast)
  • Hidden Markov Models (HMMs)

103
Position Specific Interactive (PSI)-BLAST
  • Detecta proteínas fracamente relacionadas ou
    novos membros de uma família protéica (mais
    sensível)
  • Utilizado quando o BLAST padrão falha em
    encontrar hits significativos ou retorna hits com
    decrições do tipo "hypothetical protein" ou
    "similar to... "
  • Busca iterativa gt comparam-se as sequências de
    alto escore com a sequência de busca para
    determinar quais delas são altamente conservadas
  • Sequências resultantes gt construção de um modelo
    de escore específico por posição (consenso) gt
    Position-Specific Scoring Matrix (PSSM ou profile)

104
PSI-BLAST - Algoritmo
  • Busca com BLASTp normal
  • Construção de um consenso a partir das regiões
    alinhadas com E values menores que o limite
    estabelecido (padrão 0.005)
  • Utilizando este consenso, procede a uma nova
    pesquisa sobre a base de dados
  • Quaisquer novos hits abaixo do limite são
    incluídos em um novo PSSM
  • Fim do processo (convergência) nenhuma nova
    sequência é adicionada ao consenso em iterações
    subsequentes

105
Pattern-Hit Initiated (PHI)-BLAST
  • Busca proteínas que contém padrão especificado
    pelo usuário E é similar à sequência query em
    relação in the vicinity ao padrão
  • Reduz o número de hits que contém o padrão no
    banco de dados mas pode também apresentar
    nenhuma homologia ao query
  • Exemplo de sequência query e um padrão no formato
    ProSite
  • gtgi4758958refNP_004148.1 Human
    cAMP-dependent protein kinaseMSHIQIPPGLTELLQGYTVE
    VLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
    VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVI
    HPKTDEQRCRLQEACKDILLFKNLDQEQLSQVLDAMFERIVKADEHVID
    QGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELALMYNTPR
    AATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEV
    SERMKIVDVIGEKIYKDGERIITQGEKADSFYIIESGEVSILIRSRTKS
    NKDGGNQEVEIARCHKGQYFGELALVTNKPRAASAYAVGDVKCLVMDVQ
    AFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ
  • Padrão encontrado
  • LIVMF-G-E-x-GAS-LIVM-x(5,11)-R-STAQ-A-x-
    LIVMA-x-STACV

106
Hidden Markov Models
  • An approach based on statistical sampling theory
  • Previously used with success for natural language
    processing
  • Model sequence as a Markov model that is not
    known (hidden)
  • Observed sequence is a noisy representation of
    the hidden true model

107
A HMM for a DNA sequence
C
C
A
T
T (prob 0.8) or A (prob 0.2)
G (prob 0.1) or C (prob 0.9)
A (prob 0.7) or T (prob 0.3)
G (prob 0.1) or C (prob 0.9)
108
Idea of HMM
  • Since multiple alignment of k sequences take
    O(Nk) time, instead estimate a statistical model
    of the sequences
  • Align the multiple sequences to this model
  • This is equivalent to aligning the sequences to
    one another

109
Protein Family Classification
  • Pfam
  • large collection of multiple sequence alignments
    and hidden Markov models
  • covers many common protein domains and families
  • Over 73 of all known protein sequences have at
    least one match
  • 5,193 different protein families

110
Pfam
  • Initial multiple alignment of seeds using a
    program such as Clustal
  • Alignment hand scrutinized and adjusted

111
Pfam
  • Links to the Pfam software
  •  
  • http//pfam.wustl.edu/
  • http//www.sanger.ac.uk/Software/Pfam/index.shtml
  •  
  • View some examples
  • http//pfam.wustl.edu/

112
Locating ORFs
  • Simplest method of predicting coding regions is
    to search for open reading frames (ORFs)
  • open reading frames begin with a start (AUG)
    codon, and ends with one of three stop codons
  • Six total reading frames

113
Locating ORFs
  • Prokaryotes DNA sequences coding for proteins
    generally transcribed into mRNA which is
    translated into protein with very little
    modification
  • Locating an open reading frame from a start codon
    to a stop codon can give a strong suggestion into
    protein coding regions
  • Longer ORFs are more likely to predict
    protein-coding regions than shorter ORFs.

114
Locating ORFs
  • Eukaryotes mRNA undergoes processing to remove
    introns before the protein is translated
  • ORF corresponding to a gene may contain regions
    with stop codons found within intronic regions
  • Posttranscriptional modification makes gene
    prediction more difficult

115
Filogenia
  • Problema de determinação de árvores filogenéticas
  • Encontrar a árvore que melhor descreve a relação
    entre um conjunto de objetos (espécies ou táxons)

116
Filogenia
  • Táxons e Complexidade
  • 3 árvores possíveis para 4 táxons


  • Para 5 táxons?

117
Filogenia
  • Táxons e Explosão Combinatorial

118
Métodos para reconstrução filogenética
  • 03 métodos principais
  • Parsimônia
  • Métodos baseados em distância
  • Verossimilhança máxima

119
Parsimônia
  • Dá preferência à topologia que requer o menor
    número de mudanças .

120
Filogenia
  • Métodos de Distância
  • A distância evolutiva é calculada para todos os
    pares de táxons
  • Matriz de Distâncias
  • A árvore filogenética é construída considerando a
    relação entre esses valores de distâncias

121
O método de evolução mínima
  • Para todas as topologias possíveis
  • Calcula o comprimento de todos os ramos, S
  • Mantém a árvore com menos S.
  • Problema computacionalmente intenso. Não é usado
    com mais de 25 sequências.

122
Filogenia
  • Métodos com Critério de Ótimo
  • Máxima Verossimilhança
  • Determina-se a probabilidade de um modelo
    evolutivo gerar um certo dado
  • Considera todos os sítios e todas as
    possibilidades de mutações em todos os nós
    internos da árvore proposta
  • Multiplica-se a probabilidade de cada sítio
  • Probabilidade da árvore
  • Pode ser utilizado para análises de
    características e de valores
  • Mais consistente e com estimativas com menor
    variância
  • Não é simples e intuitivo
  • Computacionalmente intenso

123
Bootstrap procedure
  • O suporte para cada ramo interno é expresso em
  • termos the de réplicas.

124
"bootstrapped tree
125
Bootstrap
  • Ramos internos suportados por 90 das réplicas
    são considerados estatisticamente significativos.
  • O procedimento de bootstrap não define se um
    programa é bom. Uma árvore errada pode ter 100
    de suporte de bootstrap em seus ramos internos.

126
Tempo de processamento para vários programas
distance lt parsimony PHYML ltlt Bayesian lt
classical ML NJ DNAPARS PHYML
MrBayes fastDNAml,PAUP
127
Recursos de Web para filogenia
  • Compilações
  • Uma lista de web sites http//www.ucmp.berkeley.ed
    u/subway/phylogen.html
  • Uma lista grande de programashttp//evolution.gen
    etics.washington.edu/ phylip/software.html

128
Recursos de Web para filogenia
  • Editor de alinhamento
  • SEAVIEW para windows e unixhttp//pbil.univ-lyo
    n1.fr/software/seaview.html
  • Programas para filogenia molecular
  • PHYLIP http//evolution.genetics.washington.edu/
    phylip.html
  • PAUP http//paup.csit.fsu.edu/index.html
  • PHYLO_WIN http//pbil.univ-lyon1.fr/software/ph
    ylowin.html
  • MrBayes
  • http//morphbank.ebc.uu.se/mrbayes/
  • PHYML http//www.lirmm.fr/guindon/phyml.htm

129
Recursos de Web para filogenia
  • Desenho de árvores
  • NJPLOT (para todas as plataformas)http//pbil.un
    iv-lyon1.fr/software/njplot.html
  • Aulas de filogeniahttp//www.bioinf.org/molsys/le
    ctures.html

130
sandro_at_ludwig.org.br
131
Ontologia Fornecer um vocabulário
estruturado e controlado para representar o
conhecimento biológico nos bancos de dados.for
the
132
Gene Onthology (GO)
  • Biological Process
  • Objetivo dentro da célula, tecido
  • Molecular Function
  • Função básica ou tarefa
  • Cellular Component
  • Compartimento ou complexo

133
(No Transcript)
134
Busca com a palavra collagenase
135
Conteúdo do GO
  • molecular function 7422 termos
  • biological process 8972 termos
  • cellular component 1472 termos
  • all 17,866 terms

136
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com