Title: Computational Identification and Characterization of Novel Genes from Legumes
1Computational Identification and
Characterizationof Novel Genes from Legumes
- Michelle A. Graham, Kevin A.T. Silverstein,
Steven B. Cannon, and Kathryn A. VandenBosch - Julho, 2004
Camilla Moreira Prof. Paulo Andrade
2Introdução
- Importância das Leguminosas (Fabaceae)
- Disponibilidade de seqüências
- ESTs
- TCs tentativas consenso
- Seqüências específicas
3Objetivo
- Utilizar seqüências disponíveis no banco de dados
para identificar de forma rápida e eficiente
seqüências de M. truncatula, L. japonicus e soja,
que não têm homólogos em outros grupos de
não-legumes, além de sugerir funções às
seqüências-específicas encontradas
4Materiais e Métodos
- Identificação das seqüências-específicas
- BLAST
- Caracterização
- BlastX
- InterProScan
5Identificação
- Foram usados algoritmos BLAST para comparar os
unigenes (TCs) de Medicago truncatula, Lotus
japonicus e Glycine soja e max, contra conjuntos
de unigenes NR e EST do GenBank, e sequências
genômicas de arroz e Arabidopsis, além de
seqüências nucleotídicas do TIGR
6BLAST
- Filtro nas seqüências (repetições, cauda poliA)
- 1º Round
- Medicago
- TCs Lotus
- Glycine
TIGR
Milho Tomate Arroz Arabidopsis
BlastN e TBlastX
10-4
? Próxima fase
E-value gt 10-4
7BLAST
- 2º Round
- Medicago
- TCs Lotus
- Glycine
-
BlastX
Banco NR
Espera-se que sejam específicas
10-4
E-value lt 10-4
8BLAST
Algodão Alface Batata Centeio Cevada Girassol Pinu
s Trigo Sorgo
TBlastX (TIGR)
10-4
E-value gt 10-4
9BLAST
Genoma de Arroz e Arabidopsis
TBlastX
E-value gt 10-4
10BLAST
EST_Others
TBlastX
Seqüências específicas de Leguminosas
E-value gt 10-4
11Identificação Computacional de Genes
Legume-específicos
ltlt
12InterProScan
- Banco de dados de proteínas, domínios e locais
funcionais, no qual características
identificáveis encontradas em proteínas
conhecidas podem ser aplicadas à seqüências
protéicas desconhecidas - Busca por motivos protéicos
13Caracterização
- Seq Específicas x GenBank (NR)
- 20 com homologia
- 1ª Análise por Motivos Conservados de outras
proteínas - 46 TCs contendo 55 motivos conservados
- 41 ricos em aa específicos
- 14 F-Box, inibidores de pectinesterase, zinc
finger e nodulinas
14Caracterização
- 2ª Mineração de grupos de genes
legume-específicos com domínios comuns não
caracterizados (geração de único domínio) - Domínio gerado ? procurar entre proteínas para
atribuir função - 2.525 TCs 50, 672 e 688 homólogos single
- 665 grupos de potenciais famílias gênicas
- F-Box, Ricos em prolina e ricos em cisteína (CCPs)
15Similaridade entre os Motivos de F-Box
16Análise dos Motivos dos Grupos CCP
17BAC Mth2-34P9
pb
pb
A. Regiões com similaridade (elt-10) a sequências
do GenBank 1. retroelemento de Arabidopsis 2.
Proteína gag de pêra 3, poliproteína Pol de
Nicotiana tabacum 4, Proteína de membrana
associada a vesícula de Arabidopsis 5.
Poliproteína de N. tabacum 6. Albumin 1 de
Medicago truncatula 7, Proteína T31J12.4 de
Arabidopsis 8. Transposase Mariner de G. max 9.
Proteína expressa de Arabidopsis 10. Fator de
transcrição de Arabidopsis 11. Elemento de
transposição Tnp2 de Antirrhinum majus
MR mini-repeats CCP genes para proteínas
ricas em cisteína R1, R2 e R3 Setas verdes
início da tradução da CCP Cores nos MR
similaridade entre si
18Correlação filogenética entre os vários
mini-repeats e quadro que mostra a provável
composição de MR3-1 a partir de MR1-1 e MR1-2
19Dot plot (esquema)
Dot plot (resultado real)
MYTEADDRA
MYTEADDRAMYT
20Conclusões
- Origem de não-legumes
- Similaridade com motivos bem representados em
diversas categorias - Esses genes podem ser exemplos de rápida evolução
(Blast não pode identificar) - Genes novos falha na detecção por domínios (ou
não detectados, ou sem similaridade com proteínas
conhecidas)
21Conclusões
- Identificação de famílias gênicas tecido
específica - 10 raiz e nódulos
- 8 sementes
- 4 folhas e flores
- 7 situações de estresse e patógenos
- Genes candidatos à transformação ou silenciamento
gênico em análise futuras de função gênica
22Obrigada