Title: Recerca biol
1Recerca biològica a la Web
2Motors de cerca Entrez i SRS
Sequence Retrieval System
3Entrez (NCBI)
- Seqüències nucleotídiques del Genbank, EMBL i
DDBJ ( Genome Sequence Database GSDB ...) -
Expressed Sequence Tags (EST) - Sequence Tagged
Sites (STS) - Single Nucleotide Polymorphisms
(SNP) - Genome Survey Sequences Database (GSS) -
Seqüències de referència curades (RefSeq)
- Traducció de les seqüències de DNA del Genbank,
EMBL i DDBJ - Proteïnes del PIR, SwissProt, PRF i
PDB
Publicacions dàmbit científic
Dades cristallogràfiques experimentals del PDB
Genomes, cromosomes, mapes genètics, mapes
físics, etc.
Seqüències polimòrfiques alineades
Variacions allèliques
Indexació de les seqüències per organisme
4Entrez (NCBI)
5Cerques a Entrez
- Operadors booleans AND, OR, NOT, ,
- Per defecte els mots es combinen amb AND
- Cerques per Accession Numbers (AC)
- Genbank / EMBL / DDBJ
- 1 lletra 5 dígits (U12345)
- 2 lletres 6 dígits (AF123456)
- SwissProt / PIR
- 1 lletra 5 dígits (P12345)
- Refinament de les cerques utilitzant LIMITS
- Combinació de cerques utilitzant HISTORY
6Entrez Search fields
7Exercici Entrez
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
8Exercici Entrez
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
9Exercici Entrez - 1
- Pas 1 Cerca de colon cancer ? gt 10,000
resultats!!!
10Exercici Entrez - 1
- Pas 2 Buscar per gen i organisme ? 20
resultats... molt millor! - (tot i que podem tenir problemes si el gen és
conegut per molts sinònims diferents)
11Exercici Entrez - 1
- Pas 3 Limitar la cerca a seqüències de
referència (RefSeq) ? 3 resultats!
12Exercici Entrez - 1
- Pas 4 La primera seqüència és lmRNA que
busquem! Visualitzar-la en diferents formats
mitjançant Display.
13Exercici Entrez - 2
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
14Exercici Entrez - 2
- Pas 1 En un sol click podem creuar duna base de
dades a una altra mitjançant Links
15Exercici Entrez - 4
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
16Exercici Entrez - 3
- Pas 1 Podem identificar seqüències similars
mitjançant Related Sequences
17Exercici Entrez - 3
- Pas 2 També podem veure els resultats del Blast
automàtic mitjançant BLink. Visualització
gràfica de les 200 seqüències més similars, molt
flexible.
18Exercici Entrez - 3
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
19Exercici Entrez - 4
Família proteica
- Pas 1 A la pàgina de la proteïna, clickar
Conserved Domains. Dominis identificats de la
NCBIs Conserved Domain Database (CDD).
20Exercici Entrez - 4
- Pas 2 Podem identificar seqüències amb dominis
similars mitjançant Domain Relatives
21Exercici Entrez - 5
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
22Exercici Entrez - 5
- Pas 1 A partir de la pàgina del mRNA o de la
proteïna, clickem als links SNP i Gene View in
dbSNP.
23Exercici Entrez - 5
- Pas 1 A partir de la pàgina del mRNA o de la
proteïna, clickem als links SNP i Gene View in
dbSNP.
24Exercici Entrez - 5
...
...
- Pas 2 A partir de la pàgina del mRNA o de la
proteïna, clickem al links OMIM, busquem el
registre 120436 i dallà a lapartat Allelic
Variants. Variants allèliques descrites a la
literatura i registrades al OMIM.
25Exercici Entrez - 6
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
26Exercici Entrez - 6
Structure ??? Lestructura tridimensional per a
la nostra proteïna no està descrita!
- Pas 1 Lapartat de Links de la nostra proteïna
no conté un link a Structure! Haurem de buscar
les estructures a proteïnes similars a la nostra.
27Exercici Entrez - 6
- Pas 2 BLink per a visualitzar gràficament les
seqüències relacionades amb la nostra, i després
veure només les que tenen estructures 3-D.
28Exercici Entrez - 6
- Pas 3 Obtenir les Related Sequences de la
nostra proteïna, després Display Structure
Links per al conjunt de seqüències
29Exercici Entrez - 6
- Visualitzarem lestructura 1H7U del MMDB
(Entrezs Molecular Modeling Database) utilitzant
el programa Cn3D (Style Rendering Tubes,
Coloring Domains).
30Exercici Entrez - 6
- Mouse over the residues of NP_000240 until the
grey footer bar shows gi 4557757, loc 67
(Glycine). Click on the corresponding Glycine
residue in 1H7U_A (loc 74) to highlight it. - In the structure window use the left mouse button
to spin the 3D structure until you can clearly
see and identify the highlighted residue. Is it
possibly in the active site? For example, is it
within 5 Ä of the ATP?S molecule? - Double click on the Mg-complexed ATP?S to
highlight it. Then use the menu bar option called
Show/HideSelect By DistanceResidues Only to
highlight all residues within 5 Ä of the ATP?S.
Indeed, the Glycine at position 74 is within 5 Ä
and is likely part of the active site for this
energy-producing domain. This hints at the
possible problems a Gly ? Trp mutation might
cause at that position.
- Utilitzant el programa Cn3D podem alinear la
nostra seqüència (NP_000240) amb lestructura
1H7U_A, i veure que la mutació Gly67Trp està al
centre actiu!!!
31Exercici Entrez - 7
- Estem interessats en el gen MLH1 humà, implicat
en el càncer de colon. - Separar el grà de la palla identificar una
seqüència dmRNA representativa i ben anotada del
gen MLH1 - Obtenir literatura associada i la seva seqüència
proteica - Identificar proteïnes similars
- Identificar dominis conservats dins de la
proteïna - Identificar mutacions conegudes en el gen o la
proteïna - Trobar lestructura tridimensional de la
proteïna, si aquesta és coneguda, o si no és
així, identificar estructures de seqüència
homòloga - Veure el context genòmic del gen i descarregar la
regió que el conté
32Exercici Entrez - 7
- Pas 1 Clickar al link Map Viewer de la
proteïna NP_000240. Veurem una visualització
gràfica de la regió cromosòmica.
33Altres utilitats History
- Accés a la HISTÒRIA de la sessió
- Permet combinar cerques 1 AND 2
34Altres utilitats Clipboard
35Altres utilitats Details
36Altres utilitats My NCBI
- My NCBI
- Cal registrar-se
- Permet emmagatzemar cerques a qualsevol base de
dades del NCBI i recuperar-les des de qualsevol
ordinador
37SRS (EBI)
- Motor de cerca SRS (Sequence Retrieval System)
- Buscador relacional
- Vincles amb
- Altres bases de dades
- Programes executables
- Implementat a diferents servidors
- Sistema obert (lliure a les institucions
públiques)
38SRS (EBI)
- Opcions de cerca
- Quick Search (operador OR sempre)
- Standard (formulari cerques combinades)
- Extended (formulari cerques combinades)
- Cerques lògiques
- Combinacions de mots (AND, OR, BUTNOT)
- Combinacions de cerques anteriors (RESULTS)
- Operador (ex. aaa o aaaa)
39SRS (EBI)
40SRS (EBI)
41SRS (EBI)
42SRS (EBI)
43SRS (EBI)
44SRS (Entrez)
- Accés a la HISTÒRIA de la sessió
- Permet combinar cerques Q1 AND Q2
45Exercicis finals - 1
- You have been watching the evening news and have
just heard an interesting story regarding recent
developments on the genetics of colorectal
cancer. You would like to get some more
information on this research, but the news story
was short on details. The only hard information
you have is that the principal investigator was
Bert Vogelstein at the Johns Hopkins School of
Medicine. - How many of the papers that Dr. Vogelstein has
written on the subject of colorectal neoplasms
are available through PubMed? - A paper by Hedrick and colleagues describes the
role of the DCC gene product in cellular
differentiation and colorectal tumorigenesis.
Based on this study, what is the chromosomal
location of the DCC gene? - DCC codes for a cell-surface-localized protein
involved in tumor suppression. From what cell
line and tissue type was the human tumor
suppressor protein (not the precursor) isolated? - In the DCC human tumor suppressor protein
precursor, what range of amino acids comprise the
signal sequence?
46Exercicis finals - 2
- Online Mendelian Inheritance in Man (OMIM)
indicates that the development of colorectal
carcinomas involves a dominantly acting oncogene
coupled with the loss of several genes (such as
DCC) that normally suppress tumorigenesis. - An Allelic variant of DCC also involved in
esophageal carcinoma has been catalogued in OMIM.
What was the mutation at the amino acid level,
and what biological effect did it have in
patients? - Based on the OMIM gene map, how many other genes
have been mapped to the exact cytogenetic map
location as DCC by PCR of somatic cell hybrid
DNA? - The OMIM entry for DCC is coupled to the Mouse
Genome Database at The Jackson Laboratory,
showing that the corresponding mouse gene is
located on mouse chromosome 18. What is the
resultant phenotype of a null mutation of Dcc in
the mouse?
47Exercicis finals - 3
- A very active area of commercial research
involves the identification and development of
new sweeteners for use by the food industry.
Whereas traditional sweeteners such as table
sugar (sucrose) are carbohydrates, most current
research is instead focusing on proteins which
have an intrinsically sweet taste. Because these
sweet-tasting proteins are much sweeter than
their carbohydrate counterparts, they are, in
essence, calorie free, since so little is used to
achieve a sweet taste in food. The most
successful example of such a protein is
aspartame however, aspartame is synthetic and
does not occur in nature. Alternate, natural
protein sources are being investigated, including
a sweet tasting protein called monellin. - According to Ogata and colleagues, how much
sweeter than ordinary sugar is monellin on both a
molar and weight bases? - Based on the SwissProt entry for monellin chain B
from serendipity berry, how many ?-helices and
?-strands does this protein possess? - What residue (amino acid and position), when
blocked, abolished monellins sweet taste?
48Exercicis finals - 3
- Three-dimensional structures are available for
monellin. What other structure is most closely
related to monellin structure 1MOL, as assessed
by VAST P-value? Does this structure have the
highest sequence similarity to 1MOL as well? - The monellin structure is based on a single-chain
fusion product. How do the stability and
renaturation properties of the fusion product
differ from that of the native protein?