Title: Molekularbiologische Datenbanken
1Molekularbiologische Datenbanken
QUELLENhttp//nar.oxfordjournals.org/content/vo
l35/suppl_1/index.dtl
Thoralf Töpel Web-basierte Informationssysteme
in der molekularen Bioinformatik, Vorlesung,
SoSe 05
2Überblick I
- Problem Datenbank lt-gt DATENBANK
- Warum gibt es öffentlich zugängliche
molekularbiologische Datenbanken? - Data Submission Veröffentlichung
- Veröffentlichung
- Austausch von Informationen und Daten
- Erlangung von Reputation
- Molekularbiologische Datenbanken (MDB)
Veröffentlichungen, nicht Tupel - Definitionen erforderlich!!! -gt Verweis auf
Vorlesung
3Überblick II
- Paper, Bücher, Reports
- 1907 / 1927 Chemical/Biological Abstracts
- Sekundärliteratur Abstracts, bibliographische
Daten - 1972 Medline
- Publication Index (einer von vielen)
- PubMed http//www.ncbi.nlm.nih.gov/entrez
- Aktuell
- gt 15.000.000 Artikel http//www.ncbi.nlm.nih.gov/
Literature/ - gt 19.000 Journals ftp//ftp.ncbi.nih.gov/pubmed/J
_Medline.txt - Online Links zu Volltextartikeln
4Überblick III
- Erste Sequenzen Proteine
- Länger bekannt und untersucht, einfacher
zugänglich - DNA Zellkern, kompakte Packung, große Länge,
Instabilität - Erste Proteinsequenz 1951 (Sanger Tuppy)
Seitenkette von Insulin - Sammlung ab Anfang der 1960er (Dayhoff et al.
1965) - Protein Sequence Atlas Buchform, 1968-1978
- Motivation Evolutionäre Untersuchungen
- 1980 Protein Information Resource (seit 1988
PIR-Int.) - 1986 SWISS-PROT Genf (Amos Bairoch) plus EBI
5Überblick IV
Wachstum von Uni-ProtKB/SWISS-PROT Quelle ht
tp//www.expasy.org
6Überblick V
- Proteine falten sich in komplexe Strukturen, die
entscheidend für die Funktion ist - Strukturaufklärung
- Röntgenkristallographie (seit 50er Jahren
- Nuclear Magnetic Resonance (NMR)
- Protein Data Bank (PDB)
- Seit 1971 in Brookhaven
- Seit 1999 Rutger University
- Cambridge Structural Database 1965
7Überblick VI
Wachstum von PDB Quelle http//www.rcsb.org
8Überblick VIIDNA-Sequenzierung
- Doppelhelix der DNA 1953 (Watson, Crick)
- Entwicklung DNA Sequenzierung Beginn der 1970er
(Sanger, 1972 ) radioactive dideoxy sequencing - Sammlungen von DNA Sequenzen
- Los Alamos National Laboratory seit 1979GenBank
am NCBI (National Center f Biotech. Information) - European Molecular Biology Laboratory 1980EMBL
am EBI (European Bioinformatics Institute) - DNA DataBank of Japan 1986DDBJ am NIG (National
Inst. of Genetics) - Int. Nuc. Sequence DB Collaboration seit ca. 1986
- Täglicher Austausch
- Jeweils verantwortlich für submittete Sequenzen
9Überblick VIII
Wachstum von EMBL Quelle http//www.ebi.ac.uk
10Überblick IX
Quellehttp//www.genome.ad.jp/dbget/dbget.links.
html
11Probleme I (Quelle U. Leser)
- Text -gt Daten
- Alle (großen) öffentlichen Datenbanken entstanden
aus Büchern - Sammlungen bekannter Daten einer Art DNA,
Proteinsequenz, Proteinstruktur - Jährliche / Quartalsweises Erscheinen
- Buch Band CD FTP WWW
- Flaches, textorientiertes Datenmodell
- Aufbau nach Entries
- Viele Beschreibungen in freier Textform
- Für Menschen, nicht Computer
12Probleme II (Quelle U. Leser)
- Schwierigkeiten
- Hohe Redundanz (Literatur, ...)
- Keine Vergleichbarkeit freier Beschreibungen
- Keine Standardparser einsetzbar (Grammatiken)
- Controlled Vocabularies schwierig (keine FK)
- Schlechte Skalierbarkeit
- Vorteil
- Lesbarkeit Übersichtlich
- Einfach editierbar, keine Einschränkungen
- Entwicklung Trennung von Speicherformat,
Austauschformat, Benutzerinterface
13Probleme III (Quelle U. Leser)
- Kontinuierliche Entwicklung !!!
- Sukzessive Übernahme von DB Techniken
14Eigenschaften I (Quelle U. Leser)
- Passiv oder aktiv
- Model 1
- Alle Daten werden submittet
- Sinn Archivierung, ID Vergabe und roher
Zugriff - Verpflichtung durch Journals, Geldgeber, Gewissen
- Beispiele Genbank/EMBL..., PDB, ...
- Model 2
- Aktiv sammeln Journals, andere Datenquellen, ...
- Sinn Integration, Veredlung, Vollständigkeit
- Ermöglicht zentralen Zugriff ohne Verpflichtung
- Beispiele SWISS-PROT, PIR, ...
- Mischformen
- GDB - Human Genome Database
- The Official World-Wide Database for the
Annotation of the Human Genome
15Eigenschaften I (Quelle U. Leser)
16Eigenschaften II (Quelle U. Leser)
- Database Curation
- Curation Verbesserung, Heilung
- Modell 1
- Submitter/Quelle ist Datenherr
- Keine (inhaltlichen) Veränderungen
- Beispiele Genbank, ArrayExpress, ...
- Modell 2
- Daten werden laufend verbessert
- Hoher (manueller) Aufwand
- Beispiele SWISS-PROT, MGD - Mouse Genome DB,
MIPS, ...
17Eigenschaften II - Beispiel (Quelle U. Leser)
18Eigenschaften III (Quelle U. Leser)
- Redundanz
- Model 1
- Alles aufnehmen
- Modell 2
- Entfernen gleicher oder sehr ähnlicher Einträge
- Was ist sehr ähnlich ?
- Homologes Protein in anderer Spezies ?
- Homologes Gen an anderer Position ?
- Muss festgelegt werden !
- Beispiel SP Redundanzminimierung durch Editoren
- Beispiel UniGene Redundanzminimierung durch
Algorithmen
19Eigenschaften IV (Quelle U. Leser)
- Integration
- Modell 1
- DB als Archiv unverbundener Objekte
- Problemloses Löschen / Hinzufügen von Objekten
- Modell 2
- Objekte als Knoten in einem komplexen Geflecht
- Neue Knoten können Änderungskaskaden auslösen
- Verschiedene Integrationstiefen
- Links zu anderen Quellen
- DBGET
- Integr8 (web portal provides easy access to
integrated information about deciphered genomes
and their corresponding proteomes) - automatische Integration anhand definierter
Kriterien (ENSEMBL a software system which
produces and maintains automatic annotation on
selected eukaryotic genomes ) - Manuelle Integration anhand Wissen des Editors
(SP) - DBGET / DBLINK Datenbank aus Links
20Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
21Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
Datenherkunft unklar!
Integrated X-Chromosome Database
22Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
23Eigenschaften V (Quelle U. Leser)
- Fokus
- Organismus, Gewebe, Chromosome, ...
- Datentyp Sequenzen, Strukturen, Motive, ...
- Tiefe Datenbanken
- Wenig Klassen, viele Objekte
- EMBL, ArrayExpress, GDB, 2D Page
(SWISS-2DPAGETwo-dimensional polyacrylamide gel
electrophoresis database) ... - Breite Datenbanken
- Viele Klassen, wenig Objekte
- Chromosom-/ Spezies-/ Krankheitsspezifisch
- MGD, MIPS, Genecards, ...
24Eigenschaften V - Beispiel (Quelle U. Leser)
Genomics Unified Schema (GUS) is an extensive
relational database schema and associated
application framework designed to store,
integrate, analyze and present functional
genomics data. The GUS schema supports a wide
range of data types including genomics, gene
expression, transcript assemblies, proteomics and
others. It emphasizes standards-based ontologies
and strong-typing.
25Eigenschaften VI (Quelle U. Leser)
- Position in Wissensschöpfungskette
- Primärdatenbanken
- Nahe am Experiment
- Wenig Verarbeitung (kurze Annotationspipelines)
- Keine Konsensdaten
- Genbank/EMBL, PDB, UniGene
- Sekundärdatenbanken
- Intensive Arbeit zur Datenverbesserung
- Reichhaltige Annotation und Verlinkung
- Intensive Integration und Curationüber Datentypen
hinweg - SWISS-PROT, MGD, OMIM, ...
- Tertiärdatenbanken
- Datenbanken von Annotationstypen oder
Featuretypen - GeneOntology, PFAM, PRINTs, InterPro, CATH, ....
26Eigenschaften VI - Beispiel (Quelle U.
Leser)
27Eigenschaften VII (Quelle U. Leser)
- Zweck
- Lange bestehend, international organisiert
- Referenzdatenbanken, öffentliches Archiv
- Genbank, SWISS-PROT, PIR, PDB, ...
- Projektbezogen, One-Shot
- Existieren ca. bis zur Veröffentlichung
- Ergebnis einer Datenanalyse
- Hochaktuell für kurze Zeit
- Labor-Datenbanken
- Verzahnung mit LIMS (Laboratory Info. Mang. S.)
- Grundlage der Datenanalyse
- Speichert Rohdaten (Traces, Bilder, MS-Spektren)
28Eigenschaften VII - Beispiel
Genexpressionsdaten (Quelle U. Leser)
29Eigenschaften VIII (Quelle U. Leser)
- Technik
- Verwendete Technologie
- Relationale DBMS (Oracle, Sybase, Informix)
- Objektorientierte DBMS (Versant, Objectstore)
- XML Datenbanken (Tamino, XIS)
- Proprietäre Techniken (ACeDB, Icarus/SRS)
- Flatfiles
- Zugriffsmechanismen
- Anfragesprachen SQL, XQuery, OQL,
- Canned Queries, Webforms
- Indexmechanismen, Keywordsuche
- Navigation
30Anforderungen
- Datenmenge
- GenBank-Flatfiles 110 GB (2/2003)
- SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003)
- Flexibilität
- Forschungsfragen ändern sich
- Design muß Wartbarkeit und Flexibilität
ermöglichen - Schemaänderungen, neue Datentypen, Optimierungen,
Integration - Offenheit
- Zugriff durch unterschiedliche Clients, geeignete
Export-Formate - Datenqualität
- Unscharfe, widersprüchliche Daten durch
Experimente
31Klassifikation
- Jährliche Sonderausgabe der Nucleic Acids
Research (seit 1996) - seit 2004 Database Issue
- Molecular Biology Database
- Collection
- http//nar.oupjournals.org
- 2005 719 DBs
- 2006 858 DBs
32Klassifikation (2)
33Nukleotidsequenzdatenquellen
- Labors, Sequenzierkonsortien, Patentanmeldungen
hinterlegen ihre Sequenzen - GenBank (National Center for Biotechnology
Information, NIH) - EMBL-Bank (European Molecular Biology Laboratory,
EMBL-EBI) - DDBJ DNA Database of Japan
- International Nucleotide Sequence Database
Collaboration - Täglicher Abgleich der Sequenzen
- Inhaltlich deckungsgleich
- Separate Eingabepunkte für neue Sequenzen
- Unterschiede im Speicherformat und Annotation
- Abstimmung der Datenformate
34Nukleotidsequenzdatenquellen (2)
- Bedingung für Veröffentlichung eines Artikels in
Fachzeitschrift - Einbringung der neuen Nukleotidsequenz in DB
- Inhalt
- Daten und Annotation für eine einzige,
zusammenhängende Sequenz - Auch Sammlung mehrerer veröffentlichter Artikel
als überlappende Fragmente - Lebensgeschichte ohne Annotation vorläufig
ungeprüft Standard - Selten stirbt ein Eintrag
- Eigenschaftstabelle (feature table) verweist auf
Abschnitte, die - bestimmte Funktionen ausführen oder beeinflussen
- mit anderen Molekülen in Wechselwirkung treten
- sich auf die Replikation auswirken
- an der Rekombination beteiligt sind
- Wiederholungseinheiten darstellen
- eine Sekundär- oder Tertiärstruktur besitzen
- überarbeitet oder korrigiert wurden
35EMBL - Database
- EMBL Nucleotide Sequence Database
- Inhalt stieg in einem Jahr von 27,2 auf 42,3
Mill. Einträge (Sept. 2004) - Verfügbare Daten vierteljährlich komplette DB,
tägliche Updates - Bevorzugte Dateneingabe über WebIn
- Zugriff über
- SRS, FTP
- Dbfetch, EMBL Sequence Version Archive (SVA)
- Strukturierte Wertepaare AC X64011 S78972
- Feature Table Key Location/Qualifiers CDS
23..400 /product"alcohol dehydrogenase"
/gene"adhI" - The feature CDS is a coding sequence beginning at
base 23 and ending at base 400, has a product
called 'alcohol dehydrogenase' and is coded for
by a gene called "adhI".
36EMBL Format
ID LISOD standard genomic DNA PRO 756 BP.XX
AC X64011 S78972XXSV X64011.1XXDT
28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993
(Rel. 36, Last updated, Version 6)XXDE Listeria
ivanovii sod gene for superoxide dismutaseXXKW
sod gene superoxide dismutase.XXOS Listeria
ivanoviiOC Bacteria Firmicutes
Bacillus/Clostridium groupOC Bacillus/Staphyloco
ccus group Listeria.XXRN 1RX MEDLINE
92140371.RA Haas A., Goebel W.RT "Cloning of a
superoxide dismutase gene from Listeria ivanovii
byRT functional complementation in Escherichia
coli and characterization of theRT gene
product."RL Mol. Gen. Genet. 231313-322(1992).
XXDR SWISS-PROT P28763 SODM_LISIV.XXFH Key
Location/QualifiersFHFT source 1..756FT
/db_xref"taxon1638"FT /organism"Listeria
ivanovii"FT /strain"ATCC 19119"FT
/mol_type"genomic DNA"FT RBS 95..100
37EMBL WebIn
- Submitter Information
- Release Date Information
- Sequence Data, Description and Source Information
- Reference Citation Information
- Feature Information (e.g. coding regions,
regulatory signals etc.)
38EMBL Dbfetch
39EMBL SRS
4.3 Nukleotidsequenzdatenquellen
40EMBL XML-Unterstützung
- EMBL XML XEMBL
- CORBA-basierter WWW-Dienst
- Erzeugung von XML-Files aus EMBL-Flat-Files
- Zur Zeit Unterstützung von DTDS von BSML und
AGAVE ( Architecture for Genomic Annotation,
Visualization and Exchange) - Zugriff über SOAP ( Simple Object Access Protocol
vom W3-Konsortium) bzw. CGI-Aufrufe
4.3 Nukleotidsequenzdatenquellen
41EMBL Überblick
Domäne Nukleotid-Sequenzen
Zugriffmöglichkeit Lokale Flat-Files, WWW, XEMBL
Anfrageschnittstelle WWW, SRS, XEMBL
Datenformat ASCII, HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
4.3 Nukleotidsequenzdatenquellen
42Die Genbank Sequenzdatenbank
- Anbieter National Institutes of Health (NIH)
erzeugt vom National Center for Biotechnology
Information (NCBI) http//www.ncbi.nlm.nih.gov/ - Inhalt alle öffentlich verfügbaren RNA, DNA und
Protein-Sequenzen mit Annotationen - täglicher Abgleich mit EMBL und DDBJ
- Untergliederung in Divisionen
- phylogentisch (Verwandschaft, Abstammung)
- technologisch Wie wird Sequenz generiert?
- Releases 2x monatlich mit täglichen Updates
- Nicht entwickelt für Zugriff mittels Computer!!!
43GenBank Format
- Informationseinheit GBFF (GenBank Flatfile)
- Header
- LOCUS eind. Name, Sequenzlänge, Molekültyp,
Datum - DEFINITION biologische Zusammenfassung
- ACCESSION Schlüssel
- VERSION Angabe der letztgültigen Version
- KEYWORDS nicht-standardisierte Beschreibung der
Sequenz - SOURCE/ORGANISM Trivialname/wiss. Name des
Organismus - REFERENCE Block mit mind. einer Referenz
- Features
- Source Quelle des verwendeten biol. Materials
- CDS Sequenzabschnitt für Aminosäuresequenz
-
- Nukleotidsequenz
44GenBank Format (2)
LOCUS LISOD 756 bp DNA linear BCT
30-JUN-1993DEFINITION Listeria ivanovii sod
gene for superoxide dismutase.ACCESSION X64011
S78972VERSION X64011.1 GI44010KEYWORDS sod
gene superoxide dismutase.SOURCE Listeria
ivanovii ORGANISM Listeria ivanovii Bacteria
Firmicutes Bacillales Listeriaceae Listeria.
REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A.
and Goebel,W. TITLE Cloning of a superoxide
dismutase gene from Listeria ivanovii
by functional complementation in Escherichia
coli and characterization of the gene product
JOURNAL Mol. Gen. Genet. 231 (2), 313-322
(1992) MEDLINE 92140371REFERENCE 2 (bases 1
to 756) AUTHORS Kreft,J. TITLE Direct
Submission JOURNAL Submitted (21-APR-1992) J.
Kreft, Institut f. Mikrobiologie, Universitaet
Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg,
FRGFEATURES Location/Qualifiers source
1..756 /organism"Listeria ivanovii"
/strain"ATCC 19119" /db_xref"taxon1638"
/mol_type"genomic DNA" RBS 95..100
/gene"sod" gene 95..746 /gene"sod"
CDS 109..717 /gene"sod"
/EC_number"1.15.1.1" /codon_start1
/transl_table11 /product"superoxide
dismutase"
4.3 Nukleotidsequenzdatenquellen
45GenBank Suche
46Proteinsequenzdatenquellen
- Meistens aus Nukleinsäuresequenzen abgeleitet
- Typische Vertreter
- Swiss-Prot (Schweizer Institut für Bioinformatik,
EMBL) - PIR (Georgetown University Washington, MIPS
München, Japan) - TrEMBL (EMBL)
- UniProt (Swiss-Prot TrEMBL PIR)
47Swiss-Prot
- Kommentierte Proteinsequenzdatenbank
- Umfangreiche Bemerkungen (Annotationen), geringe
Redundanz, Links zu anderen Datenquellen - Entwicklung seit 1986 an der Universität Genf,
Schweiz - Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss
Institute of Bioinformatics) betrieben - Aminosäurensequenz, Annotationen, Verweise,
Synonyme, Literaturreferenzen, Schlüsselworte - Format der Daten orientiert sich an der
EMBLNukleotidsequenzdatenbank - Umfang Proteinsequenz, Version, Vorgänger,
Autor, Datum, Länge, Methode, letzte Änderung,
Organismus, Sequenzfeatures, Links, Ref. - Engpässe und somit zeitliche Verzögerungen
während des Annotationsverfahres - 1996 Entwicklung von TrEMBL, Rechnerannotierte
Einträge (Translation of EMBL nucleotide
sequence database)
48Swiss-Prot Format
4.4 Proteinsequenzdatenquellen
49Swiss-Prot Format (2)
50Swiss-Prot Dienste
Bildquelle http//www.expasy.org/sitemap.html
51Swiss-Prot Links
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
52Swiss-Prot Überblick
Domäne Proteine, Aminosäuresequenz
Zugriffmöglichkeit Lokale Flat-Files, WWW
Anfrageschnittstelle WWW, SRS, Nice-Prot
Datenformat ASCII, HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
53TrEMBL
- Rechner-annotierte Übersetzungen aller
kodierender Regionen in DDBJ/EMBL/GenBank - Proteinsequenzen aus Literatur und Submission,
die nicht in Swiss-Prot - Schnelle Publikation ohne Verzögerung durch
aufwendige manuelle Annotation - Vorgehen
- Vergabe eines TrEMBL-Eintrages
- Automatische Annotation Informationstransfer von
bekannten Einträgen aus Swiss-Prot zu nicht
annotierten TrEMBL-Einträgen über
InterPro-Gruppen - Redundanzbeseitigung Sequenzen mit gleichem
Organismus, voller Länge und Identität werden zu
einem Eintrag verschmolzen - Herkunftsnachweis TrEMBL enthält Daten aus
unterschiedlichen Quellen, Herkunft eines
Eintrages wird dokumentiert ermöglicht
Qualitätsbewertung und Aktualisierung
54UniProt
- Universal Protein Knowledgebase
- Seit 2002 Vereinigung kommentierter
Proteinsequenzdatenbanken - Sammlung der einzelnen Sequenzinformationen und
funktionalen Daten - das UniProt Archive (UniParc) nichtredundante
Sammlung von Proteinsequenzen aus verschiedenen
Quellen (SwissProt, TrEMBL, PIRPSD, EMBL,
Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase und
Patentämter - zentrale UniProt Knowledgebase (UniProt)
Proteinsequenzen, Annotation und funktionale
Informationen aus SWISSPROT, TrEMBL und PIRPSD
wechselseitige Referenzen Unterscheidung der
Informationen in manuell annotierte Sequenzen,
die durch eine Literaturrecherche und evaluierte
Computeranalysen entstanden sind, und
rechnerannotierte Sequenzen - die UniProt NREF Datenbank (UniRef)
nichtredundante Verknüpfungen verfügbarer
Sequenzen mit Links zu den beteiligten Sequenzen,
Taxonomie, Literaturreferenzen und der
resultierenden Sequenz
55UniProt Format
56UniProt Format (2)
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
57MDB Klassifikation (1)
- Nukleotidsequenzdatenquellen
- Daten und Annotation für eine einzige,
zusammenhängende Sequenz - GenBank, EMBL-Bank, JJDB
- Proteinsequenzdatenquellen
- Meistens aus Nukleinsäuresequenzen abgeleitet
- Swiss-Prot, PIR, TrEMBL, UniProt
58MDB Klassifikation (2)
59Strukturdatenquellen
- Archivierung von Gruppen aus Atomkoordinaten und
Annotationen für biochemische Strukturen - Struktur
- PDB
- MSD (EBI), MMDB (NCBI)
- Klassifikation der Proteinfaltungsmuster
- SCOP
- DALI
60Proteinstruktur
- Von eindimensionaler (Nukleotid-/Aminosäuresequenz
) zur räumlichen Welt - Proteine in vielfältigen Funktionen
Strukturproteine, Enzyme, Transport- und
Speicherproteine, Hormone, Rezeptoren,
Transkriptionsregulation, Immunsystem - Lokalisierung der Funktion in kleinem Teil des
Proteins aktives Zentrum - Evolution der Proteine Strukturveränderung durch
Mutationen - Dreidimensionale Struktur von ca. 15000 Proteinen
bekannt - Unterscheidung in
- Primärstruktur Aminosäuresequenz
- Sekundärstruktur Wasserstoff-stabilisierte
Krümmung der Hauptkette - Tertiärstruktur
- Quartärstruktur
- Supersekundärstruktur, Domänen
61PDB
- Protein Data Bank
- Datensammlung zur Struktur biologischer
Makromoleküle - Proteine, Nukleinsäuren, Kohlenhydrate
- 1971 gegründet an Brookhaven National
Laboratories, - Pflege durch Research Collaboration for
Structural Bioinformatics - Prüfungsprozeß vor Aufnahme einer neuen Struktur
- Hohe Redundanz, geringer Umfang
- Inhalt
- Allgemeine Angaben (Protein, Publikation)
- Aminosäuresequenz
- Experimentelle Einzelheiten der
Strukturaufklärung, ähnliche Strukturen - Koordinaten der Atome
62PDB Dateiformat
- Anordnung der 3D-Struktur des Proteins in
Raumgitter - Atome, die über Bindungen in Wechselwirkung
stehen - Jedes Atom besitzt bestimmte Position relativ zum
Nullpunkt - Zuordnung weiterer Daten (Atomcharakter,
Bindungen, Wechselwirkungen) - Verschiedene Werkzeuge zur Visualisierung
(RasMol, Swiss PDB Viewer, Cn3D) - PDB-Koordinatendatei
- Schlüssel-Wert-Paare
- Kooperation als Worldwide Protein Data Bank
(wwPDB) - PDB, EBI-MSD, PDBj
- Vereinheitlichung, Transparenz
63PDB Beispieldatei
64PDB Beispieldatei (2)
Bildquelle http//www.rcsb.org/pdb/
65PDB Überblick
Domäne Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, PDB-Format, Spezialformate
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PDB-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
66SCOP
- Structural Classification of Proteins
- Erkennung von Ordnungskriterien in der Vielfalt
der Proteinstrukturen - Hierarchische Ordnung auf der Basis der
PDB-Einträge in Bezug auf evolutionäre und
strukturelle Ähnlichkeiten - Auch Proteine mit geringer Sequenzähnlichkeit
können sehr ähnliche 3D-Strukturen besitzen - Unterteilung des Proteinmoleküls in Domänen (rel.
unabhängige Faltungseinheiten) - Strukturierung aufsteigend nach Ähnlichkeit
Sequenz/Struktur - Class Klasse
- Fold Faltung Major structural similarity
- Superfamily Superfamilie Probable common
evolutionary origin - Family Familie Clear evolutionarily
relationship - Protein, Spezies
67SCOP Beispieleintrag
68SCOP Überblick
Domäne Klassifikation von Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Klassifikation
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
69Metabolische und Signalwege
- Stoffwechsel (Metabolismus) Chemische Prozesse
in einemBiosystem (Proteinsynthese, Biosynthese,
Zellkommunikation) - Vorgänge prinzipiell bei allen Lebewesen gleich
- Metabolic Pathway (Stoffwechselweg) in
Wechselwirkung - stehende biochemische Reaktionen durch Enzyme
reguliert - Produktion und Konsumption von Zwischenprodukten
- Reaktion durch Enzyme gehemmt oder gefördert
Bildquelle http//biopath.fmi.uni-passau.de/
70Metabolische und Signalwege (2)
- Signaling Pathway (Signalweg)
Signalübermittlung von Zelle zu Zelle bzw. Organ
zu Organ - Signalvermittlung durch chemische Verbindungen
(Signalmoleküle) - Typischer Ablauf
- Extrazelluläre Signalmoleküle binden an Rezeptor
(Membranproteine) - Hormon-Rezeptor-Komplex löst intrazelluläres
Signalmolekül aus - (Signaltransduktion, mehrstufige
Signaltransduktion Signalkaskade)
71BRENDA
- Braunschweig Enzyme Database
- 1987 an GBF Braunschweig entwickelt
- Heute Pflege an Universität zu Köln
- Inhalt
- Enzyme und metabolische Zusammenhänge
- Biochemische und molekulare Informationen,
Klassifikation und Nomenklatur, Reaktion und
Spezifität, kinetische Parameter, , Links,
Referenzen - Umfang
- 83000 Enzyme in 9800 Organismen
- Klassifiziert durch 4200 unterschiedliche
EC-Nummern - Extrahiert aus 46000 Publikationen
72BRENDA GUI
73BRENDA Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW
Anfrageschnittstelle WWW, SRS
Datenformat HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
74KEGG
- Kyoto Encyclopedia of Genes and Genomes
- Sammlung einzelner Genome, Genprodukte und ihre
Funktion, Zusammenführung von biochemischen und
genetischen Daten - 1995 im Rahmen des HGP gegründet
- Organisation in Graphenstruktur
- Graph Knoten Kanten
- Gene universe Gen beschreiben Beziehungen
- Chemical universe Chemische Substanz zwischen
den Knoten - Protein network Protein
- Gruppen besitzen verschiedene Teildatenbanken,
die miteinander verknüpft sind
75KEGG Vernetzung
Bildquelle http//www.genome.ad.jp/dbget/
4.6 Metabolische und Signalwege
76KEGG Pathway
Bildquelle http//www.genome.ad.jp/kegg/
77KEGG Genes, Enzyme
78KEGG Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW, Lokale Flat-Files, SOAP
Anfrageschnittstelle WWW, SRS, DBGET
Datenformat HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
79OMIM
- Online Mendelian Inheritance in Man
- Datenbank für Gene und genetisch bedingte
Erkrankungen des Menschen - Auswertung biomedizinischer Literatur
- Ursprünglich von Medizinern seit 1966 in
Papierform veröffentlicht - Seit 1987 auch online verfügbar
- Teil des Entrez-Systems am NCBI
- Pflege durch Johns-Hopkins-Universität, Baltimore
- Durchschnittlich 8500 Nutzer mit 100000 Anfragen
pro Tag - Ca. 16000 Einträge
80OMIM 261600.0001
- Erste Ziffer bezeichnet die Art der Vererbung
- 1----- (100000- ) Autosomale Loci oder
Phänotypen (vor 15. Mai 1994)2----- (200000- )
Autosomale Loci oder Phänotypen (nach 15. Mai
1994)3----- (300000- ) X-chromosomale Loci oder
Phänotypen - 4----- (400000- ) Y-chromosomale Loci oder
Phänotypen 5----- (500000- ) Mitochondriale Loci
oder Phänotypen - 6----- (600000- ) Autosomale Loci oder
Phänotypen (nach 15. Mai 1994) - Identifikation verschiedener Mutationen über
nachfolgende vierstellige Nummer - 261600.0001 PHENYLKETONURIA PAH, IVS12DS, G-A,
1 - 261600.0002 PHENYLKETONURIA PAH, ARG408TRP
- Zusätzlich Präfix
- Gen einer bekannten Sequenz
- Beschreibender Eintrag (typ. Phänotyp), kein
bestimmter Locus - Gen einer bekannten Sequenz und Phänotyp
- Bestätigter vererbter Phänotyp oder Locus mit
unbekannter mol. Basis - Gelöschter Eintrag
81OMIM GUI
82OMIM Überblick
Domäne Gene und genetisch bedingte Erkrankungen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über MIM-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
83PubMed
- Sammlung von Referenzen biomedizinischer
Literatur - Teil des Entrez-Systems am NCBI
- Zugriff auf
- Medline (4800 Journals, 12 Mill. Referenzen, seit
1966 indexiert) - OldMedline (2 Mill. Referenzen, 1950-1966
indexiert, kein MeSH, kein Abstract) - Weitere Beiträge (z.B. außerhalb des thematischen
Schwerpunktes, elektronische Übermittlung der
Referenzen durch Verlag) - Suche anhand von Stichwörtern, Verknüpfung durch
Boolesche Operatoren, Eingrenzung des
Suchbereiches auf bestimmte Datenfelder (Title,
Author, ) - MeSH (Medical Subject Headings) Annotation der
Artikel mit kontrolliertem Vokabular
4.8 Weitere Quellen
84PubMed (2)
- Teilweise Zugriff auf Volltext-Artikel
- No abstract
- Abstract
- Free full text
- Free in PMC
85PubMed GUI
4.8 Weitere Quellen
86PubMed Überblick
Domäne Literaturreferenzen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, XML, ASN.1
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PubMed-ID (PMID) (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
87Gene Ontology
- The Gene Ontology project provides a controlled
vocabulary to describe gene and gene product
attributes in any organism! - What does the Gene Ontology Consortium do?
- Biologists currently waste a lot of time and
effort in searching for all of the available
information about each small area of research.
This is hampered further by the wide variations
in terminology that may be common usage at any
given time, and that inhibit effective searching
by computers as well as people. - The use of GO terms by several collaborating
databases facilitates uniform queries across
them. The controlled vocabularies are structured
so that you can query them at different levels
for example, you can use GO to find all the gene
products in the mouse genome that are involved in
signal transduction, or you can zoom in on all
the receptor tyrosine kinases. This structure
also allows annotators to assign properties to
gene products at different levels, depending on
how much is known about a gene product.
88Gene Ontology (2)
- 3 Ontologien
- Molecular function
- Molecular function describes activities, such as
catalytic or binding activities, at the
molecular level. - Bsp pyrimidine metabolism, alpha-glucoside
transport - Biological process
- A biological process is series of events
accomplished by one or more ordered assemblies of
molecular functions - Bsp hexose biosynthesis, hexose metabolism,
monosaccharide biosynthesis - Cellular component
- A cellular component is just that, a component of
a cell but with the proviso that it is part of
some larger object, which may be an anatomical
structure or a gene product group. - Bsp nucleus, ribosome, proteasome
89Gene Ontology - AmiGo
4.8 Weitere Quellen
90Gene Ontology und Pflanzen-ESTs
4.8 Weitere Quellen
91Plant Ontology
- Plant Ontology Consortium (POC) aims to develop,
curate and share controlled vocabularies
(ontologies) that describe plant structures and
growth/developmental stages providing a semantic
framework for meaningful cross-species queries
across database - Plant Structure
- A controlled vocabulary of botanical terms
describing morphological and anatomical
structures representing organ, tissue and cell
types and their relationships. Examples are
stamen, gynoecium, petal, parenchyma, guard cell,
etc. - Growth and developmental stages
- A controlled vocabulary of terms describing
growth and developmental stages in model plant
species and their relationships. Examples are
embryo development stage, seedling stage,
flowering stage, etc.
92Plant Ontology - AmiGo
4.8 Weitere Quellen
93Plant Ontology und Pflanzen cDNA-Arrays
4.8 Weitere Quellen
94TIGR Gene Indicies
- TIGR - The Institute for Genomic Research is a
not-for-profit center dedicated to deciphering
and analyzing genomes the complex molecular
chains that constitute each organisms unique
genetic heritage. - TIGR Gene Indices
- megablast
- CAP3
- Paracel TranscriptAssembler
- DNA-Protein Search program (dps)
- Weitere Analysen
- ORF annotation
- Genome mapping
- expression profiles of the EST
- Domain annotation of TCs
95TIGR Gene Indicies 4 Kategorien
96TIGR Gene Indicies Beispiel
97Molekularbiologische Datenquellen
- Es könnte noch beliebig weitergehen!!!