Molekularbiologische Datenbanken

About This Presentation

Title:

Molekularbiologische Datenbanken

Description:

Molekularbiologische Datenbanken QUELLEN: http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl Thoralf T pel: Web-basierte Informationssysteme in der – PowerPoint PPT presentation

Number of Views:224

Avg rating:3.0/5.0

Slides: 98

Provided by: Uwe70

Category:

more less

Transcript and Presenter's Notes

Title: Molekularbiologische Datenbanken

1
Molekularbiologische Datenbanken
QUELLENhttp//nar.oxfordjournals.org/content/vo
l35/suppl_1/index.dtl
Thoralf Töpel Web-basierte Informationssysteme
in der molekularen Bioinformatik, Vorlesung,
SoSe 05
2
Überblick I

Problem Datenbank lt-gt DATENBANK
Warum gibt es öffentlich zugängliche
molekularbiologische Datenbanken?
Data Submission Veröffentlichung
Veröffentlichung
Austausch von Informationen und Daten
Erlangung von Reputation
Molekularbiologische Datenbanken (MDB)
Veröffentlichungen, nicht Tupel
Definitionen erforderlich!!! -gt Verweis auf
Vorlesung

3
Überblick II

Paper, Bücher, Reports
1907 / 1927 Chemical/Biological Abstracts
Sekundärliteratur Abstracts, bibliographische
Daten
1972 Medline
Publication Index (einer von vielen)
PubMed http//www.ncbi.nlm.nih.gov/entrez
Aktuell
gt 15.000.000 Artikel http//www.ncbi.nlm.nih.gov/
Literature/
gt 19.000 Journals ftp//ftp.ncbi.nih.gov/pubmed/J
_Medline.txt
Online Links zu Volltextartikeln

4
Überblick III

Erste Sequenzen Proteine
Länger bekannt und untersucht, einfacher
zugänglich
DNA Zellkern, kompakte Packung, große Länge,
Instabilität
Erste Proteinsequenz 1951 (Sanger Tuppy)
Seitenkette von Insulin
Sammlung ab Anfang der 1960er (Dayhoff et al.
1965)
Protein Sequence Atlas Buchform, 1968-1978
Motivation Evolutionäre Untersuchungen
1980 Protein Information Resource (seit 1988
PIR-Int.)
1986 SWISS-PROT Genf (Amos Bairoch) plus EBI

5
Überblick IV
Wachstum von Uni-ProtKB/SWISS-PROT Quelle ht
tp//www.expasy.org
6
Überblick V

Proteine falten sich in komplexe Strukturen, die
entscheidend für die Funktion ist
Strukturaufklärung
Röntgenkristallographie (seit 50er Jahren
Nuclear Magnetic Resonance (NMR)
Protein Data Bank (PDB)
Seit 1971 in Brookhaven
Seit 1999 Rutger University
Cambridge Structural Database 1965

7
Überblick VI
Wachstum von PDB Quelle http//www.rcsb.org
8
Überblick VIIDNA-Sequenzierung

Doppelhelix der DNA 1953 (Watson, Crick)
Entwicklung DNA Sequenzierung Beginn der 1970er
(Sanger, 1972 ) radioactive dideoxy sequencing
Sammlungen von DNA Sequenzen
Los Alamos National Laboratory seit 1979GenBank
am NCBI (National Center f Biotech. Information)
European Molecular Biology Laboratory 1980EMBL
am EBI (European Bioinformatics Institute)
DNA DataBank of Japan 1986DDBJ am NIG (National
Inst. of Genetics)
Int. Nuc. Sequence DB Collaboration seit ca. 1986
Täglicher Austausch
Jeweils verantwortlich für submittete Sequenzen

9
Überblick VIII
Wachstum von EMBL Quelle http//www.ebi.ac.uk
10
Überblick IX

Vernetzung

Quellehttp//www.genome.ad.jp/dbget/dbget.links.
html
11
Probleme I (Quelle U. Leser)

Text -gt Daten
Alle (großen) öffentlichen Datenbanken entstanden
aus Büchern
Sammlungen bekannter Daten einer Art DNA,
Proteinsequenz, Proteinstruktur
Jährliche / Quartalsweises Erscheinen
Buch Band CD FTP WWW
Flaches, textorientiertes Datenmodell
Aufbau nach Entries
Viele Beschreibungen in freier Textform
Für Menschen, nicht Computer

12
Probleme II (Quelle U. Leser)

Schwierigkeiten
Hohe Redundanz (Literatur, ...)
Keine Vergleichbarkeit freier Beschreibungen
Keine Standardparser einsetzbar (Grammatiken)
Controlled Vocabularies schwierig (keine FK)
Schlechte Skalierbarkeit
Vorteil
Lesbarkeit Übersichtlich
Einfach editierbar, keine Einschränkungen
Entwicklung Trennung von Speicherformat,
Austauschformat, Benutzerinterface

13
Probleme III (Quelle U. Leser)

Kontinuierliche Entwicklung !!!

Sukzessive Übernahme von DB Techniken

14
Eigenschaften I (Quelle U. Leser)

Passiv oder aktiv
Model 1
Alle Daten werden submittet
Sinn Archivierung, ID Vergabe und roher
Zugriff
Verpflichtung durch Journals, Geldgeber, Gewissen
Beispiele Genbank/EMBL..., PDB, ...
Model 2
Aktiv sammeln Journals, andere Datenquellen, ...
Sinn Integration, Veredlung, Vollständigkeit
Ermöglicht zentralen Zugriff ohne Verpflichtung
Beispiele SWISS-PROT, PIR, ...
Mischformen
GDB - Human Genome Database
The Official World-Wide Database for the
Annotation of the Human Genome

15
Eigenschaften I (Quelle U. Leser)

Passiv oder aktiv ??

16
Eigenschaften II (Quelle U. Leser)

Database Curation
Curation Verbesserung, Heilung
Modell 1
Submitter/Quelle ist Datenherr
Keine (inhaltlichen) Veränderungen
Beispiele Genbank, ArrayExpress, ...
Modell 2
Daten werden laufend verbessert
Hoher (manueller) Aufwand
Beispiele SWISS-PROT, MGD - Mouse Genome DB,
MIPS, ...

17
Eigenschaften II - Beispiel (Quelle U. Leser)
18
Eigenschaften III (Quelle U. Leser)

Redundanz
Model 1
Alles aufnehmen
Modell 2
Entfernen gleicher oder sehr ähnlicher Einträge
Was ist sehr ähnlich ?
Homologes Protein in anderer Spezies ?
Homologes Gen an anderer Position ?
Muss festgelegt werden !
Beispiel SP Redundanzminimierung durch Editoren
Beispiel UniGene Redundanzminimierung durch
Algorithmen

19
Eigenschaften IV (Quelle U. Leser)

Integration
Modell 1
DB als Archiv unverbundener Objekte
Problemloses Löschen / Hinzufügen von Objekten
Modell 2
Objekte als Knoten in einem komplexen Geflecht
Neue Knoten können Änderungskaskaden auslösen
Verschiedene Integrationstiefen
Links zu anderen Quellen
DBGET
Integr8 (web portal provides easy access to
integrated information about deciphered genomes
and their corresponding proteomes)
automatische Integration anhand definierter
Kriterien (ENSEMBL a software system which
produces and maintains automatic annotation on
selected eukaryotic genomes )
Manuelle Integration anhand Wissen des Editors
(SP)
DBGET / DBLINK Datenbank aus Links

20
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
21
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
Datenherkunft unklar!
Integrated X-Chromosome Database
22
Eigenschaften IV - Beispiel zu Modell 2
(Quelle U. Leser)
23
Eigenschaften V (Quelle U. Leser)

Fokus
Organismus, Gewebe, Chromosome, ...
Datentyp Sequenzen, Strukturen, Motive, ...
Tiefe Datenbanken
Wenig Klassen, viele Objekte
EMBL, ArrayExpress, GDB, 2D Page
(SWISS-2DPAGETwo-dimensional polyacrylamide gel
electrophoresis database) ...
Breite Datenbanken
Viele Klassen, wenig Objekte
Chromosom-/ Spezies-/ Krankheitsspezifisch
MGD, MIPS, Genecards, ...

24
Eigenschaften V - Beispiel (Quelle U. Leser)
Genomics Unified Schema (GUS) is an extensive
relational database schema and associated
application framework designed to store,
integrate, analyze and present functional
genomics data. The GUS schema supports a wide
range of data types including genomics, gene
expression, transcript assemblies, proteomics and
others. It emphasizes standards-based ontologies
and strong-typing.
25
Eigenschaften VI (Quelle U. Leser)

Position in Wissensschöpfungskette
Primärdatenbanken
Nahe am Experiment
Wenig Verarbeitung (kurze Annotationspipelines)
Keine Konsensdaten
Genbank/EMBL, PDB, UniGene
Sekundärdatenbanken
Intensive Arbeit zur Datenverbesserung
Reichhaltige Annotation und Verlinkung
Intensive Integration und Curationüber Datentypen
hinweg
SWISS-PROT, MGD, OMIM, ...
Tertiärdatenbanken
Datenbanken von Annotationstypen oder
Featuretypen
GeneOntology, PFAM, PRINTs, InterPro, CATH, ....

26
Eigenschaften VI - Beispiel (Quelle U.
Leser)
27
Eigenschaften VII (Quelle U. Leser)

Zweck
Lange bestehend, international organisiert
Referenzdatenbanken, öffentliches Archiv
Genbank, SWISS-PROT, PIR, PDB, ...
Projektbezogen, One-Shot
Existieren ca. bis zur Veröffentlichung
Ergebnis einer Datenanalyse
Hochaktuell für kurze Zeit
Labor-Datenbanken
Verzahnung mit LIMS (Laboratory Info. Mang. S.)
Grundlage der Datenanalyse
Speichert Rohdaten (Traces, Bilder, MS-Spektren)

28
Eigenschaften VII - Beispiel
Genexpressionsdaten (Quelle U. Leser)
29
Eigenschaften VIII (Quelle U. Leser)

Technik
Verwendete Technologie
Relationale DBMS (Oracle, Sybase, Informix)
Objektorientierte DBMS (Versant, Objectstore)
XML Datenbanken (Tamino, XIS)
Proprietäre Techniken (ACeDB, Icarus/SRS)
Flatfiles
Zugriffsmechanismen
Anfragesprachen SQL, XQuery, OQL,
Canned Queries, Webforms
Indexmechanismen, Keywordsuche
Navigation

30
Anforderungen

Datenmenge
GenBank-Flatfiles 110 GB (2/2003)
SWISS-PROT, TrEMBL Oracle-Export 1 GB (2/2003)
Flexibilität
Forschungsfragen ändern sich
Design muß Wartbarkeit und Flexibilität
ermöglichen
Schemaänderungen, neue Datentypen, Optimierungen,
Integration
Offenheit
Zugriff durch unterschiedliche Clients, geeignete
Export-Formate
Datenqualität
Unscharfe, widersprüchliche Daten durch
Experimente

31
Klassifikation

Jährliche Sonderausgabe der Nucleic Acids
Research (seit 1996)
seit 2004 Database Issue
Molecular Biology Database
Collection
http//nar.oupjournals.org
2005 719 DBs
2006 858 DBs

32
Klassifikation (2)
33
Nukleotidsequenzdatenquellen

Labors, Sequenzierkonsortien, Patentanmeldungen
hinterlegen ihre Sequenzen
GenBank (National Center for Biotechnology
Information, NIH)
EMBL-Bank (European Molecular Biology Laboratory,
EMBL-EBI)
DDBJ DNA Database of Japan
International Nucleotide Sequence Database
Collaboration
Täglicher Abgleich der Sequenzen
Inhaltlich deckungsgleich
Separate Eingabepunkte für neue Sequenzen
Unterschiede im Speicherformat und Annotation
Abstimmung der Datenformate

34
Nukleotidsequenzdatenquellen (2)

Bedingung für Veröffentlichung eines Artikels in
Fachzeitschrift
Einbringung der neuen Nukleotidsequenz in DB
Inhalt
Daten und Annotation für eine einzige,
zusammenhängende Sequenz
Auch Sammlung mehrerer veröffentlichter Artikel
als überlappende Fragmente
Lebensgeschichte ohne Annotation vorläufig
ungeprüft Standard
Selten stirbt ein Eintrag
Eigenschaftstabelle (feature table) verweist auf
Abschnitte, die
bestimmte Funktionen ausführen oder beeinflussen
mit anderen Molekülen in Wechselwirkung treten
sich auf die Replikation auswirken
an der Rekombination beteiligt sind
Wiederholungseinheiten darstellen
eine Sekundär- oder Tertiärstruktur besitzen
überarbeitet oder korrigiert wurden

35
EMBL - Database

EMBL Nucleotide Sequence Database
Inhalt stieg in einem Jahr von 27,2 auf 42,3
Mill. Einträge (Sept. 2004)
Verfügbare Daten vierteljährlich komplette DB,
tägliche Updates
Bevorzugte Dateneingabe über WebIn
Zugriff über
SRS, FTP
Dbfetch, EMBL Sequence Version Archive (SVA)
Strukturierte Wertepaare AC X64011 S78972
Feature Table Key Location/Qualifiers CDS
23..400 /product"alcohol dehydrogenase"
/gene"adhI"
The feature CDS is a coding sequence beginning at
base 23 and ending at base 400, has a product
called 'alcohol dehydrogenase' and is coded for
by a gene called "adhI".

36
EMBL Format
ID LISOD standard genomic DNA PRO 756 BP.XX
AC X64011 S78972XXSV X64011.1XXDT
28-APR-1992 (Rel. 31, Created)DT 30-JUN-1993
(Rel. 36, Last updated, Version 6)XXDE Listeria
ivanovii sod gene for superoxide dismutaseXXKW
sod gene superoxide dismutase.XXOS Listeria
ivanoviiOC Bacteria Firmicutes
Bacillus/Clostridium groupOC Bacillus/Staphyloco
ccus group Listeria.XXRN 1RX MEDLINE
92140371.RA Haas A., Goebel W.RT "Cloning of a
superoxide dismutase gene from Listeria ivanovii
byRT functional complementation in Escherichia
coli and characterization of theRT gene
product."RL Mol. Gen. Genet. 231313-322(1992).
XXDR SWISS-PROT P28763 SODM_LISIV.XXFH Key
Location/QualifiersFHFT source 1..756FT
/db_xref"taxon1638"FT /organism"Listeria
ivanovii"FT /strain"ATCC 19119"FT
/mol_type"genomic DNA"FT RBS 95..100
37
EMBL WebIn

Submitter Information
Release Date Information
Sequence Data, Description and Source Information
Reference Citation Information
Feature Information (e.g. coding regions,
regulatory signals etc.)

38
EMBL Dbfetch
39
EMBL SRS
4.3 Nukleotidsequenzdatenquellen
40
EMBL XML-Unterstützung

EMBL XML XEMBL
CORBA-basierter WWW-Dienst
Erzeugung von XML-Files aus EMBL-Flat-Files
Zur Zeit Unterstützung von DTDS von BSML und
AGAVE ( Architecture for Genomic Annotation,
Visualization and Exchange)
Zugriff über SOAP ( Simple Object Access Protocol
vom W3-Konsortium) bzw. CGI-Aufrufe

4.3 Nukleotidsequenzdatenquellen
41
EMBL Überblick
Domäne Nukleotid-Sequenzen
Zugriffmöglichkeit Lokale Flat-Files, WWW, XEMBL
Anfrageschnittstelle WWW, SRS, XEMBL
Datenformat ASCII, HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
4.3 Nukleotidsequenzdatenquellen
42
Die Genbank Sequenzdatenbank

Anbieter National Institutes of Health (NIH)
erzeugt vom National Center for Biotechnology
Information (NCBI) http//www.ncbi.nlm.nih.gov/
Inhalt alle öffentlich verfügbaren RNA, DNA und
Protein-Sequenzen mit Annotationen
täglicher Abgleich mit EMBL und DDBJ
Untergliederung in Divisionen
phylogentisch (Verwandschaft, Abstammung)
technologisch Wie wird Sequenz generiert?
Releases 2x monatlich mit täglichen Updates
Nicht entwickelt für Zugriff mittels Computer!!!

43
GenBank Format

Informationseinheit GBFF (GenBank Flatfile)
Header
LOCUS eind. Name, Sequenzlänge, Molekültyp,
Datum
DEFINITION biologische Zusammenfassung
ACCESSION Schlüssel
VERSION Angabe der letztgültigen Version
KEYWORDS nicht-standardisierte Beschreibung der
Sequenz
SOURCE/ORGANISM Trivialname/wiss. Name des
Organismus
REFERENCE Block mit mind. einer Referenz
Features
Source Quelle des verwendeten biol. Materials
CDS Sequenzabschnitt für Aminosäuresequenz
Nukleotidsequenz

44
GenBank Format (2)
LOCUS LISOD 756 bp DNA linear BCT
30-JUN-1993DEFINITION Listeria ivanovii sod
gene for superoxide dismutase.ACCESSION X64011
S78972VERSION X64011.1 GI44010KEYWORDS sod
gene superoxide dismutase.SOURCE Listeria
ivanovii ORGANISM Listeria ivanovii Bacteria
Firmicutes Bacillales Listeriaceae Listeria.
REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A.
and Goebel,W. TITLE Cloning of a superoxide
dismutase gene from Listeria ivanovii
by functional complementation in Escherichia
coli and characterization of the gene product
JOURNAL Mol. Gen. Genet. 231 (2), 313-322
(1992) MEDLINE 92140371REFERENCE 2 (bases 1
to 756) AUTHORS Kreft,J. TITLE Direct
Submission JOURNAL Submitted (21-APR-1992) J.
Kreft, Institut f. Mikrobiologie, Universitaet
Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg,
FRGFEATURES Location/Qualifiers source
1..756 /organism"Listeria ivanovii"
/strain"ATCC 19119" /db_xref"taxon1638"
/mol_type"genomic DNA" RBS 95..100
/gene"sod" gene 95..746 /gene"sod"
CDS 109..717 /gene"sod"
/EC_number"1.15.1.1" /codon_start1
/transl_table11 /product"superoxide
dismutase"
4.3 Nukleotidsequenzdatenquellen
45
GenBank Suche
46
Proteinsequenzdatenquellen

Meistens aus Nukleinsäuresequenzen abgeleitet
Typische Vertreter
Swiss-Prot (Schweizer Institut für Bioinformatik,
EMBL)
PIR (Georgetown University Washington, MIPS
München, Japan)
TrEMBL (EMBL)
UniProt (Swiss-Prot TrEMBL PIR)

47
Swiss-Prot

Kommentierte Proteinsequenzdatenbank
Umfangreiche Bemerkungen (Annotationen), geringe
Redundanz, Links zu anderen Datenquellen
Entwicklung seit 1986 an der Universität Genf,
Schweiz
Partnerschaftlich vom EMBL-EBI und dem SIB (Swiss
Institute of Bioinformatics) betrieben
Aminosäurensequenz, Annotationen, Verweise,
Synonyme, Literaturreferenzen, Schlüsselworte
Format der Daten orientiert sich an der
EMBLNukleotidsequenzdatenbank
Umfang Proteinsequenz, Version, Vorgänger,
Autor, Datum, Länge, Methode, letzte Änderung,
Organismus, Sequenzfeatures, Links, Ref.
Engpässe und somit zeitliche Verzögerungen
während des Annotationsverfahres
1996 Entwicklung von TrEMBL, Rechnerannotierte
Einträge (Translation of EMBL nucleotide
sequence database)

48
Swiss-Prot Format
4.4 Proteinsequenzdatenquellen
49
Swiss-Prot Format (2)
50
Swiss-Prot Dienste
Bildquelle http//www.expasy.org/sitemap.html
51
Swiss-Prot Links
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
52
Swiss-Prot Überblick
Domäne Proteine, Aminosäuresequenz
Zugriffmöglichkeit Lokale Flat-Files, WWW
Anfrageschnittstelle WWW, SRS, Nice-Prot
Datenformat ASCII, HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über Accession Numbers (Quasi-Standard)
Datenaktualität Tägliche Update
Zugriffskosten keine
53
TrEMBL

Rechner-annotierte Übersetzungen aller
kodierender Regionen in DDBJ/EMBL/GenBank
Proteinsequenzen aus Literatur und Submission,
die nicht in Swiss-Prot
Schnelle Publikation ohne Verzögerung durch
aufwendige manuelle Annotation
Vorgehen
Vergabe eines TrEMBL-Eintrages
Automatische Annotation Informationstransfer von
bekannten Einträgen aus Swiss-Prot zu nicht
annotierten TrEMBL-Einträgen über
InterPro-Gruppen
Redundanzbeseitigung Sequenzen mit gleichem
Organismus, voller Länge und Identität werden zu
einem Eintrag verschmolzen
Herkunftsnachweis TrEMBL enthält Daten aus
unterschiedlichen Quellen, Herkunft eines
Eintrages wird dokumentiert ermöglicht
Qualitätsbewertung und Aktualisierung

54
UniProt

Universal Protein Knowledgebase
Seit 2002 Vereinigung kommentierter
Proteinsequenzdatenbanken
Sammlung der einzelnen Sequenzinformationen und
funktionalen Daten
das UniProt Archive (UniParc) nichtredundante
Sammlung von Proteinsequenzen aus verschiedenen
Quellen (SwissProt, TrEMBL, PIRPSD, EMBL,
Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase und
Patentämter
zentrale UniProt Knowledgebase (UniProt)
Proteinsequenzen, Annotation und funktionale
Informationen aus SWISSPROT, TrEMBL und PIRPSD
wechselseitige Referenzen Unterscheidung der
Informationen in manuell annotierte Sequenzen,
die durch eine Literaturrecherche und evaluierte
Computeranalysen entstanden sind, und
rechnerannotierte Sequenzen
die UniProt NREF Datenbank (UniRef)
nichtredundante Verknüpfungen verfügbarer
Sequenzen mit Links zu den beteiligten Sequenzen,
Taxonomie, Literaturreferenzen und der
resultierenden Sequenz

55
UniProt Format
56
UniProt Format (2)
Bildquelle http//www.expasy.org/sprot/userman.ht
ml
57
MDB Klassifikation (1)

Nukleotidsequenzdatenquellen
Daten und Annotation für eine einzige,
zusammenhängende Sequenz
GenBank, EMBL-Bank, JJDB
Proteinsequenzdatenquellen
Meistens aus Nukleinsäuresequenzen abgeleitet
Swiss-Prot, PIR, TrEMBL, UniProt

58
MDB Klassifikation (2)
59
Strukturdatenquellen

Archivierung von Gruppen aus Atomkoordinaten und
Annotationen für biochemische Strukturen
Struktur
PDB
MSD (EBI), MMDB (NCBI)
Klassifikation der Proteinfaltungsmuster
SCOP
DALI

60
Proteinstruktur

Von eindimensionaler (Nukleotid-/Aminosäuresequenz
) zur räumlichen Welt
Proteine in vielfältigen Funktionen
Strukturproteine, Enzyme, Transport- und
Speicherproteine, Hormone, Rezeptoren,
Transkriptionsregulation, Immunsystem
Lokalisierung der Funktion in kleinem Teil des
Proteins aktives Zentrum
Evolution der Proteine Strukturveränderung durch
Mutationen
Dreidimensionale Struktur von ca. 15000 Proteinen
bekannt
Unterscheidung in
Primärstruktur Aminosäuresequenz
Sekundärstruktur Wasserstoff-stabilisierte
Krümmung der Hauptkette
Tertiärstruktur
Quartärstruktur
Supersekundärstruktur, Domänen

61
PDB

Protein Data Bank
Datensammlung zur Struktur biologischer
Makromoleküle
Proteine, Nukleinsäuren, Kohlenhydrate
1971 gegründet an Brookhaven National
Laboratories,
Pflege durch Research Collaboration for
Structural Bioinformatics
Prüfungsprozeß vor Aufnahme einer neuen Struktur
Hohe Redundanz, geringer Umfang
Inhalt
Allgemeine Angaben (Protein, Publikation)
Aminosäuresequenz
Experimentelle Einzelheiten der
Strukturaufklärung, ähnliche Strukturen
Koordinaten der Atome

62
PDB Dateiformat

Anordnung der 3D-Struktur des Proteins in
Raumgitter
Atome, die über Bindungen in Wechselwirkung
stehen
Jedes Atom besitzt bestimmte Position relativ zum
Nullpunkt
Zuordnung weiterer Daten (Atomcharakter,
Bindungen, Wechselwirkungen)
Verschiedene Werkzeuge zur Visualisierung
(RasMol, Swiss PDB Viewer, Cn3D)
PDB-Koordinatendatei
Schlüssel-Wert-Paare
Kooperation als Worldwide Protein Data Bank
(wwPDB)
PDB, EBI-MSD, PDBj
Vereinheitlichung, Transparenz

63
PDB Beispieldatei
64
PDB Beispieldatei (2)
Bildquelle http//www.rcsb.org/pdb/
65
PDB Überblick
Domäne Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, PDB-Format, Spezialformate
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PDB-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
66
SCOP

Structural Classification of Proteins
Erkennung von Ordnungskriterien in der Vielfalt
der Proteinstrukturen
Hierarchische Ordnung auf der Basis der
PDB-Einträge in Bezug auf evolutionäre und
strukturelle Ähnlichkeiten
Auch Proteine mit geringer Sequenzähnlichkeit
können sehr ähnliche 3D-Strukturen besitzen
Unterteilung des Proteinmoleküls in Domänen (rel.
unabhängige Faltungseinheiten)
Strukturierung aufsteigend nach Ähnlichkeit
Sequenz/Struktur
Class Klasse
Fold Faltung Major structural similarity
Superfamily Superfamilie Probable common
evolutionary origin
Family Familie Clear evolutionarily
relationship
Protein, Spezies

67
SCOP Beispieleintrag
68
SCOP Überblick
Domäne Klassifikation von Proteinstrukturen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Klassifikation
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
69
Metabolische und Signalwege

Stoffwechsel (Metabolismus) Chemische Prozesse
in einemBiosystem (Proteinsynthese, Biosynthese,
Zellkommunikation)
Vorgänge prinzipiell bei allen Lebewesen gleich
Metabolic Pathway (Stoffwechselweg) in
Wechselwirkung
stehende biochemische Reaktionen durch Enzyme
reguliert
Produktion und Konsumption von Zwischenprodukten
Reaktion durch Enzyme gehemmt oder gefördert

Bildquelle http//biopath.fmi.uni-passau.de/
70
Metabolische und Signalwege (2)

Signaling Pathway (Signalweg)
Signalübermittlung von Zelle zu Zelle bzw. Organ
zu Organ
Signalvermittlung durch chemische Verbindungen
(Signalmoleküle)
Typischer Ablauf
Extrazelluläre Signalmoleküle binden an Rezeptor
(Membranproteine)
Hormon-Rezeptor-Komplex löst intrazelluläres
Signalmolekül aus
(Signaltransduktion, mehrstufige
Signaltransduktion Signalkaskade)

71
BRENDA

Braunschweig Enzyme Database
1987 an GBF Braunschweig entwickelt
Heute Pflege an Universität zu Köln
Inhalt
Enzyme und metabolische Zusammenhänge
Biochemische und molekulare Informationen,
Klassifikation und Nomenklatur, Reaktion und
Spezifität, kinetische Parameter, , Links,
Referenzen
Umfang
83000 Enzyme in 9800 Organismen
Klassifiziert durch 4200 unterschiedliche
EC-Nummern
Extrahiert aus 46000 Publikationen

72
BRENDA GUI
73
BRENDA Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW
Anfrageschnittstelle WWW, SRS
Datenformat HTML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
74
KEGG

Kyoto Encyclopedia of Genes and Genomes
Sammlung einzelner Genome, Genprodukte und ihre
Funktion, Zusammenführung von biochemischen und
genetischen Daten
1995 im Rahmen des HGP gegründet
Organisation in Graphenstruktur
Graph Knoten Kanten
Gene universe Gen beschreiben Beziehungen
Chemical universe Chemische Substanz zwischen
den Knoten
Protein network Protein
Gruppen besitzen verschiedene Teildatenbanken,
die miteinander verknüpft sind

75
KEGG Vernetzung
Bildquelle http//www.genome.ad.jp/dbget/
4.6 Metabolische und Signalwege
76
KEGG Pathway
Bildquelle http//www.genome.ad.jp/kegg/
77
KEGG Genes, Enzyme
78
KEGG Überblick
Domäne Metabolische und Signalwege
Zugriffmöglichkeit WWW, Lokale Flat-Files, SOAP
Anfrageschnittstelle WWW, SRS, DBGET
Datenformat HTML, XML
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über entsprechende Schlüssel
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
79
OMIM

Online Mendelian Inheritance in Man
Datenbank für Gene und genetisch bedingte
Erkrankungen des Menschen
Auswertung biomedizinischer Literatur
Ursprünglich von Medizinern seit 1966 in
Papierform veröffentlicht
Seit 1987 auch online verfügbar
Teil des Entrez-Systems am NCBI
Pflege durch Johns-Hopkins-Universität, Baltimore
Durchschnittlich 8500 Nutzer mit 100000 Anfragen
pro Tag
Ca. 16000 Einträge

80
OMIM 261600.0001

Erste Ziffer bezeichnet die Art der Vererbung
1----- (100000- ) Autosomale Loci oder
Phänotypen (vor 15. Mai 1994)2----- (200000- )
Autosomale Loci oder Phänotypen (nach 15. Mai
1994)3----- (300000- ) X-chromosomale Loci oder
Phänotypen
4----- (400000- ) Y-chromosomale Loci oder
Phänotypen 5----- (500000- ) Mitochondriale Loci
oder Phänotypen
6----- (600000- ) Autosomale Loci oder
Phänotypen (nach 15. Mai 1994)
Identifikation verschiedener Mutationen über
nachfolgende vierstellige Nummer
261600.0001 PHENYLKETONURIA PAH, IVS12DS, G-A,
1
261600.0002 PHENYLKETONURIA PAH, ARG408TRP
Zusätzlich Präfix
Gen einer bekannten Sequenz
Beschreibender Eintrag (typ. Phänotyp), kein
bestimmter Locus
Gen einer bekannten Sequenz und Phänotyp
Bestätigter vererbter Phänotyp oder Locus mit
unbekannter mol. Basis
Gelöschter Eintrag

81
OMIM GUI
82
OMIM Überblick
Domäne Gene und genetisch bedingte Erkrankungen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über MIM-Nummer (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
83
PubMed

Sammlung von Referenzen biomedizinischer
Literatur
Teil des Entrez-Systems am NCBI
Zugriff auf
Medline (4800 Journals, 12 Mill. Referenzen, seit
1966 indexiert)
OldMedline (2 Mill. Referenzen, 1950-1966
indexiert, kein MeSH, kein Abstract)
Weitere Beiträge (z.B. außerhalb des thematischen
Schwerpunktes, elektronische Übermittlung der
Referenzen durch Verlag)
Suche anhand von Stichwörtern, Verknüpfung durch
Boolesche Operatoren, Eingrenzung des
Suchbereiches auf bestimmte Datenfelder (Title,
Author, )
MeSH (Medical Subject Headings) Annotation der
Artikel mit kontrolliertem Vokabular

4.8 Weitere Quellen
84
PubMed (2)

Teilweise Zugriff auf Volltext-Artikel
No abstract
Abstract
Free full text
Free in PMC

85
PubMed GUI
4.8 Weitere Quellen
86
PubMed Überblick
Domäne Literaturreferenzen
Zugriffmöglichkeit WWW, Lokale Flat-Files
Anfrageschnittstelle WWW, SRS
Datenformat HTML, ASCII, XML, ASN.1
Schemainformation Externe Dokumentation
Identifikationsmechanismus Eindeutig über PubMed-ID (PMID) (Quasi-Standard)
Datenaktualität Regelmäßige Updates
Zugriffskosten Keine
87
Gene Ontology

The Gene Ontology project provides a controlled
vocabulary to describe gene and gene product
attributes in any organism!
What does the Gene Ontology Consortium do?
Biologists currently waste a lot of time and
effort in searching for all of the available
information about each small area of research.
This is hampered further by the wide variations
in terminology that may be common usage at any
given time, and that inhibit effective searching
by computers as well as people.
The use of GO terms by several collaborating
databases facilitates uniform queries across
them. The controlled vocabularies are structured
so that you can query them at different levels
for example, you can use GO to find all the gene
products in the mouse genome that are involved in
signal transduction, or you can zoom in on all
the receptor tyrosine kinases. This structure
also allows annotators to assign properties to
gene products at different levels, depending on
how much is known about a gene product.

88
Gene Ontology (2)

3 Ontologien
Molecular function
Molecular function describes activities, such as
catalytic or binding activities, at the
molecular level.
Bsp pyrimidine metabolism, alpha-glucoside
transport
Biological process
A biological process is series of events
accomplished by one or more ordered assemblies of
molecular functions
Bsp hexose biosynthesis, hexose metabolism,
monosaccharide biosynthesis
Cellular component
A cellular component is just that, a component of
a cell but with the proviso that it is part of
some larger object, which may be an anatomical
structure or a gene product group.
Bsp nucleus, ribosome, proteasome

89
Gene Ontology - AmiGo
4.8 Weitere Quellen
90
Gene Ontology und Pflanzen-ESTs
4.8 Weitere Quellen
91
Plant Ontology

Plant Ontology Consortium (POC) aims to develop,
curate and share controlled vocabularies
(ontologies) that describe plant structures and
growth/developmental stages providing a semantic
framework for meaningful cross-species queries
across database
Plant Structure
A controlled vocabulary of botanical terms
describing morphological and anatomical
structures representing organ, tissue and cell
types and their relationships. Examples are
stamen, gynoecium, petal, parenchyma, guard cell,
etc.
Growth and developmental stages
A controlled vocabulary of terms describing
growth and developmental stages in model plant
species and their relationships. Examples are
embryo development stage, seedling stage,
flowering stage, etc.

92
Plant Ontology - AmiGo
4.8 Weitere Quellen
93
Plant Ontology und Pflanzen cDNA-Arrays
4.8 Weitere Quellen
94
TIGR Gene Indicies

TIGR - The Institute for Genomic Research is a
not-for-profit center dedicated to deciphering
and analyzing genomes the complex molecular
chains that constitute each organisms unique
genetic heritage.
TIGR Gene Indices
megablast
CAP3
Paracel TranscriptAssembler
DNA-Protein Search program (dps)
Weitere Analysen
ORF annotation
Genome mapping
expression profiles of the EST
Domain annotation of TCs