Title: Hvordan f oversikten
1Hvordan få oversikten?
2Annotering av sekvensen
3Kromosom 16 et av de minste
4Finding genes
- What are we looking for?
- Proteins encoded in mRNA
- Non-coding RNA (ncRNA) genes
- Where are we looking?
- Prokaryotes
- Eukaryotes (often introns)
5Classes of RNA
- fRNA Functional RNA essentially synonymous
with non-coding RNA - mRNA Messenger RNA coding for proteins
- miRNA MicroRNA putative translational
regulatory gene family - ncRNA Non-coding RNA all RNAs other than mRNA
- rRNA Ribosomal RNA
- siRNA Small interfering RNA active molecules
in RNA interference - snRNA Small nuclear RNA includes spliceosomal
RNAs - snmRNA Small non-mRNA essentially synonymous
with small ncRNAs - snoRNA Small nucleolar RNA usually involved in
rRNA modification - stRNA Small temporal RNA e.g. lin-4 and let-7
in C. elegans - tRNA Transfer RNA
Source Eddy SR (2001) Nature Reviews in Genetics
6Informasjon i sekvensen som kan brukes for å
finne gener
- Signaler i sekvensen Spleisesignaler,
promotere, termineringssignaler, polyA-signaler,
CpG-øyer (Gene search by signal) - Innholdet i sekvensen ORFs, kodonstatistikk
osv.(Gene search by content) - Likhet med kjente gener (Gene search by
similarity)
7Fra gen til protein så lett for cellen, så
vanskelig for oss
8(No Transcript)
9Simple protein finding
- Examine all 6 possible reading frames
- 3 frames on forward strand
- 3 frame on reverse strand
- Plot positions of
- Initiation (start) (Methionine) codon ATG
- Termination (stop) codons TAA, TAG, TGA
- Look for long stretches without stop codons after
a start codon
Source http//cwx.prenhall.com/horton/medialib/me
dia_portfolio/
10Standard Genetic Code
- The standard genetic code is used in most
organisms - Another code is use din mitochondria and some
organisms - Overview of gentic codes in various
organismshttp//www.ncbi.nlm.nih.gov/htbin-post/
Taxonomy/wprintgc?modec
11Start and stop codon distribution
- Distribution of start codons (short lines) and
stop codons (long lines) in the six reading
frames along a genomic sequence (lacZ operon in
E.coli) - There is an open reading frame (lacZ) in frame 3
from position 1284 to 4355. - Created by DNA STRIDER.
12Prokaryotic promotor regions
Source http//cwx.prenhall.com/horton/medialib/me
dia_portfolio/
13Transcription termination
14Shine-Dalgarno (SD) sequence
- The 16S rRNA ribosomal protein binding site
15(No Transcript)
16Transcription and translation
Genomic DNA
Promotor
Terminator
Exon1
Exon2
Exon3
Intron1
Intron2
Primary transcript
GUAG
GUAG
3UTR
5UTR
AAAA
Spliced mRNA
Cap
StopTAA/TAG/TGA
StartAUG
Protein
M
17Gene, exon and intron number for whole ExInt and
subdivisions
Whole ExInt
94 615
518 169
525 870
Non-redundant ExInt
15 271
113 457
128 065
Rattus norvegicus
835
4889
7191
Homo sapiens
8287
60 499
43 127
Mus musculus
3044
18 920
15 407
Drosophila melanogaster
15 220
64 271
89 969
Caenorhabditis elegans
18 924
121 708
108 803
Arabidopsis thaliana
25 216
158 629
127 386
18Fordeling av eksonstørrelser i ExInt
19Fordeling av intronstørrelser i ExInt
20Intron-fase ekson/intron-overganger mellom
kodoner eller i dem
Intron phase 0 1 2
21Hvordan finne spleisesignaler og eksoner?
- Vektsmatriser Hvordan er fordelingen av
nukleotider rundt spleiseseter? - Weight array matrices hvor det tas hensyn til
nabonukleotider - Maximal dependence decomposition Korrelasjoner
med ikke-nabonukleotider - Skjulte Markov-modeller
- Neurale nettverk En mønstergjenkjenningsteknikk
som lærer
22Slik lages en vektmatrise
23Og slik brukes den
24Konsensus-sekvenser for ekson/intron-overganger
25Forskjellige klasser av eksoner som må oppdages
på forskjellige måter
- Innledende eksoner Begynner med et startkodon og
slutter med et spleisedonorsete - Interne eksoner Begynner med et akseptorsete og
slutter med et donorsete - Terminale eksoner Begynner med et akseptorsete
og slutter med et stoppkodon - Enkelteksongener Begynner med et startkodon og
slutter med et stoppkodon
26(No Transcript)
27Integrert genfinning Hva følger etter hva?
28Neuronnettverk et eksempel
with a positive value and others with a negative
value sums these values and then converts them
to an output of approximately 0 or 1. The system
is trained using a set of known coding sequences,
and as each sequence is utilized, the strengths
and types of connections (positive or negative)
between the neurons are adjusted, decreasing or
increasing the signal to the next neuron in a
manner that produces the correct output. The
major difference between neural networks for exon
and secondary structure prediction is that the
exon prediction uses sequence pattern information
as input whereas secondary structure prediction
uses a window of amino acid sequence in the
protein. In Grail II, a candidate sequence is
evaluated by calculating pattern frequencies in
the sequence and applying these values to the
neural network. If the output is close to a value
of 1, then the region is predicted to be an exon.
The Grail II system for finding exons in
eukaryotic genes (Uberbacher and Mural 1991
Uberbacher et al. 1996). The method uses a neural
network to identify patterns characteristic of
coding sequences. The network includes three
layers, an input layer for the data with the data
coming from a candidate exon sequence, and a
hidden layer for discerning relationships among
the input data. An output layer comprising one
neuron indicates whether or not the region is
likely to be an exon. Each neuron receives
information from a set in the layer above, some
29Sekvensinnhold Forskjeller mellom den ekte
leserammen og de to andre
Ramme 1 er den ekte, og inneholder kodoner som
koder for et protein med gjennomsnittlig
aminosyresammensetning
30Kodonbruk i de tre leserammene
31Basefordeling på de tre kodonposisjonene
32Å skille mellom kodende og ikkekodende sekvenser
ut fra basesammensetningen av de tre
kodonposisjonene
Antall ganger en base forekommer i hver av de tre
kodonposisjonene i vinduet Nij. Forventet verdi
for hver base i hver av de tre kodonposisjoneneEi
j(Ni1Ni2Ni3)/3 Divergensen DSEij-Nij
Vindu 67 kodonerEMBL-databasen 1984
33Codon usage in the E.coli genome
Source http//www.kazusa.or.jp/codon/
34Codon usage in the human genome
Source http//www.kazusa.or.jp/codon/
35Codon usage diagram
- Usage of various codons along the sequence of
lacZ - O Optimal codon usage
- S Suboptimal codon usage
- R Rare codon usage
- U Unique codon usage
- Created by DNA STRIDER.
36Comparative genomics methods
- Gene finding by sequence comparison to sequences
known to be transcribed or translated - Compare the genomic sequence to sequence
databases - Proteins
- mRNA sequences
- EST sequences (mRNA)
- Both exact matches and approximate matches are
interesting - Conserved sequences between species
- Program Procrustes
37(No Transcript)
38Et eksempel på et resultat med søkeprogrammet
Genscan
39Genfinnere på nettet
40Så lett for cellen, så vanskelig for oss
41(No Transcript)
42Skjulte Markov-modeller (HMM) Et enkelt eksempel
For genfinning vil tilstandene (states) være
eksoner, introner og evt andre ønskede
sekvensklasser (5 og 3 UTR, promoterområder,
intergeniske områder, repetitivt DNA osv.).
Transisjonssannsynlighetene vil variere med
tilstanden (intron kan bare følges av internt
eller terminalt ekson osv). Sannsynligheten for
overgang fra ekson til intron avhenger av lokal
sekvens, bare høy ved plausible spleiseseter
43(No Transcript)