Title: Bioinformatic PhD. course
1Bioinformatic PhD. course
Bioinformatics Xavier Messeguer Peypoch
(http//www.lsi.upc.es/alggen) LSI Dep. de
Llenguatges i Sistemes Informàtics BSC Barcelona
Supercomputing Center Universitat Politècnica de
Catalunya
2Contents
1. Biological introduction
2. Comparison of short sequences ( up to
10.000bps)
Dot Matrix Pairwise alignment
Multiple alignment
3. Comparison of large sequences ( more that
10.000bps)
Data structures Suffix trees MUMs
4. String matching
Exact Extended Approximate
5. Sequence assembly
4. Projects PROMO, MREPATT,
3Contents
1. Biological introduction
2. Comparison of short sequences ( up to
10.000bps)
Dot Matrix Pairwise alignment
Multiple alignment
3. Comparison of large sequences ( more that
10.000bps)
Data structures Suffix trees MUMs
4. String matching
Exact Extended Approximate
5. Sequence assembly
4. Projects PROMO, MREPATT,
4Genoma
- Els cromosomes són els volums duna enciclopèdia
anomanada Genoma.
Les lletres, les paraules i les frases com són?
5Dna STRUCTURE
1953 Watson and Crick discover the structure of
DNA
1953 Rosalind Franklin X difraction image of DNA
6Cromosomes les lletres
Llavors un cromosoma serà ... A T A G G C T A C
G C A A A C C G G T C T A ...
7Cromosomes les lletres
... G A C T ...
... C T G A ..
Llavors G A C T A G T C
Si busquem GACT dins la seqüència CACGACTATACGATA
TCGACTCATACGAGTCGTACGTA
Les paraules i les frases com són?
8Cromosomes les frases i les paraules
9Cromosomes activació duna instrucció
Transcripció
10Transcription
11Cromosomes activació duna instrucció
Transcripció
Maduració
Traducció
12Cromosomes activació duna instrucció
Transcripció
Maduració
Traducció
Síntesi
13Dogma central de la biologia molecular
14Síntesi de les proteïnes
Dins la cel.lula mol/cel tipus mRNA
1500 600 tRNA 200000 gt3000 Proteïnes
106 2000
15Cromosomes activació duna instrucció
Plegament
quines fases té?
16Plegament de la proteïna
17Proteins
18Proteins
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQES
KPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERI
EKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDL
FIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSP
ESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP
19Activació duna instrucció (a linversa)
Transcripció
Maduració
Traducció
Plegament
20Traducció
LRRLPGAATXXYRTFAAGTRRRXXXWA
Llavors la informació
està codificada com
LRRLPGAATXXYRTFAAGTRRRXXXWA
que és la traducció de
ACUCCAUUCUUUAACAGGGCCAUAUCGGCUAUAGGCCGAGUUAGGUACGA
UUAGCACGGAUACUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAA
21Maduració
LRRLPGAATXXYRTFAAGTRRRXXXWA
Traducció
UCUCCAUUCUUUAACAGGAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAG
CACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU
Maduració
Transcripció
22Maduració
23Transcripció
24Cromosoma
Torrades amb mantega i melmelada
Els gens ocupen el 8 del genoma
25Part dun cromosoma
TACGTATACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGT
ACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGA
TGCGACGATGCGACGATCGTACGACTGCTACGATGCGACGATGCGACGAT
CGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGT
AGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGA
CGATCGTAGCTACGTACGATCGCGATGCGACGATGCGACGATCGTACGAC
TGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGT
ACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTA
GCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCG
CGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTAC
GCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACG
TACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTA
CGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGA
TCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCAC
ACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACG
TACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCG
ATATTAATGCAATCATGCCGATGCGACGATGCGACGATCGTACGACTGCT
AGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGA
TCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTA
CGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCA
CGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCAT
GCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACG
ACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGAC
GATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATC
GTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGT
ACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGA
TGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACG
TATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATAT
TAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATAC
GACGATCGTAGCTAGCTGCATGCTAGCGATGCTACGATCGATGCTATACG
ACGATCGTAGCTTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTCGATGCGACGATGCGACGA
TCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCG
TAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACG
ACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTAC
GGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACT
GCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATC
GATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTA
GCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGA
CGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGC
TACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ATCGATGCTATACGACGATCGTAGCTGCAGCATCGATGCTACGTACGACG
ATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGAT
CGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTA
CGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACG
ACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGC
GACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTAT
CCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAA
TGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGAC
GATCGTAGCTGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGC
AGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGC
ATGCTAGCGATGCTACGGTACGATCGTCGATCGTcagctcgatacgttac
gatctacgattacgatcatctatactatactatacgatatatctagatat
cgatcta.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACG
ATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATC
ACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATC
GTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATC
GTACGGCATATGCATCGTATAGCATCGATTAGAATACGTATACGTACGAT
CGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGT
ACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACG
ATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTA
CGTACGATCGTGCAGCATCGATGCTACGTTGCATCGATGCTATACGACGA
TCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTA
CACCGCGCACGATCACACGATGCGACGATGCGTGCATCGATGCTATACGA
CGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACG
GTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTG
CTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTAC
GATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGC
TACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGA
TCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATC
GTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACAC
GATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTA
CGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGAT
ATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGCGATGCG
ACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCT
ATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCAT
CGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTAC
GTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGA
TCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGC
AGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGAT
CACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATAC
GACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTA
CGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGAC
TGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCAT
CGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCT
AGCGATGCTACGATCGATGCTATACGACGATCGTAGCTATGCTATACGAC
GATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCAT
CGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTAC
GTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGAC
GATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGG
TACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGC
TAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGA
TGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGC
GATGCTACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGT
ACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTAC
GTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTAC
GACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAG
CATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCAT
GCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACG
TACGATCGTGCAGCATCGATGCTACGTACGATGCATGCTAGCGATGCTAC
GACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACG
ATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGAT
CGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACA
CGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGT
ACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGA
TATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTA
TACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATC
GTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTA
CGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGA
TGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTA
TACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATC
GTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTAC
GACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAG
CATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCAT
GCTAGCGATGCTGTCACGTAGCATGCTGACGTACGATCGATTCGATCGAT
CGTACGATCGTAGCTAGCTAGTCGTAGCGACGTAGGATTCACGTAGCGAT
GCGTAGCGTAGCATGCTGACGATGCATCGATCGATGCATCATGCTAGCGT
AGCTAGCTAGCATGACTGATCGATTAACGGTACGTATCCTACGTACGATC
GTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAG
CTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATG
CGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTA
TCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTA
ATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCAT
GCCTACGTACGTATCCTACGTACGATCGTGCAGCGATCGATATTAATGCA
ATCATGCAGCTGCATGCTAGCGATGCTACGTACGTACGTATCCTACGTAC
GATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCAT
GCAGCTGCATGCTAGCGATGCTACGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTAC
GTACGATCGTATGCTAGCTAGCATGCATGCATGCATGCAT
26On es troba?
TACGTATACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGT
ACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGA
TGCGACGATGCGACGATCGTACGACTGCTACGATGCGACGATGCGACGAT
CGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGT
AGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGA
CGATCGTAGCTACGTACGATCGCGATGCGACGATGCGACGATCGTACGAC
TGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGT
ACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTA
GCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCG
CGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTAC
GCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACG
TACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTA
CGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGA
TCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCAC
ACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACG
TACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCG
ATATTAATGCAATCATGCCGATGCGACGATGCGACGATCGTACGACTGCT
AGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGA
TCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTA
CGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCA
CGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCAT
GCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACG
ACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGAC
GATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATC
GTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGT
ACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGA
TGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACG
TATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATAT
TAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATAC
GACGATCGTAGCTAGCTGCATGCTAGCGATGCTACGATCGATGCTATACG
ACGATCGTAGCTTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTCGATGCGACGATGCGACGA
TCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCG
TAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACG
ACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTAC
GGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACT
GCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATC
GATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTA
GCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGA
CGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGC
TACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ATCGATGCTATACGACGATCGTAGCTGCAGCATCGATGCTACGTACGACG
ATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGAT
CGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTA
CGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACG
ACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGC
GACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTAT
CCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAA
TGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGAC
GATCGTAGCTGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGC
AGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGC
ATGCTAGCGATGCTACGGTACGATCGTCGATCGTCAGCTCGATACGTTAC
GATCTACGATTACGATCATCTATACTATACTATACGATATATCTAGATAT
CGATCTA.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACG
ATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATC
ACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATC
GTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATC
GTACGGCATATGCATCGTATAGCATCGATTAGAATACGTATACGTACGAT
CGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGT
ACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACG
ATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTA
CGTACGATCGTGCAGCATCGATGCTACGTTGCATCGATGCTATACGACGA
TCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTA
CACCGCGCACGATCACACGATGCGACGATGCGTGCATCGATGCTATACGA
CGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACG
GTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTG
CTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTAC
GATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGC
TACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCG
CACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGA
TCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATC
GTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACAC
GATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTA
CGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGAT
ATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGCGATGCG
ACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCT
ATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCAT
CGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTAC
GTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGA
TCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGC
AGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGAT
CACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATAC
GACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTA
CGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGAC
TGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCAT
CGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCT
AGCGATGCTACGATCGATGCTATACGACGATCGTAGCTATGCTATACGAC
GATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCAT
CGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTAC
GTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGAC
GATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGAC
GATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGG
TACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGC
TAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGA
TGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGC
GATGCTACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGT
ACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTAC
GTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTAC
GACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAG
CATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCAT
GCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACG
TACGATCGTGCAGCATCGATGCTACGTACGATGCATGCTAGCGATGCTAC
GACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACG
ATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGAT
CGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACA
CGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGT
ACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGA
TATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTA
TACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATC
GTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTA
CGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGA
TGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTA
TACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATC
GTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTAC
GACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAG
CATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCAT
GCTAGCGATGCTGTCACGTAGCATGCTGACGTACGATCGATTCGATCGAT
CGTACGATCGTAGCTAGCTAGTCGTAGCGACGTAGGATTCACGTAGCGAT
GCGTAGCGTAGCATGCTGACGATGCATCGATCGATGCATCATGCTAGCGT
AGCTAGCTAGCATGACTGATCGATTAACGGTACGTATCCTACGTACGATC
GTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAG
CTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATG
CGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTA
TCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTA
ATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCAT
GCCTACGTACGTATCCTACGTACGATCGTGCAGCGATCGATATTAATGCA
ATCATGCAGCTGCATGCTAGCGATGCTACGTACGTACGTATCCTACGTAC
GATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCAT
GCAGCTGCATGCTAGCGATGCTACGACGATCGTACGACTGCTAGCTACGC
ATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTA
CGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACG
ACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTAC
GTACGATCGTATGCTAGCTAGCATGCATGCATGCATGCAT
27Human genome
2001 Draft of the human genome
- Cromosoma 1 246Mb
- .
- Cromosoma 22 47Mb
- Cromosoma X 149Mb
- Cromosoma Y 58Mb
28Human chromosomes
29Whats in the human genome?
parasitic repetitive elements
gene coding part (2)
gene non- coding part
microsatellites
DNA long repeats
30Annotation
31Comparison with another genomes
Organism Genome Size (Bases) Estimated Genes
Human (Homo sapiens) 3000 million 30,000
Laboratory mouse (M. musculus) 2600 million 30,000
Mustard weed (A. thaliana) 100 million 25,000
Roundworm (C. elegans) 97 million 19,000
Fruit fly (D. melanogaster) 137 million 13,000
Yeast (S. cerevisiae) 12.1 million 6,000
Bacterium (E. coli) 4.6 million 3,200
Human immunodeficiency virus (HIV) 9700 9
Genbank http//www.ncbi.nim.nih.gov
32Homework
- TGDS Javier 14. ZFP161
- NR1H2 Dmitry 15. PROZ
- ATP5L2 Ana Iris
- MYCL3 David
- ETAA16 Patricia
- CRYBA2 Rogeli
- LOC389199 Atif
- NOS3 Aina
- FSCN3 Isaac
- C9orf122 Maria Merce
- MTTS1 Romina
- AMELY Guillem
- BiT1 Raul