Introducci - PowerPoint PPT Presentation

1 / 59
About This Presentation
Title:

Introducci

Description:

Title: Estudios sobre Algoritmos usando la Teor a de la Informaci n para la Discriminaci n en Secuencias de Data: Aplicaci n a la Bioinform tica Dr. Tom s ... – PowerPoint PPT presentation

Number of Views:58
Avg rating:3.0/5.0
Slides: 60
Provided by: Tom6
Category:

less

Transcript and Presenter's Notes

Title: Introducci


1
Introducción a la Bioinformática ITomás
Arredondo Vidal13/10/2008
2
Introducción a la Bioinformática
  • Esta charla trata de lo siguiente
  • Introducción a aspectos de la bioinformática
  • Discusión acerca de algunas bases de datos y
    herramientas utilizadas en la bioinformática
  • Discusión sobre secuencias genéticas y
    algoritmos usados para su análisis

3
Introducción a la Bioinformática
Bioinformática Algunas áreas de Estudio
  • Genómica Estudio, mapeo, y secuenciacion de
    genomas
  • Microarreglos Arreglos experimentales para
    determinar el nivel de actividad o precencia de
    muchos genes en parallelo
  • Proteomica Estudio, vusualizacion y
    quantificacion de las moleculas de proteinas
    presentes en tejidos u organismos
  • Estructurales Simulacion y estudio de la
    estructura de proteinas

4
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
  • Medicina
  • Nuevas drogas, nuevas vacunas de ADN, terapias
    genéticas
  • Producción de medicinas usando bacterias y
    levaduras
  • Genómica
  • Fuente de información para medicina preventiva,
    terapéutica, diagnóstico
  • Ingeniería de tejidos
  • Métodos para generar piel, cartílago, huesos
  • Biomateriales, Nanotecnologia, Applicaciones
    Industriales y Químicas
  • De adonde partió el estudio de la Bioinformática?

5
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Diagnostico
Genome
Gene map
Gene sequence
Expression
Diseases
c
t
Alzheimers
Cancer
a
t
t
Arthritis
t
t
t
a
a
t
t
CV Disease
a
a
t
MS
t
a
t
t
a
Obesity
Vision
t
t
a
Arthritis
6
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Producción de Vacunas
7
Introducción a la Bioinformática
Virus amigos y enemigos
8
Introducción a la Bioinformática
Evolución Genetica
  • Gregor Mendel
  • En 1865 el sacerdote Agustino Gregor Mendel hizo
    experimentos sobre híbridos de plantas (arvejas)
    basados en el fenotipo observable de ellas
  • Mendel, desarrolló los principios fundamentales
    de que hoy es la moderna ciencia de la genética
  • A través de la estadística de los resultados de
    sus cruces Mendel demostró que las
    características heredables son llevadas en
    unidades discretas que se heredan por separado en
    cada generación
  • Estas unidades discretas, que Mendel llamó
    elemente, se conocen hoy como genes

9
Introducción a la Bioinformática
Evolución Genetica
  • Gregor Mendel hizo experimentos sobre híbridos de
    plantas (1866)
  • Así, Mendel aisló 7 pares de caracteres que eran
    razas puras cada carácter estudiado se
    presentaba en dos variantes, tales como altura
    de la planta (alta o baja), superficie de la
    semilla (lisa o rugosa), forma de la vaina
    (inflada o contraída), forma de la vaina y
    otras
  • En sus experimentos Mendel uso unas 28.000
    plantas de arvejas
  • Las posibles codificaciones viables de ADN de un
    gen que ocupan una posición (locus) en el genoma
    de un organismo se denominan alelos

10
Introducción a la Bioinformática
Evolución Genetica
  • Gregor Mendel hizo experimentos sobre híbridos de
    plantas (1866)...
  • Los alelos de un gen son responsables de las
    diferentes expresiones de los genes (e.g. color
    de un pétalo) que es visto en el fenotipo del
    organismo
  • En un organismo diploide hay dos copias de cada
    cromosoma en cada célula (e.g. humanos 1013
    celulas), por ende hay dos alelos para cada gen
  • En organismos diploides las celulas sexuales
    (e.g. gametos) son haploides (e.g. tienen una
    copia de cada cromosoma) y se juntan para formar
    un cigoto (e.g. zygote) que es la celula que se
    divide repetidamente para formar el embrión

11
Introducción a la Bioinformática
Evolución Genetica
  • Conclusiones o Leyes de Mendel (1866)
  • Ley de uniformidad El tipo hereditario de la
    prole no es intermedio entre los tipos de los
    padres, sino que en él predomina el de uno u
    otro. Si se cruzan dos variedades bien definidas
    de una misma especie, el descendiente híbrido
    mostrará las características distintivas de uno
    de los progenitores (característica dominante)
  • Ley de la segregación de los genes antagónicos
    La característica del otro progenitor (recesiva)
    es latente y se manifestará en la siguiente
    generación resultante de cruzar a los híbridos
    entre sí. Tres cuartos muestran la característica
    dominante y un cuarto la recesiva
  • Ley de la recombinación de los genes Cada una
    de las características puras de cada variedad
    (color, rugosidad de la piel, etc.) se transmiten
    a la siguiente generación de forma independiente
    entre sí, siguiendo las dos primeras leyes

12
Introducción a la Bioinformática
Evolución Genetica
  • Conclusiones o Leyes de Mendel (1866)
  • En 1905 Bateson, Saunders y Punnett descubrieron
    la conexión genética a través de las cromosomas
  • Ellos determinaron que genes están localizados
    en cromosomas y que cada cromosoma es una unidad
    que se reproduce intactamente
  • Los genes ocupan posiciones (e.g. locus) en
    macromoléculas llamadas cromosomas
  • Esta idea fue modificada posteriormente por
    Thomas Hunt Morgan
  • Esto nos lleva al estudio de la células y la
    Genética...

13
Introducción a la Bioinformática
Células
  • Función
  • Las funciones biológicas de los organismos
    dependen de las células para la producción y
    regulación de compuestos necesarios para su
    funcionamiento
  • Los organismos se clasifican de acuerdo a sus
    características celulares
  • Eukariotes (hongos, animales, plantas, humanos)
  • Prokariotes (bacterias)
  • Virus
  • Archaea (organismos similares a las bacteria que
    viven en ambientes extremos)

14
Introducción a la Bioinformática
15
Introducción a la Bioinformática
ADN
  • Watson y Crick
  • En 1953, James Watson y Francis Crick,
    descubrieron la estructura tridimensional del
    ácido desoxirribonucleico (ADN) al encontrar un
    modelo que explicaba todos los datos obtenidos
    hasta el momento
  • El ADN es un polímero (gr. poly - muchas, meros
    - partes) o sea una macro molecula de muchas
    componentes individuales
  • Es una cadena doble compuesta por fosfatos
    (PO4), azucar (desoxiribosa) y una base
    nitrogenada

 PO-4    Azúcar - Base     PO-4   
Azúcar - Base     PO-4
16
Introducción a la Bioinformática
ADN
  • En el modelo de Watson y Crick, el ADN es una
    doble hélice, con las bases dirigidas hacia el
    centro, perpendiculares al eje de la molécula y
    un esqueleto de azúcar-fosfato a lo largo de los
    lados de la hélice (que protege las bases del
    ambiente)
  • Las hebras que la conforman son complementarias
    y antiparalelas. Las bases de cada cadena se
    aparean de forma complementaria Adenina con
    Timina (A-T) y Guanina con Citosina (C-G)
  • Cada base tiene puentes de hidrógeno con su
    complementaria, uniendo así las dos cadenas

17
Introducción a la Bioinformática
ADN y ARN
  • Estructura
  • Los ácidos nucleicos que se conocen son el ácido
    desoxirribonucleico (ADN) y el ácido ribonucleico
    (ARNA)
  • Ambos están compuestos por nucleótidos en formas
    monocatenarias (ARN) o de doble cadena (DNA)
  • Las bases nitrogenadas que componen los ácidos
    nucleicos son los compuestos que codifican la
    información genética en la molécula (el código
    genético A, T, C, G)
  • Las bases nitrogenadas se clasifican en dos
    grandes familias púricas y pirimidínicas

18
Introducción a la Bioinformática
ADN y ARN
  • Estructura
  • Bases púricas Adenina,Guanina
  • Bases pirimidínicas Citosina, Timina, Uracilo
  • El ADN contiene adenina-guanina-citosina y
    timina que se emparejan en una doble hélice A-T y
    G-C
  • El ARN contiene Uracilo en vez de Timina
  • El ARN tiene diferentes nombres dependiendo de
    su funcion (e.g. ARNm ARN mensajero, ARNt ARN
    de transferencia, ... hay mas tipos de ARN)
  • El DNA y todas las formas bicatenarias (duplex)
    de los ácidos nucleícos se unen entre sí gracias
    a los enlaces de hidrógeno que se establecen
    entre sus bases
  • La Timina enlaza con la Adenina con dos enlaces
    y la Guanina y la citosina se unen entre sí por
    tres enlaces de hidrógeno

19
Introducción a la Bioinformática
ADN y ARN
Bases Enlaces
20
Introducción a la Bioinformática
ADN
  • Estructura
  • En el ADN las azucares sucesivas se conectan a
    través del fosfato y una hebra tiene la
    orientación de 5' a 3' y la otra hebra
    (complementaria) de 3' a 5' (dado que la molécula
    de azúcar esta rotada)
  • PO-4 PO-4
  • 5' Azucar - C G - Azucar 3'
  • 3' 5'
  • PO-4 PO-4
  • 5' Azucar - C G - Azucar 3'
  • 3'
    5'
  • PO-4 PO-4

21
Introducción a la Bioinformática
ADN de Células
  • Prokariotas
  • Organismos microscópicos
  • Su genoma es una molécula circular de ADN
  • Genoma es del orden de 0.6-8 Mpb (millones de
    pares de bases)
  • Densidad de genes es de aproximadamente un gen
    1000 pares de bases
  • Sus genes no son sobrepuestos (no overlap)
  • Sus genes son transcritos (copiados a ARNm)
    inmediatamente después de una región llamada
    promotor
  • Son continuamente codificantes (sin intrones)

22
Introducción a la Bioinformática
ADN de Células
  • Eukariotes
  • Organismos variados (plantas, animales,
    hongos,...)
  • Genoma consiste de múltiples pedazos contiguos
    de ADN típicamente denominados cromosomas
  • Genoma es del orden de 10-3000 Mpb (millones de
    pares de bases)
  • Densidad de genes es de aproximadamente un gen
    100000 pares bases
  • Genoma incluye muchas áreas no codificartes
  • Sus genes son transcritos (copiados a ARNm)
    después de una región llamada promotor pero
    elementos en la secuencia a gran distancia pueden
    tener gran efecto en el proceso
  • Genes pueden derivar en múltiples formas de ARNm
    y proteínas
  • Mas complejas!

23
Introducción a la Bioinformática
24
Introducción a la Bioinformática
25
Introducción a la Bioinformática
  • Dogma Central (Watson Crick)
  • Transferencia general de la información
  • De ADN a ARN, de ARN a Proteína

26
Introducción a la Bioinformática
  • Dogma Central (Watson Crick)
  • Transferencia general de la información
  • De ADN a ARN, de ARN a Proteína

27
Introducción a la Bioinformática
Dogma Central (Watson Crick)
28
Introducción a la Bioinformática
ADN
  • Codigo Genetico
  • Las funciones biológicas de los organismos
    dependen de las células para la producción y
    regulación de compuestos necesarios para su
    funcionamiento
  • Codones tripletes de bases codificantes en
    aminoacidos
  • Comienzo ATG (Met)
  • Termino TAA, TAG, TGA
  • Exones secciones codificantes (con genes)
  • Intrones secciones entre medio de exones no
    codificantes
  • Sequencias Codificantes
  • ORF Open Reading Frame (de codon de comienzo a
    término)
  • CDS Coding Sequence

29
Introducción a la Bioinformática
ADN
  • Codigo Genetico
  • La secuencia genética del ADN esta codificada en
    secuencias de nucleotidos (Adenosina, Timina,
    Citosina, Guanina)
  • El ARN substituye Timina (T) por Uracilo (U)
  • El ADN actúa como un molde en la replicación
    celular para producir mas ADN (mitosis)
  • El ADN también transmite la información
    necesaria para la reproducción celular (meiosis)
  • Los genes se organizan en cromosomas para la
    reproducción durante meiosis
  • En el caso de meiosis se intercambia material
    genético entre cromosomas homologas
  • La unidad de intercambio genético es el gen

30

Introducción a la Bioinformática

31
Introducción a la Bioinformática
ADN
  • Mitosis
  • Watson y Crick formularon la hipótesis
    semiconservativa que fue posteriormente
    demostrada por Meselson y Stahl en 1957
  • Según esta hipótesis, la nuevas moléculas de DNA
    duplexo contienen una hebra de material original
    y otra nueva

32
Introducción a la Bioinformática
ADN
  • Meiosis
  • Thomas Hunt Morgan en 1910 estudio en detalle la
    conexión genética con moscas de la fruta
  • El determino que los genes en los cromosomas
    tienen conexión parcial (partial linkage) al
    estudiar Meiosis
  • Esto ocurre porque las cromosomas homologas
    pueden intercambiar ADN durante la fase Prophase
    I
  • La frecuencia con la cual los genes son
    separados por cruces es directamente proporcional
    con su distancia en su cromosoma

33
Introducción a la Bioinformática
Genes Partial Linkage
34
Introducción a la Bioinformática
Genomica
  • Vías Metabólicas
  • Vías metabólicas reacciones elementales
    celulares que producen compuestos centrales para
    la sobrevivencia de la célula
  • Con el metabolismo se describen los mecanismos
    de las células para extraer y convertir la
    energía de los compuestos químicos y para
    construir las moléculas necesarias para la
    síntesis y regulación de los ácidos nucleicos,
    proteínas, membranas, y polisacáridos
  • El metabolismo es una red compleja de reacciones
    químicas dentro de los confines de la célula, y
    que puede ser analizado como conjuntos separados
    conocidos como vías metabólicas

35
Introducción a la Bioinformática
Genomica
  • Fundamentos de las Vías Metabólicas
  • Reacciones químicas
  • Balance energético y termodinámica
  • La Integración celular (las células deben gastar
    mucha de su energía transportando substrato a
    través de las membranas biológicas)
  • Mecanismos regulatorios de las vías. Las vías
    pueden ser activadas o desactivadas. Modulación
    de la actividad enzimática (proteica), y
    disponibilidad de la enzima (expresión genética,
    control de translación)

36
Introducción a la Bioinformática
Genomica
  • Vías Metabólicas
  • Hay dos áreas principales en la bioquímica del
    metabolismo
  • Catabolismo la degradación oxidativa de
    moléculas
  • Anabolismo la síntesis reductiva de moléculas
  • Las vías, ya sean catabólicas o anabólicas, son
    interdependientes, controladas por las
    necesidades energéticas y las demandas
    estructurales del organismo
  • La célula controla cuales vías están activas y
    por cuanto tiempo

37
Introducción a la Bioinformática
38
Introducción a la Bioinformática
  • Esta charla trata de lo siguiente
  • Introducción a aspectos de la bioinformática
  • Discusión acerca de algunas bases de datos y
    herramientas utilizadas en la bioinformática
  • Discusión sobre secuencias genéticas y
    algoritmos usados para su análisis

39
Introducción a la Bioinformática
Genomica
  • Bases de datos de nucleótidos
  • La bioinformática requiere encontrar e
    interpretar datos biológicos.
  • De nuestro interés son las bases de datos para
    nucleótidos, proteínas y vías metabólicas
  • Algunas bases de datos de nucleótidos incluyen
    Genbank, NCBI LocusLink, TIGR, Ensembl
  • Genbank es la base de datos principal de
    nucleótidos y mantiene un registro histórico
    (primario) de todos las secuencias de nucleótidos
    que se han introducido en el
  • Se utiliza el Gene ID (e.g. X01714) para iniciar
    búsquedas en Genbank

40
Introducción a la Bioinformática
Genomica
  • Bases de datos de proteínas
  • La principal base de datos de proteínas por la
    calidad de sus datos anotados es SWISS-PROT
  • Se utiliza el Primary Accession Number para
    identificar una secuencia que se quiere encontrar
    (e.g. P32861)
  • SWISS-PROT es un recurso de datos derivado
    (secundario) de la literatura y manualmente
    verificados
  • TrEMBL es una base de datos automáticamente
    anotada

41
Introducción a la Bioinformática
Genomica
  • Bases de datos de Vías Metabólicas
  • Algunas recursos sobre vías metabólicas
    incluyen KEGG, BRENDA, IUBMB, ECOCYC
  • KEGG (Kyoto Encyclopedia of Genes and Genomes)
    incluye una gran cantidad de vías metabólicas y
    es la mas importante a nivel mundial
  • En KEGG típicamente se utiliza el numero de la
    enzima (E.C. para comenzar una búsqueda)
  • BRENDA es un sistema de información enzimático
  • IUBMB es el sitio oficial de la Unión de
    Bioquímica y Biología Molecular
  • ECOCYC es la enciclopedia de genes y el
    metabolismo de E.Coli

42
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas KEGG
LinkDB KEGG ENTRY EC 2.7.1.2 NAME
Glucokinase CLASS Transferases Transferring
phosphorus-containing groups Phosphotransferases
with an alcohol group as acceptor SYSNAME
ATPD-glucose 6-phosphotransferase REACTION ATP
D-Glucose ADP D-Glucose 6-phosphate
SUBSTRATE ATP D-Glucose PRODUCT ADP D-Glucose
6-phosphate COMMENT A group of enzymes found in
invertebrates and microorganisms highly specific
for glucose. lt...gt
43
Introducción a la Bioinformática
Genomica
  • Aplicaciones Para Comparar Secuencias
  • BLAST (Basic Local Alignment Search Tool) es la
    principal aplicación para comparar secuencias
  • Las principales versiones son BLASTP y TBLASTN
  • BLASTP compara la secuencia de una proteína con
    una base de datos de proteínas
  • TBLASTN comparar la secuencia de una proteína
    con una base de datos de nucleótidos

44
Introducción a la Bioinformática
Genomica
  • Usos de BLAST
  • Para encontrar algo acerca de la función de mi
    proteína usar BLASTP para comparar con otras
    proteínas en las bases de datos
  • Para descubrir nuevos genes que codifican a
    alguna proteína (o enzima) usar TBLASTN para
    comparar la proteína con secuencias de ADN
    traducidas en todas sus posibles ORFs

45
Introducción a la Bioinformática
Genomica
  • Resultados de BLAST
  • Sequence Accesion Number
  • Description
  • Bit score estima el significado del
    alineamiento (mientras mayor mejor)
  • E-value estima el numero de veces que se
    pudiera encontrar un alineamiento tan bueno
    aleatoriamente (mientras menor mejor)
  • Alineamientos (identidad, largo)

46
Introducción a la Bioinformática
Genomica
  • Aplicaciones Para Comparar Secuencias Múltiples
  • También es deseable muchas veces hacer
    alineamientos múltiples. Hay muchas herramientas
    para esto. Entre ellas CLUSTALW, TCOFFEE
  • Mas en el laboratorio!

47
Introducción a la Bioinformática
Genomica
  • Evolución Genética
  • Todos los genes están relacionados (Zuckerkandl,
    Pauling 1960s)
  • Los genes a veces evolucionan independientemente
    del organismo (formulado por R. Dawkins 1976)
  • Solamente unos pocos miles de familias de genes
    existen (C. Chothia, 1992, Nature 357)

48
Introducción a la Bioinformática
Genomica
  • Análisis Filogenético Definiciones
  • Genes Homólogos Genes con un ancestro común
  • Genes Ortólogos Homólogos separados por
    especiacion en el cual un ancestro común genera
    dos subgrupos que lentamente se separan para
    convertirse en nuevas especies
  • Genes Paralogs Homólogos separados por un
    evento de duplicación. Una de las copias
    típicamente mantiene su función mientras que la
    otra tiene otra función pero relacionada
  • Genes Xenologs Xenologs ocurren por la
    transferencia horizontal de una especie a otra.
    No hay historia del nuevo gen en el genoma que
    fue insertado

49
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas
50
Introducción a la Bioinformática
Genomica
Análisis filogenético Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
51
Introducción a la Bioinformática
Genomica
Análisis filogenético Globina y Myoglobina
globin mouse
Globin ancestor
globin
Ancestral globin gene
duplication
globin man
Myoglobin
Myoglobin mouse
Myoglobin man
52
Introducción a la Bioinformática
Genomica
  • Análisis Filogenético Algunas herramientas
  • ClustalW Herramienta de tipo caja negra para
    análisis filogenético
  • Phylip Método mas sofisticado que permite
    controlar los parámetros necesarios en la
    reconstrucción

53
Introducción a la Bioinformática
  • Esta charla trata de lo siguiente
  • Introducción a aspectos de la bioinformática
  • Discusión acerca de algunas bases de datos y
    herramientas utilizadas en la bioinformática
  • Discusión sobre secuencias genéticas y
    algoritmos usados para su análisis

54
Introducción a la Bioinformática
Genomica Marcos de Lectura
  • Dada parte de una secuencia de ADN y conociendo
    el código genético es posible traducirlo a una
    proteína al mirar codones sucesivos en una
    secuencia genética
  • Hay secuencias en la cual hay soporte bioquímico
    y otras que simplemente se derivan de la
    secuencia conceptual sin validación experimental
  • En una secuencia arbitraria de ADN no se sabe si
    es que la primera base indica el comienzo del de
    las CDS (Coding Sequences).
  • Por eso se hace un traducción en seis marcos de
    lectura (six frames)
  • Hay tres marcos hacia adelante, que se logran al
    traducir la primera, segunda y tercera base
    respectivamente
  • Tres marcos adicionales se determinan al invertir
    la secuencia de ADN y hacer la traducción en las
    bases primera, segunda y tercera
  • Solo uno de los marcos es correcto.

55
Introducción a la Bioinformática
56
Introducción a la Bioinformática
Genomica Marcos de Lectura (cont)
  • Cual es el marco correcto?
  • Típicamente el marco mas largo interrumpido por
    un stop codon (TGA, TAA or TAG)
  • Este marco se conoce como un ORF
  • Típicamente el codon de inicio es ATG
    (methionine) pero methionine es también un codon
    común en el CDS
  • La presencia de ATG no es un indicador absoluto
    de inicio del ORF
  • Indicadores de regiones codificantes
  • Largo suficiente del ORF
  • Reconocer secuencias especiales al inicio del CDS
    (e.g. Kozak sequences)
  • Patrones estadísticos de uso de codones en
    regiones codificantes y no codificantes son
    diferentes (depende del organismo)

57
Introducción a la Bioinformática
Genomica Algoritmos
  • Para poder utilizar y entender efectivamente los
    resultados de las búsquedas y alineamientos en
    las bases de datos tenemos que entender como es
    que se obtienen estos alineamientos son obtenidos
  • Cuando se comparan secuencias es necesario
    obtener una indicación de cuan buenos son los
    posibles alineamientos
  • Para eso se utiliza el concepto de score en el
    cual se introducen penalidades cuando las
    secuencias no están alineadas de la manera
    deseada
  • En algunos casos encontrar el mejor alineamiento
    requiere la introducción de espacios (gaps)
  • Métodos lograr scores de alineamientos incluyen
  • Dayhoff Mutation Data Matrix
  • BLOSUM Matrices
  • Resultados Estadísticos (e.g. BLAST E-value)
  • Dotplot
  • Needleman Wunsch Algorithm

58
Introducción a la Bioinformática
SE ACABO?
59
Referencias
  • Brown, T.A., Genomes, Wiley, 1999
  • Claverie, J.M., Bioinformatics for Dumies, Wiley,
    2003
  • Perkus, J. K., Mathematics of Genome Analysis,
    2002
  • Gibas, C., Developing Bioinformatics Computer
    Skills, 2001
  • http//www.biologia.edu.ar/index.html
  • http//www.arrakis.es/7Elluengo/
  • Link antiguo http//www.multisan2001.com
Write a Comment
User Comments (0)
About PowerShow.com