Introducci

About This Presentation

Title:

Introducci

Description:

Title: Estudios sobre Algoritmos usando la Teor a de la Informaci n para la Discriminaci n en Secuencias de Data: Aplicaci n a la Bioinform tica Dr. Tom s ... – PowerPoint PPT presentation

Number of Views:62

Avg rating:3.0/5.0

Slides: 60

Provided by: Tom6

Category:

more less

Transcript and Presenter's Notes

Title: Introducci

1
Introducción a la Bioinformática ITomás
Arredondo Vidal13/10/2008
2
Introducción a la Bioinformática

Esta charla trata de lo siguiente
Introducción a aspectos de la bioinformática
Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
Discusión sobre secuencias genéticas y
algoritmos usados para su análisis

3
Introducción a la Bioinformática
Bioinformática Algunas áreas de Estudio

Genómica Estudio, mapeo, y secuenciacion de
genomas
Microarreglos Arreglos experimentales para
determinar el nivel de actividad o precencia de
muchos genes en parallelo
Proteomica Estudio, vusualizacion y
quantificacion de las moleculas de proteinas
presentes en tejidos u organismos
Estructurales Simulacion y estudio de la
estructura de proteinas

4
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos

Medicina
Nuevas drogas, nuevas vacunas de ADN, terapias
genéticas
Producción de medicinas usando bacterias y
levaduras
Genómica
Fuente de información para medicina preventiva,
terapéutica, diagnóstico
Ingeniería de tejidos
Métodos para generar piel, cartílago, huesos
Biomateriales, Nanotecnologia, Applicaciones
Industriales y Químicas
De adonde partió el estudio de la Bioinformática?

5
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Diagnostico
Genome
Gene map
Gene sequence
Expression
Diseases
c
t
Alzheimers
Cancer
a
t
t
Arthritis
t
t
t
a
a
t
t
CV Disease
a
a
t
MS
t
a
t
t
a
Obesity
Vision
t
t
a
Arthritis
6
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Producción de Vacunas
7
Introducción a la Bioinformática
Virus amigos y enemigos
8
Introducción a la Bioinformática
Evolución Genetica

Gregor Mendel
En 1865 el sacerdote Agustino Gregor Mendel hizo
experimentos sobre híbridos de plantas (arvejas)
basados en el fenotipo observable de ellas
Mendel, desarrolló los principios fundamentales
de que hoy es la moderna ciencia de la genética
A través de la estadística de los resultados de
sus cruces Mendel demostró que las
características heredables son llevadas en
unidades discretas que se heredan por separado en
cada generación
Estas unidades discretas, que Mendel llamó
elemente, se conocen hoy como genes

9
Introducción a la Bioinformática
Evolución Genetica

Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866)
Así, Mendel aisló 7 pares de caracteres que eran
razas puras cada carácter estudiado se
presentaba en dos variantes, tales como altura
de la planta (alta o baja), superficie de la
semilla (lisa o rugosa), forma de la vaina
(inflada o contraída), forma de la vaina y
otras
En sus experimentos Mendel uso unas 28.000
plantas de arvejas
Las posibles codificaciones viables de ADN de un
gen que ocupan una posición (locus) en el genoma
de un organismo se denominan alelos

10
Introducción a la Bioinformática
Evolución Genetica

Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866)...
Los alelos de un gen son responsables de las
diferentes expresiones de los genes (e.g. color
de un pétalo) que es visto en el fenotipo del
organismo
En un organismo diploide hay dos copias de cada
cromosoma en cada célula (e.g. humanos 1013
celulas), por ende hay dos alelos para cada gen
En organismos diploides las celulas sexuales
(e.g. gametos) son haploides (e.g. tienen una
copia de cada cromosoma) y se juntan para formar
un cigoto (e.g. zygote) que es la celula que se
divide repetidamente para formar el embrión

11
Introducción a la Bioinformática
Evolución Genetica

Conclusiones o Leyes de Mendel (1866)
Ley de uniformidad El tipo hereditario de la
prole no es intermedio entre los tipos de los
padres, sino que en él predomina el de uno u
otro. Si se cruzan dos variedades bien definidas
de una misma especie, el descendiente híbrido
mostrará las características distintivas de uno
de los progenitores (característica dominante)
Ley de la segregación de los genes antagónicos
La característica del otro progenitor (recesiva)
es latente y se manifestará en la siguiente
generación resultante de cruzar a los híbridos
entre sí. Tres cuartos muestran la característica
dominante y un cuarto la recesiva
Ley de la recombinación de los genes Cada una
de las características puras de cada variedad
(color, rugosidad de la piel, etc.) se transmiten
a la siguiente generación de forma independiente
entre sí, siguiendo las dos primeras leyes

12
Introducción a la Bioinformática
Evolución Genetica

Conclusiones o Leyes de Mendel (1866)
En 1905 Bateson, Saunders y Punnett descubrieron
la conexión genética a través de las cromosomas
Ellos determinaron que genes están localizados
en cromosomas y que cada cromosoma es una unidad
que se reproduce intactamente
Los genes ocupan posiciones (e.g. locus) en
macromoléculas llamadas cromosomas
Esta idea fue modificada posteriormente por
Thomas Hunt Morgan
Esto nos lleva al estudio de la células y la
Genética...

13
Introducción a la Bioinformática
Células

Función
Las funciones biológicas de los organismos
dependen de las células para la producción y
regulación de compuestos necesarios para su
funcionamiento
Los organismos se clasifican de acuerdo a sus
características celulares
Eukariotes (hongos, animales, plantas, humanos)
Prokariotes (bacterias)
Virus
Archaea (organismos similares a las bacteria que
viven en ambientes extremos)

14
Introducción a la Bioinformática
15
Introducción a la Bioinformática
ADN

Watson y Crick
En 1953, James Watson y Francis Crick,
descubrieron la estructura tridimensional del
ácido desoxirribonucleico (ADN) al encontrar un
modelo que explicaba todos los datos obtenidos
hasta el momento
El ADN es un polímero (gr. poly - muchas, meros
- partes) o sea una macro molecula de muchas
componentes individuales
Es una cadena doble compuesta por fosfatos
(PO4), azucar (desoxiribosa) y una base
nitrogenada

PO-4 Azúcar - Base PO-4
Azúcar - Base PO-4
16
Introducción a la Bioinformática
ADN

En el modelo de Watson y Crick, el ADN es una
doble hélice, con las bases dirigidas hacia el
centro, perpendiculares al eje de la molécula y
un esqueleto de azúcar-fosfato a lo largo de los
lados de la hélice (que protege las bases del
ambiente)
Las hebras que la conforman son complementarias
y antiparalelas. Las bases de cada cadena se
aparean de forma complementaria Adenina con
Timina (A-T) y Guanina con Citosina (C-G)
Cada base tiene puentes de hidrógeno con su
complementaria, uniendo así las dos cadenas

17
Introducción a la Bioinformática
ADN y ARN

Estructura
Los ácidos nucleicos que se conocen son el ácido
desoxirribonucleico (ADN) y el ácido ribonucleico
(ARNA)
Ambos están compuestos por nucleótidos en formas
monocatenarias (ARN) o de doble cadena (DNA)
Las bases nitrogenadas que componen los ácidos
nucleicos son los compuestos que codifican la
información genética en la molécula (el código
genético A, T, C, G)
Las bases nitrogenadas se clasifican en dos
grandes familias púricas y pirimidínicas

18
Introducción a la Bioinformática
ADN y ARN

Estructura
Bases púricas Adenina,Guanina
Bases pirimidínicas Citosina, Timina, Uracilo
El ADN contiene adenina-guanina-citosina y
timina que se emparejan en una doble hélice A-T y
G-C
El ARN contiene Uracilo en vez de Timina
El ARN tiene diferentes nombres dependiendo de
su funcion (e.g. ARNm ARN mensajero, ARNt ARN
de transferencia, ... hay mas tipos de ARN)
El DNA y todas las formas bicatenarias (duplex)
de los ácidos nucleícos se unen entre sí gracias
a los enlaces de hidrógeno que se establecen
entre sus bases
La Timina enlaza con la Adenina con dos enlaces
y la Guanina y la citosina se unen entre sí por
tres enlaces de hidrógeno

19
Introducción a la Bioinformática
ADN y ARN
Bases Enlaces
20
Introducción a la Bioinformática
ADN

Estructura
En el ADN las azucares sucesivas se conectan a
través del fosfato y una hebra tiene la
orientación de 5' a 3' y la otra hebra
(complementaria) de 3' a 5' (dado que la molécula
de azúcar esta rotada)
PO-4 PO-4
5' Azucar - C G - Azucar 3'
3' 5'
PO-4 PO-4
5' Azucar - C G - Azucar 3'
3'
5'
PO-4 PO-4

21
Introducción a la Bioinformática
ADN de Células

Prokariotas
Organismos microscópicos
Su genoma es una molécula circular de ADN
Genoma es del orden de 0.6-8 Mpb (millones de
pares de bases)
Densidad de genes es de aproximadamente un gen
1000 pares de bases
Sus genes no son sobrepuestos (no overlap)
Sus genes son transcritos (copiados a ARNm)
inmediatamente después de una región llamada
promotor
Son continuamente codificantes (sin intrones)

22
Introducción a la Bioinformática
ADN de Células

Eukariotes
Organismos variados (plantas, animales,
hongos,...)
Genoma consiste de múltiples pedazos contiguos
de ADN típicamente denominados cromosomas
Genoma es del orden de 10-3000 Mpb (millones de
pares de bases)
Densidad de genes es de aproximadamente un gen
100000 pares bases
Genoma incluye muchas áreas no codificartes
Sus genes son transcritos (copiados a ARNm)
después de una región llamada promotor pero
elementos en la secuencia a gran distancia pueden
tener gran efecto en el proceso
Genes pueden derivar en múltiples formas de ARNm
y proteínas
Mas complejas!

23
Introducción a la Bioinformática
24
Introducción a la Bioinformática
25
Introducción a la Bioinformática

Dogma Central (Watson Crick)
Transferencia general de la información
De ADN a ARN, de ARN a Proteína

26
Introducción a la Bioinformática

Dogma Central (Watson Crick)
Transferencia general de la información
De ADN a ARN, de ARN a Proteína

27
Introducción a la Bioinformática
Dogma Central (Watson Crick)
28
Introducción a la Bioinformática
ADN

Codigo Genetico
Las funciones biológicas de los organismos
dependen de las células para la producción y
regulación de compuestos necesarios para su
funcionamiento
Codones tripletes de bases codificantes en
aminoacidos
Comienzo ATG (Met)
Termino TAA, TAG, TGA
Exones secciones codificantes (con genes)
Intrones secciones entre medio de exones no
codificantes
Sequencias Codificantes
ORF Open Reading Frame (de codon de comienzo a
término)
CDS Coding Sequence

29
Introducción a la Bioinformática
ADN

Codigo Genetico
La secuencia genética del ADN esta codificada en
secuencias de nucleotidos (Adenosina, Timina,
Citosina, Guanina)
El ARN substituye Timina (T) por Uracilo (U)
El ADN actúa como un molde en la replicación
celular para producir mas ADN (mitosis)
El ADN también transmite la información
necesaria para la reproducción celular (meiosis)
Los genes se organizan en cromosomas para la
reproducción durante meiosis
En el caso de meiosis se intercambia material
genético entre cromosomas homologas
La unidad de intercambio genético es el gen

30

Introducción a la Bioinformática

31
Introducción a la Bioinformática
ADN

Mitosis
Watson y Crick formularon la hipótesis
semiconservativa que fue posteriormente
demostrada por Meselson y Stahl en 1957
Según esta hipótesis, la nuevas moléculas de DNA
duplexo contienen una hebra de material original
y otra nueva

32
Introducción a la Bioinformática
ADN

Meiosis
Thomas Hunt Morgan en 1910 estudio en detalle la
conexión genética con moscas de la fruta
El determino que los genes en los cromosomas
tienen conexión parcial (partial linkage) al
estudiar Meiosis
Esto ocurre porque las cromosomas homologas
pueden intercambiar ADN durante la fase Prophase
I
La frecuencia con la cual los genes son
separados por cruces es directamente proporcional
con su distancia en su cromosoma

33
Introducción a la Bioinformática
Genes Partial Linkage
34
Introducción a la Bioinformática
Genomica

Vías Metabólicas
Vías metabólicas reacciones elementales
celulares que producen compuestos centrales para
la sobrevivencia de la célula
Con el metabolismo se describen los mecanismos
de las células para extraer y convertir la
energía de los compuestos químicos y para
construir las moléculas necesarias para la
síntesis y regulación de los ácidos nucleicos,
proteínas, membranas, y polisacáridos
El metabolismo es una red compleja de reacciones
químicas dentro de los confines de la célula, y
que puede ser analizado como conjuntos separados
conocidos como vías metabólicas

35
Introducción a la Bioinformática
Genomica

Fundamentos de las Vías Metabólicas
Reacciones químicas
Balance energético y termodinámica
La Integración celular (las células deben gastar
mucha de su energía transportando substrato a
través de las membranas biológicas)
Mecanismos regulatorios de las vías. Las vías
pueden ser activadas o desactivadas. Modulación
de la actividad enzimática (proteica), y
disponibilidad de la enzima (expresión genética,
control de translación)

36
Introducción a la Bioinformática
Genomica

Vías Metabólicas
Hay dos áreas principales en la bioquímica del
metabolismo
Catabolismo la degradación oxidativa de
moléculas
Anabolismo la síntesis reductiva de moléculas
Las vías, ya sean catabólicas o anabólicas, son
interdependientes, controladas por las
necesidades energéticas y las demandas
estructurales del organismo
La célula controla cuales vías están activas y
por cuanto tiempo

37
Introducción a la Bioinformática
38
Introducción a la Bioinformática

Esta charla trata de lo siguiente
Introducción a aspectos de la bioinformática
Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
Discusión sobre secuencias genéticas y
algoritmos usados para su análisis

39
Introducción a la Bioinformática
Genomica

Bases de datos de nucleótidos
La bioinformática requiere encontrar e
interpretar datos biológicos.
De nuestro interés son las bases de datos para
nucleótidos, proteínas y vías metabólicas
Algunas bases de datos de nucleótidos incluyen
Genbank, NCBI LocusLink, TIGR, Ensembl
Genbank es la base de datos principal de
nucleótidos y mantiene un registro histórico
(primario) de todos las secuencias de nucleótidos
que se han introducido en el
Se utiliza el Gene ID (e.g. X01714) para iniciar
búsquedas en Genbank

40
Introducción a la Bioinformática
Genomica

Bases de datos de proteínas
La principal base de datos de proteínas por la
calidad de sus datos anotados es SWISS-PROT
Se utiliza el Primary Accession Number para
identificar una secuencia que se quiere encontrar
(e.g. P32861)
SWISS-PROT es un recurso de datos derivado
(secundario) de la literatura y manualmente
verificados
TrEMBL es una base de datos automáticamente
anotada

41
Introducción a la Bioinformática
Genomica

Bases de datos de Vías Metabólicas
Algunas recursos sobre vías metabólicas
incluyen KEGG, BRENDA, IUBMB, ECOCYC
KEGG (Kyoto Encyclopedia of Genes and Genomes)
incluye una gran cantidad de vías metabólicas y
es la mas importante a nivel mundial
En KEGG típicamente se utiliza el numero de la
enzima (E.C. para comenzar una búsqueda)
BRENDA es un sistema de información enzimático
IUBMB es el sitio oficial de la Unión de
Bioquímica y Biología Molecular
ECOCYC es la enciclopedia de genes y el
metabolismo de E.Coli

42
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas KEGG
LinkDB KEGG ENTRY EC 2.7.1.2 NAME
Glucokinase CLASS Transferases Transferring
phosphorus-containing groups Phosphotransferases
with an alcohol group as acceptor SYSNAME
ATPD-glucose 6-phosphotransferase REACTION ATP
D-Glucose ADP D-Glucose 6-phosphate
SUBSTRATE ATP D-Glucose PRODUCT ADP D-Glucose
6-phosphate COMMENT A group of enzymes found in
invertebrates and microorganisms highly specific
for glucose. lt...gt
43
Introducción a la Bioinformática
Genomica

Aplicaciones Para Comparar Secuencias
BLAST (Basic Local Alignment Search Tool) es la
principal aplicación para comparar secuencias
Las principales versiones son BLASTP y TBLASTN
BLASTP compara la secuencia de una proteína con
una base de datos de proteínas
TBLASTN comparar la secuencia de una proteína
con una base de datos de nucleótidos

44
Introducción a la Bioinformática
Genomica

Usos de BLAST
Para encontrar algo acerca de la función de mi
proteína usar BLASTP para comparar con otras
proteínas en las bases de datos
Para descubrir nuevos genes que codifican a
alguna proteína (o enzima) usar TBLASTN para
comparar la proteína con secuencias de ADN
traducidas en todas sus posibles ORFs

45
Introducción a la Bioinformática
Genomica

Resultados de BLAST
Sequence Accesion Number
Description
Bit score estima el significado del
alineamiento (mientras mayor mejor)
E-value estima el numero de veces que se
pudiera encontrar un alineamiento tan bueno
aleatoriamente (mientras menor mejor)
Alineamientos (identidad, largo)

46
Introducción a la Bioinformática
Genomica

Aplicaciones Para Comparar Secuencias Múltiples
También es deseable muchas veces hacer
alineamientos múltiples. Hay muchas herramientas
para esto. Entre ellas CLUSTALW, TCOFFEE
Mas en el laboratorio!

47
Introducción a la Bioinformática
Genomica

Evolución Genética
Todos los genes están relacionados (Zuckerkandl,
Pauling 1960s)
Los genes a veces evolucionan independientemente
del organismo (formulado por R. Dawkins 1976)
Solamente unos pocos miles de familias de genes
existen (C. Chothia, 1992, Nature 357)

48
Introducción a la Bioinformática
Genomica

Análisis Filogenético Definiciones
Genes Homólogos Genes con un ancestro común
Genes Ortólogos Homólogos separados por
especiacion en el cual un ancestro común genera
dos subgrupos que lentamente se separan para
convertirse en nuevas especies
Genes Paralogs Homólogos separados por un
evento de duplicación. Una de las copias
típicamente mantiene su función mientras que la
otra tiene otra función pero relacionada
Genes Xenologs Xenologs ocurren por la
transferencia horizontal de una especie a otra.
No hay historia del nuevo gen en el genoma que
fue insertado

49
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas
50
Introducción a la Bioinformática
Genomica
Análisis filogenético Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
51
Introducción a la Bioinformática
Genomica
Análisis filogenético Globina y Myoglobina
globin mouse
Globin ancestor
globin
Ancestral globin gene
duplication
globin man
Myoglobin
Myoglobin mouse
Myoglobin man
52
Introducción a la Bioinformática
Genomica

Análisis Filogenético Algunas herramientas
ClustalW Herramienta de tipo caja negra para
análisis filogenético
Phylip Método mas sofisticado que permite
controlar los parámetros necesarios en la
reconstrucción

53
Introducción a la Bioinformática

Esta charla trata de lo siguiente
Introducción a aspectos de la bioinformática
Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
Discusión sobre secuencias genéticas y
algoritmos usados para su análisis

54
Introducción a la Bioinformática
Genomica Marcos de Lectura

Dada parte de una secuencia de ADN y conociendo
el código genético es posible traducirlo a una
proteína al mirar codones sucesivos en una
secuencia genética
Hay secuencias en la cual hay soporte bioquímico
y otras que simplemente se derivan de la
secuencia conceptual sin validación experimental
En una secuencia arbitraria de ADN no se sabe si
es que la primera base indica el comienzo del de
las CDS (Coding Sequences).
Por eso se hace un traducción en seis marcos de
lectura (six frames)
Hay tres marcos hacia adelante, que se logran al
traducir la primera, segunda y tercera base
respectivamente
Tres marcos adicionales se determinan al invertir
la secuencia de ADN y hacer la traducción en las
bases primera, segunda y tercera
Solo uno de los marcos es correcto.

55
Introducción a la Bioinformática
56
Introducción a la Bioinformática
Genomica Marcos de Lectura (cont)

Cual es el marco correcto?
Típicamente el marco mas largo interrumpido por
un stop codon (TGA, TAA or TAG)
Este marco se conoce como un ORF
Típicamente el codon de inicio es ATG
(methionine) pero methionine es también un codon
común en el CDS
La presencia de ATG no es un indicador absoluto
de inicio del ORF
Indicadores de regiones codificantes
Largo suficiente del ORF
Reconocer secuencias especiales al inicio del CDS
(e.g. Kozak sequences)
Patrones estadísticos de uso de codones en
regiones codificantes y no codificantes son
diferentes (depende del organismo)

57
Introducción a la Bioinformática
Genomica Algoritmos

Para poder utilizar y entender efectivamente los
resultados de las búsquedas y alineamientos en
las bases de datos tenemos que entender como es
que se obtienen estos alineamientos son obtenidos
Cuando se comparan secuencias es necesario
obtener una indicación de cuan buenos son los
posibles alineamientos
Para eso se utiliza el concepto de score en el
cual se introducen penalidades cuando las
secuencias no están alineadas de la manera
deseada
En algunos casos encontrar el mejor alineamiento
requiere la introducción de espacios (gaps)
Métodos lograr scores de alineamientos incluyen
Dayhoff Mutation Data Matrix
BLOSUM Matrices
Resultados Estadísticos (e.g. BLAST E-value)
Dotplot
Needleman Wunsch Algorithm