Title: Introducci
1Introducción a la Bioinformática ITomás
Arredondo Vidal13/10/2008
2Introducción a la Bioinformática
- Esta charla trata de lo siguiente
- Introducción a aspectos de la bioinformática
- Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática - Discusión sobre secuencias genéticas y
algoritmos usados para su análisis
3Introducción a la Bioinformática
Bioinformática Algunas áreas de Estudio
- Genómica Estudio, mapeo, y secuenciacion de
genomas - Microarreglos Arreglos experimentales para
determinar el nivel de actividad o precencia de
muchos genes en parallelo - Proteomica Estudio, vusualizacion y
quantificacion de las moleculas de proteinas
presentes en tejidos u organismos - Estructurales Simulacion y estudio de la
estructura de proteinas
4Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
- Medicina
- Nuevas drogas, nuevas vacunas de ADN, terapias
genéticas - Producción de medicinas usando bacterias y
levaduras - Genómica
- Fuente de información para medicina preventiva,
terapéutica, diagnóstico - Ingeniería de tejidos
- Métodos para generar piel, cartílago, huesos
- Biomateriales, Nanotecnologia, Applicaciones
Industriales y Químicas - De adonde partió el estudio de la Bioinformática?
5Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Diagnostico
Genome
Gene map
Gene sequence
Expression
Diseases
c
t
Alzheimers
Cancer
a
t
t
Arthritis
t
t
t
a
a
t
t
CV Disease
a
a
t
MS
t
a
t
t
a
Obesity
Vision
t
t
a
Arthritis
6Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos
Producción de Vacunas
7Introducción a la Bioinformática
Virus amigos y enemigos
8Introducción a la Bioinformática
Evolución Genetica
- Gregor Mendel
- En 1865 el sacerdote Agustino Gregor Mendel hizo
experimentos sobre híbridos de plantas (arvejas)
basados en el fenotipo observable de ellas - Mendel, desarrolló los principios fundamentales
de que hoy es la moderna ciencia de la genética - A través de la estadística de los resultados de
sus cruces Mendel demostró que las
características heredables son llevadas en
unidades discretas que se heredan por separado en
cada generación - Estas unidades discretas, que Mendel llamó
elemente, se conocen hoy como genes
9Introducción a la Bioinformática
Evolución Genetica
- Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866) - Así, Mendel aisló 7 pares de caracteres que eran
razas puras cada carácter estudiado se
presentaba en dos variantes, tales como altura
de la planta (alta o baja), superficie de la
semilla (lisa o rugosa), forma de la vaina
(inflada o contraída), forma de la vaina y
otras - En sus experimentos Mendel uso unas 28.000
plantas de arvejas - Las posibles codificaciones viables de ADN de un
gen que ocupan una posición (locus) en el genoma
de un organismo se denominan alelos
10Introducción a la Bioinformática
Evolución Genetica
- Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866)... - Los alelos de un gen son responsables de las
diferentes expresiones de los genes (e.g. color
de un pétalo) que es visto en el fenotipo del
organismo - En un organismo diploide hay dos copias de cada
cromosoma en cada célula (e.g. humanos 1013
celulas), por ende hay dos alelos para cada gen - En organismos diploides las celulas sexuales
(e.g. gametos) son haploides (e.g. tienen una
copia de cada cromosoma) y se juntan para formar
un cigoto (e.g. zygote) que es la celula que se
divide repetidamente para formar el embrión
11Introducción a la Bioinformática
Evolución Genetica
- Conclusiones o Leyes de Mendel (1866)
- Ley de uniformidad El tipo hereditario de la
prole no es intermedio entre los tipos de los
padres, sino que en él predomina el de uno u
otro. Si se cruzan dos variedades bien definidas
de una misma especie, el descendiente híbrido
mostrará las características distintivas de uno
de los progenitores (característica dominante) - Ley de la segregación de los genes antagónicos
La característica del otro progenitor (recesiva)
es latente y se manifestará en la siguiente
generación resultante de cruzar a los híbridos
entre sí. Tres cuartos muestran la característica
dominante y un cuarto la recesiva - Ley de la recombinación de los genes Cada una
de las características puras de cada variedad
(color, rugosidad de la piel, etc.) se transmiten
a la siguiente generación de forma independiente
entre sí, siguiendo las dos primeras leyes
12Introducción a la Bioinformática
Evolución Genetica
- Conclusiones o Leyes de Mendel (1866)
- En 1905 Bateson, Saunders y Punnett descubrieron
la conexión genética a través de las cromosomas - Ellos determinaron que genes están localizados
en cromosomas y que cada cromosoma es una unidad
que se reproduce intactamente - Los genes ocupan posiciones (e.g. locus) en
macromoléculas llamadas cromosomas - Esta idea fue modificada posteriormente por
Thomas Hunt Morgan - Esto nos lleva al estudio de la células y la
Genética...
13Introducción a la Bioinformática
Células
- Función
- Las funciones biológicas de los organismos
dependen de las células para la producción y
regulación de compuestos necesarios para su
funcionamiento - Los organismos se clasifican de acuerdo a sus
características celulares - Eukariotes (hongos, animales, plantas, humanos)
- Prokariotes (bacterias)
- Virus
- Archaea (organismos similares a las bacteria que
viven en ambientes extremos) -
14Introducción a la Bioinformática
15Introducción a la Bioinformática
ADN
- Watson y Crick
- En 1953, James Watson y Francis Crick,
descubrieron la estructura tridimensional del
ácido desoxirribonucleico (ADN) al encontrar un
modelo que explicaba todos los datos obtenidos
hasta el momento - El ADN es un polímero (gr. poly - muchas, meros
- partes) o sea una macro molecula de muchas
componentes individuales - Es una cadena doble compuesta por fosfatos
(PO4), azucar (desoxiribosa) y una base
nitrogenada
PO-4 Azúcar - Base PO-4
Azúcar - Base PO-4
16Introducción a la Bioinformática
ADN
- En el modelo de Watson y Crick, el ADN es una
doble hélice, con las bases dirigidas hacia el
centro, perpendiculares al eje de la molécula y
un esqueleto de azúcar-fosfato a lo largo de los
lados de la hélice (que protege las bases del
ambiente) - Las hebras que la conforman son complementarias
y antiparalelas. Las bases de cada cadena se
aparean de forma complementaria Adenina con
Timina (A-T) y Guanina con Citosina (C-G) - Cada base tiene puentes de hidrógeno con su
complementaria, uniendo así las dos cadenas
17Introducción a la Bioinformática
ADN y ARN
- Estructura
- Los ácidos nucleicos que se conocen son el ácido
desoxirribonucleico (ADN) y el ácido ribonucleico
(ARNA) - Ambos están compuestos por nucleótidos en formas
monocatenarias (ARN) o de doble cadena (DNA) - Las bases nitrogenadas que componen los ácidos
nucleicos son los compuestos que codifican la
información genética en la molécula (el código
genético A, T, C, G) - Las bases nitrogenadas se clasifican en dos
grandes familias púricas y pirimidínicas
18Introducción a la Bioinformática
ADN y ARN
- Estructura
- Bases púricas Adenina,Guanina
- Bases pirimidínicas Citosina, Timina, Uracilo
- El ADN contiene adenina-guanina-citosina y
timina que se emparejan en una doble hélice A-T y
G-C - El ARN contiene Uracilo en vez de Timina
- El ARN tiene diferentes nombres dependiendo de
su funcion (e.g. ARNm ARN mensajero, ARNt ARN
de transferencia, ... hay mas tipos de ARN) - El DNA y todas las formas bicatenarias (duplex)
de los ácidos nucleícos se unen entre sí gracias
a los enlaces de hidrógeno que se establecen
entre sus bases - La Timina enlaza con la Adenina con dos enlaces
y la Guanina y la citosina se unen entre sí por
tres enlaces de hidrógeno
19Introducción a la Bioinformática
ADN y ARN
Bases Enlaces
20Introducción a la Bioinformática
ADN
- Estructura
- En el ADN las azucares sucesivas se conectan a
través del fosfato y una hebra tiene la
orientación de 5' a 3' y la otra hebra
(complementaria) de 3' a 5' (dado que la molécula
de azúcar esta rotada) - PO-4 PO-4
-
- 5' Azucar - C G - Azucar 3'
- 3' 5'
- PO-4 PO-4
-
- 5' Azucar - C G - Azucar 3'
- 3'
5' - PO-4 PO-4
21Introducción a la Bioinformática
ADN de Células
- Prokariotas
- Organismos microscópicos
- Su genoma es una molécula circular de ADN
- Genoma es del orden de 0.6-8 Mpb (millones de
pares de bases) - Densidad de genes es de aproximadamente un gen
1000 pares de bases - Sus genes no son sobrepuestos (no overlap)
- Sus genes son transcritos (copiados a ARNm)
inmediatamente después de una región llamada
promotor - Son continuamente codificantes (sin intrones)
22Introducción a la Bioinformática
ADN de Células
- Eukariotes
- Organismos variados (plantas, animales,
hongos,...) - Genoma consiste de múltiples pedazos contiguos
de ADN típicamente denominados cromosomas - Genoma es del orden de 10-3000 Mpb (millones de
pares de bases) - Densidad de genes es de aproximadamente un gen
100000 pares bases - Genoma incluye muchas áreas no codificartes
- Sus genes son transcritos (copiados a ARNm)
después de una región llamada promotor pero
elementos en la secuencia a gran distancia pueden
tener gran efecto en el proceso - Genes pueden derivar en múltiples formas de ARNm
y proteínas - Mas complejas!
23Introducción a la Bioinformática
24Introducción a la Bioinformática
25Introducción a la Bioinformática
- Dogma Central (Watson Crick)
- Transferencia general de la información
- De ADN a ARN, de ARN a Proteína
26Introducción a la Bioinformática
- Dogma Central (Watson Crick)
- Transferencia general de la información
- De ADN a ARN, de ARN a Proteína
27Introducción a la Bioinformática
Dogma Central (Watson Crick)
28Introducción a la Bioinformática
ADN
- Codigo Genetico
- Las funciones biológicas de los organismos
dependen de las células para la producción y
regulación de compuestos necesarios para su
funcionamiento - Codones tripletes de bases codificantes en
aminoacidos - Comienzo ATG (Met)
- Termino TAA, TAG, TGA
- Exones secciones codificantes (con genes)
- Intrones secciones entre medio de exones no
codificantes - Sequencias Codificantes
- ORF Open Reading Frame (de codon de comienzo a
término) - CDS Coding Sequence
29Introducción a la Bioinformática
ADN
- Codigo Genetico
- La secuencia genética del ADN esta codificada en
secuencias de nucleotidos (Adenosina, Timina,
Citosina, Guanina) - El ARN substituye Timina (T) por Uracilo (U)
- El ADN actúa como un molde en la replicación
celular para producir mas ADN (mitosis) - El ADN también transmite la información
necesaria para la reproducción celular (meiosis) - Los genes se organizan en cromosomas para la
reproducción durante meiosis - En el caso de meiosis se intercambia material
genético entre cromosomas homologas - La unidad de intercambio genético es el gen
30 Introducción a la Bioinformática
31Introducción a la Bioinformática
ADN
- Mitosis
- Watson y Crick formularon la hipótesis
semiconservativa que fue posteriormente
demostrada por Meselson y Stahl en 1957 - Según esta hipótesis, la nuevas moléculas de DNA
duplexo contienen una hebra de material original
y otra nueva
32Introducción a la Bioinformática
ADN
- Meiosis
- Thomas Hunt Morgan en 1910 estudio en detalle la
conexión genética con moscas de la fruta - El determino que los genes en los cromosomas
tienen conexión parcial (partial linkage) al
estudiar Meiosis - Esto ocurre porque las cromosomas homologas
pueden intercambiar ADN durante la fase Prophase
I - La frecuencia con la cual los genes son
separados por cruces es directamente proporcional
con su distancia en su cromosoma
33Introducción a la Bioinformática
Genes Partial Linkage
34Introducción a la Bioinformática
Genomica
- Vías Metabólicas
- Vías metabólicas reacciones elementales
celulares que producen compuestos centrales para
la sobrevivencia de la célula - Con el metabolismo se describen los mecanismos
de las células para extraer y convertir la
energía de los compuestos químicos y para
construir las moléculas necesarias para la
síntesis y regulación de los ácidos nucleicos,
proteínas, membranas, y polisacáridos - El metabolismo es una red compleja de reacciones
químicas dentro de los confines de la célula, y
que puede ser analizado como conjuntos separados
conocidos como vías metabólicas
35Introducción a la Bioinformática
Genomica
- Fundamentos de las Vías Metabólicas
- Reacciones químicas
- Balance energético y termodinámica
- La Integración celular (las células deben gastar
mucha de su energía transportando substrato a
través de las membranas biológicas) - Mecanismos regulatorios de las vías. Las vías
pueden ser activadas o desactivadas. Modulación
de la actividad enzimática (proteica), y
disponibilidad de la enzima (expresión genética,
control de translación)
36Introducción a la Bioinformática
Genomica
- Vías Metabólicas
- Hay dos áreas principales en la bioquímica del
metabolismo - Catabolismo la degradación oxidativa de
moléculas - Anabolismo la síntesis reductiva de moléculas
- Las vías, ya sean catabólicas o anabólicas, son
interdependientes, controladas por las
necesidades energéticas y las demandas
estructurales del organismo - La célula controla cuales vías están activas y
por cuanto tiempo
37Introducción a la Bioinformática
38Introducción a la Bioinformática
- Esta charla trata de lo siguiente
- Introducción a aspectos de la bioinformática
- Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática - Discusión sobre secuencias genéticas y
algoritmos usados para su análisis
39Introducción a la Bioinformática
Genomica
- Bases de datos de nucleótidos
- La bioinformática requiere encontrar e
interpretar datos biológicos. - De nuestro interés son las bases de datos para
nucleótidos, proteínas y vías metabólicas - Algunas bases de datos de nucleótidos incluyen
Genbank, NCBI LocusLink, TIGR, Ensembl - Genbank es la base de datos principal de
nucleótidos y mantiene un registro histórico
(primario) de todos las secuencias de nucleótidos
que se han introducido en el - Se utiliza el Gene ID (e.g. X01714) para iniciar
búsquedas en Genbank
40Introducción a la Bioinformática
Genomica
- Bases de datos de proteínas
- La principal base de datos de proteínas por la
calidad de sus datos anotados es SWISS-PROT - Se utiliza el Primary Accession Number para
identificar una secuencia que se quiere encontrar
(e.g. P32861) - SWISS-PROT es un recurso de datos derivado
(secundario) de la literatura y manualmente
verificados - TrEMBL es una base de datos automáticamente
anotada
41Introducción a la Bioinformática
Genomica
- Bases de datos de Vías Metabólicas
- Algunas recursos sobre vías metabólicas
incluyen KEGG, BRENDA, IUBMB, ECOCYC - KEGG (Kyoto Encyclopedia of Genes and Genomes)
incluye una gran cantidad de vías metabólicas y
es la mas importante a nivel mundial - En KEGG típicamente se utiliza el numero de la
enzima (E.C. para comenzar una búsqueda) - BRENDA es un sistema de información enzimático
- IUBMB es el sitio oficial de la Unión de
Bioquímica y Biología Molecular - ECOCYC es la enciclopedia de genes y el
metabolismo de E.Coli
42Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas KEGG
LinkDB KEGG ENTRY EC 2.7.1.2 NAME
Glucokinase CLASS Transferases Transferring
phosphorus-containing groups Phosphotransferases
with an alcohol group as acceptor SYSNAME
ATPD-glucose 6-phosphotransferase REACTION ATP
D-Glucose ADP D-Glucose 6-phosphate
SUBSTRATE ATP D-Glucose PRODUCT ADP D-Glucose
6-phosphate COMMENT A group of enzymes found in
invertebrates and microorganisms highly specific
for glucose. lt...gt
43Introducción a la Bioinformática
Genomica
- Aplicaciones Para Comparar Secuencias
- BLAST (Basic Local Alignment Search Tool) es la
principal aplicación para comparar secuencias - Las principales versiones son BLASTP y TBLASTN
- BLASTP compara la secuencia de una proteína con
una base de datos de proteínas - TBLASTN comparar la secuencia de una proteína
con una base de datos de nucleótidos
44Introducción a la Bioinformática
Genomica
- Usos de BLAST
- Para encontrar algo acerca de la función de mi
proteína usar BLASTP para comparar con otras
proteínas en las bases de datos - Para descubrir nuevos genes que codifican a
alguna proteína (o enzima) usar TBLASTN para
comparar la proteína con secuencias de ADN
traducidas en todas sus posibles ORFs
45Introducción a la Bioinformática
Genomica
- Resultados de BLAST
- Sequence Accesion Number
- Description
- Bit score estima el significado del
alineamiento (mientras mayor mejor) - E-value estima el numero de veces que se
pudiera encontrar un alineamiento tan bueno
aleatoriamente (mientras menor mejor) - Alineamientos (identidad, largo)
46Introducción a la Bioinformática
Genomica
- Aplicaciones Para Comparar Secuencias Múltiples
- También es deseable muchas veces hacer
alineamientos múltiples. Hay muchas herramientas
para esto. Entre ellas CLUSTALW, TCOFFEE - Mas en el laboratorio!
47Introducción a la Bioinformática
Genomica
- Evolución Genética
- Todos los genes están relacionados (Zuckerkandl,
Pauling 1960s) - Los genes a veces evolucionan independientemente
del organismo (formulado por R. Dawkins 1976) - Solamente unos pocos miles de familias de genes
existen (C. Chothia, 1992, Nature 357)
48Introducción a la Bioinformática
Genomica
- Análisis Filogenético Definiciones
- Genes Homólogos Genes con un ancestro común
- Genes Ortólogos Homólogos separados por
especiacion en el cual un ancestro común genera
dos subgrupos que lentamente se separan para
convertirse en nuevas especies - Genes Paralogs Homólogos separados por un
evento de duplicación. Una de las copias
típicamente mantiene su función mientras que la
otra tiene otra función pero relacionada - Genes Xenologs Xenologs ocurren por la
transferencia horizontal de una especie a otra.
No hay historia del nuevo gen en el genoma que
fue insertado
49Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas
50Introducción a la Bioinformática
Genomica
Análisis filogenético Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
51Introducción a la Bioinformática
Genomica
Análisis filogenético Globina y Myoglobina
globin mouse
Globin ancestor
globin
Ancestral globin gene
duplication
globin man
Myoglobin
Myoglobin mouse
Myoglobin man
52Introducción a la Bioinformática
Genomica
- Análisis Filogenético Algunas herramientas
- ClustalW Herramienta de tipo caja negra para
análisis filogenético - Phylip Método mas sofisticado que permite
controlar los parámetros necesarios en la
reconstrucción
53Introducción a la Bioinformática
- Esta charla trata de lo siguiente
- Introducción a aspectos de la bioinformática
- Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática - Discusión sobre secuencias genéticas y
algoritmos usados para su análisis
54Introducción a la Bioinformática
Genomica Marcos de Lectura
- Dada parte de una secuencia de ADN y conociendo
el código genético es posible traducirlo a una
proteína al mirar codones sucesivos en una
secuencia genética - Hay secuencias en la cual hay soporte bioquímico
y otras que simplemente se derivan de la
secuencia conceptual sin validación experimental - En una secuencia arbitraria de ADN no se sabe si
es que la primera base indica el comienzo del de
las CDS (Coding Sequences). - Por eso se hace un traducción en seis marcos de
lectura (six frames) - Hay tres marcos hacia adelante, que se logran al
traducir la primera, segunda y tercera base
respectivamente - Tres marcos adicionales se determinan al invertir
la secuencia de ADN y hacer la traducción en las
bases primera, segunda y tercera - Solo uno de los marcos es correcto.
55Introducción a la Bioinformática
56Introducción a la Bioinformática
Genomica Marcos de Lectura (cont)
- Cual es el marco correcto?
- Típicamente el marco mas largo interrumpido por
un stop codon (TGA, TAA or TAG) - Este marco se conoce como un ORF
- Típicamente el codon de inicio es ATG
(methionine) pero methionine es también un codon
común en el CDS - La presencia de ATG no es un indicador absoluto
de inicio del ORF - Indicadores de regiones codificantes
- Largo suficiente del ORF
- Reconocer secuencias especiales al inicio del CDS
(e.g. Kozak sequences) - Patrones estadísticos de uso de codones en
regiones codificantes y no codificantes son
diferentes (depende del organismo)
57Introducción a la Bioinformática
Genomica Algoritmos
- Para poder utilizar y entender efectivamente los
resultados de las búsquedas y alineamientos en
las bases de datos tenemos que entender como es
que se obtienen estos alineamientos son obtenidos - Cuando se comparan secuencias es necesario
obtener una indicación de cuan buenos son los
posibles alineamientos - Para eso se utiliza el concepto de score en el
cual se introducen penalidades cuando las
secuencias no están alineadas de la manera
deseada - En algunos casos encontrar el mejor alineamiento
requiere la introducción de espacios (gaps) - Métodos lograr scores de alineamientos incluyen
- Dayhoff Mutation Data Matrix
- BLOSUM Matrices
- Resultados Estadísticos (e.g. BLAST E-value)
- Dotplot
- Needleman Wunsch Algorithm
58Introducción a la Bioinformática
SE ACABO?
59Referencias
- Brown, T.A., Genomes, Wiley, 1999
- Claverie, J.M., Bioinformatics for Dumies, Wiley,
2003 - Perkus, J. K., Mathematics of Genome Analysis,
2002 - Gibas, C., Developing Bioinformatics Computer
Skills, 2001 - http//www.biologia.edu.ar/index.html
- http//www.arrakis.es/7Elluengo/
- Link antiguo http//www.multisan2001.com