Aplicaciones de Algoritmos Genticos a la Protemica Computacional - PowerPoint PPT Presentation

1 / 30
About This Presentation
Title:

Aplicaciones de Algoritmos Genticos a la Protemica Computacional

Description:

La idea b sica es lograr compresi n de datos sin p rdida de una manera ptima. ... La informaci n de un s mbolo, de ... Nulo. La composici n de las prote nas ... – PowerPoint PPT presentation

Number of Views:166
Avg rating:3.0/5.0
Slides: 31
Provided by: laboratori83
Category:

less

Transcript and Presenter's Notes

Title: Aplicaciones de Algoritmos Genticos a la Protemica Computacional


1
  • Aplicaciones de Algoritmos Genéticos a la
    Proteómica Computacional

2
  • Angel Kuri
  • José Galaviz
  • Oscar Herrera
  • INAOE
  • Dic. de 2003

3
Motivación
  • La idea básica es lograr compresión de datos sin
    pérdida de una manera óptima.
  • Una forma sencilla de tratar de comprimir un
    conjunto de datos es usando la probabilidad de
    aparición de c/u de ellos.
  • Cómo se relaciona este problema con la proteómica
    computacional se verá más adelante.
  • Ilustramos con un ejemplo

4
Compresión sin pérdida
5
Motivación
  • La información de un símbolo, de acuerdo con
    Shannon, está dada por
  • en donde Piprobabilidad de que aparezca el
    símbolo Si.
  • La información promedio (Entropía) está dada por

6
Compresión sin Pérdida
7
Compresión sin pérdida
  • Debe notarse que la longitud óptima promedio está
    acotada por la entropía.
  • Cuando, como en este caso, las probabilidades son
    potencias de 2 es posible alcanzar este límite.
  • Cuando este no es el caso, el límite teórico no
    puede alcanzarse usando este tipo de codificación
    llamado de Huffman (por su inventor).

8
Ergodicidad
  • Una de las características que se asumen en las
    fuentes tales que el método anterior sea
    efectivo, es que las fuentes sean ergódicas.
  • De manera intuitiva, una fuente es ergódica si
    sus probabilidades se establizan después de
    un cierto tiempo.
  • Un ejemplo de no-ergodicidad sería aquel en el
    que transmitiéramos un bloque de datos de un
    texto en español, primeramente, y un bloque de
    datos de una imagen .jpg, seguidamente.

9
Ergodicidad
  • En el ejemplo anterior, claramente, las
    probabilidades del primer bloque serían
    diferentes de las del segundo.
  • Enfatizamos que lo que hemos llamado
    probabilidades, en la práctica, se refieren a
    proporciones obtenidas del análisis estadísticos
    de los bloques de datos.

10
Las limitaciones de la Teoría de la información
  • Una de las premisas tácitas en la TI clásica, es
    que los símbolos son entidades definidas a
    priori (bytes, palabras, etc.) cuya relación de
    agrupamiento implica una cercanía topológica.
  • Por ejemplo, si consideramos pares de letras,
    normalmente se consideran pares contiguos. En
    español, el par qu establece que P(uq) es muy
    alta.

11
Transformación de Fuentes no-ergódicas en fuentes
pseudo-ergódicas
  • El objetivo que nos hemos fijado es encontrar
    conjuntos de símbolos no necesariamente
    topológicamente vecinos.
  • Si logramos lo anterior, cada conjunto de
    símbolos (llamado un meta-símbolo) hará las veces
    de un símbolo en una fuente ergódica y nos
    permitirá aplicar técnicas de primer orden a
    agrupamientos independientes entre si.

12
Nulo
13
La composición de las proteínas
  • Las proteínas en los seres vivos son las
    máquinas encargadas de ejecutar los comandos
    que están tácitos en el ADN celular.
  • En las células existe un mecanismo de
  • replicación-transcripción-traducción que lleva la
    información del ADN, vía el ARNm, a cadenas de
    aminoácidos que llamamos proteínas.

14
Los nucleótidos
  • Todos los seres vivos contienen las instrucciones
    de su operación en el núcleo de cada una de sus
    células en cadenas de bases o nucleótidos.
  • Las bases elegidas por la naturaleza son 4
  • a) Adenina (A) b) Citosina (C)
  • c) Timina (T) d) Guanina (G)

15
El código genético
  • Las cadenas de bases forman los genes que se
    encuentran en el cromosoma
  • Por ejemplo, una posible cadena genética se
    describiría así
  • GATTACCA
  • Lo más interesante es que cada tríada de bases se
    interpreta como una instrucción.

16
(No Transcript)
17
Aminoácidos
  • Aminoácidos ala alanina, arg arginina, asn
    asparagina, asp ácido aspártico, cis
    cisteína, glu ácido glutámico, gli glicina,
    his histidina, ile isoleucina, leu leucina,
    lis lisina, met metionina, fen
    fenilalanina, pro prolina, ser serina, tre
    treonina, tri triptofano, tir tirosina, val
    valina.

18
Duplicación y Transcripción
  • Del ADN se pasa, por un proceso denominado
    transcripción al ARNm.
  • Las bases se copian complementa-riamente
    Alt-gtT y Glt-gtC.
  • Por ejemplo, la cadena GATTACA duplica en
    ATAATGT, pero se transcribe como AUAAUGU porque
    en el ARNm la timina se reemplaza por uracilo (U).

19
Duplicación/Transcripción/Traducción
20
Proteínas
  • Una proteína puede ser expresada como una
    secuencia de aminoácidos. La siguiente secuencia
    es la expresión de una proteína de E. coli

MARKTKQEAQETRQHILDVALRLFSQQGVSSTSLGEIAKAAGVTRGAIYW
HFKDKSDLFSEIWELFRPCKRCQPEKANAQQHRLDKITHACRLLEQETPV
TLEALADQVAMSPFHLHRLFKATTGMTPKAWQQAWRARRLRESLAKGESV
TTSILNAGFPDSSSYYRKADETLGMTAKQFRHGGENLAVRYALADCELGR
CLVAESERGICAILLGDDDATLISELQQMFPAADNAPADLMFQQHVREVI
ASLNQRDTPL
21
Proteínas
  • Hay un problema fundamental en biología
    molecular Cómo se agrupan las proteínas?
  • Es decir, qué relación guardan entre sí las
    proteínas? (Hay miles en un ser vivo).

22
Proteínas
  • En el pasado se ha intentado lograr
  • La clasificación de secuencias 1
  • El agrupamiento de patrones de expresión
    genéticos 2
  • La clasificación de secuencias moleculares 3
  • La inferencia filogenética 4
  • En todos los casos que hemos logrado identificar,
    sin embargo, estos intentos han obedecido a
    criterios de clasificación y agrupamientos
    predeterminados.

23
Hipótesis
  • Es posible lograr la clasificación de las
    proteínas de un ser vivo (nos enfocaremos a E.
    coli y S. cerevisiae) atendiendo solamente a las
    características estructurales de las proteínas.

24
Agrupamiento
  • El primer problema es lograr el agrupamiento
    automático de las diversas proteínas.
  • Para ello usaremos mapas auto-organizados en los
    cuales la determinación de los grupos se logra
    usando algoritmos genéticos.

25
Paso 1
  • En este mapa
  • todas las neu-
  • ronas vecinas
  • forman parte
  • de un grupo.
  • Pero no conoce-
  • mos los grupos

26
Paso 2
  • En este mapa
  • las neuronas
  • han sido etique-
  • tadas, de mane-
  • ra que sabemos
  • a qué grupo per-
  • tenece cada
  • una.

27
Explicación de los Grupos
  • Con el método anterior es posible encontrar
    agrupamientos de proteínas de manera no-sesgada.
  • Para explicar por qué se agrupan de esa manera es
    factible aplicar los algoritmos de búsqueda de
    meta-símbolos antes analizados.

28
Las proteínas como mensajes
  • Para estos algoritmos una cadena de aminoácidos
    es indisringuible de una cadena de letras, o de
    píxeles, o...
  • De manera que los meta-símbolos embebidos en los
    grupos nos pueden dar una respuesta a por qué los
    agrupamientos se presentan como lo hacen.

29
Conclusiones
  • Aplicando técnicas de búsqueda originalmente
    planteadas al problema de la compresión de datos,
    es factible encontrar las razones por las cuales
    las proteínas se agrupan en familias

30
Referencias
  • 1 Wu C., Berry M., Fung Y.S., McLarty J.,
    Neural networks for molecular sequence
    classification, Proc. Int. Conf. Intell. Syst.
    Mol. Biol., vol. 1, pp. 429-437, 1993.
  • 2 Wang, H.C., Dopazo, J., de la Fraga, L.G.,
    Zhu, Y.P., Carazo, J.M., Self-organizing
    tree-growing network for the classification of
    protein sequences, Protein Sci., pp. 2613-22,
    1998.
  • 3 Ferran, E.A., Ferrara, P., Clustering
    proteins into families using artificial neural
    networks,
  • Comput. Appl. Biosci., pp. 39-44, 1992.
  • 4 Friedman, N., Ninio, M., Pe'er, I., Pupko,
    T., A structural EM algorithm for phylogenetic
    inference, J. Comput. Biol., pp. 331-353, 2002.
Write a Comment
User Comments (0)
About PowerShow.com