T - PowerPoint PPT Presentation

About This Presentation
Title:

T

Description:

T cnicas de Aprendizado de M quina e Dados de Express o G nica Marc lio C. P. de Souto DIMAp/UFRN – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0
Slides: 50
Provided by: 2371
Category:

less

Transcript and Presenter's Notes

Title: T


1
Técnicas de Aprendizado de Máquina e Dados de
Expressão Gênica
  • Marcílio C. P. de Souto
  • DIMAp/UFRN

2
Dados de Expressão Gênica
3
AM e Dados de Expressão Gênica (1/2)
  • Algoritmos não supervisionados descoberta de
    classes (e.g., grupos de genes co-regulados)
  • Algoritmos de agrupamento hierárquico
  • k-médias
  • Mapas auto-organizáveis
  • Algoritmos supervisionados previsão de classes
    (e.g., classificação de funções dos genes)
  • Redes neurais artificiais
  • Mapas de vetores suporte

4
AM e Dados de Expressão Gênica (2/2)
  • Desafios para os algoritmos de AM
  • Centenas de Amostras (exemplos) x Milhares de
    genes (características)
  • Overfitting (super-ajustamento aos dados)
  • Poucas Replicações Alto Grau de Ruído
  • Alta variância
  • Valores faltosos
  • Exemplos de treinamento rotulados incorretamente
  • Bases de dados não balaceadas

5
Agrupamento de Dados de Expressão Gênica
  • Agrupamento de genes
  • Identificação de genes co-expressos/co-regulados
  • Identificação de padrões temporais de expressão
  • Redução de redundância
  • Agrupamento de amostras
  • Identificação de novas classes de amostras
    biológicas
  • Novas classes de tumores
  • Novos tipos de células
  • Detecção de artefatos nos experimentos

6
Agrupamento de Genes
  • Agrupamento de genes baseado nas suas expressões
  • Dado um conjunto de genes de um organismo, em
    que cada gene é um padrão
  • Faça Agrupe os genes baseado na similaridade de
    seus valores de expressão

7
Genes Agrupamento Hierárquico (1/2)
  • Eisen et al. (1998)
  • Trabalho pioneiro
  • Dados
  • 6621 genes da levedura submetidos a quatro
    situações distintas
  • Divisão celular e respostas a diferentes
    estresses ambientais
  • Quatro séries temporais com 79 instantes de tempo
  • Para o agrupamento foram usados apenas 2467 genes
  • Dados coletados por meio de microarrays de cDNA
  • Técnica utilizada
  • Agrupamento hierárquico

8
Genes Agrupamento Hierárquico (2/2)
  • Eisen et al. (1998) usam o agrupamento
    hierárquico com a ligação média
  • Similaridade entre genes é medida usando uma
    modificação do coeficiente de Pearson
  • Consegue detectar relacionamento inversos
  • Leva em consideração o deslocamento entre as
    curvas
  • Técnica antiga, também chamada UPGMA em análise
    filogenética

9
Matriz de Expressão
Eisen et al. (1998)
experimentos
genes
10
Correlação de Pearson
Eisen et al. (1998)
11
Matriz de Correlação
Eisen et al. (1998)
genes
experimentos
genes
12
Encontrar a Correlação Máxima
Eisen et al. (1998)
genes
13
Combine e Calcule as Correlações
Eisen et al. (1998)
genes
Como um efeito colateral, o algoritmo produz um
dendograma
A B C D
14
Análise Posterior
Eisen et al. (1998)
  • Seleção de aglomerados
  • Seleção de um ordenamento dos genes para
    visualização
  • Determinação dos rótulos do aglomerados
  • Determinação da significância dos aglomerados

15
Resultados
(F) mitochondrial ribosome (G) ATP
synthesis (H) chromatin structure (I)
ribosome and translation (J) DNA replication

Microarray data from Figure 2 of Eisen et al.
(1998). Cluster Analysis and display of
genome-wide expression patterns, Proc. Natl.
Acad. Sci. 95 14863-14868
16
Genes SOMs (1/2)
Tamayo et al. (1999)
  • Tamayo et al. (1999)
  • SOMs aplicados a dados sobre a diferenciação de
    células sanguíneas
  • Entradas
  • Para validar o programa (GENECLUSTER)
  • Dados sobre o ciclo celular da levedura
  • Mesmos dados que Cho et al. (1998)
  • Dados coletados por meio de microarrays de
    oligonucleotídeos
  • 828 genes usados após filtro
  • Padrões normalizados
  • SOM uma grade 5 x 6, i.e., 30 aglomerados
  • Distância euclidiana

17
Genes SOMs (1/2)
Tamayo et al. (1999)
  • Entradas
  • Dados sobre a diferenciação de células sanguíneas
  • 4 linhagens de células hematopoéticas (HL-60,
    U937, Jurkat, NB4)
  • Dados coletados por meio de microarrays de
    oligonucleotídeos
  • 1036 genes usados após filtro
  • Padrões normalizados
  • SOM uma grade 6 4 SOM, i.e., 24 aglomerados
  • Distância euclidiana

18
Genes k-médias
Tavazoie et al. (1999)
  • Tavazoie et al. (1999)
  • Entradas
  • Expressão relativa de 6220 genes da levedura em
    dois ciclos célulares - 15 experimentos
  • Dados coletados por meio de microarrays de
    oligonucleotídeos
  • Utilzados apenas os 3000 genes que apresentaram
    maior variância
  • Foi utilizado o k-médias com a distância
    euclidiana para encontrar 10, 30 e 60 aglomerados
  • Para a análise foi escolhido o resultado do
    k-médias com k30

19
Agrupamento de Amostras
  • Descoberta de novas classes de doenças
  • Dado um conjunto de experimentos de microarray,
    cada um realizado com células de pacientes
    diferentes, com um determinado grupo de doenças.
    Os níveis de expressão de cada paciente
    representam as características e as amostras os
    padrões.
  • Faça Agrupe as amostras para encontrar células
    que não se ajustam bem as classes atuais. Assumir
    que essas pertencem a novas classificações de
    doenças.

20
Amostras SOMs (1/2)
  • Golub et al. (1999)
  • Trabalho pioneiro
  • Dados
  • 38 amostras de medula óssea
  • 11 - Leucemia Mielóide Aguda (AML)
  • 27 - Leucemia Aguda Limfoblástica (ALL)
  • 6817 genes humanos
  • Dados coletados com arrays de oligonucleotídeos
  • Técnica utilizada
  • Mapas Auto-Organizáveis (SOMs)

21
Amostras SOMs (2/2)
  • Golub et al. (1999)
  • Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
  • Depois usam um SOM 4x1, i.e., 4 aglomerados
  • Diferentemente do trabalho de Tamayo et al.
    (1999),os mapas são uni-dimensionais
  • Similaridade entre genes é medida usando a
    distância euclidiana
  • Os dados são padronizados

22
Descoberta Dados AML-ALL com 2 Aglomerados
Golub et al. (1999)
Classe A1 maioria ALL (24/25 amostras) Classe
A2 maioria AML (10/13 amostras)
A2
A2
23
Descoberta Dados AML-ALL com 4 Aglomerados
Golub et al. (1999)
Classe B1 AML Classe B2 ALL Linhagem-T Classe
B3 ALL Linhagem-B Classe B4 ALL Linhagem-B
B1
B2
B3
B4
24
Amostras Agrupamento Hierárquico
  • Alizadeh et al. (2000)
  • Entrada
  • Dados de 96 experimentos com 4026 genes humanos
  • Os 96 experimentos foram realizados com biopsias
    de pacientes com linfoma difuso de grandes
    células B (DLBCL)
  • Foi usado a técnica de agrupamento hierárquico
    UPGMA, com a mesma versão do coeficiente de
    Pearson em (Eisen et al., 1998).

25
Outros Trabalhos
  • Costa, I. G., de Carvalho, F. A. T., e de Souto,
    M. C.P. (2003). Comparative study on proximity
    indices for cluster analysis of gene expression
    time series. Journal of Inteligent and Fuzzy
    Systems, A ser publicado.
  • Agrupamento dinâmico
  • Dopazo, J. et al. (2001). Methods and approaches
    in the analysis of gene expression data. Journal
    Immunol. Methods, 250(1/2)93--12.
  • Self-Organizing Tree Algorithm
  • Raychaudhuri, S., Stuart, J. M., e Altman, R. B.
    (2000). Principal components analysis to
    summarize microarray experiments Application to
    sporulation time series. In Proc. of Pacific
    Symposium on Biocomputing, pp. 455--466.
  • Análise de componentes principais
  • Sharan, R. e Shamir, R. (2002). CLICK Clustering
    algorithm with applications to gene expression
    analysis. In Proc. of Intelligent Systems for
    Molecular Biology, pp. 307--316.

26
Previsão de Classes
  • Predição de classes de doenças
  • Muitas doenças não podem ser distinguidas de
    forma confiável por meio de técnicas tradicionais
  • Diagnóstico de tecidos cancerosos e normais
  • Classificação de tipos diferentes de cânceres
  • Vários tumores diferentes têm a mesma aparência
    em exames histológicos
  • Diagnóstico é fundamental para o sucesso do
    tratamento
  • Predição da função biológica de um gene

27
Previsão de Classes de Doenças
  • Predição de classes de doenças existentes
  • Dado um conjunto de experimentos de microarray,
    cada um realizado com células de pacientes
    diferentes, com um determinado grupo de doenças.
    Os níveis de expressão de cada paciente
    representam as características e as amostras os
    padrões.
  • Faça aprenda um modelo que possa classificar de
    maneira precisa uma nova célula na categoria da
    doença apropriada.

28
Previsão de Classes de Funções Redes Neurais
  • Khan et al. (2001)
  • Problema
  • SRBCTs
  • Neuroblastoma (NB)
  • Rhabdomyosarcoma (RMS)
  • Non Hodgkin lymphoma (NHL)
  • The Ewing family of tumors (EWS)
  • Todos têm aparência similar em exames histológico
  • Diagnóstico acurante é essencial
  • Abordagem
  • Redes Neurais Artificiais (RNs)

29
Previsão de Classes de Funções Redes Neurais
Khan et al. (2001)
  • Microarray de cDNA com 6567 genes
  • 63 exemplos de treinamento
  • Material da biopsia de tumores
  • Linhagens celulares
  • Filtro para um número mínimo de expressão
  • 2308 genes
  • Redução da dimensionalidade com PCA
  • 10 componentes dominantes do PCA foram usadas
    (63 da variância)
  • Três-fold cross-validation
  • 3750 redes neurais foram construídas (vote médio)

30
Visão Esquemática do Processo
Khan et al. (2001)
31
Análise dos Dados
Khan et al. (2001)
  • Arquitetura e parâmetros
  • Perceptron Linear (PL)
  • 10 entradas representando componentes do PCA
  • 4 nodos de saída um para cada classe de tumor
    (EWS, BL, NB e RMS)
  • 44 parâmetros livres, incluindo quatro unidades
    de threshold
  • Treinamento realizado com o JETNET
  • ?0.7 momentum0.3
  • Taxa de aprendizado decrementada a cada iteração
    (0.99)
  • Pesos iniciais escolhidos aleatoriamente em
    -r,r (r0.1/F)
  • Pesos atualizados a cada 10 épocas
  • No máximo 100 épocas

32
Observações
Khan et al. (2001)
  • Técnicas de diagnóstico de tumores são em geral
    baseadas em histologia (morfologia) e
    imuno-histoquímica (expressão de proteínas)
  • Alternativa
  • Redes Neurais artificiais com dados de expressão
    gênica
  • Um dos primeiros trabalho a testar rigorosamente
    uma técnica de classificação, com dados de
    expressão gênica, para o diagnósticos de mais de
    duas categorias
  • Não houve overfitting e o erro de classificação
    no conjunto de treinamento foi igual a zero
  • Dados
  • Tumores e linhagem celulares
  • Linhagens celulares para trinar RNs

33
Previsão de Classes de Funções
  • Predição da função biológica de um gene
  • Dado um conjunto de genes cuja classificação
    funcional é conhecida, junto com a expressão
    desses genes em diferentes condições.
  • Faça aprenda a predizer a categoria funcional de
    genes adicionais (não vistos durante o
    treinamento) baseado em um vetor de níveis de
    expressão formado de acordo com o conjunto de
    condições experimentais especificadas.

34
Previsão de Classes de Funções Máquinas de
Vetores Suporte (SVMs)
Conhecimento a priori sobre a função do gene

35
SVMs (1/2)
Conhecimento a priori da função do gene Genes
que codificam proteínas ribomosais
36
SVMs (2/2)
Padrões de Treino
gene 1, 1, gene 2, 1, , gene N-1, 1,
gene N, 1
gene a, -1, gene b, -1,
Baseado nos dados de expressão
SVM treino
SVM teste
37
SVMs Treinamento
Membros
Não membros
Não separável c/ um hiperplano no espaço de
entradas
Separável com um hiperplano no espaço de
características
38
Previsão de Classes de Funções SVMs
Brown et al. (2000)
2467 genes da levedura
Dados de Microarray Exemplos de Treino
79 experimentos
39
Previsão de Classes de Funções SVMs
Brown et al. (2000)
Resultados mostraram baixo número de
falsos-positivos e falsos-negativos quando
comparado com outras técnicas de aprendizado
supervisionado, tais como janelas de Parzen,
discriminate linear de Fisher e árvores de
decisão.
40
Outros Trabalhos
  • Eisen, M. B. et al. (1998). Cluster analysis and
    display of genome-wide expression pattern. In
    Proc. of National Academy of Sciences USA, volume
    95, pp. 14863--14868.
  • Votação ponderada
  • Shipp, M. A. et al. (2002). Diffuse large
    B-cell lymphoma outcome prediction by
    gene-expression profiling and supervised machine
    learning. Nature Medicine, 8(1)68--74.
  • k vizinhos mais próximos

41
Análise de Dados de Expressão GênicaObservação
  • Algoritmos de agrupamentos diferentes geram
    resultados diferentes
  • Each clustering criterion imposes a certain
    structure on the data, and if the data happens to
    conform to the requirements of a particular
    criterion, the true clusters are recovered. (P.
    Dhaeseleer)
  • Em geral, não se pode afirmar que há uma técnica
    melhor do que a outra
  • Combinar resultados de diferentes técnicas

42
Análise de Dados de Expressão Gênica Novas
Direções
  • Combinar resultados de diferentes técnicas
  • Combinar dados de expressão com outras fontes de
    informação
  • Artigos publicados
  • Banco de dados de DNA proteína
  • Perfis filogenéticos
  • Funções metabólicas
  • Anotações funcionais de estudos experimentais

43
Referências
  • Expressão Gênica
  • Alberts, B. et al. (1997). Biologia Molecular da
    Célula. Editora Artes Médicas, terceira edição
  • Casley, D. (1992). Primer on Molecular Biology.
    Technical Report, U. S. Department of Energy,
    Office of Health and Environmental Research
  • Lewis, R. (2001). Human Genetics - Concepts and
    Applications. Mc Graw Hill, quarta edição

44
Referências
  • Redes Neurais Artificiais
  • Haykin, S. (1999). Neural Networks A
    Comprehensive Foundation. Prentice Hall

45
Referências
  • Máquinas de Vetores Suporte
  • Cristianini, N. e Shawe-Taylor, J. (2000). An
    Introduction to Support Vector Machines and other
    kernel-based learning methods. Cambridge
    University Press
  • Hearst, M. A. et al. (1998). Trends and
    controversies - support vector machines. IEEE
    Intelligent Systems, 13(4)1828
  • Vapnik, V. N. (1995). The Nature of Statistical
    Learning Theory. Springer-Verlag

46
Referências
  • Algoritmos de Agrupamento
  • Jain, A. K. e Dubes, R. C. (1988). Algorithms for
    clustering data. Prentice Hall.
  • Jain, A. K., Murty, M. N., e Flynn, P. (1999).
    Data clustering a review. ACM Computing Surveys,
    3(31)264--323.
  • Sneath, P. H. A. e Sokal, R. R. (1973). Numerical
    Taxonomy. W. H. Freeman.
  • Kohonen, T. (1997). Self-Organizing Maps.
    Springer-Verlag.
  • Quackenbush, J. (2001). Computational analysis of
    cDNA microarray data. Nature Reviews,
    6(2)418--428.
  • Slonim, D. (2002). From patterns to pathways
    gene expression data analysis comes of age.
    Nature Genetics, 32502--508.

47
Referências
  • Descoberta de Padrões
  • Eisen, M. B. et al. (1998). Cluster analysis and
    display of genome-wide expression pattern. In
    Proc. of National Academy of Sciences USA, volume
    95, pp. 14863--14868.
  • Tamayo, P. et al. (1999). Interpreting patterns
    of gene expression with self-organizing maps
    methods and application to hematopoietic
    differentiation. In Proc. Natl. Acad. Sci. USA,
    962907--2912.
  • Tavazoie, S. et al. (1999). Systematic
    determination of genetic network architecture.
    Nature Genetics, 22281--285.
  • Brazma, A. e Vilo, J. (2000). Gene expression
    data analysis. FEBS Letters, 480(1)17--24.

48
Referências
  • Descoberta de Padrões
  • Golub, T. et al. (1999). Molecular classification
    of cancer class discovery and class prediction
    by gene expression monitoring. Science,
    5439(286)531--537.
  • Alizadeh, A. A. et al. (2000). Distinct types of
    diffuse large B-cell lymphoma identified by gene
    expression profiling. Nature, 403503--511.

49
Referências
  • Descoberta de Classes
  • Khan, J. et al. (2001). Classification and
    diagnostic prediction of cancers using gene
    expression profiling and artificial neural
    networks. Nature Medicine, 7673--679.
  • Brown, M. P. et al. (2000). Knowledge-based
    analysis of microarray gene expression data by
    using support vector machines. In Proc. of
    National Academy of Sciences USA, volume 97,
    pp. 262--267.
Write a Comment
User Comments (0)
About PowerShow.com