Title: T
1Técnicas de Aprendizado de Máquina e Dados de
Expressão Gênica
- Marcílio C. P. de Souto
- DIMAp/UFRN
2Dados de Expressão Gênica
3AM e Dados de Expressão Gênica (1/2)
- Algoritmos não supervisionados descoberta de
classes (e.g., grupos de genes co-regulados) - Algoritmos de agrupamento hierárquico
- k-médias
- Mapas auto-organizáveis
- Algoritmos supervisionados previsão de classes
(e.g., classificação de funções dos genes) - Redes neurais artificiais
- Mapas de vetores suporte
4AM e Dados de Expressão Gênica (2/2)
- Desafios para os algoritmos de AM
- Centenas de Amostras (exemplos) x Milhares de
genes (características) - Overfitting (super-ajustamento aos dados)
- Poucas Replicações Alto Grau de Ruído
- Alta variância
- Valores faltosos
- Exemplos de treinamento rotulados incorretamente
- Bases de dados não balaceadas
5Agrupamento de Dados de Expressão Gênica
- Agrupamento de genes
- Identificação de genes co-expressos/co-regulados
- Identificação de padrões temporais de expressão
- Redução de redundância
- Agrupamento de amostras
- Identificação de novas classes de amostras
biológicas - Novas classes de tumores
- Novos tipos de células
- Detecção de artefatos nos experimentos
6Agrupamento de Genes
- Agrupamento de genes baseado nas suas expressões
- Dado um conjunto de genes de um organismo, em
que cada gene é um padrão - Faça Agrupe os genes baseado na similaridade de
seus valores de expressão
7Genes Agrupamento Hierárquico (1/2)
- Eisen et al. (1998)
- Trabalho pioneiro
- Dados
- 6621 genes da levedura submetidos a quatro
situações distintas - Divisão celular e respostas a diferentes
estresses ambientais - Quatro séries temporais com 79 instantes de tempo
- Para o agrupamento foram usados apenas 2467 genes
- Dados coletados por meio de microarrays de cDNA
- Técnica utilizada
- Agrupamento hierárquico
8Genes Agrupamento Hierárquico (2/2)
- Eisen et al. (1998) usam o agrupamento
hierárquico com a ligação média - Similaridade entre genes é medida usando uma
modificação do coeficiente de Pearson - Consegue detectar relacionamento inversos
- Leva em consideração o deslocamento entre as
curvas - Técnica antiga, também chamada UPGMA em análise
filogenética
9Matriz de Expressão
Eisen et al. (1998)
experimentos
genes
10Correlação de Pearson
Eisen et al. (1998)
11Matriz de Correlação
Eisen et al. (1998)
genes
experimentos
genes
12Encontrar a Correlação Máxima
Eisen et al. (1998)
genes
13Combine e Calcule as Correlações
Eisen et al. (1998)
genes
Como um efeito colateral, o algoritmo produz um
dendograma
A B C D
14Análise Posterior
Eisen et al. (1998)
- Seleção de aglomerados
- Seleção de um ordenamento dos genes para
visualização - Determinação dos rótulos do aglomerados
- Determinação da significância dos aglomerados
15Resultados
(F) mitochondrial ribosome (G) ATP
synthesis (H) chromatin structure (I)
ribosome and translation (J) DNA replication
Microarray data from Figure 2 of Eisen et al.
(1998). Cluster Analysis and display of
genome-wide expression patterns, Proc. Natl.
Acad. Sci. 95 14863-14868
16Genes SOMs (1/2)
Tamayo et al. (1999)
- Tamayo et al. (1999)
- SOMs aplicados a dados sobre a diferenciação de
células sanguíneas - Entradas
- Para validar o programa (GENECLUSTER)
- Dados sobre o ciclo celular da levedura
- Mesmos dados que Cho et al. (1998)
- Dados coletados por meio de microarrays de
oligonucleotídeos - 828 genes usados após filtro
- Padrões normalizados
- SOM uma grade 5 x 6, i.e., 30 aglomerados
- Distância euclidiana
-
17Genes SOMs (1/2)
Tamayo et al. (1999)
- Entradas
- Dados sobre a diferenciação de células sanguíneas
- 4 linhagens de células hematopoéticas (HL-60,
U937, Jurkat, NB4) - Dados coletados por meio de microarrays de
oligonucleotídeos - 1036 genes usados após filtro
- Padrões normalizados
- SOM uma grade 6 4 SOM, i.e., 24 aglomerados
- Distância euclidiana
-
18Genes k-médias
Tavazoie et al. (1999)
- Tavazoie et al. (1999)
- Entradas
- Expressão relativa de 6220 genes da levedura em
dois ciclos célulares - 15 experimentos - Dados coletados por meio de microarrays de
oligonucleotídeos - Utilzados apenas os 3000 genes que apresentaram
maior variância - Foi utilizado o k-médias com a distância
euclidiana para encontrar 10, 30 e 60 aglomerados - Para a análise foi escolhido o resultado do
k-médias com k30 -
19Agrupamento de Amostras
- Descoberta de novas classes de doenças
- Dado um conjunto de experimentos de microarray,
cada um realizado com células de pacientes
diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente
representam as características e as amostras os
padrões. - Faça Agrupe as amostras para encontrar células
que não se ajustam bem as classes atuais. Assumir
que essas pertencem a novas classificações de
doenças.
20Amostras SOMs (1/2)
- Golub et al. (1999)
- Trabalho pioneiro
- Dados
- 38 amostras de medula óssea
- 11 - Leucemia Mielóide Aguda (AML)
- 27 - Leucemia Aguda Limfoblástica (ALL)
- 6817 genes humanos
- Dados coletados com arrays de oligonucleotídeos
- Técnica utilizada
- Mapas Auto-Organizáveis (SOMs)
21Amostras SOMs (2/2)
- Golub et al. (1999)
- Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
- Depois usam um SOM 4x1, i.e., 4 aglomerados
- Diferentemente do trabalho de Tamayo et al.
(1999),os mapas são uni-dimensionais - Similaridade entre genes é medida usando a
distância euclidiana - Os dados são padronizados
22Descoberta Dados AML-ALL com 2 Aglomerados
Golub et al. (1999)
Classe A1 maioria ALL (24/25 amostras) Classe
A2 maioria AML (10/13 amostras)
A2
A2
23Descoberta Dados AML-ALL com 4 Aglomerados
Golub et al. (1999)
Classe B1 AML Classe B2 ALL Linhagem-T Classe
B3 ALL Linhagem-B Classe B4 ALL Linhagem-B
B1
B2
B3
B4
24Amostras Agrupamento Hierárquico
- Alizadeh et al. (2000)
- Entrada
- Dados de 96 experimentos com 4026 genes humanos
- Os 96 experimentos foram realizados com biopsias
de pacientes com linfoma difuso de grandes
células B (DLBCL) - Foi usado a técnica de agrupamento hierárquico
UPGMA, com a mesma versão do coeficiente de
Pearson em (Eisen et al., 1998).
25Outros Trabalhos
- Costa, I. G., de Carvalho, F. A. T., e de Souto,
M. C.P. (2003). Comparative study on proximity
indices for cluster analysis of gene expression
time series. Journal of Inteligent and Fuzzy
Systems, A ser publicado. - Agrupamento dinâmico
- Dopazo, J. et al. (2001). Methods and approaches
in the analysis of gene expression data. Journal
Immunol. Methods, 250(1/2)93--12. - Self-Organizing Tree Algorithm
- Raychaudhuri, S., Stuart, J. M., e Altman, R. B.
(2000). Principal components analysis to
summarize microarray experiments Application to
sporulation time series. In Proc. of Pacific
Symposium on Biocomputing, pp. 455--466. - Análise de componentes principais
- Sharan, R. e Shamir, R. (2002). CLICK Clustering
algorithm with applications to gene expression
analysis. In Proc. of Intelligent Systems for
Molecular Biology, pp. 307--316.
26Previsão de Classes
- Predição de classes de doenças
- Muitas doenças não podem ser distinguidas de
forma confiável por meio de técnicas tradicionais
- Diagnóstico de tecidos cancerosos e normais
- Classificação de tipos diferentes de cânceres
- Vários tumores diferentes têm a mesma aparência
em exames histológicos - Diagnóstico é fundamental para o sucesso do
tratamento - Predição da função biológica de um gene
27Previsão de Classes de Doenças
- Predição de classes de doenças existentes
- Dado um conjunto de experimentos de microarray,
cada um realizado com células de pacientes
diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente
representam as características e as amostras os
padrões. - Faça aprenda um modelo que possa classificar de
maneira precisa uma nova célula na categoria da
doença apropriada.
28Previsão de Classes de Funções Redes Neurais
- Khan et al. (2001)
- Problema
- SRBCTs
- Neuroblastoma (NB)
- Rhabdomyosarcoma (RMS)
- Non Hodgkin lymphoma (NHL)
- The Ewing family of tumors (EWS)
- Todos têm aparência similar em exames histológico
- Diagnóstico acurante é essencial
- Abordagem
- Redes Neurais Artificiais (RNs)
29Previsão de Classes de Funções Redes Neurais
Khan et al. (2001)
- Microarray de cDNA com 6567 genes
- 63 exemplos de treinamento
- Material da biopsia de tumores
- Linhagens celulares
- Filtro para um número mínimo de expressão
- 2308 genes
- Redução da dimensionalidade com PCA
- 10 componentes dominantes do PCA foram usadas
(63 da variância) - Três-fold cross-validation
- 3750 redes neurais foram construídas (vote médio)
30Visão Esquemática do Processo
Khan et al. (2001)
31Análise dos Dados
Khan et al. (2001)
- Arquitetura e parâmetros
- Perceptron Linear (PL)
- 10 entradas representando componentes do PCA
- 4 nodos de saída um para cada classe de tumor
(EWS, BL, NB e RMS) - 44 parâmetros livres, incluindo quatro unidades
de threshold - Treinamento realizado com o JETNET
- ?0.7 momentum0.3
- Taxa de aprendizado decrementada a cada iteração
(0.99) - Pesos iniciais escolhidos aleatoriamente em
-r,r (r0.1/F) - Pesos atualizados a cada 10 épocas
- No máximo 100 épocas
32Observações
Khan et al. (2001)
- Técnicas de diagnóstico de tumores são em geral
baseadas em histologia (morfologia) e
imuno-histoquímica (expressão de proteínas) - Alternativa
- Redes Neurais artificiais com dados de expressão
gênica - Um dos primeiros trabalho a testar rigorosamente
uma técnica de classificação, com dados de
expressão gênica, para o diagnósticos de mais de
duas categorias - Não houve overfitting e o erro de classificação
no conjunto de treinamento foi igual a zero - Dados
- Tumores e linhagem celulares
- Linhagens celulares para trinar RNs
33Previsão de Classes de Funções
- Predição da função biológica de um gene
- Dado um conjunto de genes cuja classificação
funcional é conhecida, junto com a expressão
desses genes em diferentes condições. - Faça aprenda a predizer a categoria funcional de
genes adicionais (não vistos durante o
treinamento) baseado em um vetor de níveis de
expressão formado de acordo com o conjunto de
condições experimentais especificadas.
34Previsão de Classes de Funções Máquinas de
Vetores Suporte (SVMs)
Conhecimento a priori sobre a função do gene
35SVMs (1/2)
Conhecimento a priori da função do gene Genes
que codificam proteínas ribomosais
36SVMs (2/2)
Padrões de Treino
gene 1, 1, gene 2, 1, , gene N-1, 1,
gene N, 1
gene a, -1, gene b, -1,
Baseado nos dados de expressão
SVM treino
SVM teste
37SVMs Treinamento
Membros
Não membros
Não separável c/ um hiperplano no espaço de
entradas
Separável com um hiperplano no espaço de
características
38Previsão de Classes de Funções SVMs
Brown et al. (2000)
2467 genes da levedura
Dados de Microarray Exemplos de Treino
79 experimentos
39Previsão de Classes de Funções SVMs
Brown et al. (2000)
Resultados mostraram baixo número de
falsos-positivos e falsos-negativos quando
comparado com outras técnicas de aprendizado
supervisionado, tais como janelas de Parzen,
discriminate linear de Fisher e árvores de
decisão.
40Outros Trabalhos
- Eisen, M. B. et al. (1998). Cluster analysis and
display of genome-wide expression pattern. In
Proc. of National Academy of Sciences USA, volume
95, pp. 14863--14868. - Votação ponderada
- Shipp, M. A. et al. (2002). Diffuse large
B-cell lymphoma outcome prediction by
gene-expression profiling and supervised machine
learning. Nature Medicine, 8(1)68--74. - k vizinhos mais próximos
41Análise de Dados de Expressão GênicaObservação
- Algoritmos de agrupamentos diferentes geram
resultados diferentes - Each clustering criterion imposes a certain
structure on the data, and if the data happens to
conform to the requirements of a particular
criterion, the true clusters are recovered. (P.
Dhaeseleer) - Em geral, não se pode afirmar que há uma técnica
melhor do que a outra - Combinar resultados de diferentes técnicas
42Análise de Dados de Expressão Gênica Novas
Direções
- Combinar resultados de diferentes técnicas
- Combinar dados de expressão com outras fontes de
informação - Artigos publicados
- Banco de dados de DNA proteína
- Perfis filogenéticos
- Funções metabólicas
- Anotações funcionais de estudos experimentais
43Referências
- Expressão Gênica
- Alberts, B. et al. (1997). Biologia Molecular da
Célula. Editora Artes Médicas, terceira edição - Casley, D. (1992). Primer on Molecular Biology.
Technical Report, U. S. Department of Energy,
Office of Health and Environmental Research - Lewis, R. (2001). Human Genetics - Concepts and
Applications. Mc Graw Hill, quarta edição
44Referências
- Redes Neurais Artificiais
- Haykin, S. (1999). Neural Networks A
Comprehensive Foundation. Prentice Hall
45Referências
- Máquinas de Vetores Suporte
- Cristianini, N. e Shawe-Taylor, J. (2000). An
Introduction to Support Vector Machines and other
kernel-based learning methods. Cambridge
University Press - Hearst, M. A. et al. (1998). Trends and
controversies - support vector machines. IEEE
Intelligent Systems, 13(4)1828 - Vapnik, V. N. (1995). The Nature of Statistical
Learning Theory. Springer-Verlag
46Referências
- Algoritmos de Agrupamento
- Jain, A. K. e Dubes, R. C. (1988). Algorithms for
clustering data. Prentice Hall. - Jain, A. K., Murty, M. N., e Flynn, P. (1999).
Data clustering a review. ACM Computing Surveys,
3(31)264--323. - Sneath, P. H. A. e Sokal, R. R. (1973). Numerical
Taxonomy. W. H. Freeman. - Kohonen, T. (1997). Self-Organizing Maps.
Springer-Verlag. - Quackenbush, J. (2001). Computational analysis of
cDNA microarray data. Nature Reviews,
6(2)418--428. - Slonim, D. (2002). From patterns to pathways
gene expression data analysis comes of age.
Nature Genetics, 32502--508.
47Referências
- Descoberta de Padrões
- Eisen, M. B. et al. (1998). Cluster analysis and
display of genome-wide expression pattern. In
Proc. of National Academy of Sciences USA, volume
95, pp. 14863--14868. - Tamayo, P. et al. (1999). Interpreting patterns
of gene expression with self-organizing maps
methods and application to hematopoietic
differentiation. In Proc. Natl. Acad. Sci. USA,
962907--2912. - Tavazoie, S. et al. (1999). Systematic
determination of genetic network architecture.
Nature Genetics, 22281--285. - Brazma, A. e Vilo, J. (2000). Gene expression
data analysis. FEBS Letters, 480(1)17--24.
48Referências
- Descoberta de Padrões
- Golub, T. et al. (1999). Molecular classification
of cancer class discovery and class prediction
by gene expression monitoring. Science,
5439(286)531--537. - Alizadeh, A. A. et al. (2000). Distinct types of
diffuse large B-cell lymphoma identified by gene
expression profiling. Nature, 403503--511.
49Referências
- Descoberta de Classes
- Khan, J. et al. (2001). Classification and
diagnostic prediction of cancers using gene
expression profiling and artificial neural
networks. Nature Medicine, 7673--679. - Brown, M. P. et al. (2000). Knowledge-based
analysis of microarray gene expression data by
using support vector machines. In Proc. of
National Academy of Sciences USA, volume 97,
pp. 262--267.