PPT – T PowerPoint presentation | free to download

About This Presentation

Title:

T

Description:

T cnicas de Aprendizado de M quina e Dados de Express o G nica Marc lio C. P. de Souto DIMAp/UFRN – PowerPoint PPT presentation

Number of Views:85

Avg rating:3.0/5.0

Slides: 50

Provided by: 2371

Category:

more less

Transcript and Presenter's Notes

Title: T

1
Técnicas de Aprendizado de Máquina e Dados de
Expressão Gênica

Marcílio C. P. de Souto
DIMAp/UFRN

2
Dados de Expressão Gênica
3
AM e Dados de Expressão Gênica (1/2)

Algoritmos não supervisionados descoberta de
classes (e.g., grupos de genes co-regulados)
Algoritmos de agrupamento hierárquico
k-médias
Mapas auto-organizáveis
Algoritmos supervisionados previsão de classes
(e.g., classificação de funções dos genes)
Redes neurais artificiais
Mapas de vetores suporte

4
AM e Dados de Expressão Gênica (2/2)

Desafios para os algoritmos de AM
Centenas de Amostras (exemplos) x Milhares de
genes (características)
Overfitting (super-ajustamento aos dados)
Poucas Replicações Alto Grau de Ruído
Alta variância
Valores faltosos
Exemplos de treinamento rotulados incorretamente
Bases de dados não balaceadas

5
Agrupamento de Dados de Expressão Gênica

Agrupamento de genes
Identificação de genes co-expressos/co-regulados
Identificação de padrões temporais de expressão
Redução de redundância
Agrupamento de amostras
Identificação de novas classes de amostras
biológicas
Novas classes de tumores
Novos tipos de células
Detecção de artefatos nos experimentos

6
Agrupamento de Genes

Agrupamento de genes baseado nas suas expressões
Dado um conjunto de genes de um organismo, em
que cada gene é um padrão
Faça Agrupe os genes baseado na similaridade de
seus valores de expressão

7
Genes Agrupamento Hierárquico (1/2)

Eisen et al. (1998)
Trabalho pioneiro
Dados
6621 genes da levedura submetidos a quatro
situações distintas
Divisão celular e respostas a diferentes
estresses ambientais
Quatro séries temporais com 79 instantes de tempo
Para o agrupamento foram usados apenas 2467 genes
Dados coletados por meio de microarrays de cDNA
Técnica utilizada
Agrupamento hierárquico

8
Genes Agrupamento Hierárquico (2/2)

Eisen et al. (1998) usam o agrupamento
hierárquico com a ligação média
Similaridade entre genes é medida usando uma
modificação do coeficiente de Pearson
Consegue detectar relacionamento inversos
Leva em consideração o deslocamento entre as
curvas
Técnica antiga, também chamada UPGMA em análise
filogenética

9
Matriz de Expressão
Eisen et al. (1998)
experimentos
genes
10
Correlação de Pearson
Eisen et al. (1998)
11
Matriz de Correlação
Eisen et al. (1998)
genes
experimentos
genes
12
Encontrar a Correlação Máxima
Eisen et al. (1998)
genes
13
Combine e Calcule as Correlações
Eisen et al. (1998)
genes
Como um efeito colateral, o algoritmo produz um
dendograma
A B C D
14
Análise Posterior
Eisen et al. (1998)

Seleção de aglomerados
Seleção de um ordenamento dos genes para
visualização
Determinação dos rótulos do aglomerados
Determinação da significância dos aglomerados

15
Resultados
(F) mitochondrial ribosome (G) ATP
synthesis (H) chromatin structure (I)
ribosome and translation (J) DNA replication

Microarray data from Figure 2 of Eisen et al.
(1998). Cluster Analysis and display of
genome-wide expression patterns, Proc. Natl.
Acad. Sci. 95 14863-14868
16
Genes SOMs (1/2)
Tamayo et al. (1999)

Tamayo et al. (1999)
SOMs aplicados a dados sobre a diferenciação de
células sanguíneas
Entradas
Para validar o programa (GENECLUSTER)
Dados sobre o ciclo celular da levedura
Mesmos dados que Cho et al. (1998)
Dados coletados por meio de microarrays de
oligonucleotídeos
828 genes usados após filtro
Padrões normalizados
SOM uma grade 5 x 6, i.e., 30 aglomerados
Distância euclidiana

17
Genes SOMs (1/2)
Tamayo et al. (1999)

Entradas
Dados sobre a diferenciação de células sanguíneas
4 linhagens de células hematopoéticas (HL-60,
U937, Jurkat, NB4)
Dados coletados por meio de microarrays de
oligonucleotídeos
1036 genes usados após filtro
Padrões normalizados
SOM uma grade 6 4 SOM, i.e., 24 aglomerados
Distância euclidiana

18
Genes k-médias
Tavazoie et al. (1999)

Tavazoie et al. (1999)
Entradas
Expressão relativa de 6220 genes da levedura em
dois ciclos célulares - 15 experimentos
Dados coletados por meio de microarrays de
oligonucleotídeos
Utilzados apenas os 3000 genes que apresentaram
maior variância
Foi utilizado o k-médias com a distância
euclidiana para encontrar 10, 30 e 60 aglomerados
Para a análise foi escolhido o resultado do
k-médias com k30

19
Agrupamento de Amostras

Descoberta de novas classes de doenças
Dado um conjunto de experimentos de microarray,
cada um realizado com células de pacientes
diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente
representam as características e as amostras os
padrões.
Faça Agrupe as amostras para encontrar células
que não se ajustam bem as classes atuais. Assumir
que essas pertencem a novas classificações de
doenças.

20
Amostras SOMs (1/2)

Golub et al. (1999)
Trabalho pioneiro
Dados
38 amostras de medula óssea
11 - Leucemia Mielóide Aguda (AML)
27 - Leucemia Aguda Limfoblástica (ALL)
6817 genes humanos
Dados coletados com arrays de oligonucleotídeos
Técnica utilizada
Mapas Auto-Organizáveis (SOMs)

21
Amostras SOMs (2/2)

Golub et al. (1999)
Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
Depois usam um SOM 4x1, i.e., 4 aglomerados
Diferentemente do trabalho de Tamayo et al.
(1999),os mapas são uni-dimensionais
Similaridade entre genes é medida usando a
distância euclidiana
Os dados são padronizados

22
Descoberta Dados AML-ALL com 2 Aglomerados
Golub et al. (1999)
Classe A1 maioria ALL (24/25 amostras) Classe
A2 maioria AML (10/13 amostras)
A2
A2
23
Descoberta Dados AML-ALL com 4 Aglomerados
Golub et al. (1999)
Classe B1 AML Classe B2 ALL Linhagem-T Classe
B3 ALL Linhagem-B Classe B4 ALL Linhagem-B
B1
B2
B3
B4
24
Amostras Agrupamento Hierárquico

Alizadeh et al. (2000)
Entrada
Dados de 96 experimentos com 4026 genes humanos
Os 96 experimentos foram realizados com biopsias
de pacientes com linfoma difuso de grandes
células B (DLBCL)
Foi usado a técnica de agrupamento hierárquico
UPGMA, com a mesma versão do coeficiente de
Pearson em (Eisen et al., 1998).

25
Outros Trabalhos

Costa, I. G., de Carvalho, F. A. T., e de Souto,
M. C.P. (2003). Comparative study on proximity
indices for cluster analysis of gene expression
time series. Journal of Inteligent and Fuzzy
Systems, A ser publicado.
Agrupamento dinâmico
Dopazo, J. et al. (2001). Methods and approaches
in the analysis of gene expression data. Journal
Immunol. Methods, 250(1/2)93--12.
Self-Organizing Tree Algorithm
Raychaudhuri, S., Stuart, J. M., e Altman, R. B.
(2000). Principal components analysis to
summarize microarray experiments Application to
sporulation time series. In Proc. of Pacific
Symposium on Biocomputing, pp. 455--466.
Análise de componentes principais
Sharan, R. e Shamir, R. (2002). CLICK Clustering
algorithm with applications to gene expression
analysis. In Proc. of Intelligent Systems for
Molecular Biology, pp. 307--316.

26
Previsão de Classes

Predição de classes de doenças
Muitas doenças não podem ser distinguidas de
forma confiável por meio de técnicas tradicionais
Diagnóstico de tecidos cancerosos e normais
Classificação de tipos diferentes de cânceres
Vários tumores diferentes têm a mesma aparência
em exames histológicos
Diagnóstico é fundamental para o sucesso do
tratamento
Predição da função biológica de um gene

27
Previsão de Classes de Doenças

Predição de classes de doenças existentes
Dado um conjunto de experimentos de microarray,
cada um realizado com células de pacientes
diferentes, com um determinado grupo de doenças.
Os níveis de expressão de cada paciente
representam as características e as amostras os
padrões.
Faça aprenda um modelo que possa classificar de
maneira precisa uma nova célula na categoria da
doença apropriada.

28
Previsão de Classes de Funções Redes Neurais

Khan et al. (2001)
Problema
SRBCTs
Neuroblastoma (NB)
Rhabdomyosarcoma (RMS)
Non Hodgkin lymphoma (NHL)
The Ewing family of tumors (EWS)
Todos têm aparência similar em exames histológico
Diagnóstico acurante é essencial
Abordagem
Redes Neurais Artificiais (RNs)

29
Previsão de Classes de Funções Redes Neurais
Khan et al. (2001)

Microarray de cDNA com 6567 genes
63 exemplos de treinamento
Material da biopsia de tumores
Linhagens celulares
Filtro para um número mínimo de expressão
2308 genes
Redução da dimensionalidade com PCA
10 componentes dominantes do PCA foram usadas
(63 da variância)
Três-fold cross-validation
3750 redes neurais foram construídas (vote médio)

30
Visão Esquemática do Processo
Khan et al. (2001)
31
Análise dos Dados
Khan et al. (2001)

Arquitetura e parâmetros
Perceptron Linear (PL)
10 entradas representando componentes do PCA
4 nodos de saída um para cada classe de tumor
(EWS, BL, NB e RMS)
44 parâmetros livres, incluindo quatro unidades
de threshold
Treinamento realizado com o JETNET
?0.7 momentum0.3
Taxa de aprendizado decrementada a cada iteração
(0.99)
Pesos iniciais escolhidos aleatoriamente em
-r,r (r0.1/F)
Pesos atualizados a cada 10 épocas
No máximo 100 épocas

32
Observações
Khan et al. (2001)

Técnicas de diagnóstico de tumores são em geral
baseadas em histologia (morfologia) e
imuno-histoquímica (expressão de proteínas)
Alternativa
Redes Neurais artificiais com dados de expressão
gênica
Um dos primeiros trabalho a testar rigorosamente
uma técnica de classificação, com dados de
expressão gênica, para o diagnósticos de mais de
duas categorias
Não houve overfitting e o erro de classificação
no conjunto de treinamento foi igual a zero
Dados
Tumores e linhagem celulares
Linhagens celulares para trinar RNs

33
Previsão de Classes de Funções

Predição da função biológica de um gene
Dado um conjunto de genes cuja classificação
funcional é conhecida, junto com a expressão
desses genes em diferentes condições.
Faça aprenda a predizer a categoria funcional de
genes adicionais (não vistos durante o
treinamento) baseado em um vetor de níveis de
expressão formado de acordo com o conjunto de
condições experimentais especificadas.

34
Previsão de Classes de Funções Máquinas de
Vetores Suporte (SVMs)
Conhecimento a priori sobre a função do gene

35
SVMs (1/2)
Conhecimento a priori da função do gene Genes
que codificam proteínas ribomosais
36
SVMs (2/2)
Padrões de Treino
gene 1, 1, gene 2, 1, , gene N-1, 1,
gene N, 1
gene a, -1, gene b, -1,
Baseado nos dados de expressão
SVM treino
SVM teste
37
SVMs Treinamento
Membros
Não membros
Não separável c/ um hiperplano no espaço de
entradas
Separável com um hiperplano no espaço de
características
38
Previsão de Classes de Funções SVMs
Brown et al. (2000)
2467 genes da levedura
Dados de Microarray Exemplos de Treino
79 experimentos
39
Previsão de Classes de Funções SVMs
Brown et al. (2000)
Resultados mostraram baixo número de
falsos-positivos e falsos-negativos quando
comparado com outras técnicas de aprendizado
supervisionado, tais como janelas de Parzen,
discriminate linear de Fisher e árvores de
decisão.
40
Outros Trabalhos

Eisen, M. B. et al. (1998). Cluster analysis and
display of genome-wide expression pattern. In
Proc. of National Academy of Sciences USA, volume
95, pp. 14863--14868.
Votação ponderada
Shipp, M. A. et al. (2002). Diffuse large
B-cell lymphoma outcome prediction by
gene-expression profiling and supervised machine
learning. Nature Medicine, 8(1)68--74.
k vizinhos mais próximos

41
Análise de Dados de Expressão GênicaObservação

Algoritmos de agrupamentos diferentes geram
resultados diferentes
Each clustering criterion imposes a certain
structure on the data, and if the data happens to
conform to the requirements of a particular
criterion, the true clusters are recovered. (P.
Dhaeseleer)
Em geral, não se pode afirmar que há uma técnica
melhor do que a outra
Combinar resultados de diferentes técnicas

42
Análise de Dados de Expressão Gênica Novas
Direções

Combinar resultados de diferentes técnicas
Combinar dados de expressão com outras fontes de
informação
Artigos publicados
Banco de dados de DNA proteína
Perfis filogenéticos
Funções metabólicas
Anotações funcionais de estudos experimentais

43
Referências

Expressão Gênica
Alberts, B. et al. (1997). Biologia Molecular da
Célula. Editora Artes Médicas, terceira edição
Casley, D. (1992). Primer on Molecular Biology.
Technical Report, U. S. Department of Energy,
Office of Health and Environmental Research
Lewis, R. (2001). Human Genetics - Concepts and
Applications. Mc Graw Hill, quarta edição

44
Referências

Redes Neurais Artificiais
Haykin, S. (1999). Neural Networks A
Comprehensive Foundation. Prentice Hall

45
Referências

Máquinas de Vetores Suporte
Cristianini, N. e Shawe-Taylor, J. (2000). An
Introduction to Support Vector Machines and other
kernel-based learning methods. Cambridge
University Press
Hearst, M. A. et al. (1998). Trends and
controversies - support vector machines. IEEE
Intelligent Systems, 13(4)1828
Vapnik, V. N. (1995). The Nature of Statistical
Learning Theory. Springer-Verlag

46
Referências

Algoritmos de Agrupamento
Jain, A. K. e Dubes, R. C. (1988). Algorithms for
clustering data. Prentice Hall.
Jain, A. K., Murty, M. N., e Flynn, P. (1999).
Data clustering a review. ACM Computing Surveys,
3(31)264--323.
Sneath, P. H. A. e Sokal, R. R. (1973). Numerical
Taxonomy. W. H. Freeman.
Kohonen, T. (1997). Self-Organizing Maps.
Springer-Verlag.
Quackenbush, J. (2001). Computational analysis of
cDNA microarray data. Nature Reviews,
6(2)418--428.
Slonim, D. (2002). From patterns to pathways
gene expression data analysis comes of age.
Nature Genetics, 32502--508.

47
Referências

Descoberta de Padrões
Eisen, M. B. et al. (1998). Cluster analysis and
display of genome-wide expression pattern. In
Proc. of National Academy of Sciences USA, volume
95, pp. 14863--14868.
Tamayo, P. et al. (1999). Interpreting patterns
of gene expression with self-organizing maps
methods and application to hematopoietic
differentiation. In Proc. Natl. Acad. Sci. USA,
962907--2912.
Tavazoie, S. et al. (1999). Systematic
determination of genetic network architecture.
Nature Genetics, 22281--285.
Brazma, A. e Vilo, J. (2000). Gene expression
data analysis. FEBS Letters, 480(1)17--24.

48
Referências

Descoberta de Padrões
Golub, T. et al. (1999). Molecular classification
of cancer class discovery and class prediction
by gene expression monitoring. Science,
5439(286)531--537.
Alizadeh, A. A. et al. (2000). Distinct types of
diffuse large B-cell lymphoma identified by gene
expression profiling. Nature, 403503--511.

49
Referências

Descoberta de Classes
Khan, J. et al. (2001). Classification and
diagnostic prediction of cancers using gene
expression profiling and artificial neural
networks. Nature Medicine, 7673--679.
Brown, M. P. et al. (2000). Knowledge-based
analysis of microarray gene expression data by
using support vector machines. In Proc. of
National Academy of Sciences USA, volume 97,
pp. 262--267.