Title: Avalia
1 Avaliação do Conhecimento Descoberto
- Fábio Moura
- orientado por
- Francisco Carvalho
2Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
3Motivação
- Avaliação a chave para o sucesso em data mining
- Qual o grau de confiabilidade do modelo
aprendido? - Performance no conjunto de treinamento não é um
bom indicador de performance em dados futuros - Solução simples
- Utilize um amplo conjunto de dados para
treinamento e teste - Quando dados não são facilmente disponíveis
- Utilização de técnicas mais sofisticadas
- Ex. dados sobre consumo de energia dos últimos
15 anos
4Tópicos em Avaliação do Conhecimento Descoberto
- Testes estatísticos para determinar a performance
de diferentes esquemas de aprendizado de máquina - Escolha da medida de performance
- Número de classificações corretas
- Precisão da previsão de probabilidade em classes
- Erros em previsões numéricas
- Custos associados a diferentes tipos de erros
- Muitas aplicações práticas envolvem custos
5Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
6Treinamento e Teste
- Medida natural para classificação de problemas
taxa de erro - Acerto instância da classe é prevista
corretamente - Erro instância da classe é prevista
incorretamente - Taxa de erro proporção dos erros sobre todo o
conjunto de instâncias - Erro de resubstituição taxa de erro obtida do
conjunto de treinamento - Erro de resubstituição é (esperançosamente)
otimista !
7Treinamento e Teste
- Conjunto de teste conjunto de instâncias
independentes que não são utilizadas na formação
do classificador - Suposição tanto o conjunto de dados para
treinamento como o conjunto de dados para teste
são exemplos representativos do problema em
questão - Dados de teste e treinamento podem ser
naturalmente diferentes - Exemplo classificadores construidos
utilizando-se dados de duas cidades diferentes A
e B - Estimar a performance de um classificador da
cidade A e testá-lo utilizando-se dados da cidade
B
8Observações sobre Ajuste de Parâmetros
- É importante que os dados de teste não sejam
utilizados para criação do classificador - Alguns esquemas de aprendizado operam em dois
estágios - Estágio 1 construção da estrutura básica
- Estágio 2 otimização dos parâmetros
- Os dados de teste não podem ser utilizados para
ajuste dos parâmetros - Procedimentos apropriados utilizam três
conjuntos dados de treinamento, validação e
teste - Dados de validação são utilizados para otimização
dos parâmetros
9Aproveitando Melhor os Dados
- Uma vez que a avaliação está completa, todos os
dados podem ser utilizados na construção do
classificador final - Geralmente, quanto maior o conjunto de dados para
treinamento, melhor o classificador - Quanto maior o conjunto de dados para teste, mais
precisa a estimativa de erro - Procedimento Holdout método para divisão dos
dados originais nos conjuntos de treinamento e
teste - Dilema idealmente queremos os dois, um grande
conjunto de dados para treinamento e para teste
10Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
11Estimando Performance
- Assuma uma taxa de erro estimada de 25. O quão
perto esta taxa está da taxa de erro real? - Depende do volume de dados para teste
- Previsão é como jogar uma moeda viciada
- Cara é um acerto, coroa é um erro
- Em estatística, uma sucessão de eventos
independentes como este é chamado de um processo
Bernoulli - A teoria estatística nos provê com intervalos de
confidência que mostra a proporção em que a
verdade se fundamenta
12Intervalos de Confidência
- Nós podemos dizer p possui um certo intervalo
especificado com uma certa confidência
especificada - Exemplo S750 acertos em N1000 tentativas
- Taxa de acerto estimada 75
- O quão próximo esta taxa está da verdadeira taxa
de acerto p? - Resposta com 95 de confidência p ? 73.3, 76.8
- Outro exemplo S75 e N100
- Taxa de acerto estimada 75
- Com 95 de confidência p ? 70.0, 81.0
13Média e Variância
- Média e variância para um teste Bernoulli p,
p(1-p) - Taxa de acerto esperada f S/N
- Média e variância para f p, p(1-p)/N
- Para um N suficientemente grande, f segue uma
distribuição normal - c intervalo de confidência -z ? X ? z para uma
variável aleatória com média 0 é dada por Pr-z
? X ? z c - Dando uma distribuição simétrica Pr-z ? X
? z 1 - (2PrX ? z)
14Limites de Confidência
- Limites de confidência para uma distribuição
normal com média 0 e variância 1
- Assim Pr-1,65 ? X ? 1,65 90
- Para utilizar isto, temos que reduzir nossa
variável aleatória f para que tenha média 0 e
variância unitária
15Transformando f
- Valor transformado para f (i.e.
subtração da média e divisão pelo desvio padrão) - Equação resultante
- Resolvida para p
16Exemplos
- f75, N1000, c80 (então z1.28) p
?0.732, 0.767 - f75, N100, c80 (então z1.28) p
?0.691, 0.801 - Note que a suposição de distribuição normal
somente é válida para um N grande (i.e. N gt
100) - f75, N10, c80 (então z1.28) p
?0.549, 0.881
17Estimativa Holdout
- O que devemos fazer se a quantidade de dados é
limitada? - O método holdout reserva uma certa quantidade de
dados para teste e utiliza o restante para
treinamento - Normalmente um terço para teste, o restante para
treinamento - Problema os exemplos podem não ser
representativos - Exemplo classe faltando nos dados de teste
- A versão avançada utiliza estratificação
- Garante que cada classe esteja representada com
aproximadamente a mesma proporção em ambos
conjuntos
18Método Holdout Repetitivo
- A estimativa holdout pode se tornar mais
confiável se repetirmos o processo com diferentes
subexemplos - Em cada iteração, uma certa proporção é
aleatoriamente selecionada para treinamento
(possivelmente com estratificação) - Um média das taxas de erro nas diferentes
iterações é calculada para produção de uma taxa
de erro geral - Continua não sendo ótimo diferentes conjuntos de
teste se sobrepõem - Podemos prevenir sobreposição?
19Cross-validation
- Cross-validation evita sobreposição de conjuntos
de teste - Primeiro passo os dados são divididos em k
subconjuntos de tamanho igual - Segundo passo cada subconjunto, em fila, é
utilizado para teste e o restante para
treinamento - Este processo é chamado k-fold cross-validation
- Geralmente os subconjuntos são estratificados
antes que a validação cruzada seja realizada - Calcula-se a média dos erros estimados a fim de
se produzir uma estimativa de erro geral
20Cross-validation
- Método padrão de avaliação ten-fold
cross-validation estratificado - Por que dez? Experimentos extensivos mostraram
que esta é a melhor escolha a fim de se conseguir
uma estimativa precisa - Também existem algumas evidências teóricas
- Estratificação reduz a variação da estimativa
- Ainda melhor cross-validation estratificado
repetitivo - Ten-fold cross-validation é repetido dez vezes e
a média dos resultados é calculada
21Leave-one-out Cross-validation
- É uma forma particular de cross-validation
- O número de folds é fixado com o número de
instâncias para treinamento - Um classificador tem que ser construído n vezes,
onde n é o número de instâncias para treinamento - Faz uso máximo dos dados
- Não envolve o uso de subexemplos aleatórios
- Computacionalmente muito caro
22LOO-CV e Estratificação
- Outra desvantagem do LOO-CV não é possível
estratificação - Há apenas uma instância no conjunto de teste
- Exemplo extremo conjunto de dados completamente
aleatório com duas classes em igual proporção - Melhor indutor que prevê a classe majoritária
(resulta em 50) - A estimativa LOO-CV para este indutor seria de
uma taxa de erro de 100
23Bootstrap
- CV utiliza exemplos sem substituição
- A mesma instância, uma vez selecionada, não pode
ser selecionada novamente para um conjunto de
treinamento/teste em particular - O bootstrap é um método de estimativa que utiliza
exemplos com substituição para formar o conjunto
de treinamento - Um conjunto de dados com n instâncias é utilizado
n vezes a fim de formar um novo conjunto de dados
com n instâncias - Estes dados são utilizados como conjunto de
treinamento - As instâncias do conjunto de dados original que
não ocorrem no novo conjunto de treinamento são
utilizadas para teste
240.632 Bootstrap
- Este método também é conhecido como 0.632
bootstrap - Uma particular instância tem a probabilidade de
1-1/n de não ser utilizada - Assim, sua probabilidade de terminar nos dados de
teste é - Isto significa que o conjunto de dados para
treinamento irá conter aproximadamente 63.2 das
instâncias
25Estimando Erro Com o Bootstrap
- O erro estimado nos dados de teste será muito
pessimista - Ele contém apenas 63 das instâncias
- Assim, ele é combinado com o erro de
resubstituição - O erro de resubstituição tem menor peso que o
erro nos dados de teste - O processo é repetido várias vezes, com
diferentes exemplos gerados, toma-se a média dos
resultados
26Observações sobre Bootstrap
- É provavelmente a melhor maneira para estimativa
de performance em conjuntos de dados muito
pequenos - Entretanto, possui alguns problemas
- Considerando o conjunto de dados aleatório
anterior - Um perfeito memorizador alcançará 0 de erro de
resubstituição e 50 de erro nos dados de teste - Bootstrap estimará para este classificador
err 0.632 x 50 0.368 x 0 31.6 - Verdadeira taxa de erro esperada 50
27Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
28Comparando Esquemas de Aprendizado
- Situação freqüente queremos saber entre dois
esquemas de aprendizado qual o de melhor
performance - Nota isto é dependente do domínio
- Caminho óbvio compare estimativas 10-fold CV
- Problema variação na estimativa
- A variação pode ser reduzida utilizando-se CV
repetitivo - Entretanto, ainda não sabemos se os resultados
são confiáveis
29Testes de Significância
- Testes de significância nos diz o quão
confidentes podemos ser que realmente existe uma
diferença - Hipótese nula não há diferença real
- Hipótese alternativa há uma diferença
- Um teste de significância mede quanta evidência
existe em favor de rejeitar-se a hipótese nula - Se estivermos utilizando 10-fold CV 10 vezes
- Então nós queremos saber se as duas médias das
estimativas do 10 CV são significantemente
diferentes
30Paired t-test
- Students t-test nos diz se a média de dois
exemplos são significantemente diferentes - Os exemplos individuais são tomados do conjunto
de todos as estimativas cross-validation
possíveis - Nós utilizamos o paired t-test porque os exemplos
individuais são casados - O mesmo CV é aplicado duas vezes, uma para cada
esquema - Fazendo x1, x2, ..., xk e y1, y2, ..., yk serem
os 2k exemplos para um k ten-fold CV
31Distribuição das Médias
- Sendo mx e my as médias dos respectivos exemplos
- Se existirem exemplos suficientes, a média de um
conjunto independente de exemplos é normalmente
distribuída - As variâncias estimadas das médias são ?x2/k e
?y2/k - Se ?x e ?y são as verdadeiras médias entãosão
aproximações normalmente distribuídas com média 0
e variância unitária
32Distribuição Student
- Com exemplos pequenos (k lt 100) a média segue a
distribuição student com k -1 graus de liberdade - Limites de confidência para 9 graus de liberdade
(esquerda), comparado a limites para uma
distribuição normal (direita)
33Distribuição das Diferenças
- Seja md mx - my
- A diferença das médias (md) também tem uma
distribuição student com k-1 graus de liberdade - Seja ?d2/k a variância da diferença
- A versão padronizada de md é chamada t-statistic
- Nós utilizamos t para realizar o t-teste
34Realizando o Teste
- Fixe um nível de significância ?
- Se a diferença está significantemente no nível ?
há uma chance de (100 - ?) de que realmente
exista uma diferença - Divida o nível de significância por dois já que o
teste é two-tailed - A verdadeira diferença pode ser positiva ou
negativa - Verifique o valor de z que corresponde a ?/2
- Se t ? -z ou t ? z então a diferença é
significante - A hipótese nula pode ser rejeitada
35Observações
- Se as CV estimadas forem de diferentes sorteios,
não há mais casamento - Talvez nós ainda usemos k-fold CV para um esquema
e j-fold CV para outro - Então devemos utilizar o t-teste unpaired com
min(k,j)-1 graus de liberdade - A t-statistic se torna
36Notas sobre a Interpretação do Resultado
- Toda estimativa cross-validation é baseada no
mesmo conjunto de dados - Portanto, o teste apenas nos diz quando um
completo k-fold CV para este conjunto de dados
irá mostrar uma diferença - Um k-fold CV completo irá gerar todas as
possíveis partições dos dados em k conjuntos e
calcular a média dos resultados - Idealmente, nós queremos conjuntos de dados de
exemplo diferentes para cada estimativa k-fold CV
usando o teste para julgar a performance através
de diferentes conjuntos de treinamento
37Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
38Predizendo Probabilidades
- Medida de performance taxa de acerto
- Também chamada função de perda 0-1
- Muitos classificadores produzem classes de
probabilidades - Dependendo da aplicação, nós podemos querer
checar a precisão das estimativas de
probabilidade - Perda 0-1 não é o modelo correto a ser utilizado
nestes casos
39Função de Perda Quadrática
- p1, ..., pk são probabilidades estimadas para uma
instância - Seja c o índice da classe atual da instância
- a1, ..., ak 0, exceto para ac, que é 1
- A perda quadrática é
- Justificativa
40Função de Perda Informacional
- A informational loss function é log(pc), onde
c é o índice da classe atual da instância - Número de bits necessários para comunicar a
classe atual - Ex. cara ou coroa - log2 1/2 1
- Sejam p1, ..., pk as probabilidades verdadeiras
das classes - Então o valor esperado para a função de perda
é - Justificativa minimizado para pj pj
- Dificuldade problema da freqüência zero
- Se a probabilidade é zero, o valor da função é -?
41Observações
- Qual função de perda deveríamos escolher?
- A quadratic loss function leva em conta todas
as probabilidades de classes estimadas para uma
instância - A informational loss foca somente na
probabilidade estimada para a classe atual - A quadratic loss é restringida por
- Nunca poderá exceder a 2
- A informational loss poderã ser infinita
- A informational loss está relacionada ao
princípio MDL
42Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
43Contabilizando os Custos
- Na prática, diferentes tipos de erros de
classificação geralmente incorrem em diferentes
custos - Exemplos
- Decisões de empréstimo
- Detecção de vazamento de óleo
- Diagnóstico de falha
- Cartas promocionais
- enviar carta p/ família q ñ responderá x ñ enviar
carta p/ família q responderá
44Mantendo Custos em Conta
- A matriz confusão
- Há muitos outros tipos de custos
- Custos de coleta de dados para treinamento
45Lift Charts
- Na prática, custos raramente são desconhecidos
- Decisões são tomadas geralmente pela comparação
de cenários possíveis - Exemplo cartas promocionais
- Situação 1 classificador prevê que 0,1 de todos
as famílias irão responder 1.000 respostas - Situação 2 classificador prevê que 0,4 das
10.000 famílias mais promissoras irão responder
400 respostas - Situação 3 classificador prevê que 0,2 de
400.000 famílias irão responder 800 respostas - Um lift chart permite uma comparação visual
46Gerando um Lift Chart
- Instâncias são classificadas de acordo com suas
probabilidades previstas de serem um true
positive - Em um lift chart, o eixo x é o tamanho do exemplo
e o eixo y é o número de true positives
47Exemplo de um Lift Chart
48ROC Curves
- Curvas ROC são similares a lifit charts
- ROC vem de receiver operating characteristic
- Utiliza um sinal de detecção para mostrar o
tradeoff entre a taxa de acerto (hit rate) e a
taxa de alarme falso (false alarm rate) acima do
canal de ruído (noisy channel) - Diferenças do lift chart
- O eixo y mostra o percentual de true positives em
um exemplo (em vez do valor absoluto) - O eixo x mostra o percentual de false positives
em um exemplo (em vez do tamanho do exemplo)
49Exemplo de uma ROC Curve
50Cross-validation e Roc Curves
- Método simples para criar uma curva Roc
utilizando cross-validation - Coletar probabilidades de instâncias em conjuntos
de teste - Classificar as instâncias de acordo com as
probabilidades - Este método é implementado no WEKA
- Entretanto, esta é apenas uma possibilidade
- O método descrito no livro gera uma curva ROC
para cada conjunto e calcula a média entre eles
51Roc Curves para Dois Esquemas
52Convex Hull
- Dados dois esquemas de aprendizado, podemos
alcançar qualquer ponto no convex hull - Taxas TP e FP para o esquema 1 t1 e f1
- Taxas TP e FP para o esquema 2 t2 e f2
- Se o esquema 1 é utilizado para prever 100 x q
dos casos e o esquema 2 para o restante, então
tomamos - Taxa TP para o esquema combinado q x t1 (1-q)
x t2 - Taxa FP para o esquema combinado q x f1 (1-q)
x f2
53Aprendizado Sensível ao Custo
- A maioria dos esquemas de aprendizado não
realizam aprendizado sensível ao custo - Eles geram o mesmo classificador não importando
qual o custo associado a diferentes classes - Exemplo aprendizado de árvore de decisão padrão
- Métodos simples para aprendizado sensível ao
custo - Reutilização de instâncias de acordo com os
custos - Utilização de pesos para instâncias de acordo com
os custos - Alguns esquemas são sensíveis ao custo de forma
inerente, ex. naive Bayes
54Medidas de Retorno da Informação
- Percentual dos documentos retornados que são
relevantes precision TP/TPFP - Percentual dos documentos relevantes que são
retornados recall TP/TPFN - A curva precision/recall tem a forma hiperbólica
- Sumário das medidas precisão média de 20, 50 e
80 recall (three-point average recall) - F-measure (2 x recall x precision)/(recall
precision)
55Sumário das Medidas
56Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
57Avaliando Previsões Numéricas
- Algumas estratégias conjunto de teste
independente, cross-validation, testes de
significância, etc. - Diferença medidas de erro
- Valores alvo atuais a1, a2, ..., an
- Valores alvo previstos p1, p2, ..., pn
- Medida mais popular erro do quadrado da média
(mean-squared error) - Fácil para manipulação matemática
58Outras Medidas
- A raiz do erro do quadrado da média
- O erro médio absoluto é menos sensível a outliers
que o erro do quadrado da média - Às vezes valores de erros relativos são mais
apropriados que valores absolutos - 10 corresponde a um erro de 50 quando prevendo
500 - 10 corresponde a um erro de 0,2 quando prevendo 2
59Aprimoramento da Média
- Sempre queremos saber quanto o esquema é
aprimorado simplesmente prevendo a média - O erro quadrado relativo é (a é a média)
- O erro absoluto relativo é
60O Coeficiente de Correlação
- Mede a correlação estatística entre os valores
previstos e os valores atuais - Escala independente, entre 1 e 1
- Boa performance leva a grandes valores
61Qual a melhor medida?
- Melhor verificar todas elas
- Geralmente não importa
- Exemplo
62Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
63Medidas de Avaliação do Conhecimento Descoberto
- Piatetsky-Shapiros Rule-Interest Function
- É usada para quantificar a correlação entre
atributos em um classificador de regras simples - Uma regra de classificação simples é aquela em
que os lados esquerdo e direito de uma implicação
lógica (X ? Y) corresponde a um atributo simples - Quando RI 0, então X e Y são estatisticamente
independentes e a regra não é interessante - Quando RI gt 0 (RI lt 0), então X é positivamente
(negativamente) correlacionado a Y
64Medidas de Avaliação do Conhecimento Descoberto
- Smyth and Goodmans J-Measure
- É utilizado para encontrar as melhores regras
relacionando atributos de valores discretos - Major and Manganos Rule Refinement
- É uma estratégia usada para induzir regras de
classificação interessantes de um banco de dados
de regras de classificação - Consiste em três fases identificar regras
potencialmente interessantes, identificar regras
tecnicamente interessantes, e remover regras que
não sejam genuinamente interessantes - Agrawal and Srikants Itemset Measures
- Utilizada para identificar regras de
classificação que ocorrem com freqüência de
conjuntos de itens em grandes bancos de dados
65Medidas de Avaliação do Conhecimento Descoberto
- Klemettinen et al. Rule Templates
- Utilizada para descrever um padrão para os
atributos que podem aparecer no lado esquerdo ou
direito em uma regra de associação - Matheus and Piatetsky-Shapiros Projected Savings
- Avalia o impacto financeiro dos custos de desvios
de valores esperados - Hamilton and Fudgers I-Measures
- Usadas para quantificar a significância do
conhecimento descoberto, apresentadas na forma de
relações generalizadas ou sumários - Baseada na estrutura das hierarquias conceituais
associadas aos atributos na relação original não
generalizada
66Medidas de Avaliação do Conhecimento Descoberto
- Silbershatz and Tuzhilins Interestingness
- Determina a extensão em que uma crença suave é
mudada como resultado da descoberta de uma nova
evidência - Kamber and Shinghals Interestingness
- Determina o nível de interesse de uma regra de
classificação baseada na necessidade e
suficiência - Hamilton et al. Credibility
- Determina a extensão com que um classificador
provê decisões para todos ou quase todos valores
possíveis dos atributos de condição, baseada em
evidência adequadamente suportada - Liu et al. General Impressions
- Usada para avalia a importância de regras de
classificação pela comparação das regras
descobertas com uma descrição aproximada ou vaga
do que é considerado ser interessante
67Medidas de Avaliação do Conhecimento Descoberto
- Gago and Bentos Distance Metric
- Mede a distância entre duas regras e é usada para
determinar as regras que provêm a mais alta
cobertura para os dados fornecidos - Freitas Surprisingness
- Medida que determina o interesse do conhecimento
descoberto via detecção explícita de ocorrências
do paradoxo de Simpson - Gray and Orlowskas Interestingness
- Usada para avaliar o poder de associações entre
conjuntos de intens em transações a varejo (i.e.,
regras de associação) - Dong and Lis Interestingness
- Usada para avaliar a importância de uma regra de
associação por considerar sua não expectativa
em termos de outras regras de associação em sua
vizinhança
68Medidas de Avaliação do Conhecimento Descoberto
- Liu et al. Reliable Exceptions
- Uma exceção confiável é uma regra frágil que
tenha suporte relativamente pequeno e confidência
relativamente alta - Zhong et al. Peculiarity
- Usada para determinar a extensão com que um
objeto de dado difere de outros objetos de dado
similares
69Avaliação do Conhecimento Descoberto
- Motivação
- Treinamento e teste
- Estimando performance
- Cross-validation
- Leave-one-out cross-validation
- Bootstrap
- Comparando esquemas de aprendizado
- Predizendo probabilidades
- Contabilizando o custo de previsões erradas
- Lift charts
- ROC curves
- Avaliando previsões numéricas
- Medidas de avaliação do conhecimento descoberto
- O princípio MDL
70O Princípio MDL
- MDL se origina de minimum description length
(mínimo tamanho da descrição) - O tamanho da descrição é definido como
- espaço necessário para descrever a teoria
-
- espaço necessário para descrever os erros da
teoria - Em nosso caso a teoria é o classificador e os
erros da teoria são os erros nos dados de
treinamento - Alvo queremos classificar com o mínimo DL
- Princípio MDL é um critério para seleção do modelo
71Critérios para Seleção do Modelo
- O critério para seleção do modelo tenta encontrar
um bom compromisso entre - A complexidade de um modelo
- Sua precisão de predição nos dados de treinamento
- Conclusão um bom modelo é um modelo simples que
alcança alta precisão nos dados fornecidos - Também conhecido como Occams Razor a melhor
teoria é a menor delas que descreve todos os fatos
72Elegância x Erros
- Teoria 1 muito simples, teoria elegante que
explica a maioria dos dados perfeitamente - Teoria 2 uma teoria significantemente mais
complexa que reproduz os dados sem erros - A teoria 1 é provavelmente a preferida
- Exemplo clássico as três leis de Kepler no
movimento planetário - Menos precisa que o último refinamento de
Copérnico da teoria Ptolemaica de epicicles
73Observações
- Vantagem faz uso total dos dados de treinamento
quando selecionando um modelo - Desvantagem 1 esquema de codificação apropriado/
probabilidades prévias para as teorias são
cruciais - Desvantagem 2 não há garantia de que a teoria
MDL é aquela que minimiza os erros esperados - Nota Occams Razor é um axioma
- Princípio de Epicuro de múltiplas explicações
pegue todas as teorias que são consistentes com
os dados