ALGORITMOS para Descoberta de Conhecimento em Bases de Dados - PowerPoint PPT Presentation

1 / 55
About This Presentation
Title:

ALGORITMOS para Descoberta de Conhecimento em Bases de Dados

Description:

Microsoft OLE DB for Data Mining ... Algoritmo Apriori Dada uma regra de associa o Se compra X ent o compra Y , os fatores sup e conf s o: ... – PowerPoint PPT presentation

Number of Views:74
Avg rating:3.0/5.0
Slides: 56
Provided by: DANIEL1472
Category:

less

Transcript and Presenter's Notes

Title: ALGORITMOS para Descoberta de Conhecimento em Bases de Dados


1
ALGORITMOS para Descoberta de Conhecimento em
Bases de Dados
  • prof. Luis Otavio Alvares
  • II/UFRGS

2
Sumário
  • Regras de associação Apriori
  • Classificação ID3, C4.5
  • Formação de agrupamentos k-médias
  • Detecção de desvios

3
  • Regras de Associação

4
Regras de associação
  • Regras de associação ou regras associativas têm a
    forma
  • X1, X2, ..., Xn ? Y
  • significando que se encontrarmos todos os itens
    X1, X2, ..., Xn numa transação, então temos uma
    boa chance de encontrar também Y.

5
  • dada a regra de associação X ? Y
  • X implica Y
  • se X então Y
  • se compra X então compra Y
  • define-se

6
Algoritmos de Regras de Associação
AIS SETM
Apriori Apriori -TID
Apriori-Hybrid Dense Miner
MiRABIT
7
Algoritmo Apriori
(1) Dado um limiar de suporte minsup, no primeiro
passo encontre os itens que aparecem ao menos
numa fração das transações igual a minsup. Este
conjunto é chamado L1, dos itens
freqüentes. (2) Os pares dos itens em L1 se
tornam pares candidatos C2 para o segundo passo.
Os pares em C2 cuja contagem alcançar minsup são
os pares freqüentes L2. (3) As trincas candidatas
C3 são aqueles conjuntos A, B, C tais que todos
os A, B, A, C e B, C estão em L2. No
terceiro passo, conte a ocorrência das trincas em
C3 aquelas cuja contagem alcançar minsup são as
trincas freqüentes, L3. (4) Proceda da mesma
forma para tuplas de ordem mais elevada, até os
conjuntos se tornarem vazios. Li são os conjuntos
freqüentes de tamanho i Ci1 é o conjunto de
tamanho i1 tal que cada subconjunto de tamanho i
está em Li.
8
Exemplo de descoberta de regras associativas
  • Dada a tabela abaixo onde cada registro
    corresponde a uma transação de um cliente, com
    itens assumindo valores binários (sim/não),
    indicando se o cliente comprou ou não o
    respectivo item, descobrir todas as regras
    associativas, determinando o seu suporte (sup) e
    grau de certeza (conf).

9
  • Dada uma regra de associação Se compra X então
    compra Y, os fatores sup e conf são
  • (1) Calcular o suporte de conjuntos com um item.
  • Determinar os itens freqüentes com sup ? 0,3.
  • (2) Calcular o suporte de conjuntos com dois
    itens.
  • Determinar conjuntos de itens freqüentes com sup
    ? 0,3.
  • Obs se um item não é freqüente em (1), pode ser
    ignorado aqui.
  • Descobrir as regras com alto fator de certeza.
  • (3) Calcular o suporte de conjuntos com três
    itens.
  • Determinar conjuntos de itens freqüentes com sup
    ? 0,3.
  • Obs pelo mesmo motivo anterior, só é necessário
    se considerar conjuntos de itens que são
    freqüentes pelo passo anterior.
  • Descobrir regras com alto fator de certeza.

10
C1
L1
11
C2 , L2
C3, L3
12
  • Regras candidatas com dois itens com o seu valor
    de certeza
  • Conjunto de itens café, pão
  • Se café Então pão conf 1,0
  • Se pão Então café conf 0,6
  • Conjunto de itens café, manteiga
  • Se café Então manteiga conf 1,0
  • Se manteiga Então café conf 0,6
  • Conjunto de itens pão, manteiga
  • Se pão Então manteiga conf 0,8
  • Se manteiga Então pão conf 0,8

13
  • Regras candidatas com três itens com o seu valor
    de certeza
  • Conjunto de itens café, manteiga, pão
  • Se café, manteiga Então pão conf 1,0
  • Se café, pão Então manteiga conf 1,0
  • Se manteiga, pão Então café conf 0,75
  • Se café Então manteiga, pão conf 1,0
  • Se manteiga Então café, pão conf 0,6
  • Se pão Então café, manteiga conf 0,6
  • Padrões descobertos, minsup 0,3 e minconf
    0,8
  • Se café Então pão conf 1,0
  • Se café Então manteiga conf 1,0
  • Se pão Então manteiga conf 0,8
  • Se manteiga Então pão conf 0,8
  • Se café, manteiga Então pão conf 1,0
  • Se café, pão Então manteiga conf 1,0
  • Se café Então manteiga, pão conf 1,0

14
  • portanto, suporte e confiança são usados como
    filtros, para diminuir o número de regras geradas
  • mas, se considerarmos a regra
  • Se A então B      com confiança de 90   
  • podemos garantir que seja uma regra
    interessante? 

15
LIFT
  • a regra (1)  Se A então B   com confiança de
    90    
  • NÃO  é  interessante se B aparece em cerca
    de 90 das transações, pois a regra não
    acrescentou nada em termos de conhecimento. já
    a regra (2)  Se C então D com confiança de 70  
    e muito mais importante se D aparece, digamos,
    em 10 das transações. lift confiança da
    regra / suporte do conseqüente
  • lift da regra (1) 0,9 / 0,9 1
  • lift da regra (2) 0,7 / 0,1 7

16
Improvement
  • Foi proposto para diminuir o número de regras
    geradas, utilizando o princípio de que uma regra
    mais simples é uma regra melhor, desde que a
    regra mais complexa ou mais longa tenha confiança
    menor ou igual do que a regra mais simples ou
    menor.

17
Exemplos
  • 78,78 das cirurgias múltiplas são realizadas em
    pessoas do sexo masculino. Esta regra se mostra
    interessante, pois a concentração para o sexo
    masculino não condiz com a realidade da base de
    dados que na sua maioria é do sexo feminino. Ao
    se estudar esta regra foi encontrada além da
    relação do procedimento com o sexo masculino
    também com a faixa etária de 0 a 9 anos. Não
    foram encontradas razões, dentro dos atributos da
    base de dados, que justificassem a concentração
    deste procedimento neste sexo e faixa etária.
    Esta situação foi encaminhada para o setor de
    avaliação e controle para um melhor estudo.

18
  • 80,45 das herniorrafias inguinais (unilateral)
    múltiplas são realizadas em pessoas do sexo
    masculino. Estudando mais profundamente foi
    verificado que este procedimento estava
    concentrado em crianças de 0 a 4 anos,
    caracterizando um erro de nomenclatura nos
    procedimentos, pois nesta idade um procedimento
    de urologia muito comum é o tratamento da
    hidrocele comunicante muito parecido com a
    herniorrafia inguinal. Foram tomadas medidas para
    que tal procedimento fosse registrado de forma
    correta pelos hospitais, pois a herniorrafia
    inguinal pode levar a uma internação de urgência
    ou emergência, aumentado seu custo, já o
    tratamento da hidrocele comunicante é um
    procedimento eletivo.

19
Exemplo Conhecer o perfil do cliente associado
com as compras que o mesmo faz na loja
  • Regras geradas
  • 6.CASAAPTOCASA SEXOF 1036 gt
    RESIDPROPALUGPROPRIA 1033 conf(1)
  • 22.ESTADOCIVILCASADO 2330 gt
    RESIDPROPALUGPROPRIA 2243 conf(0.96)
  • 39.NODEFILHOS0 1061 gt CASAAPTOCASA 1017
    conf(0.96)
  • 98.ESTADOCIVILCASADO SEXOM 1390 gt
    CASAAPTOCASA 1279 conf(0.92)
  • 176.SEXOF 1369 gt RESIDPROPALUGPROPRIA 1164
    conf(0.85)
  • 5.ESTADOCIVILSOLTEIRO BAIRROBELA_VISTA
    RESIDPROPALUGALUGADA 282 gt MORAQTTEMPO1 282
    conf(1)
  • 11.ESTADOCIVILVIUVO OBJCOMPRACONSTR_PREDIO/APTO
    /CASA_PROPRIA 200 gt CASAAPTOAPTO 200 conf(1)
  • 13.ESTADOCIVILVIUVO RESIDPROPALUGALUGADA 192
    gt CASAAPTOAPTO 192 conf(1)
  • 37.PRIMEIRAVEZNAO FAIXETFILHOSEM_FILHOS SEXOM
    700 gt CASAAPTOCASA 697 conf(1)
  • 67.BAIRROCENTRO SEXOF 811 gt PRIMEIRAVEZNAO
    798 conf(0.98)
  • 69.ESTADOCIVILCASADO OBJCOMPRAREFORMA_EM_CASA
    840 gt RESIDPROPALUGPROPRIA 819 conf(0.98)
  • 13.ESTADOCIVILCASADO FAIXETFILHOADULTO 819 gt
    RESIDPROPALUGPROPRIA 819 conf(1)
  • 16.FAIXETFILHOSEM_FILHOS BAIRROBELA_VISTA
    MORAQTTEMPO1 282 gt ESTADOCIVILSOLTEIRO 282
    conf(1)
  • 384.ESTADOCIVILSOLTEIRO BAIRROBELA_VISTA 331
    gt FAIXETFILHOSEM_FILHOS 327 conf(0.99)
  • 79.FAIXETFILHOADULTO RESIDPROPALUGALUGADA
    SEXOF 192 gt CASAAPTOAPTO 192 conf(1)
  • 379.OBJCOMPRAREFORMA_EM_CASA 993 gt
    RESIDPROPALUGPROPRIA 957 conf(0.96)
  • 17.SUBCATEGPRODUTOROLO_PARA_PINTURA 41 gt
    OBJCOMPRAREFORMA_EM_CASA 22 conf(0.54)

20
Classificação árvores de decisão
21
Árvore de decisão
22
Árvores de Decisão
  • As árvores de decisão são representações gráficas
    que consistem
  • de nodos que representam os atributos
  • de arcos que correspondem ao valor de um
    atributo
  • de nodos folha que designam uma classificação.

23
Árvores de decisão
  • As árvores de decisão
  • particionam recursivamente um conjunto de dados,
    até que cada subconjunto obtido deste
    particionamento contenha casos de uma única
    classe
  • organizam dados de maneira compacta
  • classificam novos casos.

24
Exemplo
25
Algoritmo ID3 Quinlan 86
  • Passos para construção de uma árvore de decisão
  • 1. Seleciona um atributo como sendo o nodo raiz
  • 2. Arcos são criados para todos os diferentes
    valores do atributo selecionado no passo 1
  • 3. Se todos os exemplos de treinamento sobre uma
    folha pertencerem a uma mesma classe, esta folha
    recebe o nome da classe. Se todas as folhas
    possuem uma classe, o algoritmo termina
  • 4. Senão, o nodo é determinado com um atributo
    que não ocorra no trajeto da raiz, e arcos são
    criados para todos os valores. O algoritmo
    retorna ao passo 3.

26
Algoritmo ID3
  • Entropia
  • Quantidade necessária de informação para
    identificar a classe de um caso
  • Entropia(S) -(p1 log 2 p1 p2 log 2 p2
    ... pn log 2 pn )
  • sendo n o número de valores possíveis da
    classe
  • Ganho de informação
  • Redução esperada da entropia
  • Ganho (S, A) Entropia(S) - ? ((Sv /
    S)Entropia(Sv))
  • onde Sv é um subconjunto de S correspondente a um
    valor do atributo A

27
Entropia e Ganho de Informação
  • Considerando apenas 2 valores possíveis, a
    entropia é dada pela fórmula
  • Entropia (S) - (p log2 p p- log2 p-)
  • Onde
  • S é a totalidade de amostras do conjunto
  • p é a proporção de amostras positivas
  • p- é a proporção de amostras negativas
  • Exemplo
  • Se S é uma coleção de 14 exemplos com 9
    instâncias positivas e 5 negativas, então
  • Entropia (S) - (9/14) Log 2 (9/14) (5/14) Log
    2 (5/14) 0.940

28
Ganho de Informação
  • O ganho de informação é dado por
  • Gain (S, A) Entropia (S) - ? ((Sv / S)
    Entropia (Sv))
  • Onde
  • Gain (S, A) é o ganho do atributo A sobre o
    conjunto S
  • Sv subconjunto de S para um valor do atributo A
  • Sv número de elementos de Sv
  • S número de elementos de S

29
Nodo raiz
  • Selecionando o melhor atributo
  • Entropia(S) - 9/14 log2 (9/14) - 5/14 log 2
    (5/14) 0,940

30
Escolha do próximo atributo
31
Escolha o próximo atributo
  • Qual é o melhor atributo?
  • Smédio C1,C2,C8,C9,C11
  • Gain (Smédio, idade) 0,971 - (2/5)0 - (2/5)1 -
    (1/5)0 0,571
  • Gain (Smédio, salário) 0,971 - (3/5)0 - (2/5)0
    0,971
  • Gain (Smédio, conta) 0,971 - (3/5)0,918 -
    (2/5)1 0,020

32
C1,C2,...C14 9, 5-
montante
médio
baixo
alto
C1,C2,C8,C9,C11 2, 3-
C3,C7,C12,C13 4, 0-
C4,C5,C6,C10,C14 3, 2-
?
salário
sim
baixo
alto
C1,C2,C8 0, 3-
C9,C11 2, 0-
33
Resultado
34
Avaliação da árvore de decisão
  • Avaliação através da taxa de acertos/erros
  • taxa_de_acertos Nacertos / Ntotal
  • taxa_de_erros Nerros / Ntotal
  • Utilizando o conjunto de treinamento
  • proporção_de_acertos 14 / 14 100
  • proporção_de_erros 0 / 14 0

35
Conjunto de teste
36
Proporção de acertos/erros
  • Utilizando o conjunto de teste
  • proporção_de_acertos Nacertos / Ntotal
    proporção_de_acertos 5 / 7 71,4
  • proporção_de_erros Nerros / Ntotal
  • proporção_de_erros 2 / 7 28,6

37
Algoritmo C4.5 Quinlan 93
  • O algoritmo C4.5 possibilita
  • trabalhar com valores contínuos
  • trabalhar com valores indisponíveis
  • podar árvores de decisão
  • derivar regras

38
Atributos com valores contínuos
39
Atributos com valores contínuos
  • Envolve o seguinte teste
  • atributo lt valor ou atributo gt valor
  • e os seguintes passos
  • ordenar os valores de forma crescente (670, 760,
    ... 8900)
  • selecionar o valor que favorecerá na redução da
    informação necessária (990)

40
Atributos com valores contínuos
  • Considerando o teste
  • salário lt 990 ou salário gt 990
  • obtemos a árvore

41
Poda de árvores de decisão
  • A poda de uma árvore de decisão é realizada
  • considerando a taxa de erros
  • substituindo uma subárvore por um nodo folha

42
Derivação de regras
se (montante médio) e (salário baixo) então
empréstimo não se (montante médio) e
(salário alto) então empréstimo sim se
(montante baixo) então empréstimo sim ...
43
  • Detecção de desvios

44
Desvios árvores de decisão
  • dados que não se enquadram no modelo pré-definido

45
Desvios formação de agrupamentos
  • agrupamentos com um número pequeno de casos

46
Desvios regras de associação
  • se tenho uma regra do tipo
  • X ? Y
  • com grau de confiança de 98, podemos considerar
    os 2 restantes como desvio

47
Desvios estatística
  • análise univariada usada para atributos isolados
  • se o atributo for numérico, pode-se utilizar
    o desvio padrão
  • Numa distribuição normal N (?,?2)
  • onde ? é a média e ?2 a variância
  • podemos considerar desvio os valores que
    estão a 3 ou mais desvios-padrão da média, para
    mais ou para menos

48
Desvios estatística
  • Análise multivariada para análise de mais de uma
    variável
  • regressão linear (para dados numéricos)
  • qui-quadrado (para dados categóricos)
  • análise de correspondência (para dados
    categóricos)
  • análise de resíduos em tabelas de contingência
    (para dados categóricos)

49
Formação de agrupamentos
50
Exemplos
51
Objetivo Conhecer o perfil do cliente que
compra na loja
  • Cluster 0

51,82 da população - perfil de um consumidor
casado, com residência própria, predominantemente
em casas contra uma pequena parcela que reside em
apartamentos, que já fez mais de uma compra na
loja, dividindo-se quase que igualmente entre
homens e mulheres.
52
Objetivo Conhecer o perfil do cliente que
compra na loja
  • Cluster 1

17,15 da população - clientes sem filhos,
solteiros, que residem em casas próprias, sendo a
maioria cliente antigo 47 com estado civil
casado estão, na sua grande maioria, casados a
menos de 1 ano.
53
Objetivo Conhecer o perfil do cliente que
compra na loja
  • Cluster 3

14,60 da população - clientes do sexo feminino,
com filhos adultos, com idade dos 50 aos 65 anos
em sua maioria, residindo a maior parte em casas
mas com um número relativamente grande morando em
apartamentos (25), todos com residência própria,
e que também já compraram mais de uma vez na
loja o bairro, para 60 dos casos, é CENTRO.
54
Objetivo Conhecer o perfil do cliente que
compra na loja
  • Cluster 4

9,49 dos casos - pessoas que moram em
residências alugadas, sem filhos ou com filhos
pequenos, a maioria do sexo masculino, morando
predominantemente em casas. Dividem-se
principalmente entre solteiros e casados, sendo
grande parte deles casada a menos de 1 ano.
55
Softwares p/ mineração
  • Intelligent Miner IBM
  • Weka softwre livre Nova Zelândia
  • Darwin Oracle
  • Sipina universitário p/ árvores de decisão
  • Clementine 1º?
  • Microsoft OLE DB for Data Mining
  • ...
Write a Comment
User Comments (0)
About PowerShow.com