Title: Minera
1Mineração de Dados
- Técnicas de Associação
- Parte da apresentação é adaptada do material do
livro - Introduction to Data Mining Tan, Steinbach e
Kumar -
- prof. Luis Otavio Alvares
2Exemplo vendas casadas
Sei que quem compra A também compra B.
PRODUTO A
PRODUTO B
Compra de produto
Oferta de produto relacionado
PRODUTO A
3(No Transcript)
4Mineração de regras de associação
- Dado um conjunto de transações, encontre regras
para a predição da ocorrência de itens baseado na
ocorrência de outros itens na transação
transações
Exemplos de regras de associação
fraldas ? cerveja,leite, pão ?
ovos,coca,cerveja, pão ? leite,
Implicação significa co-ocorrência, e não causa!!!
5Definições conjuntos de itens freqüentes
(frequent itemsets)
- Itemset (conjunto de itens)
- Um conjunto de um ou mais items
- Exemplo leite, pão, fralda
- k-itemset
- Um itemset com k itens
- Suporte (?)
- Freqüência de ocorrência de um conjunto de itens
(itemset) - Ex ?(leite, pão) 3
- Suporte (s)
- Fração das transações que contêm um itemset
- Ex s(leite, pão, fralda) 2/5
- Conjunto de itens freqüentes
- Um itemset cujo suporte é maior ou igual a um
dado limite minsup
6Definição regra de associação
- Regras de associação
- Uma expressão da forma X ? Y, onde X e Y são
conjuntos disjuntos de itens - Exemplo leite, fralda ? cerveja
- (significado quem compra leite e fralda também
compra cerveja na mesma transação) - Métricas de avaliação das regras
- Suporte (s)
- Fração das transações que contêm
- X e Y
- Confiança (c)
- Mede a freqüência com que Y aparece nas
transações quecontêm X
7Regras de associação
- Regras de associação ou regras associativas têm a
forma - X ? Y
- onde X e Y são conjuntos de itens que ocorrem
juntos em uma transação e X ? Y ? - significando que se encontrarmos o conjunto de
itens X em uma transação, então temos uma boa
chance de encontrar também o conjunto de itens Y
na mesma transação. -
-
8Mineração de regras de associação
- Dado um conjunto de transações T, o objetivo da
mineração de regras de associação é encontrar
todas as regras com - suporte minsup
- confiança minconf
- Abordagem da força bruta
- liste todas as possíveis regras de associação
- calcule o suporte e a confiança para cada regra
- corte as regras que não satisfazem minsup ou
minconf - ? Computacionalmente proibitivo!
9Problema número de regras geradas
- Considerando 4 itens A, B, C e D, sem considerar
suporte e confiança podemos ter
10Problema número de regras geradas
Considerando 4 itens A, B, C e D, sem considerar
suporte e confiança podemos ter
11Minerando regras de associação
Exemplos de regras leite,fralda ? cerveja
(s0.4, c0.67)leite,cerveja ? fralda
(s0.4, c1.0) fralda,cerveja ? leite (s0.4,
c0.67) cerveja ? leite,fralda (s0.4,
c0.67) fralda ? leite,cerveja (s0.4,
c0.5) leite ? fralda,cerveja (s0.4, c0.5)
- Observações
- Todas as regras acima são partições binárias do
mesmo itemset leite, fralda, cerveja - Regras originadas do mesmo itemset têm o mesmo
suporte mas podem ter confianças diferentes - Então, podemos separar o suporte da confiança
12Mineração de regras de associação
- Abordagem em dois passos
- Geração dos items freqüentes
- gerar todos os itemsets com suporte ? minsup
- Geração das regras
- gerar regras de alta confiança para cada itemset,
onde cada regra é um partição binária de um
itemset freqüente - A geração dos conjuntos de items freqüentes ainda
é computacionalmente custosa
13Geração dos conjuntos de items freqüentes
Dado d items, há 2d possíveis itemsets freqüentes
14Geração de itemsets freqüentes
- Abordagem de força bruta
- Cada itemset no reticulado (lattice) é um
conjunto freqüente candidato - Calcule o suporte de cada candidato lendo o
conjunto de dados - Complexidade O(NMw) gt Custoso pois M 2d !!!
Candidatos
transações
15Complexidade
- Dado d items
- número total de itemsets 2d
- número total possível de regras de associação
se d6, R 602 regras se d10, R 57.002 regras
(nro de itens)
16Estratégias para a geração de itemsets freqüentes
- Reduzir o número de candidatos (M)
- Busca completa M2d
- Usar técnicas de poda para reduzir M
- Reduzir o número de transações (N)
- Reduzir o tamanho de N quando o número de
itemsets aumenta - Usado pelo DHP e algoritmos baseados em mineração
vertical - Reduzir o número de comparações (NM)
- Usar estruturas de dados eficientes para
armazenar os candidatos ou as transações - Sem necessidade de comparar cada candidato com
cada transação
17Reduzindo o número de candidatos
- Princípio do algoritmo Apriori
- Se um itemset é freqüente então todos os seus
subconjuntos também são freqüentes - Este princípio é devido a seguinte propriedade do
suporte - O suporte de um itemset nunca é maior que o
suporte de seus subconjuntos - Isto é conhecido como a propriedade
anti-monotônica do suporte
18Ilustrando o princípio do Apriori
19Ilustrando o princípio do Apriori
Items (1-itemsets)
Pares (2-itemsets) (Não há necessidade de Gerar
candidatos com cocaou ovos)
Suporte mínimo 3
Triplas (3-itemsets)
Se todos os conjuntos são considerados, 6C1
6C2 6C3 41 Com o corte baseado no suporte, 6
6 1 13
20O algoritmo Apriori
- Método
- seja k1
- Obtenha conjuntos freqüentes de tamanho 1
- Repita enquanto novos itemsets freqüentes forem
obtidos - Obtenha itemsets candidatos de tamanho (k1) a
partir de itemsets de tamanho k (não inclua
itemsets candidatos contendo subconjuntos de
tamanho k infreqüentes) - Conte o suporte de cada candidato varrendo o BD
- Elimine candidatos não freqüentes, deixando só
os freqüentes
21 Algoritmo Apriori
(1) Dado um limiar de suporte minsup, no primeiro
passo encontre os itens que aparecem ao menos
numa fração das transações igual a minsup. Este
conjunto é chamado L1, dos itens
freqüentes. (2) Os pares dos itens em L1 se
tornam pares candidatos C2 para o segundo passo.
Os pares em C2 cuja contagem alcançar minsup são
os pares freqüentes L2. (3) As trincas candidatas
C3 são aqueles conjuntos A, B, C tais que todos
os A, B, A, C e B, C estão em L2. No
terceiro passo, conte a ocorrência das trincas em
C3 aquelas cuja contagem alcançar minsup são as
trincas freqüentes, L3. (4) Proceda da mesma
forma para tuplas de ordem mais elevada, até os
conjuntos se tornarem vazios. Li são os conjuntos
freqüentes de tamanho i Ci1 é o conjunto de
tamanho i1 tal que cada subconjunto de tamanho i
está em Li.
22 Exemplo de descoberta de regras de associação
- Dada a tabela abaixo onde cada registro
corresponde a uma transação de um cliente, com
itens assumindo valores binários (sim/não),
indicando se o cliente comprou ou não o
respectivo item, descobrir todas as regras
associativas com suporte gt 0,3 e grau de certeza
(confiança) gt 0,8.
23- Dada uma regra de associação Se compra X então
compra Y, os fatores sup e conf são
- (1) Calcular o suporte de conjuntos com um item.
- Determinar os itens freqüentes com sup ? 0,3.
- (2) Calcular o suporte de conjuntos com dois
itens. - Determinar conjuntos de itens freqüentes com sup
? 0,3. - Obs se um item não é freqüente em (1), pode ser
ignorado aqui. - Descobrir as regras com alto fator de certeza.
- (3) Calcular o suporte de conjuntos com três
itens. - Determinar conjuntos de itens freqüentes com sup
? 0,3. - Obs pelo mesmo motivo anterior, só é necessário
se considerar conjuntos de itens que são
freqüentes pelo passo anterior. - Descobrir regras com alto fator de certeza.
24C1
L1
25C2 , L2
C3, L3
26- Regras candidatas com dois itens com o seu valor
de certeza -
- Conjunto de itens café, pão
- Se café Então pão conf 1,0
- Se pão Então café conf 0,6
- Conjunto de itens café, manteiga
- Se café Então manteiga conf 1,0
- Se manteiga Então café conf 0,6
- Conjunto de itens pão, manteiga
- Se pão Então manteiga conf 0,8
- Se manteiga Então pão conf 0,8
27- Regras candidatas com três itens com o seu valor
de certeza -
- Conjunto de itens café, manteiga, pão
- Se café, manteiga Então pão conf 1,0
- Se café, pão Então manteiga conf 1,0
- Se manteiga, pão Então café conf 0,75
- Se café Então manteiga, pão conf 1,0
- Se manteiga Então café, pão conf 0,6
- Se pão Então café, manteiga conf 0,6
- Padrões descobertos, minsup 0,3 e minconf
0,8 - Se café Então pão conf 1,0
- Se café Então manteiga conf 1,0
- Se pão Então manteiga conf 0,8
- Se manteiga Então pão conf 0,8
- Se café, manteiga Então pão conf 1,0
- Se café, pão Então manteiga conf 1,0
- Se café Então manteiga, pão conf 1,0
28Exercício
Considere a tabela de transações abaixo
Tid Itens comprados
1 A, C, D
2 B, C, E
3 A, B, C, E
4 B, E
5 A, B, C, E
- Quais são os conjuntos frequentes, considerando
50 como suporte mínimo? - Qual a confiança da regra B? CE?
29- Suporte e confiança são usados como filtros,
para diminuir o número de regras geradas, gerando
apenas regras de melhor qualidade - mas, se considerarmos a regra
- Se A então B com confiança de 90
- podemos garantir que seja uma regra
interessante?
30 LIFT
- a regra (1) Se A então B com confiança de
90 - NÃO é interessante se B aparece em cerca
de 90 das transações, pois a regra não
acrescentou nada em termos de conhecimento. já
a regra (2) Se C então D com confiança de 70
e muito mais importante se D aparece, digamos,
em 10 das transações. lift confiança da
regra / suporte do conseqüente - lift da regra (1) 0,9 / 0,9 1
- lift da regra (2) 0,7 / 0,1 7
31Regras Redundantes
A?W s4/6 c4/4
A?D,W s4/6 c4/4
32Conjuntos Fechados (Closed Itemsets)
- Um conjunto de itens (itemset) é fechado se
nenhum de seus superconjuntos imediatos tem o
mesmo suporte que ele
33Conjuntos Freqüentes
Transaction Ids
Not supported by any transactions
34Conjuntos fechados (para minsup2)
Transaction Ids
35Exercício
Considere a tabela de transações abaixo
Tid Itens comprados
1 A, C, D
2 B, C, E
3 A, B, C, E
4 B, E
5 A, B, C, E
- Quais são os conjuntos frequentes fechados,
considerando 50 como suporte mínimo?
36Bibliografia
- TAN, P-N, STEINBACH, M KUMAR, V. Introduction
to Data Mining, Boston, Addison Wesley, 2006 - AGRAWAL, R. IMIELINSKI, T. SWAMI, A. Mining
association rules between sets of items in large
databases. In ACM SIGMOD INTERNATIONAL
CONFERENCE ON MANAGEMENT OF DATA, SIGMOD, 1993,
Washington, D.C. Proceedings New York ACM
Press, 1993. p. 207-216. - AGRAWAL, R. SRIKANT, R. Fast Algorithms for
Mining Association Rules in Large Databases. In
INTERNATIONAL CONFERENCE ON VERY LARGE DATABASES,
VLDB, 20., 1994, San Francisco. Proceedings
California Morgan Kaufmann, 1994. p.487 499. - ZAKI. M. Generating Non-redundant Association
Rules. In ACM SIGKDD INTERNATIONAL CONFERENCE ON
KNOWLEDGE DISCOVERY AND DATA MINING, KDD, 6.,
2000, Boston. Proceedings S.l. ACM, 2000.
p.34-43. - ZAKI., M. HSIAO, C. CHARM An Efficient
Algorithm for Closed Itemset Mining. In
INTERNATIONAL CONFERENCE ON DATA MINING, SIAM,
2., 2002, Arlington. Proceedings S.l.SIAM,
2002. - HAN, J., PEI, J., and YIN, Y. Mining frequent
patterns without candidate generation. In ACM
SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF
DATA, SIGMOD, 2000, Dallas. P.1-12.