Title: Efficient Top-k Query Evaluation on Probabilistic Data
1Efficient Top-k Query Evaluation on Probabilistic
Data
- Christopher Ré, Nilesh Dalvi, Dan Suciu
- University of Washington
Presentazione di Giacomo Aceto, Michele Dinardo,
Vito La Porta Relatore Michele Dinardo
2Visione di alto livello
- DBMS risposte esatte su dati precisi
- I dati sono spesso imprecisi
- Match tra oggetti di database diversi
- Dati estratti automaticamente da testi
- Database probabilistici gestiscono limprecisione
- La valutazione delle query SQL è NP-completa
- Molte risposte dovute a improbabili
corrispondenze - Utente interessato alle risposte di alta qualitÃ
Efficiente Top-k, ordinato per probabilitÃ
3Overview
- Esempio motivante e nozioni di base
- Multisimulazione
- Risultati sperimentali
4Scenario
Recensioni
In quali anni Anthony Hopkins è apparso in film
con alta votazione?
Sul web ci sono molte recensioni
Quali attori di Pulp Fiction sono apparsi in due
film scarsi nei cinque anni precedenti a Pulp
Fiction?
Come faccio a sapere a quali film si riferiscono?
Alice necessita di fare estrazione e
riconciliazione di dati
Un database probabilistico può aiutare Alice a
memorizzare e interrogare i suoi dati incerti
- Grande interesse per i dati riguardanti film
(attori, registi, ecc) - Dati ben mantenuti e precisi
- Ma mancano le recensioni
IMDB
Alice necessita di analisi di confidenza
5Riconciliazione di dati
Title
asin
Recensioni di Amazon
12 Monkeys
a282
Mokey Love
a845
p
mid
asin
0.5
m897
a282
Tabella di match che cattura lincertezza
0.4
m389
a282
0.1
m656
a282
0.3
m897
a845
Title
mid
0.3
m845
a845
Twelve Monkeys
m897
Dati di IMDB
Twelve Monkeys (1995)
m389
Monk
m656
ACG02, CGG03 e HS95 per score di similaritÃ
automatizzati
Love Story
m845
6Tuple come variabili booleane
- Associamo variabili booleane alle tuple
asin mid p
a282 m897 0.5
a282 m389 0.4
Ogni istruzione SQL costruisce unespressione di
variabili booleane, secondo lalgebra
relazionale probabilistica (FR97)
7Cenni alla Selezione
asin mid
a282 m389
asin mid p
a282 m897 0.5
a282 m389 0.4
8Cenni al Prodotto Incrociato
asin mid
a282 m897
a282 m389
asin mid p
a282 m897 0.5
a282 m389 0.4
asin p
a282 0.5
9Cenni alla Proiezione
asin
a282
asin mid p
a282 m897 0.5
a282 m389 0.4
10Formule DNF su Tuple
- Obiettivo ottenere una formula DNF
E qui entrano in gioco gli algoritmi
approssimativi...
Ma DNF SAT è NP-completo...
11Metodo Monte Carlo intuizione
Come calcolare la superficie del lago?
Superficie terreno 1000 m² X colpi di cannone N
numero palle cadute sulla terra
12Algoritmo di Luby-Karp LK84
- Dopo N passi di simulazione garantisce, con alta
probabilità , che
La simulazione riduce lincertezza
Incertezza sulla probabilitÃ
0.0
1.0
13Simulazione Naive
- Per ogni tupla candidata, applica lalgoritmo di
Luby-Karp fino a quando lintervallo non
raggiunge unampiezza prefissata e (N libero).
0.0
1.0
e
1
4
Christopher Walken
e
2
Samuel L. Jackson
3
Harvey Keitel
Bruce Willis
14Analisi della Simulazione Naive
Non è proprio il meglio che possiamo avere...
e troppo piccolo
e troppo grande
15Overview
- Esempio motivante e nozioni di base
- Multisimulazione
- Risultati sperimentali
16Multisimulazione
- k-separazione esiste un insieme T di k
intervalli tale che nessuno di essi è annidato ad
un intervallo non appartenente a T. - Es. k 2
T
Christopher Walken
Samuel L. Jackson
Harvey Keitel
Bruce Willis
17Idea chiave Regione Critica
- Ad ogni passo, la regione critica è lintervallo
Mitico!!!
Es. k 2
Quando la ragione critica diventa vuota...
...otteniamo la k-separazione
18Algoritmo MS_TopK
19Algoritmo MS_RankK
- Algoritmo ricorsivo che classifica le top-k tuple
1
Es. k 2
2
20Overview
- Esempio motivante e nozioni di base
- Multisimulazione
- Risultati sperimentali
21Dettagli sullesperimento
Tabella di match Numero Tuple
Match tra titoli 339k
Match tra attori 6758k
Match tra registi 18k
Amazon
IMDB
Attori
Film
Recensioni
22Tempo di esecuzione
In quali anni Anthony Hopkins è apparso in film
con alta votazione?
- Il metodo naive impiega circa 20 minuti
- La multisimulazione ha tempi di risposta
nettamente migliori
23Numero Totale di Simulazioni
Quali attori di Pulp Fiction sono apparsi in due
film scarsi nei cinque anni precedenti a Pulp
Fiction?
- RankK trae benefici da valori bassi di k
- Per TopK il numero di step è indipendente da k
24Conclusioni
- OPT
- Algoritmo non deterministico ottimale che conosce
il numero di passi da simulare - Confronto con OPT
- La multisimulazione compie al più il doppio dei
passi di simulazione rispetto a OPT - Nessun algoritmo deterministico è migliore su
ogni istanza - Estensione
- Algoritmo any-time per lordinamento
25E se non ci sono domande...