Efficient Top-k Query Evaluation on Probabilistic Data - PowerPoint PPT Presentation

About This Presentation
Title:

Efficient Top-k Query Evaluation on Probabilistic Data

Description:

Efficient Top-k Query Evaluation on Probabilistic Data Christopher R , Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto, Michele ... – PowerPoint PPT presentation

Number of Views:120
Avg rating:3.0/5.0
Slides: 26
Provided by: unib206
Category:

less

Transcript and Presenter's Notes

Title: Efficient Top-k Query Evaluation on Probabilistic Data


1
Efficient Top-k Query Evaluation on Probabilistic
Data
  • Christopher Ré, Nilesh Dalvi, Dan Suciu
  • University of Washington

Presentazione di Giacomo Aceto, Michele Dinardo,
Vito La Porta Relatore Michele Dinardo
2
Visione di alto livello
  • DBMS risposte esatte su dati precisi
  • I dati sono spesso imprecisi
  • Match tra oggetti di database diversi
  • Dati estratti automaticamente da testi
  • Database probabilistici gestiscono limprecisione
  • La valutazione delle query SQL è NP-completa
  • Molte risposte dovute a improbabili
    corrispondenze
  • Utente interessato alle risposte di alta qualità

Efficiente Top-k, ordinato per probabilità
3
Overview
  • Esempio motivante e nozioni di base
  • Multisimulazione
  • Risultati sperimentali

4
Scenario
Recensioni
In quali anni Anthony Hopkins è apparso in film
con alta votazione?
Sul web ci sono molte recensioni
Quali attori di Pulp Fiction sono apparsi in due
film scarsi nei cinque anni precedenti a Pulp
Fiction?
Come faccio a sapere a quali film si riferiscono?
Alice necessita di fare estrazione e
riconciliazione di dati
Un database probabilistico può aiutare Alice a
memorizzare e interrogare i suoi dati incerti
  • Grande interesse per i dati riguardanti film
    (attori, registi, ecc)
  • Dati ben mantenuti e precisi
  • Ma mancano le recensioni

IMDB
Alice necessita di analisi di confidenza
5
Riconciliazione di dati
Title
asin
Recensioni di Amazon
12 Monkeys
a282
Mokey Love
a845
p
mid
asin
0.5
m897
a282
Tabella di match che cattura lincertezza
0.4
m389
a282
0.1
m656
a282
0.3
m897
a845
Title
mid
0.3
m845
a845
Twelve Monkeys
m897
Dati di IMDB
Twelve Monkeys (1995)
m389
Monk
m656
ACG02, CGG03 e HS95 per score di similarità
automatizzati
Love Story
m845
6
Tuple come variabili booleane
  • Associamo variabili booleane alle tuple

asin mid p
a282 m897 0.5
a282 m389 0.4
Ogni istruzione SQL costruisce unespressione di
variabili booleane, secondo lalgebra
relazionale probabilistica (FR97)
7
Cenni alla Selezione
asin mid
a282 m389
asin mid p
a282 m897 0.5
a282 m389 0.4
8
Cenni al Prodotto Incrociato
asin mid
a282 m897
a282 m389
asin mid p
a282 m897 0.5
a282 m389 0.4
asin p
a282 0.5
9
Cenni alla Proiezione
asin
a282
asin mid p
a282 m897 0.5
a282 m389 0.4
10
Formule DNF su Tuple
  • Obiettivo ottenere una formula DNF

E qui entrano in gioco gli algoritmi
approssimativi...
Ma DNF SAT è NP-completo...
11
Metodo Monte Carlo intuizione
Come calcolare la superficie del lago?
Superficie terreno 1000 m² X colpi di cannone N
numero palle cadute sulla terra

12
Algoritmo di Luby-Karp LK84
  • Dopo N passi di simulazione garantisce, con alta
    probabilità, che

La simulazione riduce lincertezza
Incertezza sulla probabilità
0.0
1.0
13
Simulazione Naive
  • Per ogni tupla candidata, applica lalgoritmo di
    Luby-Karp fino a quando lintervallo non
    raggiunge unampiezza prefissata e (N libero).

0.0
1.0
e
1
4
Christopher Walken
e
2
Samuel L. Jackson
3
Harvey Keitel
Bruce Willis
14
Analisi della Simulazione Naive
Non è proprio il meglio che possiamo avere...
  • Esempio
  • i 4
  • k 2

e troppo piccolo
e troppo grande
15
Overview
  • Esempio motivante e nozioni di base
  • Multisimulazione
  • Risultati sperimentali

16
Multisimulazione
  • k-separazione esiste un insieme T di k
    intervalli tale che nessuno di essi è annidato ad
    un intervallo non appartenente a T.
  • Es. k 2

T
Christopher Walken
Samuel L. Jackson
Harvey Keitel
Bruce Willis
17
Idea chiave Regione Critica
  • Ad ogni passo, la regione critica è lintervallo

Mitico!!!
Es. k 2
Quando la ragione critica diventa vuota...
...otteniamo la k-separazione
18
Algoritmo MS_TopK
19
Algoritmo MS_RankK
  • Algoritmo ricorsivo che classifica le top-k tuple

1
Es. k 2
2
20
Overview
  • Esempio motivante e nozioni di base
  • Multisimulazione
  • Risultati sperimentali

21
Dettagli sullesperimento
Tabella di match Numero Tuple
Match tra titoli 339k
Match tra attori 6758k
Match tra registi 18k
Amazon
IMDB
Attori
Film
Recensioni
22
Tempo di esecuzione
In quali anni Anthony Hopkins è apparso in film
con alta votazione?
  • Il metodo naive impiega circa 20 minuti
  • La multisimulazione ha tempi di risposta
    nettamente migliori

23
Numero Totale di Simulazioni
Quali attori di Pulp Fiction sono apparsi in due
film scarsi nei cinque anni precedenti a Pulp
Fiction?
  • RankK trae benefici da valori bassi di k
  • Per TopK il numero di step è indipendente da k

24
Conclusioni
  • OPT
  • Algoritmo non deterministico ottimale che conosce
    il numero di passi da simulare
  • Confronto con OPT
  • La multisimulazione compie al più il doppio dei
    passi di simulazione rispetto a OPT
  • Nessun algoritmo deterministico è migliore su
    ogni istanza
  • Estensione
  • Algoritmo any-time per lordinamento

25
E se non ci sono domande...
  • grazie per lattenzione
Write a Comment
User Comments (0)
About PowerShow.com