DAMA-UPC: gesti - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

DAMA-UPC: gesti

Description:

DAMA-UPC: gesti de grans volums de dades i la influ ncia de l'estad stica en entorns de gesti de la informaci – PowerPoint PPT presentation

Number of Views:96
Avg rating:3.0/5.0
Slides: 35
Provided by: JosepL152
Category:
Tags: dama | upc | gesti

less

Transcript and Presenter's Notes

Title: DAMA-UPC: gesti


1
DAMA-UPC gestió de grans volums de dades i la
influència de l'estadística en entorns de gestió
de la informació
  • Josep Lluis Larriba-Pey

2
Contingut de la presentació
  • Presentació DAMA-UPC
  • Grans volums de dades
  • Count Bloom Filters
  • Optimització de consultes a SGBDs
  • DEX Exploració de la informació. BIBEX
  • Entity Resolution
  • Conclusions

3
Contingut de la presentació
  • Presentació DAMA-UPC
  • Grans volums de dades
  • Count Bloom Filters
  • Optimització de consultes a SGBDs
  • DEX Exploració de la informació. BIBEX
  • Entity Resolution
  • Conclusions

4
DAMA-UPC
  • Format per unes 25 persones, 3 professors (2
    informàtics, 1 estadística), 6 estudiants
    (master/doct), 10 desenvolupadors, 6 becaris
    suport.
  • Campus Nord, UPC.
  • Arees de recerca (aspectes pràctics, software
    gratuit)
  • Data Quality
  • DAURUM, Record Linkage Software V4.3.
  • Institut Català dOncologia.
  • Data Exploration
  • DEX, graph database. Graph query engine that
    allows to query large graphs.
  • ANCERT (IT company of the Notaries of Spain).
    Work with Yahoo!Research, Institut Català
    dOncologia, BIBEX. (www.dama.upc.edu/bibex).
  • Distributed and parallel querying systems
  • Relational DBMSs query optimization, query
    ecxecution, join, sort.

5
Customers and achievements
  • Major achievements of DAMA-UPC
  • Grup de Recerca Emergent, Generalitat de
    Catalunya.
  • RD project, MEC.
  • SEMEDIA FP6 EC project.
  • Member of Xarxa IT, Departament dInnovació,
    Universitats i Industria
  • Technology Transfer in Catalunya.
  • We collaborate with industry to increase their
    competitivity.
  • IBM Faculty and PhD Award, 2004.
  • Industry partners
  • IBM.
  • Institut Català dOncologia.
  • ANCERT.
  • Departament de Salut, Generalitat de catalunya.
  • Agència Catalana de lAigua.
  • Ajuntament de Sabadell
  • DAMM
  • Cancer registries of Spain (Balearic Islands,
    Canary Islands, Aragón, Catalunya)

6
Contingut de la presentació
  • Presentació DAMA-UPC
  • Grans volums de dades
  • Count Bloom Filters
  • Optimització de consultes a SGBDs
  • DEX Exploració de la informació. Exemple BIBEX
  • Entity Resolution
  • Conclusions

7
Grans volums de dades
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Objectius per la xerrada
  • Projectes que involucren directament o indirecta
    lestadística
  • Count Bloom Filters estructura de dades que dóna
    un comptatge aproximat devents.
  • Optimització de consultes ús de tècniques
    estadístiques per validar els resultats.
  • DEX motor de consulta de grafs/BIBEX.
  • Entity Resolution Millora de la qualitat de les
    bases de dades a partir de software de comparació
    de registres.
  • Mostrar les formes de tractar les dades de forma
    eficient en temps dexecució.

8
Count Bloom Filters
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • J. Aguilar, P. Trancoso, V. Muntés, J. L.
    Larriba-Pey
  • IBM Toronto Lab. Markham, ON.
  • University of Cyprus

9
Count Bloom Filters
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Uso de Bloom Filters (Bloom, 1970)
  • Count Bloom Filters (Fan et al. 2000)
  • Spectral Bloom Filters (Cohen et al. 2003)
  • Dynamic Count Filters (Aguilar et al. 2005)
  • Partitioned Dynamic Count Filters (Aguilar et al.
    2007)
  • Article derivat (Dominguez at al. 2008)
  • Entornos
  • Redes de comunicación
  • Minimización de comunicación en Proxy Caching
    (Fan. 2000)
  • Longest Prefix Matching (Dharmapurikar et. Al.
    2003)
  • Contaje de tráfico de paquetes (Estan et al.
    2001)
  • Bases de datos
  • Iceberg queries (Fang et al. 1998)
  • Estado de teléfonos móviles
  • Bloom Histograms (Wang et al. 2004)

10
Motivación
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Representación dinámica y adaptable de secuencias
    de datos temporales
  • Dynamic Count Filters (DCF) (SIGMOD Record)
  • Partitioned DCF (PDCF) (inédito, para esta
    prueba)
  • Mejoramos tiempo de respuesta puntual
  • Reducimos la memoria necesaria
  • Adaptamos a las características de los datos
  • Aumentamos la calidad de servicio (QoS)
  • Pueden implementarse en hardware

11
Ejemplo (Proxy Caching)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Red de proxies
12
Ejemplo (Proxy Caching)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Cada cierto tiempo se hace un broadcast de la
SC. Cuanto menor tamaño, mejor.
  • Summary Cache
  • URL exacta (16 bytes)
  • Dirección del servidor (lt16 bytes).
  • Count Bloom Filters (lt1byte)

Si no está la página, se manda la petición al
siguiente nodo de la red
13
Bloom Filters (Bit Filters)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

k funciones de Hash (k3)
Fase de inicialización y fase de consulta
Probabilidad de un 0 (1-1/m)kn
Probabilidad falso positivo (1-(1-1/m)kn)k
m
  • Problemas de los BF
  • Falsos positivos
  • Sólo detectan presencia, no ocurrencias
  • No permiten borrado

M datos n valores distintos
B. Bloom. Space time , Communic. of the ACM, 1970
14
Count Bloom Filters (CBF)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

K (K3) funciones de Hash
  • Ventajas de CBF
  • Permiten determinar número de ocurrencias de un
    elemento
  • Permiten actualizaciones
  • Problemas de los CBF
  • Solución estática saturación
  • Probabilidad de falsos positivos.

15
Partitioned DCF
Partitioning Vector
PDCF g 4 particiones
16
Características de los PDCF
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Tamaño contadores Tiempo acceso Coste de reconstrucción Contadores saturados Ineficiencia de memoria
CBF Estáticos Rápido No posible Si Alta
SBF Dinámicos Lento Alto/frecuente eventualmente Muy alta
DCF Dinámicos Rápido Muy alto No Alta
PDCF Dinámicos Rápido Bajo No Moderada
17
Visión general
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • PDCF1. Igual número de contadores que SBF y DCF.
  • PDCF2. Igual memoria que para SBF. M10n

SBF DCF PDCF1 PDCF2
n10,000 Tiempo de ejecución (Seg.) Memoria máxima (KBytes) Precisión de la representación () 34.2 203.3 90.3 4.8 111.5 90.3 2.8 63.2 90.4 3.0 178 97.8
n100,000 Tiempo de ejecución (Seg.) Memoria máxima (KBytes) Precisión de la representación () 930 1726.2 90.7 32 1115.7 90.8 3.5 381.8 90.7 3.6 1683.4 98.7
18
Inserción masiva de datos
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

n 10K
19
Inserción masiva (precisión de la representación)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

20
Optimització de queries
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • V. Muntés, J. Aguilar, M. Pérez-Casany, J. Ll
    Larriba-Pey
  • IBM Toronto Lab. Markham, ON
  • Dept. MA-II i DAMA-UPC, UPC.

21
Query Optimization
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Large RDBMs imply large queries.
  • Dynamic programming tools have memory
    limitations.
  • Other devices that are fast and obtain close to
    optimal solutions.

22
DBMS Structure
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

SQL Query
Query Engine
Parser- Optimizer
Results
23
Evolutionary Optimizer (Genetic Programming)
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

24
Solution representation QEP
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Carquinyoli Genetic Optimizer (CGO) uses the
    typical Query Execution Plan (QEP) to represent
    the operation order to solve a query
  • In CGO, each join operation represents a unique
    join condition
  • The search space is reduced by avoiding
  • Cross Products
  • Artificial Joins

25
Motivation
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Most of the non-deterministic approaches need to
    be parameterized carefully in order to obtain the
    desired efficiency
  • Do randomized characteristics of a genetic
    algorithms allow us to extract general
    conclusions?

26
The Carquinyoli Genetic Optimizer
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

P
C
M
27
Experiment Design
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Star Join Queries

Total Number of Observations 7290
28
Statistical Model
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • ANOVA aims at decomposing the total variability
    of a sample among different parts corresponding
    to the factors that could potentially be the
    cause
  • We propose and accept the following model

Link to Model Goodness of fit
  • In order of importance N, G, P, C and M

29
Goodness of fit
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

R-Square variability explained by the model
  • The error terms are independent and follow a
    normal distribution with zero mean and constant
    variance

30
Practical Recommendations
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Star Join Query
SELECT s.name, s.s_id FROM T1,
... TN WHERE T1.a T2.b, ... AND T4.c X
Crossovers
C N/2
G 200
Mutations
C N/4
31
DEX a graph query engine
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • N. Martínez-Bazán, V. Muntés, S. Gómez-Villamor,
    J. Nin, M. Sánchez, J. L. Larriba-Pey
  • IIIA, Universitat Autònoma de Barcelona

32
Motivation
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Main focus
  • High-performance
  • Exploration
  • on Large Graphs
  • for Information Retrieval

Activity
Data
Area of interest
33
DEX
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • GDBMS based on the Graph Database Model
  • Data representation in the form of a large graph
  • Query operations are based on graph operations
  • Query results are in the form of new graphs
  • Constraints node and edge types, explicit
    relationships, attribute domains
  • Integrates data from multiple data sources
    RDBMS, CSV, XML, HTML, RDF
  • Implemented with specialized structures to
    satisfy the requirements of high-performance
    storage and retrieval for very large data graphs
  • Supported in Windows and Linux with a Java API as
    interface
  • Examples
  • BIBEX WEB interface to Computer Science
    bibliographic databases
  • OCP fraud detection in patrimonial transactions

34
Example of a DbGraph Schema
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution

Contains information of a data source and its type
The definition of an entity or collection of data
units
It can represent either an edge or a constraint
between attributes
A characteristic or property of a dataset
35
Exploral Process
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • The natural query mechanism of DEX is the
    exploration of the relationships in a graph
    (RELATIONSHIP vs. VALUE oriented analysis)
  • Queries are implemented as a combination of
    low-level graph-oriented operations, based on
    very efficient bit vector manipulations

36
BIBEX una eina de recerca bibliogràfica
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • Poder fer consultes del tipus
  • Món dun investigador
  • Recomanació darticles
  • Recomanació de revisors
  • Mètriques de qualitat de la recerca
  • BIBEX, eina de cerca bibliogràfica basada en
    DBLP, Univ. Trier i en Citeseer. Permet fer
    consultes 1, 2, 3 anteriors.
  • www.dama.upc.edu/bibex

37
Entity Resolution
  • Count Bloom Filters
  • Optimització de consultes
  • DEX
  • Entity Resolution
  • DAURUM, aplicació deliminació de duplicats a
    bases de dades.
  • Basat en teoria de Fellegi i Sunter. Aproximació
    probabilística a lassignació de pesos als camps
    comparats.
  • Fem aproximació informàtica per tal de fer que el
    sistema sigui molt eficient en temps dexecució i
    no es penalitzi la qualitat.

38
Conclusions
  • DAMA-UPC treballa en diferents aspectes de la
    velocitat de les aplicacions de gestió de la
    informació.
  • Es tenen en compte diferents aspectes
  • Velocitat en lexecució
  • DEX, DAURUM
  • Generar software que es pugui oferir
  • DEX, DAURUM, CGO, QA.
  • Buscar temes de recerca que tinguin aplicació
    directa en el mercat
  • Fer servir metodologia estadística i matemàtica
    per fer de la recerca una eina eficient i que
    asseguri resultats fiables
  • A DAMA-UPC ens agradaria fer un servei a la
    socientat, que permetés usar la tecnologia que
    generem per tal de millorar la qualitat de vida
    dels seus membres
Write a Comment
User Comments (0)
About PowerShow.com