Title: SISTEMI INFORMATIVI DIREZIONALI
1SISTEMI INFORMATIVI DIREZIONALI
2I Livelli di un SI Aziendale
- livello direzionale
- vengono svolte tutte quelle attività necessarie
alla definizione degli obiettivi da raggiungere
ed alle azioni, eventualmente correttive, da
intraprendere per perseguirli. - livello operativo
- si occuperà delle attività attraverso cui
lazienda produce i propri servizi e prodotti.
il livello direzionale è supportato dai
cosiddetti sistemi informativi direzionali.
3Schema di un sistema direzionale
Motori di calcolo (DSS)
Motori di presentazione QR (EIS)
OLAP
Data Warehouse
Data Entry (budget, dati direzionali)
Alimentazione
OLTP
DB TRANSAZIONALI
4Caratteristiche di un SID
- i sistemi informativi direzionali hanno la
caratteristica di essere alimentati da altri
sistemi quali ad esempio i sistemi informativi
aziendali oppure mediante informazioni introdotte
manualmente dagli utenti finali.
5Le informazioni trattate
- informazioni fortemente aggregate.
- I SID devono fornire ai dirigenti aziendali dati
sintetici (indicatori gestionali) - medie, ricavi globali,
- in certi intervalli temporali
- tempificate.
- in diverse dimensioni.
- Il tempo
- la dimensione prodotto
- dimensione processi
- dimensione responsabilità
- cliente, al fine di analizzare redditività,
volume di affari e bacino di utenza.
6Un nuovo ruolo
- Il nuovo ruolo dell'Information Technology (IT)
aziendale è quello di fornire al top management
informazioni rapide ed efficaci sulle quali
basare le decisioni strategiche
7OLTP
- On Line Transaction Processing
- Transazioni predefinite e di breve durata
- Dati dettagliati, recenti e aggiornati
- Dati residenti su un unico DB
- Read write di pochi record
- Critiche le proprietà ACIDe
- Implementate su Main Frame
8Sistemi direzionali
- Decisioni di tipo tattico e strategico
- Es.
- Quanti prodotti sono stati venduti nello scorso
anno per regione e categoria? - Uno sconto tra il 10 ed il 20 potrebbe aumentare
le vendite di auto nel prossimo bimestre? - Su quali dati? Su quelli accumulati da OLTP
9Metodologia OLAP
- Lobiettivo che si pone la metodologia OLAP è
quello di fornire un supporto efficiente
lanalisi delle informazioni prendendo in
considerazione più variabili contemporaneamente
(analisi multi dimensionale dei dati).
10OLAP
- On Line Analytical Processing
- Interrogazioni complesse e casuali
- Dati storici e aggregati
- Dati provenienti da più DB eterogenei
- Moltissime operazioni di Read (nessuna di write)
- Visualizzazione dei dati su PC
11Cosa vuol dire OLAP (Codd)
- OLAP è il nome dato allanalisi dinamica
dellimpresa necessaria per - creare, manipolare, animare e sintetizzare
informazioni - dai Data Models Aziendali.
- Questo processo consente di scoprire
- nuove relazioni tra le variabili,
- di identificare i parametri necessari alla
gestione di grosse quantità di dati, - di creare un numero illimitato di dimensioni
- di specificare condizioni ed espressioni che
coinvolgono, contemporaneamente, più dimensioni.
12Da tener ben presente .
- I dati usati dai sistemi OLAP sono gli stessi di
quelli usati dai sistemi OLTP - quello che cambia nei due tipi di sistemi è
lelaborazione compiuta sui dati. - .
13OLTP vs OLAP
- Users Impiegati
- Op. giornaliere
- Op. Correnti
- Op. Ripetitivo
- Trans. Breve
- Decine di record acceduti per volta
- Migliaia di utenti
- 100 MB 1 GB
- Users dirigenti
- Supporto Decisioni
- Dati Storici
- Oper. Casuali
- Int. Complesse
- Milioni di record acceduti
- Centinaia di utenti
- 100 GB 1 TB
14Cosa è un data warehouse?
- Definizione (Inmon)
- Un data warehouse è un data base relazionale
- Subject Oriented
- Integrato
- Non volatile
- Time Variant
- progettato per query and analysis
- ---- invece che per lelaborazione di transazioni.
15Un DW
- Contiene dati storici derivati dalle transazioni,
anche se può contenere dati di altra fonte - Separa il carico dellanalisi da quello delle
transazioni - Contiene, oltre ad un DB relazionale, moduli di
- ETL (Extraction, Transformation Loading)
- OLAP (On Line Analytical Processing)
- Client analysis tools
- Altre applicazioni per analisi dei dati e
produzione di rapporti a utenti business
16Subject Oriented .
- Subject Oritented
- I DW sono progettati per aiutarti ad analizzare i
tuoi dati per i tuoi scopi
- Chi è stato il nostro miglior venditore di
aspirapolveri lo scorso anno?? - Topic miglior venditore di aspirapolveri ?
analisi orientata al soggetto
17Integrated .
- Risoluzione dei conflitti tra nomi e dei problemi
derivanti dal fatto che i dati si trovano
espressi in unità di misure differenti.
- Nel DB della succursale di Roma il Sig. Rossi ha
venduto 1000 aspirapolveri a 900.000 lire mentre
nel DB della filiale di NY, Mr Bush ha venduto
900 aspirapolveri a 600 come confronto i
dati? Come risolvo i conflitti tra nomi?
18Non volatile
- I dati non variano una volta entrati nel
warehouse - Il warehouse deve analizzare ciò che è accaduto
- Il Sig. Rossi ha venduto 1000 aspirapolveri, ed
ad oggi è il RecordMan di vendite - Se tra mezzora Mr. Bush ne vende altre 250,
questa informazione non deve entrare nel WH
19Time Variant
- La maggior parte delle analisi per i business
sono analisi di trend. Per questo si ha bisogno
di una grande mole di dati storici.
- Voglio sapere negli ultimi tre anni landamento
in borsa della Compagnia su Milano, Londra e
Francoforte
20Considerazioni ..
- Non interessa un singolo dato, ma dati aggregati
- Somma, media, minimo, massimo
- Le operazioni di aggregazione sono fondamentali
per popolare e mantenere un Data Warehousing - Le operazioni tipiche di un DW saranno
- Accesso e interrogazione diurne
- Caricamento e Aggiornamento dati notturne
- Su milioni di record
21Considerazioni
- Esigenza di una base dati separata perché
- Esistono diverse sorgenti di dati
- sorgenti che devono essere integrate e
tecnicamente ciò non può essere fatto in linea - I dati da integrare devono essere aggregati
- Metodi di accesso specifici
- Degrado delle prestazioni
22Architettura di un sistema direzionale
utenti
Data Marts
Sorgenti dei dati
analisi
Magazzino dati
Area di Staging
Acquisti
reporting
Vendite
Sistemi di supporto operativo
mining
Inventario
File piatti
23Rappresentazione dei Dati
- Sorgenti informative i DB preesistenti
dipartimentali . - Vendita, promozione, marketing
- DW la base dati integrata con soggetti comuni a
tutta lorganizzazione - Data Marts componente del DW soggetti
dipartimentali o settoriali selezionati - Strumenti di analisi, focalizzati su un problema
in esame
24Come viene popolato un DW
- Attività
- Estrazione dei dati
- Dalle sorgenti informative
- Trasformazione
- Pulizia dei dati, trasformazione di formato,
correlazione con oggetti in sorgenti diverse - Caricamento
- Con introduzione di informazione temporali e
generazione di dati aggregati - Refresh
- Le stesse fasi eseguite incrementalmente
- A supporto di queste attività sono mantenute
certe informazioni dette METADATI
25Tecniche di Analisi dei dati
- Un data warehouse viene costruito per fornire un
accesso facile a sorgenti contenenti una grossa
quantità di dati - Si tratta allora di un mezzo per arrivare ad un
fine. - Quale è il fine? Effettuare analisi e prendere
decisioni a partire da quei dati. - Quali sono allora le tecniche di analisi dei dati
comunemente usate oggigiorno?
26Classificazione Tecniche
- Query and reporting
- Analisi multi dimensionale
- Data mining
Display, Analizza, Scopri
In funzione delluso
271) Query And Reporting
- E il processo di
- Porre una interrogazione
- Rilevare dati fondamentali dal DW
- Trasformare i dati in un contesto appropriato
- Porre i risultati in un formato leggibile
28QR
Answer Set
Quanti aspirapolvere Sono stai venduti dall 10-9
al 16-9? E quanti nel nostro negozio di Agnano?
292) Analisi Multidimensionale
- Lanalisi dei dati viene eseguita sui dati
estratti dal DW o dal Data Mart e rappresentata
in forma multidimensionale. - E basata di solito su
- Fatti
- un concetto sul quale centrare lanalisi
- Misura
- Una proprietà atomica di un fatto da analizzare
- Dimensione
- Una prospettiva lungo la quale effettuare
lanalisi - Esempio
- Telefonata/Costo, durata/Chiamata, Chiamante,
Tempo
30Un Esempio
- Unazienda si occupa delle vendite di determinati
prodotti, per la quale sono rilevanti tre
dimensioni prodotti, tempo e mercati geografici.
- Per descrivere questa situazione si può pensare
ad un cubo, sulle cui dimensioni geometriche
riportiamo le dimensioni di interesse
dellazienda
31I punti di vista
- il manager di prodotto
- è interessato alle vendite di un determinato
prodotto in tutti i mercati e in tutto il periodo
di tempo preso in considerazione - lanalista finanziario
- è interessato ai risultati di vendita relativi a
tutti i prodotti e tutti i mercati in un
determinato periodo temporale - il responsabile regionale
- ha bisogno di conoscere le vendite nel tempo di
tutti i prodotti disponibili sul mercato di sua
competenza - lanalista di mercato
- può essere interessato alle vendite di un
determinato prodotto, su di un singolo mercato e
relative ad un preciso periodo temporale
32Le prospettive
- Le prime tre prospettive sono ricavabili fissando
il valore di una delle tre dimensioni e
aggregando i dati lungo le rimanenti due - Ciò corrisponde ad una visualizzazione
bidimensionale, tipo foglio elettronico. - Lultima prospettiva, quella dellanalista di
mercato, si ottiene fissando un intervallo su
ognuna delle tre dimensioni - Un cubo
33(No Transcript)
34Approcci allOLAP
- Linsieme dei dati da navigare è archiviato su
una struttura dati a matrice dove sono registrate
tutte le sintesi statistiche degli incroci
multidimensionali possibili - il viewer in questo caso chiede i dati
direttamente al database multidimensionale - insieme dei dati su cui navigare è registrato su
una o più tabelle relazionali - i dati, in questo caso, sono acceduti tramite
query - su di essi, vengono effettuate le sintesi
necessarie per la visualizzazione dei risultati.
35Rappresentazione multidimensionale
Mercati
Quantità
Prodotti
Vendite
Periodi di tempo
36ROLAP
- La R sta per relazionale
- ed indica la caratteristica peculiare di
estrazione dati da una strutture dati di tipo
relazionale (una o più tabelle in formato
riga-colonna). - vantaggio
- dati acceduti sono sempre gli ultimi disponibili.
- Esiste una classe di strumenti che è in grado di
recuperare i dati dalle tabelle e sintetizzarli. - svantaggio
- risiede, invece, nel fatto che una volta usciti
dal viewer i dati di sintesi si perdono e quindi
per riaccedervi è necessario rieseguire le
estrazioni e le sommarizzazioni.
37MOLAP
- indica lesistenza di una struttura per dati
multi dimensionali. - il viewer chiede i dati direttamente a questa
struttura, la quale li ha già memorizzati secondo
le dimensioni, - Vantaggio
- in questo caso sono i tempi di risposta.
- svantaggio
- il Multidimensional Data Base deve essere
allineato allaggiornamento dei dati di base dal
quale viene generato.
38Una nota sul MOLAP
- Il Gartner Group, sostenitore dellapproccio
MOLAP, ha affermato in una Research Note che i
database multidimensionali permettono di
concentrarsi sulla business view, - ovvero sugli aspetti più propriamente aziendali
- . mentre i tradizionali database relazionali
richiedono la cosiddetta system view, - impedendo, di fatto, uninterazione diretta dei
responsabili aziendali poco pratici in materia
39La soluzione MOLAP
- Ha come perno il concetto di array
multidimensionale, - tecnica per la riorganizzazione e la
memorizzazione di dati aggregati, in modo che
possano essere analizzati da più prospettive. - Un array multidimensionale è costituito da un
insieme di celle di dati, - ciascuna delle quali contiene il valore assunto
da una specifica misura, trovato in base alla
formula di calcolo e alle dimensioni che
determinano il processo di aggregazione. - In tale struttura, ciascuna dimensione funge da
indice per lindividuazione di un insieme di
celle di dati, eventualmente composto da un
singolo elemento
40Un esempio di MOLAP 2D
41Ovvero .
- L' esempio riportato in tabella corrisponde
essenzialmente alla gestione dei dati
caratteristica dei fogli elettronici. - Nellesempio le dimensioni considerate sono la
dimensione prodotto e la dimensione tempo, la
misura riguarda le vendite dei prodotti e la
formula di aggregazione consiste nel calcolo del
numero totale di unità vendute.
42Individuazione degli elementi
- fissando uno specifico prodotto ed uno specifico
trimestre - si individua la cella che riporta il numero
totale di unità vendute di quel prodotto in quel
periodo. - fissando, un valore su una sola delle due
dimensioni - si ha accesso a tutti i dati relativi al valore
fissato lungo tutta la dimensione su cui non è
stato specificato un attributo. - volendo determinare il numero totale di unità
vendute del prodotto A in tutto lanno - è sufficiente accedere allarray fissando
lattributo PROD. A e sommando i valori presenti
su tutta la riga selezionata.
43Operazioni sui dati Multidimensionali
- Roll Up
- Aggregazione dei dati
- Es. volume di vendita totale dello scorso anno
per categoria e regione - Drill down
- Disaggregazione dei dati
- Es. mostra le vendite giornaliere e dettagliate
di ciascun negozio per una certa categoria di
prodotti - Slice Dice
- Proiezione su un piano
- Solitamente bidimensionale
- Pivot
- Riorientamento del cubo
44Ovvero .
45Dimensional Fact Model (DFM)
- E un modello concettuale grafico per DW.
- La rappresentazione generata dal DFM è detta
Dimensional Scheme (DS) e consiste in un
insieme di Fact Scheme (FS). - Il DFM è indipendente dal modello logico target
(multidimensionale o relazionale). - FS compatibili possono essere sovrapposti
per mettere in relazione e comparare dati. - I FS possono essere integrati con informazioni
sul carico di lavoro, da usarsi come input per il
progetto logico.
46Fact Scheme
- I componenti di base dei FS sono fatti,
dimensioni e gerarchie. - Un fatto è un evento di interesse per l impresa
ed è descritto da un insieme di misure. - Una dimensione determina la granularità di
rappresentazione dei fatti. - Una gerarchia determina come le istanze di fatto
possono essere aggregate e selezionate in modo
significativo per il processo decisionale.
47Fatti associazioni molti a molti
48Il Dimensional Fact Model
- Le misure sono attributi a valori continui
tipicamente numerici che descrivono il fatto da
diversi punti di vista. - Ad esempio, ogni vendita è misurata dal suo
incasso. - Le dimensioni sono attributi discreti che
definiscono la la granularità minima di
rappresentazione dei fatti - dimensioni tipiche per il fatto vendite sono
prodotto, negozio, data. - Le gerarchie (una per ciascuna dimensione) sono
costituite da attributi discreti collegati da
associazioni -to-one. - La gerarchia sulla dimensione prodotto include ad
esempio gli attributi tipo di prodotto,
categoria, dipartimento, ecc. - Alcuni attributi, rappresentati da una linea,
sono detti attributi non dimensionali e non
possono essere utilizzati per aggregare i dati.
49Modellazione dei dati Star Schema
- individuazione delle variabili oggetto
dellanalisi corrente - per ciascuna di queste variabili devono essere
definite le misure e, per ciascuna misura, le
dimensioni ad essa associata che, ricordiamo,
determinano il tipo e il livello del processo di
aggregazione. - scelta degli attributi di ciascuna dimensione che
devono essere memorizzati nella tabella
associata. - Questa scelta determina il livello di dettaglio
con cui viene descritta la misura e la gerarchia
di aggregazione nella dimensione.
50Modello logico Relazionale
- Lo star schema prevede una tabella centrale,
detta Fact Table, che determina loggetto dello
studio e più tabelle di appoggio, denominate
Dimensional Table, che rappresentano le
dimensioni utilizzate per lanalisi. - La chiave della FT è composta dalle chiavi delle
varie DT. - Le sottoparti della chiave della FT sono chiavi
importate delle DT. - Esiste una relazione di tipo 1-a-n tra le
Dimension Table e la Fact Table - Laccesso ai dati avviene tramite join tra le
Dimension Table e la Fact Table
51Esempio
52Esempio di Query
53Star Schema osservazioni
- Le Dimension Table sono completamente
denormalizzate. - Si riduce il numero di join necessari
- Ma
- Aumenta la dimensione delle tabelle
- La Fact Table contiene tuple relative a diversi
livelli di aggregazione - Lelevata dimensione della Fact Table incide sui
tempi di accesso - Non si hanno problemi di sparsità in quanto
vengono memorizzati soltanto le tuple
corrispondenti a punti dello spazio
multi-dimensionale per cui esistono le
informazioni
54DENORMALIZZAZIONE
- Nei casi pratici il numero di
- variabili da controllare
- delle misure per ciascuna variabile
- delle dimensioni associate a ciascuna misura
- sono molto più elevati
- . ciò comporta una proliferazione notevole del
numero delle tabelle - sia di quelle associate alle dimensioni, sia di
quelle associate alle misure. - Poiché i dati aggregati memorizzati nelle tabelle
delle misure non sono soggetti a ripetizione,
tali tabelle sono normalizzate - laddove quelle delle dimensioni sono normalmente
denormalizzate, dovendo memorizzare tutti gli
attributi di ogni livello di aggregazione
implementato.
55LO SCHEMA A FIOCCO DI NEVE(snowflake)
- La variante nota con il termine schema a fiocco
di neve consiste nella suddivisione delle tabelle
delle dimensioni a livello degli attributi di
aggregazione - Si ottiene normalizzando una o più dimensioni
dello star schema - il che consente di avere un numero di tabelle
maggiori ma di piccole dimensioni e normalizzate - con conseguente semplicità di gestione in fase di
popolazione ed aggiornamento delle tabelle
56Lo snowflake schema
- Si riduce la dimensione e la cardinalità delle
Dimension Table - Ogni Fact Table conterrà solo informazioni a
particolari livelli di aggregazione - È necessario un modulo del DBMS (Aggregation
Navigator) che, per ogni query, decida a quale
fact table accedere
57esempio
58Come fare le interrogazioni?
- In linea di principio, la popolazione di uno star
schema può essere effettuata ricorrendo al
linguaggio SQL standard - questa soluzione, però, è estremamente
complicata e dispendiosa in termini di tempo, in
quanto, per ciascuna misura, bisogna considerare
alternativamente ogni dimensione e applicare
esplicitamente la formula di aggregazione
desiderata (conteggio, somma, media, etc.). - Per tale motivo, le applicazioni ROLAP utilizzano
tecniche proprietarie per la popolazione e
laggiornamento degli star schema, tecniche che
si basano su opportune estensioni del linguaggio
SQL.
593) DATA MINING
- Discovery Technique
- E una tecnica di analisi dei dati relativamente
nuova - Non effettua query ma usa algoritmi specifici che
analizzano i dati e riportano quanto scoperto - Trova relazioni tra certi dati, attraverso
tecniche di clusterizzazione
60Cosa è il DM
- Col termine data mining si indicano una serie di
tecniche atte ad individuare delle relazioni tra
dati non esplicitamente rappresentate ed
inattese. - Il processo di analisi comincia acquisendo
conoscenza a partire da un certo campione di dati
via via più ampio assumendo che le
caratteristiche di un ampio set di dati sono
simili a quelle di un campione limitato
61PREDICTIVE MODELING
- questa tecnica cerca di ripercorrere i processi
di apprendimento umani costruendo un modello che
descriva le più importanti caratteristiche di un
certo fenomeno. - Il modello viene costruito in due fasi
- Training set costruisce il modello a partire da
un grosso campione di dati storici - Testing set verifica il modello cercando di
predire i dati non visti precedentemente
62Le tecniche di PM
- Classificazione
- mediante alberi decisionali e reti neurali
possono essere individuati record di particolari
aggregati comportamentali - Value prediction
- mediante modelli di regressione statistici
lineari o non, viene effettuata la previsione
futura per un certo aggregato di dati. - La tecnica è simile alla tecnica di
interpolazione utilizzata in analisi numerica ed
è relativamente semplice da utilizzare
63DATABASE SEGMENTATION
- Lo scopo è partizionare il database in cluster di
record omogenei (aventi cioè proprietà comuni) al
fine di individuare dei profili di
sub-popolazioni di dati presenti nel database. - Fanno largo uso di queste tecniche quelle
applicazione orientate a definire profili di
utenza, marketing etc.
64DEVIATION DETECTION
- Tendono ad individuare entità che si discostano
dalle previsioni effettuate mediante modelli
statistici. - Queste tecniche possono fare uso di strumenti di
visualizzazione grafica che possono riportare gli
aggregati del modello ed i loro complementi
65Analisi dei dati
Data Driven
Assistita dall Analista
Guidata dall Analista
Data Mining
Query and reporting
Analisi Multidimensionale
66Limportanza del modeling
- Il tipo di analisi fatto per un DW può
determinarne - Il tipo
- Il contenuto
- Summarization, Metadati espliciti QR, MOLAP
- Drilling Down, Rolling UP MOLAP
- Basso livello di dettaglio Data Mining
67Architetture di DW e Scelte implementative
- Cosa è un Data Mart
- Un DW più piccolo che funziona indipendentemente
o può essere interconnesa per formare un
warehouse integrato - Un data mart è un sottoinsieme di un DW che
assiste un particolare dipartimento o una
particolare funzione direzionale. - memorizza un sottoinsieme dei dati del DW
normalmente in forma molto aggregata utile ad un
particolare dipartimento direzionale
68Data Mart Architettura
69Data Mart vs Data Warehouse
- Un data mart contiene meno informazioni e quindi
è più facile navigare in essi - Un data mart non contiene dati operativi
- Un data mart si focalizza solo sui requisiti di
un particolare dipartimento
70Perché un Data Mart
- Essi permettono agli utenti un accesso rapido
alle informazioni usate da loro più
frequentemente - migliorando i tempi di risposta del sistema
(essendo diminuito il volume dei dati da
visitare). - Forniscono strutture dati appropriate ad esigenze
specifiche agevolando le tecniche di data mining.
- Il costo per la creazione e la gestione di un
data mart è normalmente più basso di quello di un
DW
71Data Mart caratteristiche
- Scalabilità
- Dimensioni
- devono garantire tempi di risposta più brevi
rispetto ad un DW - Rapporto tra la loro crescita e le loro
performance - Le Viste logiche di diversi data mart fisici
hanno il nome di virtual data marts - Le tecnologie di networking sono intimamente
legate ai data marts - Al crescere del numero di data marts cresce
lesigenza di avere un management centralizzato
degli stessi al fine di coordinarne lattività e
mantenerne la consistenza