Scienze statistiche

Software per la gestione dell'informazione statistica

lunedì 22 marzo 2010

Data Warehouse

Le aziende, attraverso le tecnologie di data warehouse, riescono a gestire un vasto patrimonio di dati. Il data warehouse trasforma i dati dell'impresa in informazioni strutturate rendendole facilmente consultabili ed esaminabili e pronte per il controllo direzionale. I dati dell'organizzazione, dislocati su fonti informative diverse, vengono integrate in un unico magazzino dati fruibile da utenti posti a livelli diversi nella gerarchia aziendale.

I criteri fondamentali su cui poggia un data warehouse sono:

ORIENTAMENTO AL SOGGETTO: i dati vengono organizzati in base alla loro funzione o al processo aziendale d'appartenenza.

INTEGRAZIONE E CONSISTENZA: i dati accorpati in un unico magazzino danno coerenza ai dati stessi, provenienti da applicazioni diverse.

NON VOLATILITA': il data warehouse viene usato per fare indagini, pertanto i dati non sono modificabili.

STORICITA': il patrimonio informativo può essere organizzato in funzione della dimensione tempo.

COLLEGAMENTO ALLE FONTI INFORMATIVE: possibilità di collegamento con tutte le fonti informative aziendali quali, applicazioni gestionali, ERP, dati del web.


ETL: acronimo di EXTRACTION - TRANSFORM - LOADING. Permette l'estrazione e la raccolta, l'integrazione e la trasformazione di grandi quantitativi di dati provenienti da fonti informative diverse e di qualsiasi tipologia, da file sequenziali con struttura semplice a tabelle di RDBMS, file XML con struttura complessa, ma anche dati provenienti dal WEB o da fogli elettronici. Grazie all'ETL si opera in Business Intelligence ottendendo numerosi benefici, quali: la riduzione dei tempi vista la rapida generazione di un data warehouse; un controllo dei costi per il processo di integrazione dei dati; la creazione di processi ETL riutilizzabili e ritorno in termini economici circa l'organizzazione dell'intero sistema IT.

Per garantire prestazioni migliori durante le ricerche effettuate sulla base di molti dati, si ricorre alla denormalizzazione, procedimento che permette di accorpare attributi appartenenti a relazioni diverse in un'unica relazione. Se, per esempio, disponiamo di un database dove sono registrati film e attori, per sapere a quali ha partecipato uno specifico attore, si può memorizzare il numero di tali film direttamente nella sezione attori, incrementando ad ogni nuovo film girato dall'attore stesso. Questa procedura può aumentare il rischio di inconsistenza dei dati conservati visto che il software usato dal database aumenterà in termini di complessità gestendo direttamente l'aggiornamento.

All'interno del database è presente un linguaggio di interrogazione definito SQL - STRUCTURED QUERY LANGUAGE, il quale permette di leggere, modificare e gestire i dati memorizzati in un RDBMS. L'SQL nasce, nei laboratori IBM, nel 1974, dalla mente di Donald Chamberlin. Inizialmente chiamato SEQUEL, opera attraverso costrutti di programmazione chiamati QUERY. Il termine Query indica l'interrogazione di un database nel compiere alcune operazioni ed è attraverso il linguaggio SQL che la query viene interpretata.

Nessun commento:

Posta un commento