Scienze statistiche

Software per la gestione dell'informazione statistica

lunedì 22 marzo 2010

Sistemi informativi aziendali

Con il termine Datawarehouse di intende sostanzialemente un magazzino di dati, un archivio che consente di produrre facilmente relazioni ed analisi. Fu Inmon il primo a parlarne definendolo come "una raccolta di dati integrata, orientata al soggetto, varianile nel tempo e non volatiledi supporto ai processi decisionali". Sono quattro i livelli architetturali del datawarehouse:

TRASFORMAZIONE DEI DATI: livello che si occupa di acquisire i dati e validarli.

PREPARAZIONE E STOCCAGGIO DATI: livello che fornisce i dati agli utenti e alle applicazioni analitiche.

INTERPRETAZIONE E ANALISI DATI: livello che gestisce la trasformazione dei dati in informazioni dotate di senso strategico.

PRESENTAZIONE DATI: livello che gestisce la presentazione finale dei dati agli utenti circa le risposte cercate.

I dati gestiti dal datawarehouse possono essere:

ATTUALI: validi al momento dell'interrogazione e utili ai fini dei processi decisionali.

STORICI: dati che hanno superato la fase dell'attuale e che vengono posizionati su supporti meno impegnativi e meno costosi.

AGGREGATI: aggragazioni di dati predisposte derivanti da considerazioni circa l'efficienza e la praticità.

Con il termine Datamart si intende, invece, un raccoglitore di dati specializzati in un particolare soggetto. Un DM contiene dati riguardanti il passato e comunque utili ai fini dei processi decisionali. E' solitamente posizionato a valle di un Datawarehouse ma la sua creazione avviene in maniera specifica per una determinata esigenza, a differenza del datawarehouse che è invece caratterizzato da una crezione generalizzata.

I sistemi di reportistica appartengono alla famiglia dei sistemi informativi frutto dell'evoluzione informatica. L'obiettivo è quello di fornire documentazione analitica sulle attività importanti all'interno dell'organizzazione e lo sviluppo consiste nell'attuazione di alcune fasi:
1. Identificazione delle esigenze informative e di visualizzazione.

2. Identificazione del contesto informativo e delle fonti.

3. Identificazione della configurazione del sistema hardware/software.

4. Fase di integrazione hardware/software delle risorse informative.

5. Preparazione del report.

6. Validazione del report.

7. Fase di collaudo del sistema.

8. Fase di esercizio del sistema di reportistica.

Il Report è un documento composto da tabelle e grafici che presentano le misure di rilievo del fenomeno analizzato.

Data Warehouse

Le aziende, attraverso le tecnologie di data warehouse, riescono a gestire un vasto patrimonio di dati. Il data warehouse trasforma i dati dell'impresa in informazioni strutturate rendendole facilmente consultabili ed esaminabili e pronte per il controllo direzionale. I dati dell'organizzazione, dislocati su fonti informative diverse, vengono integrate in un unico magazzino dati fruibile da utenti posti a livelli diversi nella gerarchia aziendale.

I criteri fondamentali su cui poggia un data warehouse sono:

ORIENTAMENTO AL SOGGETTO: i dati vengono organizzati in base alla loro funzione o al processo aziendale d'appartenenza.

INTEGRAZIONE E CONSISTENZA: i dati accorpati in un unico magazzino danno coerenza ai dati stessi, provenienti da applicazioni diverse.

NON VOLATILITA': il data warehouse viene usato per fare indagini, pertanto i dati non sono modificabili.

STORICITA': il patrimonio informativo può essere organizzato in funzione della dimensione tempo.

COLLEGAMENTO ALLE FONTI INFORMATIVE: possibilità di collegamento con tutte le fonti informative aziendali quali, applicazioni gestionali, ERP, dati del web.


ETL: acronimo di EXTRACTION - TRANSFORM - LOADING. Permette l'estrazione e la raccolta, l'integrazione e la trasformazione di grandi quantitativi di dati provenienti da fonti informative diverse e di qualsiasi tipologia, da file sequenziali con struttura semplice a tabelle di RDBMS, file XML con struttura complessa, ma anche dati provenienti dal WEB o da fogli elettronici. Grazie all'ETL si opera in Business Intelligence ottendendo numerosi benefici, quali: la riduzione dei tempi vista la rapida generazione di un data warehouse; un controllo dei costi per il processo di integrazione dei dati; la creazione di processi ETL riutilizzabili e ritorno in termini economici circa l'organizzazione dell'intero sistema IT.

Per garantire prestazioni migliori durante le ricerche effettuate sulla base di molti dati, si ricorre alla denormalizzazione, procedimento che permette di accorpare attributi appartenenti a relazioni diverse in un'unica relazione. Se, per esempio, disponiamo di un database dove sono registrati film e attori, per sapere a quali ha partecipato uno specifico attore, si può memorizzare il numero di tali film direttamente nella sezione attori, incrementando ad ogni nuovo film girato dall'attore stesso. Questa procedura può aumentare il rischio di inconsistenza dei dati conservati visto che il software usato dal database aumenterà in termini di complessità gestendo direttamente l'aggiornamento.

All'interno del database è presente un linguaggio di interrogazione definito SQL - STRUCTURED QUERY LANGUAGE, il quale permette di leggere, modificare e gestire i dati memorizzati in un RDBMS. L'SQL nasce, nei laboratori IBM, nel 1974, dalla mente di Donald Chamberlin. Inizialmente chiamato SEQUEL, opera attraverso costrutti di programmazione chiamati QUERY. Il termine Query indica l'interrogazione di un database nel compiere alcune operazioni ed è attraverso il linguaggio SQL che la query viene interpretata.

On line analytical processing

La tabella a doppia entrata rappresenta una distribuzione di dati bivariati ovvero che prende in considerazione contemporaneamente due variabili, una qualitativa e una quantitativa, riferite alla stessa unità statistica. Un particolare tipo di tabella a doppia entrata è la tabella di contingenza, utilizzata in statistica per rappresentare e analizzare le relazioni tra due o più variabili. La tipologia di tabella di contingenza più semplice è quella tetracorica in cui le variabili possono assumere al massimo due valori.
Uno studio che prende in considerazioni tre dimensioni può essere effettuato attraverso l'ipercubo in cui, ogni componente di un dato, è rappresentata da una dimensione spaziale dell'ipercubo.
OLAP: acronimo dell'espressione ON LINE ANALYTICAL PROCESSING. E' un insieme di tecniche software che permettono l'analisi di grandi quantitativi di dati.E' un'analisi multidimensionale, dall'inglese "slice & dice", rapida, flessibile ed efficiente e permette all'utente di scegliere interattivamente le informazioni da visualizzare e i filtri da applicare. E' la componente tecnologica base del data warehouse e viene utilizzato dalle università per i sondaggi, dal marketing per misurare il successo di una campagna pubblicitaria e dalle aziende per analizzare i risultati delle vendite o l'andamento dei costi.
Creare un database OLAP significa fotografare, in un determinato momento, le informazioni a disposizione, magari inserite in un database relazionale, e trasformare le singole informazioni in dati multidimensionali. Le interrogazioni poste successivamente ci permettono di ottenere un gran numero di informazioni in tempi estremamente ridotti. Il cubo può essere creato in diversi modi ma quello più comune è quello definito "schema a stella" il quale prevede al centro i principali elementi oggetto dell'interrogazione e, collegate, tutte le dimensioni che specificano come saranno aggregrati i dati. In sintesi, un sistema OLAP, permette di studiare un grande quantitativo di dati, da prospettive diverse supportando i processi decisionali.

Le funzioni di base di uno strumento OLAp sono:
SLICING: operazione di rotazione delle dimensioni di analisi per analizzare totali ottenuti in base a dimensioni diverse.
DICING: operazione di estrazione di informazioni dall'aggregato che si sta analizzando.
DRILL-DOWN: operazione di esplosione del dato nelle sue determinanti.
DRILL-ACCROSS: operazione mediante la quale si naviga attraverso uno stesso livello nell'ambito di una gerarchia.
DRILL-THROUGH: operazione mediante la quale si passada un livello aggregato al livello di dettaglio appartenenti alla base dati normalizzata.

Microsoft Access.....Northwind insegna!

Microsoft Access è un database relazionale realizzato da Microsoft, compreso nel pacchetto Office Professional, ed unisce l'interfaccia grafica al motore relazionale Microsoft Jet Database Engine. Per il salvataggio segue il modello tabella relazionale ed è quindi possibile immagazzinare i dati in tabelle composte da molti record, ciascuno dei quali contiene i dati distinti per campi; qualora una tabella non fosse sufficiente è possibile realizzarne altre e collegarle con una relazione dando vita alla possibilità di consultare un grande numero di dati diversi in forma complessa. Tabelle, query, macro, pagine, moduli e report sono compresi in un unico file con il quale sviluppare le applicazioni complete pur mantenendo una separazione fisica tra le tabelle dei dati. Le tabelle permettono l'inserimento e la memorizzazione dei dati in quanto contengono tutti i dati del database e sono strutturate in righe e colonne come in un foglio elettronico; le query ci permettono di manipolare ed interrogare i dati e le più utilizzate sono quelle di selezione che estraggono solo alcuni dati eventualmente messi in relazione con altre tabelle; le macro contengono istruzioni ottenibili attraverso i menu di access; le pagine permettono la pubblicazione dei dati attraverso un server web; i moduli contengono i codici che si vogliono rendere globali, ovvero richiamabili da un qualsiasi elemento dell'applicazione; i report consentono la visualizzazione dei risultati basati su query, tabelle e dati permettondone la stampa.

In Access è possibile trovare alcuni database di esempio che facilitano l'apprendimento del programma. Attraverso il menu "?" è possibile accedere al Database Northwind il quale contiene i dati relativi alle vendite di una società, fittizia, denominata Northwind Traders, specializzata nell'import-export di prodotti alimentari. Da Northwind è possibile trarre tutte le indicazioni e gli spunti necessari per realizzare applicazioni di database personalizzate. Il Database Northwind è possibile scaricarlo e salvarlo sul proprio pc attraverso il tutorial di Access 2000 e seguendo la semplice procedura guidata.

NORMALIZZAZIONE: procedimento che mira ad eliminare la ridondanza e il rischio di incoerenza del database. La normalizzazione è un procedimento graduale che realizza un'ottimizzazione progressiva a partire da relazioni non normalizzate. Quando si parla di ridondanza ci si riferisce a quei dati memorizzati più volte inutilmente. L'obiettivo è quello di eliminare l'incogruenza tra i dati derivante dai diversi modi di scrivere la stessa parola (come ad con la prima lettera maiuscola o minuscola) o da errori di scrittura. Nel testo normalizzato il termine compare una sola volta.

Quando ci si riferisce ai componenti concettuali e tecnici dei databse, gli informatici e gli statistici chiamano le stesse cose con nomi diversi. Le CELLE rappresentano l'intersezione di ogni riga con ogni colonna, in statistica ciò da luogo alla modalità, in informatica alla misura; il REPORT, in entrambi i casi, rappresenta l'aggregazione di dati in un unico documento; l'UNITA' STATISTICA rappresenta l'elemento di base della popolazione sul quale viene rilevata la caratteristica oggetto di studio, in statistica, mentre in informatica rappresenta l'unità di misura che valuta la quantità di informazioni; le TABELLE permettono lo stesso tipo di operazione ovvero l'immissione di dati in costrutti formati da righe e colonne. Questo per dire che ragionare in termini statistici non significa essere distanti dal mondo informatico, significa solo usare tecnicismi diversi i quali però, qualora se n'è assimilato il concetto, possono essere trasferiti con estrema semplicità al mondo informatico.

giovedì 18 marzo 2010

Spreadsheet e DBMS...open source o programmi proprietari.


Spreadsheet è il termine inglese traducibile come foglio elettronico, ovvero un software di produttività personale che permette di tracciare rappresentazioni grafiche, effettuare calcoli ed elaborare dati attraverso una tabella, formata da celle identificate con lettera e numero, in cui si possono inserire dati, numeri e formule.
L'invenzione del foglio di calcolo è attribuita a Dan Bricklin e Bob Frankston, i quali collaborano per lo sviluppo di VisiCalc, primo foglio di calcolo per personal computer.

I principali fogli di calcolo sono:
EXCEL: inserito nella suite di programmi Microsoft Office, viene considerato uno dei migliori fogli di calcolo.
OPEN OFFICE: viene eseguito da Microsoft, Mac, Linux e Sun Solaris e salva i propri documenti con l'estenzione XML. E' disponibile in due versioni: OpenOffice gratuita in open-source e Sun Star Office, relativamente economica ma con alcune funzionalità aggiuntive.
LOTUS 1-2-3: è l'originale "killer application" che legittimava i pc per le imprese. E' un ottimo foglio di calcolo che esegue perfettamente le funzioni soprattutto se utilizzato in forma congiunta con la suite Lotus.
QUATTRO PRO: nasce come clone di Lotus 1-2-3 ma è attualmente compatibile per Windows offerto come parte del pacchetto WordPerfectOffice.
GNUMERIC: è parte del progetto GNU della suite GnomeOffice, nasce con l'obiettivo di sostituire Excel e Lotus per sistemi operativi Unix-like.
GNKSPREAD: è il foglio di calcolo per la suite KOffice, essendo gratuito non ha l'ampiezza di funzioni di altri fogli di calcolo ma soddisfa le esigenze basilari eseguendo tutte le funzionalità standard che ci si aspeta da un moderno foglio di calcolo.
GOBE PRODUCTIVE: è un programma che ti permette di avere in un unico documento grafici, testi, presentazioni, senza utilizzare programmi separeati. Attualmente è disponibile anche per Windows.
NUMBERS: rappresenta il foglio elettronico della suite iWork di Apple ed è disponibile anche per Mac.

Il DBMS - database management system - è un sistema software progettato per creare e manipolare collezioni di dati strutturati da parte di più utenti. I DBMS hanno un utilizzo diffuso in ogni contesto, dalla contabilità alla gestione delle risorse umane. Sono costituiti da un insieme di programmi software che controllano l'organizzazione, la memorizzazione e il reperimento dei dati tutelando la sicurezza e l'integrità del database, i non autorizzati non hanno, infatti, accesso ai dati e possibilità di modificarli.
Un DBMS può ricevere comandi attraverso diversi linguaggi, linguaggi che possono essere raggruppati in base alle loro funzioni:
DDL - Data Description Language: linguaggi con i quali si stabiliscono le strutture del database.
DML - Data Manipulation Language: linguaggi per impartire comandi di elaborazione dati.
QL - Query Language: linguaggi che presentano una natura interattiva.
Le caratteristiche che hanno reso così popolare l'utilizzo del database sono: la riduzione della ridondanza dei dati, ovvero la possibilità di evitare che i dati si ripetino nella base; la condivisione dei dati da parte di tutte le applicazioni che ne facciano richiesta; sicurezza e riservatezza che evitano l'accesso dei non autorizzati; l'indipendenza dei dati dalle applicazioni.
All'interno di un azienda, il sistema informatico commerciale è costituito da soggetti (clienti, venditori, impiegati) e da attività (pagamenti, acquisti, ordini) ed è il database a consentirel'organizzazione di questi dati in tipi di record e le conseguenziali relazioni che si instaurano tra i record stessi.
I principali tipi di DBMS sono:
DB2: database rfelazionale della IBM
FILEMAKERPRO: database sviluppato da FileMaker Inc., è stato uno dei primi database sviluppati per Apple Macintosh.
ORACLE: è uno dei database più famosi. Sviluppato dalla Oracle Corporation dal 1977

I software citati possono rientrare nella categoria dei programmi open source o nella categoria dei programmi proprietari. La differenza è netta.
I programmi open source (sorgente aperta) sono quei software i cui autori, che ne detengono tutti i diritti, decidono di metterli a disposizione di chiunque con l'obiettivo di migliorare il prodotto grazie alla collaborazione di programmatori, magari geograficamente distanti, che lavorano apportando delle modifiche sia in termini di complessità che di completezza. Risultati ai quali non giungerebbe anche una specializzata equipe di programmatori.
(OpenOffice - VLC - GNU - Linux)
I programmi proprietari sono quei software con restrizioni nell'utilizzo, nella modifica, nella riproduzione o ridistribuzione, imposte dai proprietari sia in termini legali che tecnici. L'obiettivo, in questo caso, è unico ovvero operare a scopo di lucro. Per i produttori di programmi proprietari, la massima aspirazione, non è "scoprire" qualcosa di nuovo e arricchire le conoscenze tematiche bensì ottenere un guadagno.
(RealPlayer - WinZip - Adobe Photoshop)

lunedì 1 marzo 2010

Scienze della comunicazione...destinata a scomparire?

I dati parlano chiaro, negli ultimi 4 anni le iscrizioni al primo anno della facoltà di scienze della comunicazione si sono quasi dimezzate. Si è passati da 1338 iscritti all'anno accademico 2006/2007 a 833 nell'anno accademico 2009/2010.

http://www.uniroma1.it/infostat/default.php

Dati impressionanti se si considerano i quasi 20000 iscritti del 2001 nelle facoltà italiane.
Quali le cause di tale tendenza?
Alcuni sostengono che la motivazione principale sia il mancato inserimento nel mondo del lavoro. In effetti, nel 2004, i tassi di disoccupazione ad un anno dall'ottenimento del titolo sfioravano il 50%.
Scienze della comunicazione, fin dall'inizio, si è presentata come il corso di laurea maggiormente "professionalizzato" del panorama universitario italiano, andando in contro al fabbisogno comunicativo di aziende e imprese.
Prometteva una delle più elevate percentuali di placement in Italia ma oggi, purtroppo, le promesse sembrano essere state disattese, viene vista con diffidenza dal mondo del lavoro e della comunicazione professionale e l'immagine che ne danno i media è quella di una "forgia di disoccupati".
Una delle critiche più aspre riguarda il percorso formativo ritenuto troppo lineare al punto da permettere a tutti gli studenti di raggiungere il traguardo della laurea senza troppa fatica e senza troppi ostacoli.
"Abbiamo bisogno di ingegneri, abbiamo bisogno di tecnici importanti. Una sola preghiera: non vi iscrivete a scienze della comunicazione, non fate questo tragico errore, che paghereste per il resto della vita!”. Sono queste le parole del presentatore tv Bruno Vespa.


Parole dure che hanno gettato nel dubbio tantissimi giovani, non solo quelli che stanno vagliando l'ipotesi di tale percorso ma anche quelli che lo hanno già intrapreso e, prossimi alla laurea, iniziano a temere un futuro pieno di incertezze professionali.
A queste parole risponde il Prof. Emanuele Invernizzi, docente di Comunicazione d'impresa presso la Libera università di lingue e comunicazione di Milano (IULM). Questa è l'intervista che ridona speranza, il docente infatti afferma l'instabilità di questo corso di laurea ma afferma anche la grande richiesta, da parte del mercato, di questa figura professionale tanto criticata.


Chi ha ragione? Difficile stabilirlo, di sicuro saranno i dati sul placement dei prossimi anni a dimostrare se veramente la facoltà di Scienze della Comunicazione aveva solo bisogno di assestarsi o se le paure odierne sono fondate.