Scienze statistiche

Software per la gestione dell'informazione statistica

giovedì 29 aprile 2010

Query di Join


Una Join è un comando che serve a combinare le righe di due o più tabelle di un database e il modo più semplice per capirne il funzionamento è immaginare le due tabelle che prendiamo ad esame come se fossero due insiemi; in questo modo otteniamo due aree separate (giallo e azzurro) e una zona condivisa (verde). Le diverse tipologie di Join di cui disponiamo, ci permettono di arrivare a risultati diversi analizzando solo la sezione che ci interessa.

  • INNER JOIN: crea una nuova tabella comparando ogni riga della tabella A con ciascuna riga della tabella B applicando la regola di controllo definita. In base all'esistenza o meno della condizione "where", la Inner Join restituisce solo i record verificati esistenti in entrambe le tabelle, verranno escluse tutte le righe che non hanno corrispondenza.

  • OUTER JOIN: crea una nuova tabella nella quale inserisce tutti i record che non hanno alcuna corrispondenza tra le tabelle. Le Outer Join si suddividono in: Left Outer Join, la query avrà come risultato tutti i valori della tabella A (left) e tutti i valori della tabella B che trovano corrispondenza nella regola di confronto; Right Outer Join, ricalca in funzionamento della precedente invertendo l'ordine delle tabelle.

martedì 20 aprile 2010

"Interrogando" ...query e funzioni aggregative!

Nel campo dell'informatica, con il termine "query", si indica l'interrogazione di un database aggiungere, modificare, esaminare o eliminare dati. Con la sola osservazione diretta di una tabella, non riusciremmo ad ottenere informazioni precise, risposte a domande specifiche in quanto la query ci permette di filtrare i dati, eseguire calcoli e automatizzare molte attività di gestione dei dati.
E' possibile eseguire diversi tipi di query:
  • Query di selezione: esegue un'interrogazione sui dati memorizzati nelle tabelle e restituisce un set di risultati in forma di foglio dati.

  • Query a campi incrociati: calcolca una somma, una media, un conteggio e raggruppa i risultati in base a due tipi di informazioni, un tipo rappresentato in verticale sul lato sinistro del foglio dati e il secondo lungo il lato superiore.

  • Query di comando: consentono di modificare i dati delle tabelle su cui si basano. Possono essere: query di accomodamento, che aggiungono i record del set di risultati di una query alla fine di una tabella esistente; query di eliminazione, che rimuovono le righe che soddisfano i criteri specificati da una più tabelle; query di aggiornamento, che modificano un set di record secondo i criteri specificati; query di creazione tabella, che creano una nuova tabella e quindi un nuovo record in essa copiando i record da una tabella esistente.

  • Query con parametri: richiede l'immissione di un valore durante la sua esecuzione il quale viene applicato dalla query con parametri sotto forma di criterio di campo.

Le funzioni di aggregazione permettono di eseguire un calcolo su un set di valore restituendo un valore singolo. Il valore restituito è sempre lo stesso ogni volta che vengono chiamate con un set specifico di valori di input se lo stato del database rimane invariato, questo le rende deterministiche. Il Transat - SQL include delle funzioni di aggregazione specifiche:

  • AVG: restituisce la media dei valori di un gruppo

  • COUNT: restituisce il numero degli elementi contenuti in un gruppo

  • MAX: restituisce il valore massimo dell'espressione

  • MIN: restituisce il valore minimo dell'espressione

  • SUM: restituisce la somma di tutti i valori

  • STDEV: restituisce la deviazione statistica standard di tutti i valori nell'espressione specificata

  • VAR: restituisce lo scostamento statistico di tutti i valori dell'espressione specificata

CRM


CRM acronimo di Customer Relationship Management è un concetto legato a quello di fidelizzazione del cliente. Fidelizzare il cliente significa conoscerlo, capire e prevederne i bisogni; un cliente avrà forti motivazioni per restare fedele se ravvisa nel fornitore una significativa attenzione alla sua identità. Il cliente è l'asset più importante per un'azienda e investire nelle relazioni con il cliente significa investire nel futuro dell'azienda. Un'impresa che si definisce Market Oriented non ha a cuore solo il cliente bensì il contesto all'interno del quale il suo target di riferimento si trova.


L'attività del CRM è sostanzialmente indirizzate verso quattro sezioni diverse:
  • L'acquisizione di nuovi clienti

  • La trasformazione degli attuali clienti in consumatori che lodano l'azienda incoraggiando altre persone all'acquisto

  • L'aumento delle relazioni con i clienti più importanti

  • La fidelizzazione più longeva possibile dei clienti che hanno maggiori rapporti con l'impresa
Esistono tre diverse tipologie di CRM:
  • CRM COLLABORATIVO: il contatto con il cliente è gestito da strumenti di comunicazione integrati con tecnologie e metodologie

  • CRM OPERATIVO: i processi di business che prevedono il contatto diretto con il cliente vengono automatizzate attraverso soluzioni metodologiche e tecnologiche

  • CRM ANALITICO: strumenti e procedure che migliorano la conoscenza del cliente attraverso l'estrazione, l'analisi e lo studio revisionale dei dati e dei comportamenti dei clienti stessi
Spesso si tende ad equiparare il CRM a un software, in realtà, pur sfruttando in maniera massiccia strumenti informatici e automatizzati, si tratta di una strategia aziendale, di comunicazione, ponendo al centro dell'attenzione il cliente.
Prima di applicare il concetto del CRM, un'azienda deve investire in strategia e comunicazione, solo dopo in tecnologia e software, sia nel caso in cui l'obiettivo sia il ROI - Return on Investment, sia nel caso in cui lo scopo finale sia il LV - Lifetime Value.
Un buon sistema di CRM comprende sia il Front Office, ovvero le relazioni con l'esterno, sia il Back Office, ovvero l'analisi e la misurazione dei risultati ottenuti e gli strumenti di cui sono molteplici, non sempre complessi da un punto di vista tecnologico. (chat online; storia dei pagamenti effettuati dal cliente; preventivi e fatture rivolte al cliente; un indirizzo e-mail a cui rivolgersi; forum di discussione)

Reporting e Mining

Nel secolo scorso, i settori dell'archiviazione e della memorizzazione delle informazioni, hanno subito profondi cambiamenti soprattutto vista la mole di dati posseduti da una sola azienda, i quali non vengono raccolti solo per essere sottoposti ad analisi o per ricavarne modelli di previsione ma anche per costituire la base dei processi decisionali in qualsiasi settore.

In un'azienda, in sede di pianificazione operativa, vengono stabiliti degli obiettivi ed è attraverso il controllo di gestione, ovvero un sistema operativo detto anche controllo direzionale e composto da indicatori, che si rileva lo scostamento tra obiettivi pianificati e risultati conseguiti con lo scopo di informare i responsabili che decideranno, poi, come intervenire. Inizialmente veniva utilizzato solo nelle imprese ma oggi anche la pubblica amministrazione inizia ad usufruire di questo sistema, secondo la filosofia del new public management, sostituendo i tradizionali controlli formali di legalità.
L'obiettivo non è individuare un colpevole in presenza di una perdita aziendale o di un errore logistico bensì quello di inquadrare il comportamento di tutti i dipendenti affinchè ciascuno di essi possa svolgere al meglio la propria professione, ecco perchè il controllo di gestione è solitamente affiancato da sistemi di valutazione del personale e da sistemi incentivanti.
Inoltre, i report possono essere classificati in: di conoscenza, di controllo e decisionali in base alla loro finalità, ma anche in: di routine, strutturati e periodici; di approfondimento, più analitici ma su richiesta; non strutturati, ad hoc per specifici problemi.

Il processo di controllo è composto da tre fasi:
  1. FASE ANTECEDENTE O BUDGETING: in questa fase di stanziamento del bugdet, gli obiettivi operativi vengono resi misurabili attraverso degli indicatori con lo scopo di verificarne successivamente il conseguimento; vengono corredati delle risorse necessarie valutate in termini di costi; vengono assegnati agli organi aziendali responsabili

  2. CONTROLLO CONCOMITANTE: si svolge parallelamente alla gestione e prevede dei controlli periodici degli indicatori; una raccolta di informazioni da trasmettere ai vertici aziendali; ipotetiche decisioni di intervento da parte del vertice aziendali e conseguente attuazione di tali decisioni.

  3. CONTROLLO SUSSEGUENTE: è la fase di chiusera del controllo di gestione e prevede la comunicazione ai vertici della misurazione finale degli indicatori. lo scopo è quello di considerare in vecchio controllo di gestione come base per la stesura dei nuovi obiettivi operativi e il relativo budget.

Sia il controllo concomitante che quello susseguente si avvalgono dell'utilizzo del sistema di reporting, il quale va progettato attentamente affinchè arrivi la giusta comunicazione, alle persone giuste e al momento giusto.

Il reporting è un insieme di report ed analisi che mettono i responsabili aziendali nella condizione di poter costantemente controllare la gestione individuando anche gli scostamenti avvenuti dal budget iniziale.

Un buon reporting è ben fatto se caratterizzato da caratteristiche quali:

CHIAREZZA: le informazioni e i numeri devono essere ridotte al minimo indispensabile.

ESSENZIALITA': le informazioni e i numeri devono essere solamente quelle indispensabili magari indirizzando ad ogni singolo dirigente solo la parte di suo interesse.

TEMPESTIVITA': i report devono essere consegnati al management in tempi brevi.

AFFIDABILITA': il più possibile corretti affinchè il management prenda decisioni su basi solide.

Le due principali tipologie di reporting sono:

REPORTING DIREZIONALE: non segue una normativa contabile esterna bensì principi definiti all'interno dell'azienda. Si fonda sui dati della contabilità analitica e dell'analisi di bilancio i quali possono essere divisi per aree geografiche, gruppi clienti, linee di prodotto.

REPORTING OPERATIVO: Si tratta di rilevazioni ed elaborazioni specifiche su richiesta del management: statistiche di vendita; monitoraggio dei costi aziendali; analisi dei tempi dei processi aziendali.

Il termine datamining è diventato popolare negli anni '90 ed ha per oggetto l'estrazione di una conoscenza a partire da grandi quantità di dati. Ha una duplice valenza: ESTRAZIONE, con tecniche analitiche, di informazioni nascoste da dati già strutturati; ESPLORAZIONE ED ANALISI, su grandi quantità di dati, eseguita in modo automatico o semi-automatico, con lo scopo di scoprirne i significati. Qualora se ne volesse dare un definizione, si potrebbe affermare che: "Il datamining è il processo di esplorazione e analisi, automatico o semiautomatico, di un'ampia mole di dati al fine di scoprire modelli e regole significativi".

Nelle ricerche di mercato, il datamining è volto ad ampliare la conoscenza su cui basare i processi decisionali ed è considerato parte del processo che porta alla creazione di un datawarehouse. Affinchè l'informazione sia significativa e quindi utile, deve essere: VALIDA, cioè che può agire anche i sui nuovi dati; PRECEDENTEMENTE CONOSCIUTA e COMPRENSIBILE.

Le attività del datamining sono:

  • CLASSIFICAZIONE: assegnazione di un nuovo oggetto a una classe predefinita dopo averne esaminato le caratteristiche.
  • STIMA

  • PREVISIONE: si utilizzano i dati storici per costruire modelli generali sui quali basarsi per proiezioni future.

  • RAGGRUPPAMENTO PER AFFINITA' O REGOLE DI ASSOCIAZIONE: l'obiettivo è individuare quali oggetti possono abbinarsi.

  • CLUSTERING: segmentazione di un gruppo eterogeneo in sottogruppi più omogenei senza l'utilizzo di classi predefinite.

  • DESCRIZIONE E VISUALIZZAZIONE: la descrizione di un database complesso serve per capire meglio i singoli dati e la visualizzazioneè una forma di datamining descrittivo che permette di individuare le regole di associazione proprio grazie alla forma dei dati visivi.

Alcuni software di datamining:

  • ORACLE DATA MINER: componente opzionale di Oracle Database che permette di produrre informazioni predettive utili ai fini decisionali ma anche per la creazione di applicazioni di business intelligence integrate.

  • MICROSOFT SQL SERVER: offre soluzioni circa il Business Intelligence e il Data warehousing permettendo all'azienda di avere un quadro completo e in costante aggiornamento dei dati, integrando tutti i sistemi aziendali e riducendo il carico di lavoro del personale.
  • WEKA - WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS: è un software opensource rilasciato con licenza GNU sviluppato nell'Università di Waikato in Nuova Zelanda. E' un ambiente software scritto in Java e consiste nell'applicare dei metodi di apprendimento automatici ad un dataset ed analizzarne il risultato.

  • ORANGE CANVAS: software opensource per la visualizzazione dei dati e l'analisi degli stessi, risulta essere completo, flessibile e veloce ed adatto sia ai principianti che ai più esperti.

Il Report

Il Report serve a sintetizzare i dati contenuti in un database attraverso l'elaborazione di grafici e tabelle che permettono un'interpretazione di ciò che viene considerato saliente ai fini dell'andamento aziendale. Il contenuto del Report può essere suddiviso in sezioni: innanzitutto viene inserita l'intestazione che contiene un titolo, un logo e preferibilmente una data; anche ogni singola pagina è dotata di un'intestazione che mostra sinteticamente il contenuto delle colonne; il corpo del report è la parte più consistente e contiene tutti i dati e le tabelle delle query d'origine; tutte le pagine vengono numerate e la numerazione progressiva è inserita nel piè di pagina; infine è previsto un piè di pagina report il quale viene inserito solamente alla fine del report e contiene i risultati.

La creazione più semplice di un Report avviene attraverso l'autocompilazione la quale consente di inserire automaticamente i campi nel report e di scegliere uno tra gli stili disponibili. Il modello più utilizzato è il Report Standard dotato di formattazione predefinita. Il report standard a colonne visualizza ciascun campo su una riga separata con un'etichetta posta a sinistra; il report standard tabellare visualizza su una riga tutti i campi di ogni record e le etichette figurano una sola volta nella parte superiore di ciascuna pagina.
Seguendo l'autocompilazione fornita dal database stesso, il Report dispone di tre tipi di visualizzazione:
- ANTEPRIMA DI LAYOUT: permette di controllare i caratteri e le dimensioni generali del
layout.
- ANTEPRIMA DI STAMPA: consente un ultimo controllo generale del report.
- STRUTTURA: usata per modificare il layout o crearne uno nuovo.
Il Report, una volta completato, può essere inviato alla stampa ma, spesso, possono essere realizzati anche in formati diversi, soprattutto se si necessita di effettuare una proiezione, magari al CDA, o un'archiviazione digitale. In questi casi si ricorre a diapositivi realizzate in Power Point, oppure inserimento dei dati in formato Excel o all'utilizzo del Pdf.
Il layout del Report può essere orizzontale o verticale. La differenza consiste nella distribuzione dei dati durante la redazione. Nel caso del layout orizzontale il processo di immissione è tipo il seguente:
1 2 3
4 5 6
7 8 9

Nel caso del layout verticale l'immissione, invece, è tipo la seguente:
1 4 7
2 5 8
3 6 9

Inoltre è possibile ricorrere ad un layout cross il quale prevede l'inserimento di tabelle, grafici e immagini dislocate all'interno della stessa pagina.

Database federati - Dashboard e Sistemi ERP

Un sistema di database federato è un tipo di database che integra in forma congiunta più sistemi di database. Il collegamento avviene una rete di computer anche geograficamente decentrata. In un database federato, attraverso l'astrazione dei dati, è possibile, per più utenti e clienti, memorizzare e recuperare dati attraverso una singola query. I FDBS possono essere classificativi come sistemi:

  1. 1. DEBOLMENTE ACCOPPIATI: l'utente accede da diversi database utilizzando un linguaggio multidatabase, ma ciò elimina la trasparenza circa la posizione.
    2. STRETTAMENTE ACCOPPIATI: l'approccio integrato federato avviene attraverso processi indipendenti.

Alla base di conoscenza di un database si appoggia il DSS - DECISION SUPPORT SYSTEM - che permette di avere un alto numero di alternative di supporto alle decisioni. Il DSS contiene strumenti di Business Intelligence e tecnologie dei Sistemi esperti come modello di supporto decisionale.

Il numero dei dati disponibile in un azienda è in continuo aumento e la comprensione viene facilitata da grafici e tabelle posti a supporto dei processi decisionali. Per queste ragioni si vanno diffondendo rapidamente i cruscotti aziendali, noti come Dashboard o Tableau de board, che rappresentano una sintesi dei dati sull'andamento aziendale focalizzando l'attenzione sui principali indicatori in grado di esprimere l'andamento generale dell'azienda.

Tra i DBMS relazionali è meritevole di essere citato DB2, sviluppato da IBM nel 1983 e attualmente al primo posto, insieme a Oracle, nel mercato dei database. La grande diffusione dei DBMS opensource ha portato IBM a mettere a disposizione degli sviluppatori una versione gratuita scaricabile per Windows e Linux. Il successo di MySQL ha aperto la strada delle licenze royalty-free, strada intrapresa da IBM con DB2-C dove la C indica Community Edition.
All'interno dei sistemi informativi è presente un sistema gestionale ERP - ENTERPRISE RESOURCE PLANNING - che integra i processi di business, quali le vendite, gli acquisti, la contabilità, con l'obiettivo di aiutare i business manager nelle attività come il controllo degli inventari, i servizi per i clienti, le risorse umane. La prima versione collegava contabilità e logistica in seguito sono state inserite le aree di vendita, produzione, manutenzione. Oggi, all'interno di un'azienda, il sistema ERP copre tutte le attività di monitoraggio che possono essere automatizzate permettendo agli utilizzatori di operare, indipendentemente dall'area applicativa, in un contesto integrato ed uniforme.
Le componenti di un ERP sono:
  1. Contabilità
  2. Gestione degli asset
  3. Gestione della distribuzione

  4. Controllo di gestione

  5. Gestione vendite

  6. Gestione della produzione

  7. Gestione dei magazzini

  8. Gestione dei progetti

  9. Gestione della manutenzione impianti

  10. Gestione del personale

Oltre il 50% delle aziende europee utilizza sistemi ERP e oltre il 35% li usa in almeno tre aree funzionali. I produttori che dominano il mercato sono SAP, Oracle, Peoplesoft, Baa