BIG DATA
Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore.
Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.
Con i big data la mole dei dati è dell'ordine degli Zettabyte, ovvero miliardi di Terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.
Si parla di Big Data quando si ha un dataset talmente grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevole. Non esiste una dimensione di riferimento, ma questa cambia sempre, poiché le macchine sono sempre più veloci e i dataset sono sempre più grandi. Secondo uno studio del 2001, l'analista Doug Laney aveva sintetizzato le caratteristiche dei Big Data secondo il modello di crescita come tridimensionale (modello delle "3V"):
- Volume: rappresenta la dimensione effettiva del dataset; l'ampio volume di dati che è possibile raccogliere oggi potrebbe apparentemente rappresentare un problema. In realtà quello del volume dei Big Data è un falso problema, in quanto cloud e virtualizzazione aiutano nella gestione del grosso volume di dati disponibili, semplificando i processi di raccolta, immagazzinamento e accesso ai dati.
- Velocità: si riferisce alla velocità di generazione dei dati; si tende all'effettuare analisi dei dati in tempo reale o quasi;
- Varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non);
Il modello iniziale si fermava qui. Col tempo il modello si è esteso, andando ad aggiungere le seguenti caratteristiche:
- Variabilità: questa caratteristica può essere un problema e si riferisce alla possibilità di inconsistenza dei dati;
- Complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire; il compito più difficile è collegare le informazioni, ed ottenerne di interessanti.
Da ultimo, alcune organizzazioni utilizzano una quarta V per indicare la "Veridicità" dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre.