La big data analysis per prevenire il futuro (puoi usarlo come titolo)
Le analisi basate sui dati possono restituire risultati descrittivi ma anche, e soprattutto, predittivi.
Sempre più spesso si definiscono i big data come il nuovo petrolio del ventunesimo secolo, infatti le aziende stanno comprendendo i vantaggi competitivi che possono scaturire da un approccio data driven, raccogliendo dati da internet, social e macchine, potendo identificare il viaggio del loro consumatore e prevenirne i comportamenti.
Si passa da un processo di Business Intelligence ad un processo di Advanced Analytics basato su un’analisi delle distanze fra i valori per poterli ripete in processo di apprendimento.
I primi strumenti di BI si sono avuti intorno agli anni 90, con l’obiettivo di raccogliere i dati per Dashboard, reporting, query, quindi tutti valori che rappresentassero la realtà ex-post.
Con l’avvento di piattaforme di Advanced Analysis, che girano in un’unica piattaforma metadata driven, è possibile generare etichette che classifichino i valori archiviati e ne prevedano il futuro comportamento.
Con Advanced analysis è possibile estrarre i dati, i testi, apprendere automaticamente, effettuare la sentiment analysis ed effettuare simulazioni.
Le caratteristiche principali sono nel poter gestire qualsiasi dato, strutturato e non, di nascere per le modern Platform (web, mobile e cloud) e di rendere quindi accessibile a tutti i dati tradotti, di avere una governance interna che è in grado di rielaborare e sistematizzare i big data.
La piattaforma è in grado di raccogliere, classificare ed etichettare i dati raccolti, sistematizzarli e nel caso in cui alcuni dati siano incompleti, quindi senza etichetta, è in grado di associare un risultato predittivo dove non presente (machine learning).
Il data set viene diviso in 2 parti: il train e il test.
Il train permette di performare le regole di classificazione che dopo essere state definite vengono generalizzare nella parte test, sezione non conosciuta.
Successivamente si stabilisce la regola di decisone e il grado di accuratezza da generalizzare sul test.
Per verificare la validità della procedura di classificazione si procede con la cross validation, in cui si confronta con il dato iniziale e si genera una tabella, si calcola il tasso di errore che graficamente è dato dai dati che non sono sulla diagonale principale della tabella.
Per poter generalizzare i modelli di previsione bisogna far riferimento a modelli di data mining che vengono suddivisi in modelli supervisionati (in cui esiste una variabile di classificazione) e in modelli non supervisionati (in cui non esistono variabili di classificazione) utilizzati soprattutto per identificare i comportamenti di acquisto dei nostri consumatori, come per esempio nella basket analysis.
show less