[section_title title=Cosa si nasconde dentro l’universo dei Big Data? – Parte uno]
A cura di Gero Di Bella, del Blog OTTOSUNOVE
In tanti parlano di Big Data ma addentrarsi nell’argomento risulta ancora ostico per molti. Abbiamo quindi chiesto di illuminarci ad un esperto, qualcuno che dentro questa fitta selva di definizioni, applicazioni e potenzialità si spinge con determinazione: il data scientist Riccardo Sabatini, un ricercatore e imprenditore italiano che si è trasferito in Silicon Valley, a San Francisco, per poter sfruttare a pieno le potenzialità dei suoi studi.
Sentiamo tanto parlare di big data e delle loro enormi potenzialità per ottenere informazioni utili alle decisioni strategiche, tu che definizione gli daresti?
Big data è un termine più di marketing che tecnico. Negli ultimi anni sono stati identificati una serie di infrastrutture, tecnologie, avanzamenti scientifici, algoritmi e approcci che si sono dimostrati interessanti. Quando si hanno sufficienti dati si procede senza avere un modello a priori, partendo semplicemente dai dati. Non tutti i big data però sono significativi e ci sono tantissimi paradossi.
A proposito c’è una storia che racconto sempre ai miei studenti. Un tacchino va a studiare statistica e fa un dottorato in data analytics, una volta terminato torna nel pollaio e vuole costruire il modello di rischio della vita dei tacchini. Costruisce un modello data driver, cioè inizia a costruire una lunghissima tabella dove ogni mattina e ogni sera segna lo stesso evento, l’arrivo di un essere umano che dà del cibo a tutti. Il 3 di luglio il tacchino fa una previsione e dice “secondo i dati, anche domani arriverà il solito essere umano a darci il cibo”. Il 4 di luglio arriva l’essere umano e tira il collo a 150 tacchini.
Questo è dovuto ai cosiddetti rare events, cioè quegli eventi che sfuggono dalla significanza statistica dei dati, sono molto difficili da vedere e tante volte sono anche quelli più interessanti. Questi concetti richiederebbero decine di anni di campionamento e nessun calcolatore ad oggi conosciuto potrebbe estrarre i dati per ricostruire queste dinamiche. Alle volte è più conveniente integrare queste dinamiche con altri modelli, ad esempio i modelli a principi primi, o le neuroscienze. La mia visione è che più che dei big data, questa è l’era degli smart data, cioè l’integrazione di una mole importante di dati con un’intelligence sofisticata.
Il data mining è il termine generico con cui si identificano le tecnologie o gli algoritmi di analisi dei dati. Quando vuoi analizzare un database molto grande, esistono diverse tecniche, diversi approcci e diversi modelli matematici che puoi utilizzare. A volte si usano termini più specifici, ad esempio il machine learning, oppure se si applica il data mining ad aspetti visuali allora si parla di visual recognition.Insomma ci sono tanti piccoli sotto termini, esiste una piccola foresta di definizioni.Né in Italia né negli Stati Uniti esiste ancora una scienza in merito. Spesso questi approcci derivano da campi più astratti come la matematica, la fisica teorica (io stesso sono un fisico teorico), computer science, ecc. Il core del data mining è nato 5-6 anni fa, ci sono alcune conferenze in giro per il mondo ma adesso tutto questo si sta strutturando come una disciplina a sé. È molto affascinante e se fossi un giovane studente non avrei il minimo dubbio su cosa studiare oggi: data mining.