In occasione di Strata+Hadoop World a New York, Cloudera, fornitore globale della piattaforma di analisi e gestione di dati basata su Apache Hadoop e di tecnologie open source, ha annunciato la sua versione basata su Apache Spark 2.0 (Beta), con miglioramenti relativi all’utilizzo delle API, prestazioni potenziate e funzionalità di apprendimento automatiche avanzate. Inoltre, Cloudera sta collaborando con la community per proseguire con lo sviluppo di Apache Kudu 1.0, da poco rilasciato dall’Apache Software Foundation. I recenti contributi di Cloudera a questi progetti open source, unitamente alla maggiore integrazione per la sua piattaforma, testimoniano la crescente necessità per lo streaming e l’analisi dei dati in tempo reale in carichi di lavoro ad alta richiesta, tra cui i modelli di apprendimento automatico distribuiti in produzione dai clienti enterprise di Cloudera.
Cloudera è stato il primo vendor di soluzioni di analisi per i big data basate su Hadoop a rendere disponibile una versione commerciale di Spark e ha partecipato attivamente alla comunità open source per migliorare Spark per le imprese tramite il suo progetto One Platform Initiative. Con Spark 2.0, le aziende saranno in grado di sfruttare meglio i dati di streaming, sviluppare modelli di apprendimento automatico più ricchi e distribuirli in tempo reale, permettendo di mandare in produzione una maggior quantità di carichi di lavoro.
Nel settembre 2015, Cloudera ha annunciato la beta pubblica di Apache Kudu, il suo sistema di storage basato su colonne (columnar store) per Hadoop ad alte prestazioni che ha abilitato una potente combinazione di rapide analitiche per i fast data. Due mesi dopo, Cloudera ha donato Kudu all’Apache Software Foundation (ASF) per renderlo disponibile alla più ampia comunità di sviluppatori per ampliare il tipo e la varietà di casi d’uso di fast analytic. Spark 2.0 offrirà alle aziende un miglior accesso ai dati di streaming mentre Kudu 1.0 permetterà alle imprese di adottare casi d’uso in tempo reale più rapidamente.
“Kudu è una risposta alla diffusione di casi d’uso di analitiche in tempo reale sul mercato”, ha affermato Charles Zedlewski, Vice President, Products di Cloudera. “Già nel 2012, Cloudera aveva riconosciuto il divario in termini di analitiche nell’ecosistema Hadoop che stava portando i progettisti a creare architetture ibride complesse per analitiche in tempo reale. Con il lancio di Apache Kudu 1.0, la visione originale è ora una realtà fruibile poiché gli utenti possono fare affidamento su un unico progetto semplificato per rapide analitiche per i fast data. La comunità ha rapidamente adottato Kudu applicandolo a numerosi casi d’uso per analitiche in tempo reale e su ampia scala”.
Kudu offre analisi rapide per le analitiche e funzionalità immediate di lettura/scrittura per aggiornamenti e ricerche frequenti. Inoltre, Kudu permette alle aziende di adottare casi d’uso real-time in modo più veloce. Oltre all’integrazione Spark, Kudu 1.0 è anche perfettamente integrato con MapReduce e Impala per un’elaborazione avanzata.