Cloudera, annuncia di aver integrato Apache Spark all’interno degli ambienti Apache Hadoop, con significativi miglioramenti in termini di fruibilità e interoperabilità. Per ampliare ulteriormente le funzionalità enterprise del motore per l’elaborazione dei dati, Cloudera ha aggiunto il supporto per Spark SQL e MLlib all’interno delle soluzioni Cloudera Enterprise 5.5 e CDH 5.5 di recente rilascio.
Grazie alla sua facilità di sviluppo e all’elaborazione flessibile dei dati, Spark ha acquisito una sempre maggior popolarità all’interno della comunità open source e tra i casi d’uso dei clienti. Si tratta del progetto più attivo all’interno dell’Apache Software Foundation (ASF), con oltre 800 sviluppatori di più di 200 aziende. Il team Cloudera dedicato a Spark ha contribuito attivamente alle funzionalità enterprise di Spark e al processo di integrazione di Spark all’interno di Hadoop per soddisfare le esigenze dei clienti e favorirne l’adozione.
Nel corso dello scorso anno, Cloudera ha compiuto passi significativi nel processo di maturazione di Spark per affrontare una gamma di casi d’uso di elaborazione dati più ampia, tra cui applicazioni Internet of Things (IoT) end-to-end, un’elaborazione batch più semplice e machine learning nativo.
Sempre più clienti desiderano IoT e streaming dei dati in tempo reale per cui per supportare le loro applicazioni hanno bisogno di un motore di elaborazione delle sequenze di livello enterprise. Per rispondere a questa esigenza, Cloudera è stata protagonista dello sviluppo della resilienza di Spark Streaming, garantendo una perdita di dati pari a zero e portandolo agli standard di produzione. Questo miglioramento critico, unitamente all’integrazione di Apache Kafka all’interno della piattaforma, ha permesso ai clienti di Cloudera di creare applicazioni IoT complete all’interno di una piattaforma unificata e ha avuto un impatto drastico sull’adozione di Spark Streaming nel complesso.
Per rendere possibile un’elaborazione batch più semplice e potente e aiutare Spark a consolidarsi come motore di esecuzione standard in Hadoop, quest’anno Cloudera ha rilasciato la versione beta di Apache Hive-on-Spark. Strumento preferito per lo sviluppo ETL, l’integrazione di Hive con il motore di elaborazione Spark rappresenta una pietra miliare nel supportare i carichi di lavoro di dati di nuova generazione e l’adozione di Spark come successore di MapReduce.
Il progetto One Platform Initiative di Cloudera, annunciato a Settembre, prosegue l’accelerazione dello sviluppo di Spark Apache per l’impresa e all’interno dell’ecosistema Hadoop. Cloudera sta facendo progressi significativi nel potenziamento delle funzionalità di sicurezza, scalabilità, gestione e streaming di Spark e continuerà a concentrarsi su tale sviluppo anche nel prossimo anno.
Con il recente di rilascio di Cloudera 5.5, Cloudera ha aggiunto Spark MLlib – portando la semplicità d’uso di Spark e i miglioramenti delle prestazioni alle applicazioni di machine learning all’interno di Hadoop – e Spark SQL – ampliando le funzionalità di Spark a disposizione di sviluppatori e data scientist permettendo di incorporare con semplicità SQL all’interno delle applicazioni Spark. Questa release include anche molti miglioramenti al motore di query Spark come parte di Project Tungsten, andando a migliorare in modo significativo efficienza e velocità. Per assicurare ulteriori funzionalità, le integrazioni create con Hive e il suo metastore assicurano la piena interoperabilità degli schemi di dati con Spark SQL all’interno della piattaforma Hadoop – garantendo che gli utenti corretti abbiano un’esperienza senza problemi con gli strumenti più adatti per il loro lavoro, che si tratti di sviluppo ETL con Hive, sviluppo delle applicazioni con SparkSQL o intelligence interattiva per il business con Impala.