Databricks, Data and AI company pioniera del paradigma del data lakehouse, ha presentato numerosi progressi in importanti progetti open source di dati e IA tra cui Delta Lake, MLflow e Apache Spark. In occasione del Data + AI Summit, il più grande incontro della comunità open source Dati e IA, Databricks ha annunciato che intende contribuire alla Linux Foundation con tutte le funzionalità e i progressi apportati a Delta Lake e rendere open source tutte le API di Delta Lake come parte del lancio di Delta Lake 2.0. Inoltre, l’azienda ha annunciato MLflow 2.0, che include MLflow Pipelines, una nuova funzionalità per accelerare e semplificare le implementazioni dei modelli ML. Infine, l’azienda ha presentato Spark Connect, per consentire l’utilizzo di Spark su qualsiasi dispositivo, e Project Lightspeed, un motore Spark Structured Streaming di nuova generazione per lo streaming dei dati su lakehouse.
“Fin dall’inizio, Databricks si è impegnata a favore di standard open e della comunità open source. Abbiamo creato, partecipato, donato e favorito la crescita di alcune delle tecnologie open source di maggior impatto esistenti“, ha dichiarato Ali Ghodsi, Co-Founder e CEO di Databricks. “I data lakehouse aperti stanno rapidamente diventando lo standard per la gestione dei dati e dell’IA per le aziende più innovative. Delta Lake, MLflow e Spark sono tutti elementi fondamentali di questa trasformazione architetturale e siamo orgogliosi di fare la nostra parte per accelerarne l’innovazione e l’adozione”.
Delta Lake 2.0 offre la Lakehouse a tutti
Delta Lake 2.0 offrirà a tutti gli utenti di Delta Lake, query dalle performance senza precedenti e consentirà a tutti di costruire un data lakehouse altamente performante su standard open. Grazie a questo contributo, i clienti di Databricks e la comunità open source potranno beneficiare di tutte le funzionalità e delle prestazioni migliorate di Delta Lake 2.0. Delta Lake 2.0 Release Candidate è ora disponibile e il lancio è previsto per la fine dell’anno. La portata dell’ecosistema Delta Lake lo rende flessibile e potente in diversi casi d’uso; ad alimentarlo è una vivace comunità di oltre 6.400 membri, con sviluppatori provenienti da più di 70 organizzazioni che vi contribuiscono.
“Databricks fornisce ad Akamai un formato di archiviazione delle tabelle aperto e certificato per carichi di lavoro particolarmente complessi come i nostri. Il lakehouse consente di effettuare analisi interattive su qualsiasi volume di dati, in modo che i nostri clienti possano analizzare in maniera near-realtime gli eventi di sicurezza sulla nostra piattaforma Edge”, ha dichiarato Aryeh Sivan, VP Engineering di Akamai. “Siamo entusiasti della rapida evoluzione che Databricks, insieme alla comunità in rapida crescita, sta apportando a Delta Lake. Non vediamo l’ora di collaborare con gli altri sviluppatori del progetto per portare la data community a risultati più grandi”.
“Delta Lake sta riscontrando una crescita e un’attività straordinarie, segno che la comunità degli sviluppatori desidera far parte di questo progetto. La presenza dei collaboratori è aumentata del 60% nell’ultimo anno, la crescita dei commit è del 95% e il numero medio di linee di codice per commit e’ aumentato del 900%. Stiamo assistendo a questa crescita esponenziale da parte di organizzazioni che collaborano a questo progetto come Uber Technologies, Walmart e CloudBees, tra le altre”, ha dichiarato Jum Zemlinali, Executive Director della Linux Foundation.
Con Mlflow 2.0 si introduce Mlflow pipelines per “templatizzare” e automatizzare MLOps MLflow, uno dei progetti open source di machine learning (ML) di maggior successo, ha definito lo standard per le piattaforme di ML. Il lancio di MLflow 2.0 introduce MLflow Pipelines nella piattaforma, diminuendo sostanzialmente il tempo di produzione e migliorando l’esecuzione su scala grazie alla standardizzazione. MLflow Pipelines offre ai data scientist modelli predefiniti e predisposti alla produzione, in base al tipo di modello che stanno sviluppando, per consentire di eseguire il bootstrap in modo affidabile e accelerare lo sviluppo dei modelli evitando l’intervento dei production engineers.
Un motore di streaming di nuova generazione e Spark ovunque e in qualsiasi momento Come motore principale e unificato per l’analisi dei dati su larga scala, Spark è in grado di gestire insiemi di dati di tutte le dimensioni. Tuttavia, la mancanza di connettività da remoto e il peso di applicazioni sviluppate ed eseguite sul driver node, ostacolano i requisiti delle moderne applicazioni di dati. Per risolvere questo problema, Databricks ha presentato Spark Connect, un’interfaccia client e server per Apache Spark basata sull’API DataFrame che separerà il client dal server per una migliore stabilità e consentirà una connettività da remoto integrata. Con Spark Connect, gli utenti potranno accedere a Spark da qualsiasi dispositivo.
In collaborazione con la Spark community, Databricks ha annunciato anche Project Lightspeed, il motore di streaming Spark di nuova generazione. Con la crescita della varietà di applicazioni che si orientano verso lo streaming dei dati, sono emersi nuovi requisiti per il supporto di carichi di lavoro di dati per il lakehouse e lo streaming dei dati. Spark Structured Streaming è stato largamente adottato fin dall’origine dello streaming grazie alla sua facilità d’uso, alle prestazioni, all’ampio ecosistema e alle comunità di sviluppatori. In quest’ottica, Databricks collaborerà con la comunità e incoraggerà la partecipazione a Project Lightspeed per migliorare le prestazioni, il supporto dell’ecosistema per i connettori, ottimizzare le funzionalità di elaborazione dei dati con nuovi operatori e API e semplificare la distribuzione, le operazioni, il monitoraggio e la risoluzione dei problemi.