Il progetto open source Apache Iceberg è oggi integrato all’interno della Cloudera Data Platform (CDP). In questo modo, Cloudera affronta con successo due dei principali problemi che hanno impedito a molte aziende di trarre vantaggio da un data lakehouse: la facilità, la velocità e la precisione con cui possono gestire dati strutturati e non strutturati e l’apertura delle piattaforme disponibili.
La gestione dei dati, oggi, viene effettuata con un approccio perlopiù ibrido. Secondo uno studio di Statista, la quantità di dati generati, copiati e consumati a livello globale è cresciuta da meno di 1 ZB nel 2011 a circa 14 ZB nel 2020. A questi vanno aggiunti altri 50 ZB di dati non strutturati nel cloud.
Per capitalizzare tutto questo sono necessarie risorse come i “data lake”, archivi centralizzati e scalabili progettati per archiviare, elaborare, analizzare e proteggere grandi quantità di dati di qualsiasi tipo. Questi strumenti promuovono l’uso di big data analytics, business intelligence e machine learning mission-critical, nonché il data warehousing aziendale.
Negli ultimi anni si è affermato il termine “data lakehouse” che unisce i vantaggi di un data warehouse e di un data lake, ma con un piccolo handicap: mentre i lake sono aperti, i lakehouse non lo sono. L’integrazione del progetto open source Apache Iceberg all’interno della Cloudera Data Platform (CDP) permette di creare un open lakehouse flessibile, in grado di operare con diversi motori e architetture di dati.
“I clienti chiedono sempre di più fin dall’inizio: più formati, più motori, più interoperabilità. E questo si può ottenere solo con un open data lakehouse”, afferma Fabio Pascali, Regional Vice President Italy di Cloudera. “Un open data lakehouse affronta le questioni di interoperabilità e architettura alla base. L’innovazione consiste nel risolvere i problemi con gli strumenti migliori, indipendentemente dal fornitore, da cui la necessità di un salto nella concezione di questo tipo di infrastruttura”.
Come suggerisce il nome, un data lakehouse è in grado di elaborare dati statici e altamente strutturati provenienti dai data warehouse insieme ai flussi di informazioni non strutturate e in real time di un data lake. E nel farlo in modo semplice e veloce, i primi utilizzatori hanno scoperto di essere in grado di spiegare molti dei misteri irrisolti delle loro aziende.
Nato come progetto di Netflix, poi donato alla Apache Software Foundation nel 2018, Apache Iceberg è un formato aperto ad alte prestazioni che nasce nel cloud ed è in grado di scalare petabyte indipendentemente dal livello di storage sottostante e dal livello del motore di accesso. Le query vengono eseguite in una frazione di tempo e i risultati sono molto più affidabili, ripetibili e precisi. Con la nuova piattaforma, la fortuita cancellazione di una colonna di dati o il cambio di nome non scatenerà una tempesta di query e dashboard non funzionanti. E gli analisti e gli ingegneri dei dati potranno ottenere migliori risultati.
La velocità e la precisione di Apache Iceberg su CDP aprono la strada alle aziende che intendono combinare archivi di dati su larga scala con dati IoT in tempo reale e applicare machine learning e intelligenza artificiale per una serie di nuove progetti prima non realizzabili.
Sono numerose le modalità con cui i clienti di Cloudera hanno sfruttato finora i data lakehouse, e l’integrazione di Apache Iceberg renderà i loro sforzi ancora più rapidi ed efficaci. Queste alcune delle applicazioni che i clienti stanno già testando:
· Prevedere i guasti delle apparecchiature di produzione e massimizzarne la durata,
· Ridurre la R&S farmaceutica e accelerare gli studi clinici per produrre vaccini e farmaci salvavita in una frazione di tempo
· Superare il rilevamento delle frodi nel settore bancario per creare sistemi di prevenzione delle frodi più proattivi.