Nell’articolo che vi proponiamo qui di seguito, Fabio Gerosa (nella foto qui di fianco), Sales Director Italy di Couchbase, analizza come la forte crescita di nuovi carichi di lavoro AI/ML/analytics influisca sulla scelta dello storage di riferimento, ed evidenzia il ruolo chiave dei database di nuova generazione.
Buona lettura.
Workload avanzati quali AI, Machine Learning e analytics stanno incrementando costantemente il loro impatto su ogni azienda, con molteplici casi d’uso e un’evoluzione che sta influenzando in modo altrettanto significativo i requisiti di storage. Qualsiasi workload dovrà considerare tre fattori che giocano un ruolo importante nella scelta finale dello storage. In primo luogo, lo strumento di archiviazione – se basato su disco, SSD, NVmE o RAM; in seguito, l’architettura di storage, che potrebbe essere file system, database, lake o lakehouse, quale modello di implementazione – ospitato nel cloud o on-premise, e infine la vicinanza del calcolo allo storage.
Una considerazione principale quando si sceglie la configurazione dello storage è la velocità dell’output – AI, ML o analytics devono produrre risultati in tempo reale? O possono essere suddivisi in lotti? Un sistema di AI utilizzato per fornire suggerimenti di e-commerce o per il rilevamento delle frodi supporterebbe un’interazione e un potenziamento quasi istantanei per produrre i risultati di cui l’organizzazione ha bisogno, quindi uno storage NVmE o RAM estremamente vicino al calcolo avrebbe senso. Al contrario, un sistema di riconoscimento delle immagini che non ha bisogno di fornire valutazioni immediate potrebbe funzionare perfettamente in un ambiente basato su disco. In definitiva, tutto dipende dal caso d’uso specifico.
Lo storage e l’importanza del contesto
Quasi ogni caso d’uso per AI, ML e analytic ha diversi requisiti di workload, di conseguenza ogni storage consigliato sarà altamente sensibile al contesto. Non solo, ma qualsiasi sistema di questo tipo avrà una pipeline distinta di ingestione di dati grezzi, preparazione dei dati, e infine generazione delle informazioni – con ognuna di queste fasi con caratteristiche diverse dal punto di vista dello storage.
Ad esempio, la fase di ingestione può dipendere molto dall’input/output, motivo per cui le architetture di storage parallele hanno molto valore. La fase di preparazione è meno sensibile all’I/O, e in effetti potrebbe non esserci un modello specifico a cui l’I/O deve adattarsi, il che significa che il recupero dei dati potrebbe avvenire ad accesso casuale. Infine, la generazione delle informazioni probabilmente richiederà che dati e storage siano il più vicini possibile, elemento da considerare in fase di definizione dell’architettura storage. Un buon numero di organizzazioni userà sia l’on-premise che il cloud per rispondere a queste esigenze, anche se molte decideranno che l’approccio più conveniente sia l’as-a-service.
Crescono volume e varietà dei dati
La costante è sempre che AI e sistemi simili non avranno l’opportunità di usare i dati da una singola architettura storage e da un singolo supporto di archiviazione. Infatti, i sistemi migliori useranno più fonti di dati per correlare e correggere i bias – problema enorme in questi sistemi. Tutto ciò significa che file system, object store, e soprattutto database e lakehouse giocano un ruolo molto importante nel successo dell’AI.
Per quanto gli algoritmi e i modelli si siano evoluti, il substrato fondamentale che rende l’intelligenza artificiale davvero intelligente è il volume e la varietà dei dati. Di conseguenza, il livello delle informazioni – e quindi lo storage – per l’AI dovrebbe essere scalabile, in grado di ampliarsi e contrarsi in base alle necessità. Elasticità è la parola d’ordine in questo caso, con uno storage che sia performante su scala e, in ultima analisi, conveniente.