Akamai, l’azienda di cybersecurity e cloud computing che abilita e protegge il business online, presenta Akamai Cloud Inference, per dare il via a un’ondata di innovazione più rapida ed efficiente per le aziende che desiderano trasformare i modelli predittivi e Large Language Models (LLMs) in azioni reali. Akamai Cloud Inference viene eseguito su Akamai Cloud, la rete più distribuita al mondo, per risolvere i limiti crescenti dei modelli cloud decentralizzati.
“Avvicinare i dati dell’intelligenza artificiale agli utenti e ai dispositivi è difficile ed è qui che i cloud tradizionali fanno fatica”, ha dichiarato Adam Karon, Chief Operating Officer and General Manager del Cloud Technology Group di Akamai presentando Akamai Cloud Inference. “Mentre il grosso del lavoro di formazione dei LLM continuerà a svolgersi nei grandi datacenter hyperscale, il lavoro di inferenza si svolgerà ai margini, dove la rete che Akamai ha costruito negli ultimi due decenni e mezzo diventa vitale per il futuro dell’AI e ci distingue da ogni altro fornitore di cloud sul mercato”.
Caratteristiche di Akamai Cloud Inference
Akamai Cloud Inference fornisce strumenti agli ingegneri di piattaforma e agli sviluppatori per costruire ed eseguire applicazioni AI e carichi di lavoro ad alta intensità di dati più vicini agli utenti finali, offrendo un throughput 3 volte migliore e riducendo la latenza fino a 2,5 volte. Utilizzando la soluzione di Akamai, le aziende possono risparmiare fino all’86% sull’inferenza dell’intelligenza artificiale e sui carichi di lavoro dell’IA rispetto all’infrastruttura hyperscaler tradizionale.
Akamai Cloud Inference include:
- Calcolo: Akamai Cloud offre un potente sistema di calcolo versatile, che va dalle classiche CPU per un’inferenza di precisione, alle opzioni di calcolo accelerato delle GPU e alle ASIC VPU su misura, per fornire la giusta potenza per diverse possibilità di inferenze AI. Akamai si integra con l’ecosistema AI Enterprise di Nvidia, sfruttando Triton, Tao Toolkit, TensorRT e NvFlare per ottimizzare le prestazioni dell’inferenza AI sulle GPU Nvidia.
- Gestione dei dati: com Akamai Cloud Inference, l’azienda consente ai propri clienti di sbloccare il pieno potenziale di AI inference, grazie alla sua data fabric all’avanguardia, progettata appositamente per i carichi di lavoro moderni dell’IA. Akamai collabora con VAST Data per fornire un accesso semplificato ai dati in tempo reale per accelerare i compiti legati all’inferenza, essenziali per fornire risultati pertinenti e un’esperienza reattiva. Questo è supportato da uno storage altamente scalabile, per gestire il volume e la varietà dei set di dati critici per le applicazioni IA, e dall’integrazione con i principali fornitori di database vettoriali, tra cui Aiven e Milvus, per abilitare la generazione aumentata dalla ricerca (RAG). Con questa stack di gestione dei dati, Akamai memorizza in modo sicuro i dati dei modelli ottimizzati e gli artifacts per offrire un’inferenza IA a bassa latenza su scala globale.
- Containerizzazione: la containerizzazione dei carichi di lavoro dell’IA consente un auto-scaling basato sulla domanda, una maggiore resilienza delle applicazioni e la portabilità ibrida/multicloud, ottimizzando sia le prestazioni che i costi. Con Kubernetes, Akamai offre un’inferenza IA più veloce, economica e sicura, con prestazioni su scala petabyte. Grazie a Linode Kubernetes Engine – Enterprise, una nuova edizione enterprise della piattaforma di orchestrazione Kubernetes di Akamai Cloud, progettata specificamente per carichi di lavoro aziendali su larga scala, e a Akamai App Platform, annunciata di recente, Akamai Cloud Inference è in grado di distribuire rapidamente una piattaforma pronta per l’IA basata su progetti open source Kubernetes, tra cui Kserve, KubeFlow e SpinKube, integrati senza soluzione di continuità per semplificare il deployment dei modelli di IA per l’inferenza.
- Edge compute: per semplificare il modo in cui gli sviluppatori costruiscono applicazioni alimentate dall’IA, Akamai AI Inference include funzionalità WebAssembly (WASM). Lavorando con fornitori di WASM come Fermyon, Akamai consente agli sviluppatori di eseguire inferenze per LLM direttamente da applicazioni serverless, permettendo ai clienti di eseguire codice leggero all’Edge per abilitare applicazioni sensibili alla latenza.
Insieme, questi strumenti creano una piattaforma potente per applicazioni alimentate dall’IA a bassa latenza che consente alle aziende di offrire l’esperienza che i loro utenti richiedono. Akamai Cloud Inference funziona sulla rete massivamente distribuita di Akamai, in grado di fornire costantemente oltre un petabyte al secondo di throughput per carichi di lavoro ad alta intensità di dati. Composta da oltre 4.100 punti di presenza su più di 1.200 reti in oltre 130 paesi in tutto il mondo, Akamai Cloud rende disponibili le risorse di calcolo dal cloud all’Edge, accelerando le prestazioni delle applicazioni e aumentando la scalabilità.
Il passaggio dalla formazione all’Inferenza
L’adozione dell’IA a livello aziendale si è evoluta e le imprese stanno riconoscendo che l’entusiasmo attorno ai LLM ha creato una distrazione, distogliendo l’attenzione dalle soluzioni pratiche di IA più adatte a risolvere problemi aziendali specifici. I LLM eccellono in compiti di uso generale come la sintesi, la traduzione e il servizio clienti, ma si tratta di modelli molto complessi che, oltre ad essere costosi, richiedono molto tempo per la formazione. Molte imprese si sono così trovate a fronteggiare vincoli legati ai requisiti architetturali e ai costi, inclusi quelli relativi ai data center e alla potenza di calcolo, a sistemi dati ben strutturati, sicuri e scalabili, e alle sfide che i requisiti di posizione e sicurezza pongono sulla latenza decisionale. I modelli di IA leggeri, progettati per affrontare problemi aziendali specifici, possono essere ottimizzati per singoli settori, sfruttando dati proprietari per creare risultati misurabili, e rappresentano un miglior ritorno sugli investimenti per le imprese di oggi.
L’AI inference ha bisogno di un cloud più distribuito
Sempre più spesso i dati saranno generati al di fuori dei data center centralizzati o delle regioni cloud. Questo cambiamento sta alimentando la domanda di soluzioni IA che sfruttano la generazione dei dati più vicina al punto di origine. Ciò rimodella fondamentalmente le esigenze infrastrutturali mentre le imprese vanno oltre la costruzione e la formazione dei LLM, puntando a sfruttare i dati per prendere decisioni più veloci e intelligenti, investendo in esperienze più personalizzate. Le imprese riconoscono di poter generare maggiore valore sfruttando l’IA per gestire e migliorare le loro operazioni aziendali e i processi. Le architetture cloud distribuite ed Edge sono invece utilizzate nei casi di operational intelligence, in quanto possono fornire intuizioni in tempo reale e azionabili su risorse distribuite anche in ambienti remoti. Alcuni esempi dei primi clienti che utilizzano Akamai Cloud includono assistenza vocale in auto, gestione del raccolto basata sull’IA, ottimizzazione delle immagini per i marketplace di prodotti di consumo, esperienze di acquisto virtuale per la visualizzazione di indumenti, generatori automatici di descrizioni dei prodotti e analisi di sentiment sui feedback dei clienti.
“Formare un LLM è come creare una mappa – è necessario raccogliere i dati, analizzare il terreno e tracciare i percorsi. È un processo lento, che richiede molte risorse, ma una volta costruita, la mappa è molto utile. Con l’AI inference è come usare un GPS, applicando istantaneamente quella conoscenza, ricalcolando in tempo reale e adattandosi ai cambiamenti per portarti dove devi andare,” ha spiegato Adam Karon. “L’inferenza è la prossima frontiera per l’IA”.