Un anno fa, sul palco di Google I/O sono stati condivisi, per la prima volta, i progetti di Google per Gemini, una famiglia di modelli di intelligenza artificiale nativamente multimodali in grado di ragionare su testo, immagini, video, codice e altro ancora. A dicembre 2023 è iniziata la Gemini era: un grande passo avanti nel trasformare qualsiasi input in qualsiasi output – un “I/O” per una nuova generazione.
Al Google I/O 2024 è stato raccontato come Google sia nel pieno dell’era Gemini, presentando le innovazioni dell’IA nei prodotti, nella ricerca e nell’infrastruttura, un passo che porta sempre più vicini al nostro obiettivo finale di rendere l’IA utile per tutti.
Tutti i prodotti Google con oltre due miliardi di utenti oggi sono integrati con Gemini. Google ha raccontato come questo aiuta a creare nuove esperienze e a rendere i nostri prodotti ancora più utili:
- Espansione dei riepiloghi dell’AI nella Ricerca Google. Con un nuovo modello Gemini personalizzato – in grado di ragionare in più fasi, di pianificare e di utilizzare la multimodalità – combinato con il motore di ricerca best in class, sarete presto in grado di porre domande complesse e in più fasi, di personalizzare i risultati della ricerca e persino di porre domande attraverso video.
- Presentazione di Chiedi a Foto Ogni giorno vengono caricate oltre sei miliardi di foto su Google Foto. Grazie alle funzionalità multimodali di Gemini, stiamo ridefinendo il modo in cui potete cercare le vostre foto e i vostri video. Volete trovare un ricordo specifico o informazioni nascoste nella vostra galleria? Basta utilizzare Chiedi a Foto.
- Nuovi modi di interagire con Gemini in Workspace. Le funzionalità di Gemini saranno disponibili per un maggior numero di utenti e si integreranno nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli. Le funzionalità di Gemini saranno aggiunte anche all’app mobile di Gmail.
- Gemini per Android. Google sta integrando l’intelligenza artificiale nel sistema operativo Android. Gli studenti ora possono avere un supporto nel fare i compiti cerchiando i problemi con Cerchia e Cerca. Inoltre, l’overlay di Gemini fornirà suggerimenti creativi relativi a ciò che appare sullo schermo (riassunto di un PDF o “chiedi questo video”), mentre TalkBack con Gemini sarà in grado di fornire descrizioni di immagini ancora più dettagliate.
Google introdurrà Gemini 1.5 Pro agli abbonati di Gemini Advanced in più di 35 lingue, insieme a una finestra contestuale da 1 milione di token – la più lunga di qualsiasi chatbot consumer disponibile al mondo. Ciò significa che è in grado di comprendere più informazioni che mai, come per esempio un PDF di 1500 pagine e, presto, 30.000 righe di codice e un video di un’ora.
- Gli abbonati a Gemini Advanced avranno presto accesso anche a Live, una nuova esperienza di conversazione mobile. Con Live è possibile parlare con Gemini scegliendo tra diverse voci dall’audio naturale. È possibile parlare al proprio ritmo e persino interrompere facendo domande, rendendo le conversazioni più intuitive.
- Gemini Advanced è disponibile in lingua italiana.
Google sta lavorando anche ai modelli del futuro e ha condiviso maggiori dettagli su Gemini 1.5 Flash, un modello pensato per essere veloce e efficiente sulla base del feedback degli utenti, con latenze più basse; e Project Astra, la nostra visione per la prossima generazione di assistenti AI, un agente reattivo in grado di comprendere e reagire al contesto delle conversazioni.
Inoltre, Google ha lavorato a stretto contatto con la comunità creativa per esplorare come l’IA generativa possa supportare al meglio il processo creativo e per assicurarci che i nostri strumenti di IA siano il più utili possibile in ogni fase:
- Veo, il modello più capace pensato per generare video ad alta definizione, e Imagen 3, il nostro modello text-to-image di altissima qualità. Stiamo anche condividendo nuove registrazioni demo – con artisti di tutto il mondo – create con il nostro Music AI Sandbox. Naturalmente, questi progressi nell’IA sono possibili solo grazie a una tecnologia infrastrutturale davvero all’avanguardia. L’addestramento di modelli all’avanguardia richiede molta potenza di calcolo.
- La sesta generazione delle TPU di Google, chiamata Trillium, che offre un miglioramento di 4,7 volte delle prestazioni di calcolo per chip rispetto alla generazione precedente, TPU v5e, e che renderemo disponibile per i clienti Cloud nel corso dell’anno. Un’innovazione audace deve essere sostenuta da un approccio responsabile. Per questo motivo Google sta sviluppando una tecnica all’avanguardia che chiamiamo AI-assisted red teaming, che si ispira alle scoperte di Google DeepMind nel campo dei giochi, come AlphaGo, ed espandendo le nostre innovazioni tecniche di watermarking, come SynthID, in due nuove modalità – testo e video – in modo che i contenuti generati dall’IA siano più facili da identificare.
Utilizzando la potenza di Gemini, si vuole rendere l’IA utile per tutti. La mission di Google è quella di organizzare le informazioni del mondo attraverso ogni input, rendendole accessibili tramite qualsiasi output e combinare le informazioni del mondo con le informazioni del mondo, in un modo che sia veramente utile per voi. Gemini aiuterà a raggiungere questo obiettivo.