Un obiettivo fondamentale di visual analytics e data science è quello di identificare insight eseguibili (actionable) che abbiano un impatto sui processi di business – al fine di aumentare il fatturato, migliorare la produttività o mitigare i rischi.
L’AI (Intelligenza artificiale) automatizzata, o il machine learning automatizzato specificamente per la data science possono aiutare a raggiungere questo obiettivo.
AutoML può aumentare in modo notevole la produttività dei data scientist automatizzando i compiti più banali e consentendo di dedicare maggior tempo all’innovazione. AutoML with transparency può anche guidare e formare gli utenti su come ottenere il massimo dai loro dati e dall’ambiente di data science, implementando nel contempo best practice.
Il ruolo e la funzione dei data scientist sono in crescita
I data scientist sono diventati gli “hacker”, facendo tutto quello che serve per portare a termine il loro compito. Un compito che può comprendere il progetto e il deployment di sistemi end-to-end per testare i modelli e per inferenza – per job batch che girano lanciati con un clock o un trigger – ed elaborazione di eventi in tempo reale.
Tali sistemi end-to-end comprendono tipicamente accesso e federazione di dati, strategie di caching, feature engineering, machine learning e model ops. Il model ops può comprendere la “containerizzazione” di modelli, l’aggiunta di interfacce RESTful e il deployment in sistemi operazionali – in ambienti ibridi e qualche volta multi-cloud.
Un aspetto cruciale è che ciò che richiedono soprattutto i data scientist è diventare più produttivi.
AutoML li aiuta assistendo gli analisti nella preparazione dei dati, la pulizia degli stessi, la feature selection, feature engineering e modellazione, con explainability. L’assistenza digitale di AutoML è in fase di estensione alle piattaforme di data science che scalano attraverso ambienti cloud ibridi con deployment in architetture basate su eventi.
Idealmente, i sistemi AutoML dovrebbero generare flussi automatici che sono modificabili e informativi in merito al funzionamento del software. Questo dovrebbe includere il far emergere i passi o i nodi del workflow e come essi vengono creati e configurati per l’analisi.
I flussi generati dovrebbero, e possono, rappresentare un’esperienza educativa per il data scientist su come utilizzare il software in modo ottimale. Un sistema AutoML è anche un modo per implementare best practice, sia per il data scientist esperto e professionale, sia per il praticante con meno esperienza.
Così, quando l’utente si muove attraverso una pipeline di data science, l’ambiente aiuta a collegare, pulire e preparare i dati, oltre a ingegnerizzare caratteristiche per la costruzione di modelli. Inoltre, il sistema dovrebbe idealmente offrire una guida su questioni come i set di validazione di blocco (hold-out), combinazioni di caratteristiche e modelli e possibilità di spiegazione (explainability) dei modelli.
Una nota di cautela – non stiamo affermando che l’obiettivo è la completa automazione di tutto nell’ambito della data science, com’è stato sostenuto da altri. Il goal non è quello di realizzare un ambiente di automazione totale in cui la pressione di un grande pulsante rosso significhi ‘lavoro concluso’. Piuttosto, l’obiettivo è quello di formare l’utente come assistente digitale, automatizzare i compiti di più basso livello, educarlo e implementare buone pratiche scientifiche.
Tale software AutoML ideale aiuta gli analisti di business, i data scientist e gli sviluppatori attraverso la rimozione della complessità e l’accelerazione del deployment in ambienti reali di produzione. Queste capacità stanno cominciando a spostare il focus di business analyst, data scientist, sviluppatori e business executive sulla soluzione dei problemi attuali con le migliori soluzioni disponibili.
Automatizzare i compiti di basso livello consente di disporre di maggior tempo per lo sviluppo di approcci innovativi alla crescita del fatturato, alla riduzione del rischio e alla cancellazione dei costi inutili.
AI automatizzata per tutti
Il gran numero di stakeholder coinvolti in un progetto di data science rende una sfida la semplificazione del processo. Per esempio, un sistema che parte da un analista di business per dataviz (visualizzazione dei dati) e arriva a un data scientist per la formazione e il deployment coinvolge diversi workflow per pulire i dati, ingegnerizzare le caratteristiche e costruire i modelli che creano le previsioni – in job batch e su dati in streaming su sistemi operazionali.
I miglioramenti nella produttività si ottengono dalla generazione automatica di questi differenti workflow per compiti quali la preparazione dei dati, la feature engineering, feature selection e modellazione. L’automazione dei processi dalla preparazione alla sintonizzazione del modello produce workflow trasparenti e modificabili che possono diventare più velocemente versioni pronte per la produzione in sistemi operazionali.
Quando un data scientist crea un modello predittivo, sviluppare i numerosi diversi workflow data prep / data science richiesti può rivelarsi un lavoro molto impegnativo. Quando invece essi vengono generati automaticamente, ci possono essere importanti risparmi in termini di tempo, modelli più accurati e best practice applicate su tutto.
Incrementi di produttività e output più smart
La preparazione automatica dei dati (data prep) e il machine learning possono creare notevoli incrementi nella produttività per gli analisti di business e i data scientist. Automatizzando differenti stadi del workflow dai business analyst ai data scientist alla produzione, si creano modelli che si sintonizzano e si implementano come ambienti cloud nativi di produzione.
Per indirizzare questioni più complesse, il deployment e il collegamento a feed di dati dei modelli di machine learning stanno diventando più semplici, per supportare decisioni più veloci e più smart in tempo reale. Non si tratta di creare una scatola nera; sia che l’obiettivo desiderato sia quello di aiutare i servizi finanziari a scoprire frodi in modo più accurato, piuttosto che monitorare l’output di un campo petrolifero, analisti, scienziati e sviluppatori utilizzano workflow automatizzati per ottenere insight che consentano di costruire modelli più intelligenti a un ritmo più veloce.
Un’area di valore fondamentale nella data science è legata alla realizzazione di previsioni accurate in ambienti operativi reali. Così come le linee produttive fisiche automatizzate hanno creato la moderna era industriale – si pensi ai robot utilizzati per costruire autovetture – l’automazione della data science sta inaugurando l’era industriale digitale attraverso la possibilità di applicare le analytics rapidamente a diversi domini da parte di esperti che non sono più costretti a svolgere il “lavoro sporco” (attività di basso livello).
Attraverso l’automazione, la data science può svilupparsi più rapidamente per risolvere problemi del mondo reale, offrendo nel contempo a tutti benefici misurabili lungo tutta la catena del valore.