ClouderaNOW Scopri gli agenti AI, il cloud Bursting e i Data fabric per l'AI | 8 aprile

Registrati ora
  • Cloudera Cloudera
  • | Tecnico

    Cloudera, Snowflake e Databricks: quale modello di federazione supporta meglio l'AI aziendale?

    Navita Sood Headshot
    Flusso di dati

    L'AI sta costringendo le aziende ad affrontare un progetto che hanno rimandato per anni: i patrimoni dati frammentati.  

    La frammentazione un tempo era considerata un inconveniente. Certo, ci sono voluti alcuni passaggi e qualche giorno in più per recuperare i report tra regioni o dipartimenti. Il team IT doveva intervenire per riconciliare le discrepanze. Ma nulla di tutto ciò è stato un disturbo tale da essere un ostacolo insormontabile.  

    Fino ad ora. 

    Perché la federazione dei dati è così importante ora 

    In un contesto di IA, un patrimonio dati frammentato significa:

    • Modelli addestrati su contesto incompleto
    • Agenti che prendono decisioni con dati obsoleti o non validi
    • Politiche di governance applicate in modo non uniforme nei diversi ambienti

    Significa duplicazione, latenza e punti ciechi proprio nel momento in cui le aziende cercano di rendere operativa l'AI su larga scala. 

    In altre parole, la frammentazione diventa improvvisamente un fattore decisivo

    Nel nostro post precedente, abbiamo esplorato perché l'accesso unificato e governato ai dati è la base per un'intelligenza artificiale affidabile e perché il consolidamento da solo non è la risposta. Centralizzare i dati (cioè spostarli tutti in un'unica posizione fisica) può sembrare una buona idea in teoria, ma nella pratica introduce compromessi operativi che le organizzazioni non possono più permettersi. Fai clic qui per scoprire perché 

    L'alternativa è la federazione, che consente alle organizzazioni di operare come se i loro dati fossero unificati. Ma c'è una sfumatura che molti acquirenti stanno scoprendo: 

    Non tutte le strategie di federazione sono uguali. 

    Due strategie di federazione a confronto: centralizzare prima o federare dove risiedono i dati 

    La maggior parte dei fornitori usa il termine "federazione" per descrivere un vantaggio della propria piattaforma di dati e AI (cioè, permettere alle organizzazioni di utilizzare tutti i loro dati per eseguire analisi e AI), ma non sempre intendono la stessa cosa con questo termine. Quando si valuta una piattaforma, è fondamentale capire esattamente cosa offre ogni fornitore e quanto sia in linea con le sue esigenze prima di impegnarsi troppo. 

    In generale, oggi sul mercato esistono due approcci dominanti: la federazione consolidata e la federazione in loco (spesso definita virtualizzazione dei dati). 

    Modello 1: federazione basata sul consolidamento (approccio di Databricks e Snowflake)

    Il primo modello di federazione è quello che viene chiamato approccio "consolidation-first": la federazione diventa possibile dopo aver consolidato i dati nell'ambiente cloud del fornitore o all'interno del suo modello di governance. Se desideri un accesso cross-system, di solito significa copiare o integrare regolarmente i dati sulla loro piattaforma. 

    In poche parole, si tratta di federazione perché consente di analizzare tutti i dati in un unico luogo. Ma prima devi trasferire tutto dove risiedono. 

    Per i leader aziendali, questo approccio ha implicazioni tangibili, tra cui:

    • Maggiori costi di archiviazione e di elaborazione dei dati
    • Aumento della duplicazione dei dati
    • Politica di governance e replicazione dei permessi tra sistemi
    • Maggiore complessità di audit e conformità

    In altre parole, più i tuoi dati vengono condivisi, più aumenta il costo e la difficoltà di proteggerli. Per le aziende cloud-native, questo approccio può essere accettabile. Ma per le imprese ibride e regolamentate, introduce difficoltà che si aggravano nel tempo. 

    Modello 2: federazione in loco (approccio di Cloudera) 

    Il modello di federazione alternativo, sostenuto da Cloudera, assume una posizione fondamentalmente diversa: portare l'elaborazione e l'AI ai dati, indipendentemente da dove si trovino, invece di costringere i dati a spostarsi.  

    La federazione in loco riunisce logicamente i dati, anziché fisicamente, consentendo ai team di accedervi e analizzarli dove già risiedono, in ambienti pubblici, privati e on premise, senza doverli prima copiare su un'altra piattaforma. 

    Sembra una differenza sottile, ma nella pratica cambia tutto: 

    • Ridurre i costi di infrastruttura e di archiviazione minimizzando il movimento di dati non necessari
    • Riduzione della duplicazione tra ambienti
    • Maggiore flessibilità tra architetture multi-cloud e locali
    • Riduzione dell'esposizione al rischio di concentrazione del cloud
    • Modello unico di sicurezza e governance con tracciabilità end-to-end su tutti i tuoi dati, ovunque.

    Di conseguenza, i Suoi dati rimangono dove è più opportuno per motivi normativi, operativi o di prestazioni, e i Suoi team continuano ad avere una visione completa e in tempo reale degli stessi. 

    Cosa consente la federazione in loco che i modelli di consolidamento prioritario non possono 

    Quando la federazione funziona in ambienti ibridi senza replica (ovvero federazione in loco), crea condizioni che i modelli basati sul consolidamento faticano a eguagliare. Questa distinzione modifica il profilo di rischio dell'intera strategia di AI al di fuori degli ambienti esclusivamente cloud. 

    1. Sicurezza a ridondanza zero 

    Nei modelli consolidation-first (offerti da fornitori come Databricks e Snowflake), i dati possono sembrare unificati, ma esistono comunque in più ambienti. Viene copiato, inserito o replicato su una piattaforma controllata dal fornitore prima di poter essere analizzato. Ogni copia aggiuntiva amplia la superficie di conformità. 

    Più ambienti significano più autorizzazioni da gestire, più politiche da sincronizzare e più ambito di audit da riconciliare. Con l'aumento della replica, cresce anche la complessità della governance. 

    I modelli federation-in-place, come quelli di Cloudera, lasciano i dati dove si trovano. Pertanto, le politiche di governance vengono definite una volta e applicate in modo coerente ovunque. Invece di ricreare le autorizzazioni tra i sistemi, un unico pannello di controllo coerente governa l'accesso negli ambienti ibridi. In Cloudera, la chiamiamo governance che si muove con i dati. 

    Pensiamolo come un sistema globale di badge aziendali. Non puoi rilasciare un nuovo badge di sicurezza ogni volta che un dipendente visita un ufficio diverso. Le autorizzazioni di accesso sono definite centralmente e lo stesso badge funziona in tutte le sedi centrali, gli uffici regionali e i data center, applicando le stesse regole di sicurezza ovunque. 

    Le regole si definiscono una volta sola e ogni porta le riconosce, anche in luoghi diversi. Questa è una sicurezza a ridondanza zero, ed è un enorme vantaggio per il contenimento dei rischi perché la complessità non si moltiplica quando cresce l'ambiente. 

    2. Lineage end-to-end attraverso fonti ibride 

    In tutti i settori, l'AI sta assumendo maggiori responsabilità e, di conseguenza, cresce l'esigenza di responsabilità e spiegabilità. 

    Quando l'AI influenza le approvazioni del credito, le segnalazioni di frode, le decisioni di prezzo o gli aggiustamenti della supply chain, per esempio, ogni output deve essere difendibile. Regolatori, revisori e dirigenti esecutivi si aspettano sempre più di vedere non solo il risultato, ma l'intero percorso che lo ha prodotto. 

    Nelle aziende ibride, quel percorso raramente risiede in un unico ambiente. I dati possono avere origine on premise o all'edge, essere arricchiti in un cloud pubblico, uniti a dati SaaS e utilizzati da un modello in esecuzione altrove. La tracciabilità in quella realtà non è negoziabile. 

    Gli approcci di federazione con consolidamento prioritario tentano di semplificare la tracciabilità centralizzando i dati. Ma in pratica, la replicazione crea storie parallele: set di dati originali nei sistemi sorgente e copie trasformate negli ambienti analitici. Nel tempo, spiegare una decisione potrebbe richiedere la riconciliazione di più versioni degli stessi dati tra i sistemi. Il lineage diventa qualcosa da ricostruire. 

    Con la federazione integrata nelle funzionalità di data lineage (come gli strumenti di data lineage di Cloudera), questo non è un problema. Poiché l'accesso ai dati avviene là dove risiedono (anziché essere replicati in un ambiente separato), il lineage rimane ancorato alla fonte originale. 

    Questa distinzione è particolarmente importante nei flussi di lavoro ibridi e dipendenti dall'edge computing. Con un approccio di federazione in atto, puoi stare certo che se un regolatore o un nuovo CRO si presenterà tra anni chiedendo come sia stata presa una decisione specifica, la risposta non sarà sepolta in una black box che necessita di decifrazione. È documentato, tracciabile e difendibile. 

    3. Una base più solida per i sistemi di AI reali 

    Nei modelli che privilegiano la consolidazione, l'AI opera all’interno dell’ambiente in cui i dati sono stati centralizzati. Funziona, purché lo spostamento dei dati tenga il passo con la realtà operativa. Nelle aziende ibride, succede raramente. 

    Quando l'AI è responsabile di risultati nel mondo reale, come la definizione dinamica dei prezzi o gli adeguamenti della catena logistica, deve operare all'interno di sistemi operativi e distribuiti, non su copie analitiche a valle. Ogni fase di replica introduce catene di dipendenze, generando latenza e ritardi di ingestione e un potenziale disallineamento tra i sistemi operativi reali e i modelli di AI che li utilizzano. 

    La federation-in-place, invece, mantiene l'AI allineata con la realtà operativa, assicurando che il contesto sia sempre attuale e alimentando i casi d'uso dell'AI operativa che una strategia di federazione basata sul consolidamento non riuscirebbe a gestire al di là del cloud. 

    AI operativa nella pratica: settore della logistica

    Per capire perché tutto questo è importante in pratica, esaminiamo un esempio. Consideriamo un'azienda logistica globale che utilizza l'AI per ottimizzare i percorsi di consegna in tempo reale. Una singola decisione di instradamento può dipendere da: 

    • Dati sulla disponibilità degli autisti da un sistema di gestione della forza lavoro
    • Feed GPS in tempo reale dai veicoli
    • Dati sul traffico e sulle condizioni meteorologiche provenienti da API esterne
    • Disponibilità di inventario nei magazzini regionali
    • Metriche di efficienza del carburante dai sensori IoT
    • Vincoli normativi locali o regole sindacali

    Se quel modello di AI opera su istantanee copiate in un unico cloud giorni o addirittura ore prima, sta prendendo decisioni con un contesto parziale. Potrebbe reindirizzare i conducenti senza tenere conto dei livelli di inventario aggiornati o ottimizzare la velocità senza considerare i vincoli di conformità regionali. Potrebbe basarsi su dati di telemetria obsoleti provenienti da veicoli già fuori dal percorso. 

    Quando i sistemi di AI possono accedere in sicurezza ai dati distribuiti dove già risiedono, con sicurezza senza ridondanza e piena tracciabilità, le organizzazioni sbloccano un'AI completamente operativa che agisce in tempo reale, opera entro i limiti delle politiche e si adatta a diversi ambienti senza aggiungere rischi. 

    Come scegliere un fornitore di federazione: domande che ogni azienda dovrebbe porre 

    Come abbiamo visto, non tutte le strategie di federazione mirano allo stesso risultato.  

    Alcuni danno priorità al consolidamento, altri alla flessibilità ibrida e all'accesso governato. Quando si valuta Cloudera, Databricks o Snowflake (o qualsiasi soluzione di federazione dati o combinazione di esse), queste domande aiutano a far emergere le reali differenze: 

    • La federazione richiede il trasferimento dei dati? È possibile accedere ai dati dove già si trovano, oppure è necessario copiarli prima in un cloud centralizzato?
    • Dove vengono definite le politiche di governance? I controlli di accesso vengono impostati una volta ed ereditati ovunque, oppure ricreati tra sistemi?
    • Il lavoro ibrido è considerato permanente? L’architettura supporta on premise e multi-cloud a lungo termine oppure presuppone un consolidamento futuro?
    • Il lineage può estendersi oltre l'ambiente del fornitore? La tracciabilità è completa end-to-end tra fonti distribuite, inclusi sistemi non nativi?
    • La piattaforma è progettata per l'implementazione dell'AI operativa ovunque? L'AI può accedere in modo sicuro a dati in tempo reale e governati, o solo a snapshot centralizzati?

    Le risposte a queste domande ti aiuteranno a determinare se la federazione diventerà una funzionalità di comodità incentrata su casi d'uso analitici, o il fondamento a lungo termine per un'AI affidabile, a costi controllati e su scala aziendale. 

    La federazione funziona solo se viene progettata in modo intenzionale. 

    Progettare un ambiente federato significa analizzare a fondo: allineare modelli di governance, vincoli normativi, requisiti di prestazione e integrazioni esistenti, collegando i sistemi in modo da supportare la flessibilità a lungo termine. 

    Il team di Servizi Professionali e Formazione (PS&T) di Cloudera ha guidato organizzazioni di diversi settori attraverso questo processo innumerevoli volte. Che si tratti di stabilire una nuova strategia di federazione o di ottimizzare un ambiente esistente, avere consulenti esperti dalla tua parte può aiutare a garantire che il tuo ambiente federato non solo sia configurato correttamente, ma sia anche veramente pronto per l'AI e costruito per offrire risultati misurabili. 

     

    Continua a leggere: come funziona la federazione nei servizi finanziari 

    La scelta tra consolidamento prioritario e federazione in loco determina se l'AI rimane in modalità pilota o si espande in modo sicuro nelle operazioni. 

    Questo aspetto è più critico che nei servizi finanziari, dove il rilevamento delle frodi, la gestione del rischio e il reporting normativo dipendono da dati freschi e trasversali ai sistemi. Nel nostro prossimo articolo esploreremo come la federazione stia rimodellando l'analisi in tempo reale e la governance dell'AI nel settore bancario. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.