Cloudera nominata leader nel The Forrester Wave™: Data Fabric Platforms, Q4 2025

Leggi il report
  • Cloudera Cloudera
  • | Tecnico

    Come i principali team di dati costruiscono pipeline pronte per l'IA con Apache Iceberg e Spark

    Pamela Pan headshot
    Ying Chen
    Akshat Mathur headshot
    Donna che guarda il telefono in cucina

    Lezioni da due imprese globali che modernizzano l'ingegneria dei dati per un'AI scalabile

    Dall'analisi predittiva all'intelligenza artificiale generativa, ogni azienda sta cercando di trasformare i dati in valore. Ma per molti team, la vera sfida sta sotto la superficie: nel lavoro di ingegneria dei dati necessario per renderli utilizzabili, affidabili e scalabili. In ambienti complessi, gli ingegneri stanno ancora unendo le pipeline utilizzando formati di tabelle esistenti, duplicando la logica tra gli strumenti e adattando la governance a posteriori. Queste inefficienze ostacolano in ogni fase, ritardano i risultati e limitano l'impatto anche delle iniziative di intelligenza artificiale e di analisi più avanzate.

    Per le aziende che vogliono semplificare e rendere a prova del futuro il proprio stack di data engineering, Apache Iceberg come formato open table e Apache Spark come motore di calcolo aperto si sono dimostrati una combinazione potente. Insieme, offrono una base aperta, scalabile e standardizzata per elaborare e gestire dati su scala petabyte (PB), senza sacrificare governance, flessibilità o prestazioni.

    In questo blog analizzeremo più da vicino come due organizzazioni globali hanno trasformato i loro pipeline di dati utilizzando Spark e Iceberg con la piattaforma di dati e intelligenza artificiale Cloudera. Esploreremo come hanno ridotto i tempi di query dell'80%, standardizzato i flussi di lavoro tra i team e accelerato il loro percorso dai dati grezzi agli insight pronti per l'AI.

    Come Vodafone Idea ha ridotto i tempi di query dell'80%

    Vodafone Idea è una delle tre principali aziende di telecomunicazioni in India, che serve 220 milioni di clienti. L'azienda stava affrontando problemi di scala: il loro data lake basato su Hive era cresciuto a più di 17 PB e i colli di bottiglia nelle prestazioni mettevano a rischio operazioni aziendali critiche. Alcune query di reporting hanno richiesto più di 70 ore per essere completate! Questo ha ritardato la conformità, l'analisi e il reporting normativo.

    Invece di limitarsi ad aggiornare l'infrastruttura, Vodafone Idea ha scelto di riprogettare la propria piattaforma dati. Collaborando con Cloudera, l'azienda ha sfruttato Iceberg per query più rapide attraverso metadati ottimizzati ed evoluzione degli schemi, e ha ricostruito i suoi flussi di lavoro di elaborazione su Spark per sfruttare il calcolo distribuito per un'elaborazione dei dati efficiente e su larga scala. 

    Per la reportistica normativa, hanno abbinato Iceberg con Apache Impala come motore interattivo di query per supportare un accesso rapido e affidabile a set di dati su scala PB. Mentre Impala ha gestito le query di report, Iceberg ha svolto un ruolo fondamentale dietro le quinte: il suo supporto per le transazioni ACID (atomicità, coerenza, isolamento e durabilità, proprietà che garantiscono che le transazioni del database vengano elaborate in modo affidabile e coerente), capacità flessibili di evoluzione degli schemi e metadati ricchi mantenevano i flussi di lavoro di report coerenti, anche con i cambiamenti dei dati.

    Attraverso l'integrazione con Cloudera Shared Data Experience (SDX), il team ha anche acquisito una governance dettagliata con controllo degli accessi basato su ruoli e attributi, assicurando che le persone giuste avessero accesso ai dati corretti. Questa base ha permesso all'azienda di fornire report tempestivi e verificabili, soddisfacendo al contempo i crescenti requisiti normativi. 

    Trasformare le telecomunicazioni con l’efficienza guidata dai dati

    Collaborando con Cloudera, Vodafone Idea ha preservato la flessibilità, rafforzato la governance e accelerato la consegna degli insight su larga scala senza dover ricostruire l'intero suo stack di dati. Utilizzando Spark per l'ingestione, Iceberg per la gestione unificata delle tabelle e Impala per la reportistica, hanno modernizzato la loro base riutilizzando logica e flussi di lavoro esistenti. 

    Insieme, questa architettura ha prodotto risultati misurabili:

    • Riduzione dei tempi di query dell'80%.
    • Diminuzione dei guasti delle pipeline grazie alla resilienza di Spark su larga scala e alle robuste capacità di gestione delle tabelle di Iceberg.
    • Miglioramento della reportistica normativa (più rapida e affidabile).


    Come un'azienda farmaceutica si è consolidata per scalare: un'unica piattaforma tecnologica, 10.000 posti di lavoro

    Una società farmaceutica globale che gestisce dati di ricerca clinica su scala PB si è trovata ad affrontare una sfida familiare ma crescente: aveva troppi strumenti in uso, che portavano a sfide di affidabilità dei dati e difficoltà nel rispetto degli standard di conformità, oltre a subire pressioni per supportare AI e analisi più rapide. I team di ingegneria dei dati dovevano eseguire più di 10.000 lavori ETL giornalieri, ma non avevano un modo standardizzato per costruire, governare o convalidare le pipeline tra i vari team.

    Con Cloudera su AWS, l'azienda ha fissato una direzione chiara da seguire. Il team ha standardizzato tutte le pipeline dati utilizzando Spark su Cloudera Data Engineering, unificando e scalando l'elaborazione tra carichi di lavoro batch, streaming e machine learning. Contemporaneamente, hanno adottato Iceberg come formato predefinito di tabella aperta per garantire un'evoluzione coerente dello schema, un controllo delle versioni integrato e una governance di livello enterprise tra team e ambienti.

    Adottando Spark e Iceberg su Cloudera, l'azienda ha posto una base DataOps pulita e scalabile che ha standardizzato il pipelining dei dati, consentito la condivisione sicura dei dati tra team e strumenti e aperto la strada a un'AI e un'analisi più rapide e avanzate. Questa base ora supporta tutto, dai flussi di lavoro di audit normativo ai modelli di intelligenza artificiale che accelerano la scoperta di trial clinici e lo sviluppo di farmaci, garantendo che l'azienda possa integrare senza soluzione di continuità qualsiasi nuova tecnologia o motore in futuro.

    Trasformare il settore farmaceutico con una piattaforma dati unificata

    La standardizzazione sulla piattaforma Cloudera ha dato all'azienda farmaceutica globale un nuovo livello di coerenza operativa:

    • Governance senza interruzioni: il modello write-audit-publish di Iceberg permette ai team a monte di validare i dati prima di rilasciarli in produzione senza interrompere i flussi di lavoro a valle.
    • Viaggio nel tempo per la tracciabilità: i team normativi possono accedere istantaneamente a snapshot di dati storici, consentendo un rollback pulito e il supporto di audit.
    • Logica di pipeline condivisa: con Spark come motore unificato, i team, dai data engineer ai data scientist, possono collaborare facilmente e riutilizzare le trasformazioni principali tra lavori e ambienti, riducendo duplicazioni e semplificando la manutenzione.


    Costruire una base moderna per l'ingegneria dei dati e l'AI

    Queste due storie condividono un filo conduttore: entrambe le organizzazioni hanno affrontato la frammentazione, la pressione di scala e la crescente complessità nei loro flussi di lavoro dei dati. Standardizzando Apache Spark e Apache Iceberg con Cloudera, hanno ricostruito le loro pipeline attorno a componenti aperti, scalabili e affidabili, permettendo una governance migliore, prestazioni più rapide e flussi di dati più puliti per AI e analytics.

    Con Cloudera Data Engineering, le aziende ottengono una soluzione end-to-end che funziona sia in ambienti ibridi che multi-cloud. Unisce Spark, Iceberg e l'orchestrazione integrata con Airflow per consentire ai team di:

    • Crea le pipeline una volta ed eseguile ovunque, nel data center o sui cloud
    • Mantieni la fiducia e la governance su scala nell'open data lakehouse

    Guarda questa demo interattiva per scoprire come Spark ed Iceberg alimentano pipeline scalabili e affidabili su Cloudera. Prova tu stesso con la prova di 5 giorni di Cloudera Data Engineering e inizia oggi stesso a costruire flussi di lavoro dati pronti per l'AI.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.