L'Indice di prontezza dei dati 2026: comprendere le basi per un'AI di successo

Scopri i risultati

14 luglio 2025 | Azienda

L'onda dell'Iceberg: come un formato aperto è diventato uno standard aziendale

12 min di lettura • di Navita Sood

Le innovazioni di Cloudera spingono l'adozione di Iceberg

Apache Iceberg è ora l'open standard de facto per la gestione di dati strutturati, semistrutturati e in evoluzione su larga scala. È stato originariamente sviluppato nel 2017 da Netflix per affrontare le sfide della fornitura di analisi affidabili su scala petabyte (PB) su Apache Hive e Spark, e da allora è cresciuto fino a diventare un formato open table robusto, adatto per eseguire più carichi di lavoro contemporaneamente.

Iceberg unifica i tuoi dati e fornisce un comportamento SQL per accedervi facilmente. Mentre continua ad evolversi con capacità SQL avanzate e operazioni sui dati semplificate, Iceberg è sempre più apprezzato da utenti con diverse competenze tecniche: non solo data engineer ma anche consumatori di dati (data scientist, analisti e sviluppatori di applicazioni) che cercano un accesso veloce e affidabile a tutti i dati.

Con Iceberg, le organizzazioni hanno a disposizione una vera separazione tra calcolo e archiviazione, ottenendo una flessibilità senza pari. Non esistono altri formati in grado di fornirti analisi multifunzionali, preparazione per l'AI e indipendenza dai tuoi fornitori.

Una comunità vivace e in crescita

In meno di 10 anni, Iceberg è passato da tecnologia emergente a standard aziendale. Lo slancio di Iceberg può essere attribuito ai suoi punti di forza legati all'architettura e alla community vivace e aperta che lo sostiene.

È importante che la community di Iceberg sia guidata dai suoi utenti, e non solo da un singolo fornitore. Questo modello di governance guidato dagli utenti aiuta a garantire che il progetto si evolva in modi che soddisfino esigenze ampie e reali, uno dei motivi principali per cui ha ottenuto così tanto consenso.

Punti chiave dall'Iceberg Summit

L'adozione mainstream di Iceberg è diventata evidente al Summit Iceberg del 2025 a San Francisco. L'evento ha riunito startup, aziende Fortune 500 e i tre principali fornitori di cloud (AWS, Microsoft e Google), e i partecipanti si sono uniti da tutto il mondo, sia di persona che virtualmente, desiderosi di imparare, contribuire e far crescere l'ecosistema.

Alcuni temi in particolare hanno dominato le conversazioni al summit: l'interoperabilità e la crescente importanza di Iceberg, il suo ecosistema in espansione e le sue funzionalità, inclusa l'automazione.

Interoperabilità

Da Netflix ad Apple a Bloomberg, molte organizzazioni hanno spiegato come Iceberg consenta loro di gestire un'unica fonte di informazioni che alimenta più carichi di lavoro, eliminando le copie ridondanti dei dati e riducendo lo spostamento dei dati tra i sistemi. Hanno discusso dei vari tipi di carichi di lavoro che si basano sul livello di dati di Iceberg affidabile per fornire segmentazione, personalizzazione, previsioni di abbandono/ricadute, raccomandazioni, esperienza cliente ottimizzata e altro ancora.

Ecosistema in espansione

Un altro punto saliente è stato l'emergere di nuovi strumenti open-source come Comet, Polaris e Lance nell'ecosistema Iceberg, progettati per migliorare le prestazioni e supportare l'analisi multimodale e l'AI.

Aggiornamenti in arrivo in Iceberg V3 e V4

C'era molta emozione per le nuove funzionalità di Iceberg V3 e V4. La V3 potenzierà notevolmente la governance dei dati, l'ottimizzazione delle prestazioni e il supporto per tipi di dati più complessi come Variant e Geospatial. Sfruttando i principi del formato in colonna, Variant abilita funzionalità avanzate di query su dati semistrutturati, come il filtraggio e le aggregazioni, senza richiedere trasformazioni estese. Il supporto per Geospatial consentirà alle organizzazioni di gestire i dati basati sulla posizione, aprendo nuove possibilità d'uso. Il nuovo layout adattivo dei metadati proposto in V4 promette di migliorare le prestazioni per i file di piccole dimensioni.

Gestione automatizzata dei dati

Un altro argomento molto discusso è stato l'automazione della manutenzione ordinaria (partizionamento, ordinamento, compattazione) tramite interfacce in stile DevOps guidate da policy per ridurre il lavoro manuale. Man mano che le organizzazioni inseriscono più dati nelle tabelle Iceberg, questa procedura si trasforma in un enorme collo di bottiglia, poiché è necessario assumere esperti per queste attività di manutenzione.

Man mano che sempre più motori accedono ai dati in queste tabelle Iceberg, la governance, la sicurezza e la tracciabilità diventano una priorità assoluta. La visibilità sui flussi di dati e sulle trasformazioni diventa fondamentale per potersi fidare dei dati. Le discussioni si sono incentrate sulla necessità di federazione e governance dei cataloghi per migliorare la visibilità tra le tabelle Iceberg.

Adozione di Iceberg in Cloudera

Cloudera ha introdotto l'integrazione nativa di Apache Iceberg nella sua piattaforma Lakehouse su cloud pubblico nel 2021, seguita da quella on premise nel 2022. Oggi, la maggior parte dei nostri clienti sta eseguendo o testando nuovi carichi di lavoro su Iceberg. In totale, i nostri clienti gestiscono petabyte di dati su Iceberg.

Iceberg è un vettore di crescita per Cloudera. Stiamo assistendo a un aumento dei clienti che spostano i propri carichi di lavoro Hive su Iceberg per modernizzare e rendere le loro piattaforme dati pronte per il futuro. - Venkat Rajaji, SVP of Product Management, Cloudera

Una volta che un'azienda inizia il suo percorso con Iceberg, i vantaggi si accumulano, portando a un aumento dei volumi di dati sulle tabelle Iceberg, all'espansione dei carichi di lavoro e all'emergere di nuovi casi d'uso. Le prestazioni più veloci sono spesso il primo fattore motivante, seguite dall'interoperabilità e dalla flessibilità dei carichi di lavoro per l'agilità. Il passaggio a Iceberg riduce i costi di archiviazione, di ETL e i costi operativi fino al 75%. Funzionalità come le indagini cronologiche, snapshot, write-audit-publish e partizionamento nascosto migliorano ulteriormente l'efficienza, rendendolo la scelta giusta per implementare nuovi casi d'uso.

Alcuni dei casi d'uso più popolari per Iceberg presso Cloudera sono:

Condivisione dei dati tra diversi sistemi di fornitori di proprietà di parti fidate, come diverse unità aziendali all'interno di un'organizzazione o con partner e fornitori di fiducia.
Data engineering per la preparazione di dati su larga scala e le migliori prestazioni in termini di prezzo.
Analisi e decisioni quasi in tempo reale acquisendo i dati in streaming nel lakehouse.
Report sulla conformità normativa e mitigazione continua del rischio, sfruttando le funzionalità di indagine cronologica di Iceberg e le capacità di governance, lineage e auditing di Cloudera.
Ottimizzazione della spesa per l'analisi nel cloud sbloccando i dati in Iceberg e sfruttando le robuste capacità di acquisizione ed elaborazione dei dati di Cloudera.
Accelerare la preparazione dei dati per l'AI sfruttando Spark e NiFi per un'elaborazione più rapida dei dati.
Addestramento efficiente dei modelli su più versioni di dati con un utilizzo ridotto di risorse di calcolo e archiviazione.
Archivi di funzionalità a più livelli che combinano Iceberg e HBase per un'AI a bassa latenza.
Esecuzione di carichi di lavoro ibridi che utilizzano l'elaborazione nel cloud pubblico per i dati sensibili archiviati on premise.

Ascolta il viaggio di Illumina e LY Corporation con Apache Iceberg e scopri come stanno superando le loro sfide di dati e analytics su larga scala.

Innovazioni di Cloudera per affrontare le sfide comuni

Sebbene Lakehouse e Iceberg offrano notevoli vantaggi, tra cui la convergenza di tutti i dati e l'accelerazione dell'analisi, esistono alcune sfide che i nostri clienti ci hanno segnalato riguardo all'adozione di Iceberg. Innanzitutto, i loro dati si trovano in più cloud, on premise e in sistemi edge, e spostare tutti quei dati nel cloud per sfruttare Iceberg è quasi impossibile. Pertanto, hanno bisogno dello stesso supporto Iceberg anche on premise e nel cloud. In secondo luogo, hanno bisogno di un'integrazione con motori di più fornitori, in modo da poter condividere facilmente i dati tra i vari sistemi con sicurezza, lineage e tracciabilità. Con l'aumento dei dati, l'ottimizzazione manuale e continua delle tabelle Iceberg per prestazioni ottimali diventa molto costosa, poiché richiede numerosi esperti e tante risorse di calcolo. Infine, mentre Iceberg aumenta l'uso dei dati, la libertà di introdurre qualsiasi strumento comporta rischi e richiede strumenti di governance e sicurezza efficaci per controllare gli accessi e fornire la gestione dei metadati per revisione, tracciabilità e visibilità, al fine di comprendere meglio i dati e migliorare l'usabilità.

Innoviamo costantemente per affrontare le sfide dei clienti e abbiamo effettuato diversi miglioramenti alla piattaforma per affrontare questi punti critici comuni, tra cui:

Iceberg ovunque con il lakehouse ibrido: fornisce supporto nativo per Iceberg on-premise e in diversi cloud pubblici, che permette di trasferire applicazioni e codice per utilizzare Impala, Spark, NiFi, Flink e Hive sugli stessi dati con la stessa esperienza. Questo consente ai clienti di modernizzare il loro data center con funzionalità cloud-native. Iceberg su Ozone offre archivi di oggetti compatibili con S3 in sede. Cloudera consente alle organizzazioni di unificare i propri dati nel cloud e on premise sotto un unico modello di governance e sicurezza, con controlli di accesso granulari, metadati con controllo delle versioni e un catalogo condiviso.
Creazione di applicazioni in tempo reale: costruisci pipeline CDC in tempo reale e integra e unifica senza problemi dati in batch e in streaming con la nostra offerta Data in Motion per le pipeline di streaming (NiFi+Kafka+Flink-on-Iceberg).
Interoperabilità completa con l'integrazione del catalogo REST: promuove l'interoperabilità con motori esterni ed ecosistemi aperti, garantendo un'unica sicurezza e governance.
Riduzione del TCO e prestazioni più rapide con Cloudera Lakehouse Optimizer: l'AI integrata regola automaticamente la compattazione, la scadenza degli snapshot e il layout, senza alcuna regolazione manuale.
Comprensione completa di tutte le origini e le destinazioni dei dati: Octopai by Cloudera sblocca l'automazione intelligente dei metadati e la tracciabilità dell'intero ciclo di vita per tutti i flussi di dati, anche al di fuori di Cloudera, per offrire una migliore visibilità sui dati.
HA/DR e bassa latenza tra le applicazioni: la replica delle tabelle Iceberg offre resilienza e flessibilità per le architetture di dati HA.
Adozione rapida e senza rischi con strumenti di migrazione intelligenti: il nostro blueprint "Hive Tables to Apache Iceberg" semplifica l'onboarding.

Immaginiamo un futuro in cui Apache Iceberg sia la base e il fulcro che potenzia i dati multipiattaforma e l'AI. Per raggiungere questo obiettivo, stiamo continuando a migliorare incessantemente le capacità di Iceberg per sbloccare un'agilità e un'intelligence senza precedenti per tutte le imprese. Bill Zhang, VP of Product Strategies di Cloudera

Percorso futuro

Riteniamo che Iceberg continuerà ad essere il principale standard aziendale per i formati open table. Le nuove innovazioni nelle ottimizzazioni automatizzate, nel supporto multimodale, nella gestione dei metadati e nell'integrazione di Python non faranno che promuoverne ulteriormente l'adozione. Anche altri formati open-table probabilmente adotteranno un approccio più specializzato adatto a eseguire carichi di lavoro specifici o in ambienti specifici per integrare Iceberg.

L'obiettivo di Cloudera è aiutare i clienti a costruire un data lakehouse aperto alimentato da Iceberg con minore complessità, più flessibilità e maggiore impatto. Ci concentriamo sulla fornitura di sicurezza e governance di livello aziendale, di ottimizzazioni aggiuntive, di meccanismi di archiviazione a più livelli e di un "catalogo di cataloghi" per migliorare l'interoperabilità e la collaborazione. Inizia oggi stesso con la prova gratuita di 5 giorni di Cloudera Lakehouse oppure leggi le nostre guide pratiche.

Navita Sood

Director Product Marketing, Modern Data Architectures

Altri articoli di questo autore ›

Correlato

18 giugno 2026 | Azienda

Da Hybrid-by-Accident a Hybrid-by-Design: padroneggiare la sovranità dei dati e il controllo dei costi dell'AI

10 min di lettura • Kierstan Williams

Pronto a cominciare?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.