Apache Iceberg è ora l'open standard de facto per la gestione di dati strutturati, semistrutturati e in evoluzione su larga scala. È stato originariamente sviluppato nel 2017 da Netflix per affrontare le sfide della fornitura di analisi affidabili su scala petabyte (PB) su Apache Hive e Spark, e da allora è cresciuto fino a diventare un formato open table robusto, adatto per eseguire più carichi di lavoro contemporaneamente.
Iceberg unifica i tuoi dati e fornisce un comportamento SQL per accedervi facilmente. Mentre continua ad evolversi con capacità SQL avanzate e operazioni sui dati semplificate, Iceberg è sempre più apprezzato da utenti con diverse competenze tecniche: non solo data engineer ma anche consumatori di dati (data scientist, analisti e sviluppatori di applicazioni) che cercano un accesso veloce e affidabile a tutti i dati.
Con Iceberg, le organizzazioni hanno a disposizione una vera separazione tra calcolo e archiviazione, ottenendo una flessibilità senza pari. Non esistono altri formati in grado di fornirti analisi multifunzionali, preparazione per l'AI e indipendenza dai tuoi fornitori.
In meno di 10 anni, Iceberg è passato da tecnologia emergente a standard aziendale. Lo slancio di Iceberg può essere attribuito ai suoi punti di forza legati all'architettura e alla community vivace e aperta che lo sostiene.
È importante che la community di Iceberg sia guidata dai suoi utenti, e non solo da un singolo fornitore. Questo modello di governance guidato dagli utenti aiuta a garantire che il progetto si evolva in modi che soddisfino esigenze ampie e reali, uno dei motivi principali per cui ha ottenuto così tanto consenso.
L'adozione mainstream di Iceberg è diventata evidente al Summit Iceberg del 2025 a San Francisco. L'evento ha riunito startup, aziende Fortune 500 e i tre principali fornitori di cloud (AWS, Microsoft e Google), e i partecipanti si sono uniti da tutto il mondo, sia di persona che virtualmente, desiderosi di imparare, contribuire e far crescere l'ecosistema.
Alcuni temi in particolare hanno dominato le conversazioni al summit: l'interoperabilità e la crescente importanza di Iceberg, il suo ecosistema in espansione e le sue funzionalità, inclusa l'automazione.
Da Netflix ad Apple a Bloomberg, molte organizzazioni hanno spiegato come Iceberg consenta loro di gestire un'unica fonte di informazioni che alimenta più carichi di lavoro, eliminando le copie ridondanti dei dati e riducendo lo spostamento dei dati tra i sistemi. Hanno discusso dei vari tipi di carichi di lavoro che si basano sul livello di dati di Iceberg affidabile per fornire segmentazione, personalizzazione, previsioni di abbandono/ricadute, raccomandazioni, esperienza cliente ottimizzata e altro ancora.
Un altro punto saliente è stato l'emergere di nuovi strumenti open-source come Comet, Polaris e Lance nell'ecosistema Iceberg, progettati per migliorare le prestazioni e supportare l'analisi multimodale e l'AI.
C'era molta emozione per le nuove funzionalità di Iceberg V3 e V4. La V3 potenzierà notevolmente la governance dei dati, l'ottimizzazione delle prestazioni e il supporto per tipi di dati più complessi come Variant e Geospatial. Sfruttando i principi del formato in colonna, Variant abilita funzionalità avanzate di query su dati semistrutturati, come il filtraggio e le aggregazioni, senza richiedere trasformazioni estese. Il supporto per Geospatial consentirà alle organizzazioni di gestire i dati basati sulla posizione, aprendo nuove possibilità d'uso. Il nuovo layout adattivo dei metadati proposto in V4 promette di migliorare le prestazioni per i file di piccole dimensioni.
Un altro argomento molto discusso è stato l'automazione della manutenzione ordinaria (partizionamento, ordinamento, compattazione) tramite interfacce in stile DevOps guidate da policy per ridurre il lavoro manuale. Man mano che le organizzazioni inseriscono più dati nelle tabelle Iceberg, questa procedura si trasforma in un enorme collo di bottiglia, poiché è necessario assumere esperti per queste attività di manutenzione.
Man mano che sempre più motori accedono ai dati in queste tabelle Iceberg, la governance, la sicurezza e la tracciabilità diventano una priorità assoluta. La visibilità sui flussi di dati e sulle trasformazioni diventa fondamentale per potersi fidare dei dati. Le discussioni si sono incentrate sulla necessità di federazione e governance dei cataloghi per migliorare la visibilità tra le tabelle Iceberg.
Cloudera ha introdotto l'integrazione nativa di Apache Iceberg nella sua piattaforma Lakehouse su cloud pubblico nel 2021, seguita da quella on premise nel 2022. Oggi, la maggior parte dei nostri clienti sta eseguendo o testando nuovi carichi di lavoro su Iceberg. In totale, i nostri clienti gestiscono petabyte di dati su Iceberg.
Iceberg è un vettore di crescita per Cloudera. Stiamo assistendo a un aumento dei clienti che spostano i propri carichi di lavoro Hive su Iceberg per modernizzare e rendere le loro piattaforme dati pronte per il futuro. - Venkat Rajaji, SVP of Product Management, Cloudera
Una volta che un'azienda inizia il suo percorso con Iceberg, i vantaggi si accumulano, portando a un aumento dei volumi di dati sulle tabelle Iceberg, all'espansione dei carichi di lavoro e all'emergere di nuovi casi d'uso. Le prestazioni più veloci sono spesso il primo fattore motivante, seguite dall'interoperabilità e dalla flessibilità dei carichi di lavoro per l'agilità. Il passaggio a Iceberg riduce i costi di archiviazione, di ETL e i costi operativi fino al 75%. Funzionalità come le indagini cronologiche, snapshot, write-audit-publish e partizionamento nascosto migliorano ulteriormente l'efficienza, rendendolo la scelta giusta per implementare nuovi casi d'uso.
Alcuni dei casi d'uso più popolari per Iceberg presso Cloudera sono:
Ascolta il viaggio di Illumina e LY Corporation con Apache Iceberg e scopri come stanno superando le loro sfide di dati e analytics su larga scala.
Sebbene Lakehouse e Iceberg offrano notevoli vantaggi, tra cui la convergenza di tutti i dati e l'accelerazione dell'analisi, esistono alcune sfide che i nostri clienti ci hanno segnalato riguardo all'adozione di Iceberg. Innanzitutto, i loro dati si trovano in più cloud, on premise e in sistemi edge, e spostare tutti quei dati nel cloud per sfruttare Iceberg è quasi impossibile. Pertanto, hanno bisogno dello stesso supporto Iceberg anche on premise e nel cloud. In secondo luogo, hanno bisogno di un'integrazione con motori di più fornitori, in modo da poter condividere facilmente i dati tra i vari sistemi con sicurezza, lineage e tracciabilità. Con l'aumento dei dati, l'ottimizzazione manuale e continua delle tabelle Iceberg per prestazioni ottimali diventa molto costosa, poiché richiede numerosi esperti e tante risorse di calcolo. Infine, mentre Iceberg aumenta l'uso dei dati, la libertà di introdurre qualsiasi strumento comporta rischi e richiede strumenti di governance e sicurezza efficaci per controllare gli accessi e fornire la gestione dei metadati per revisione, tracciabilità e visibilità, al fine di comprendere meglio i dati e migliorare l'usabilità.
Innoviamo costantemente per affrontare le sfide dei clienti e abbiamo effettuato diversi miglioramenti alla piattaforma per affrontare questi punti critici comuni, tra cui:
Immaginiamo un futuro in cui Apache Iceberg sia la base e il fulcro che potenzia i dati multipiattaforma e l'AI. Per raggiungere questo obiettivo, stiamo continuando a migliorare incessantemente le capacità di Iceberg per sbloccare un'agilità e un'intelligence senza precedenti per tutte le imprese. Bill Zhang, VP of Product Strategies di Cloudera
Riteniamo che Iceberg continuerà ad essere il principale standard aziendale per i formati open table. Le nuove innovazioni nelle ottimizzazioni automatizzate, nel supporto multimodale, nella gestione dei metadati e nell'integrazione di Python non faranno che promuoverne ulteriormente l'adozione. Anche altri formati open-table probabilmente adotteranno un approccio più specializzato adatto a eseguire carichi di lavoro specifici o in ambienti specifici per integrare Iceberg.
L'obiettivo di Cloudera è aiutare i clienti a costruire un data lakehouse aperto alimentato da Iceberg con minore complessità, più flessibilità e maggiore impatto. Ci concentriamo sulla fornitura di sicurezza e governance di livello aziendale, di ottimizzazioni aggiuntive, di meccanismi di archiviazione a più livelli e di un "catalogo di cataloghi" per migliorare l'interoperabilità e la collaborazione. Inizia oggi stesso con la prova gratuita di 5 giorni di Cloudera Lakehouse oppure leggi le nostre guide pratiche.
This may have been caused by one of the following: