Cloudera nominata leader nel The Forrester Wave™: Data Fabric Platforms, Q4 2025

Leggi il report
  • Cloudera Cloudera
  • | Azienda

    3 passaggi per ridurre i costi del cloud con Data Lineage

    Ron Pick headshot

    Ha mai promesso la luna a qualcuno? Se lo hai fatto, probabilmente non avevi idea di quanto sarebbe potuta costare.

    Se prometti a qualcuno un cloud, invece, puoi calcolare i suoi costi fino al millesimo di centesimo. 

    Amazon, Azure e Google offrono calcolatori dei costi di archiviazione dei dati nel cloud che faranno girare la testa per la loro specificità: quanti TiB di dati ti servono per le letture in streaming su Google BigQuery? Desideri istanze ra3.4xlarge o ra3.xlplus su Amazon Redshift? Quanti nodi vuoi?

    Sebbene l'archiviazione dei dati nel cloud sia spesso indicata come più efficiente dal punto di vista dei costi rispetto all'archiviazione dei dati on premise, in realtà la riduzione dei costi per l'archiviazione nel cloud richiede indagini, eliminazione e ottimizzazione. Procediamo passo dopo passo.

    Passaggio 1: indagine

    Uno dei modi più semplici per ridurre i costi di archiviazione dei dati è conservare meno dati. Scontato, sì. Facile, un po' meno.

    Se hai tutti quei dati, un motivo c'è. E a volte è un motivo valido, come per i processi operativi, amministrativi e aziendali, ma altre volte la ragione non è poi così buona, per esempio "non ce ne siamo ancora liberati". 

    In ogni ecosistema di dati, ci sono dati obsoleti, ridondanti e di bassa qualità di cui puoi (e dovresti) sbarazzarti. Ma come si trovano?

    La risposta è il data lineage automatizzato, il fedele aiutante del responsabile dei dati.

    Immagina di avere una bacchetta magica che ti aiuta con le pulizie di primavera. La bacchetta ti dice dove ogni articolo della tua casa è stato acquistato, quando è stato usato l'ultima volta, in che condizioni si trova, se hai altri articoli che svolgono la stessa funzione e così via.

    Ecco cosa fa il data lineage automatizzato per il tuo ecosistema di dati. Lascialo correre e, in pochi minuti, avrai una mappatura completa del tuo flusso di dati: quali asset di dati alimentano quali report e a quali fonti risalgono. Il data lineage completo mostra questo sia a livello generale del sistema sorgente, sia a livello dettagliato da colonna a colonna. Può persino entrare nei processi ETL e mostrare esattamente quali trasformazioni sono state eseguite sui dati durante il loro spostamento. 

    Una volta mappato il quadro completo, puoi passare alla seconda fase: l'eliminazione.

    Passaggio 2: Eliminazione

    Esamini attentamente la tracciabilità dei dati e si ponga le seguenti domande:

    • Ci sono asset o utilizzi di dati (per esempio i report) ridondanti?
    • Alcuni di questi asset o utilizzi di dati sono obsoleti o in altro modo non più pertinenti?

    Rispondendo "Sì", accederai ai dati che possono essere eliminati, riducendo direttamente i costi di archiviazione basati sul cloud. Ma procedi con cautela! Anche se ha identificato due asset dati che sono effettivamente duplicati, se entrambi vengono usati da report a valle, non puoi semplicemente cancellarne uno prima di allineare il suo sostituto. 

    Sfruttare il data lineage per l'analisi dell'impatto consente di prevedere l'impatto della modifica di un processo aziendale e di adottare le azioni adeguate in anticipo per prevenire problemi.

    Ora che hai identificato ed eliminato i dati di cui non hai bisogno (obsoleti, ridondanti, di scarsa qualità), è il momento di passare ai dati che devi conservare, ma che potresti archiviare in modo più efficiente.

    Passaggio 3: Ottimizzazione

    Dai un'altra occhiata alla mappatura del data lineage e poniti le seguenti domande sui dati che sta memorizzando:

    • Per cosa utilizziamo questi dati?
    • Quanto spesso dobbiamo accedervi?
    • Quanto velocemente deve essere disponibile quando vogliamo accedervi?

    I fornitori di data storage nel cloud solitamente offrono una gamma di livelli di archiviazione che variano in base alla loro accessibilità. Ad esempio, Amazon S3 offre storage Standard per dati ad accesso frequente (0,023 $ per GB), lo Standard – Infrequent Access per dati che vengono consultati raramente ma che dovrebbero essere recuperati in millisecondi quando necessario (0,0125 $ per GB), Glacier Flexible Retrieval per archiviazione e backup dei dati che devono essere recuperati in un intervallo da 1 minuto a 12 ore (0,0036 $ per GB), e lo storage Glacier Deep Archive per dati di archivio che vengono consultati solo una o due volte l'anno e richiedono 12 ore per essere recuperati (0,00099 $ per GB).

    Memorizzare 1 TB di dati in uno storage Standard costerebbe 23 $ al mese. Archiviare la stessa quantità di dati in Glacier Deep Archive Storage costerebbe 0,99 $ al mese! Se la tua organizzazione attualmente inserisce tutti i suoi dati in un archivio cloud standard senza differenziare in base alle esigenze di accesso, ottimizzare il tuo storage ridurrà notevolmente i costi di archiviazione. 

    Dall'archiviazione al calcolo e ritorno

    Il data lineage può ridurre i costi di archiviazione dei dati mostrandoti:

    • Quali dati può eliminare
    • Quali dati puoi archiviare in modo più efficace?

    Ma non è tutto! Se da un lato una minore quantità di dati riduce i costi di archiviazione nel cloud, dall'altro può ridurre anche i costi di calcolo. I data warehouse basati sul cloud, come Snowflake e Amazon Redshift, di solito hanno un modello di calcolo a pagamento che prevede l'addebito del tempo necessario per eseguire le query sui set di dati. Più dati includi nella tua query, più tempo ci vorrà per eseguirla e più alto sarà il costo. 

    Ridurre la quantità di dati archiviati (o conservati in un archivio standard) solitamente significa includere meno dati nelle query, riducendo indirettamente i costi di elaborazione. Ma il data lineage ti offre anche un modo diretto per ridurre i costi di calcolo: limitare le query di esplorazione. 

    Le query di esplorazione tendono a consumare molta potenza di calcolo. Con una chiara mappa del data lineage, il suo team può vedere esattamente dove si trovano i dati rilevanti, eseguendo query molto più mirate sulla piattaforma ed eliminando o riducendo la necessità di query di esplorazione generali. 

    Passi successivi

    Se i costi di archiviazione dei dati nel cloud ti stanno abbattendo, è il momento di cambiare le carte in tavola e ridurli. Basta tirare fuori la bacchetta magica del tuo data lineage automatizzato e seguire questi passaggi: indaga! Elimina! Ottimizza! 

    Vedi come scendono i costi di archiviazione dei dati!? Ok, potrebbe volerci un po' più di lavoro, ma quando la tua azienda riceverà la prossima fattura (più bassa) dal tuo fornitore di servizi di dati cloud, sembrerà ancora più magico. 

    Vuoi saperne di più?  Richiedi una demo per iniziare con Cloudera Octopai Data Lineage, una soluzione automatizzata di data lineage che ti aiuterà a implementare questi passaggi e ridurre oggi stesso i costi di archiviazione cloud.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.