Negli attuali contesti statali, locali e dell'istruzione (SLED), e in particolare nell'istruzione superiore, i budget sono sottoposti a un controllo costante e la richiesta di eccellenza nei dati è continua. Ciò significa fare di più con meno risorse. Una modifica ad alto impatto nei flussi di lavoro dei dati che può trasformare la qualità dei dati e dell'AI, riducendo al contempo i costi, è l'automazione e la documentazione del lineage dei dati.
Gli istituti di istruzione superiore si trovano a dover affrontare la complessità dei dati: i dati critici risiedono in sistemi e ambienti che non sono mai stati progettati per comunicare tra loro, come database locali, ambienti cloud e dispositivi periferici. Gestire campi come ID studenti, ID borse di studio o performance degli investimenti anno per anno, attraverso diverse fonti e team, è un processo necessario ma difficile, manuale e soggetto a errori.
Senza disporre prima di dati affidabili e di alta qualità, i casi d'uso di analisi e AI ad alto impatto rimangono un'utopia. Tuttavia, se gli istituti di istruzione superiore dispongono di una visione unificata del data lineage tra i sistemi, possono sfruttare con successo tali dati per approfondimenti e azioni basate sull'AI nello sviluppo dei programmi, nel reclutamento e nella fidelizzazione degli studenti, nelle operazioni efficienti nei campus, nelle migrazioni verso il cloud e molto altro ancora.
Cloudera Data Lineage fornisce un modo automatizzato e coerente per mappare il flusso dei dati dalla loro creazione (fonte) al consumo finale (BI o AI). Raccoglie e interpreta i metadati molto rapidamente, aiutando le organizzazioni a costruire un grafico della conoscenza completo che mostra esattamente come i dati vengono creati, trasformati e consumati, in modo coerente nell'intera mappa, senza lacune.
Nel nostro recente webinar, Costruire fiducia e conformità nelle organizzazioni SLED, ospitato da Cloudera e dal partner Carahsoft, il relatore Art Jordan (Sales Go-to-Market Director, Data Intelligence Products per Cloudera Data Lineage) osserva che "il data lineage è un problema da miliardi di dollari". Se ci si affida a processi manuali e si hanno punti ciechi nella mappatura dei dati, inefficienze e ritardi sono inevitabili, il che crea sfide critiche riguardo all'AI spiegabile, alla privacy delle informazioni personali identificabili (PII) e alla conformità normativa.
Cloudera Data Lineage affronta queste sfide fornendo viste dettagliate del lineage con dipendenze e trasformazioni in modo coerente attraverso l'intera mappa:
Tracciabilità tra sistemi: fornisce tracciabilità a livello di sistema dal punto di ingresso fino al reporting, all'analisi e a qualsiasi consumatore di dati.
Lineage interno al sistema: descrive il lineage a livello di asset all'interno di un processo di estrazione, trasformazione e caricamento (ETL), di un report o di un oggetto del database. Questo include vedere come un campo viene derivato o calcolato all'interno di una pipeline o di un repository.
Tracciabilità end-to-end: lineage a livello di asset end-to-end tra i sistemi. Questo spiega relazioni complesse in cui un campo può alimentare più sistemi o provenire da più fonti (uno-a-molti e molti-a-uno).
Controllare il lineage offre alle istituzioni di istruzione superiore la capacità di eseguire analisi e mappature upstream e downstream rapidamente. Offre visibilità e governance end-to-end, consentendo alle organizzazioni di comprendere dove vanno i loro dati, da dove provengono e come sono stati ottenuti. Questa trasparenza e la capacità di garantire l'integrità sono essenziali per assicurarsi di avere dati affidabili e di alta qualità da utilizzare nei modelli di AI e da consegnare alla dirigenza e ai partner esterni.
La University of Arizona (U of A), un'importante università di ricerca, ha implementato Cloudera Data Lineage all'interno del suo dipartimento di analisi universitaria e ricerca istituzionale. Il loro ambiente includeva l'esecuzione di 10.000 processi di estrazione, trasformazione e caricamento (ETL) ogni notte e l'hosting di quasi 40.000 colonne distinte nel loro data warehouse. La documentazione manuale dei dati era impegnativa a causa di questo enorme volume.
L'università ha ottenuto significativi guadagni di efficienza e riduzione dei costi con:
Esecuzione dell'analisi dell'impatto ETL: analizzare l'impatto dei principali aggiornamenti PeopleSoft (che modificano tipi e lunghezze dei dati o eliminano colonne) in passato richiedeva al team di ingegneria dei dati una settimana o più. Cloudera Data Lineage ha ridotto questo tempo a pochi giorni.
Consolidamento degli artefatti: ogni processo ETL consuma risorse di calcolo, archiviazione e registrazione. Utilizzando la vista dei metadati end-to-end di Cloudera, la U of A ha consolidato gli artefatti, riducendo i lavori ETL da 10.000 a 8.000. Questa riduzione del 20% ha ridotto i costi dell'infrastruttura, ridotto la complessità della pipeline e ridotto il sovraccarico operativo, migliorando al contempo la coerenza e la governance dei dati in tutto l'ambiente.
Sfruttamento del rilevamento rapido: utilizzando il modulo di scoperta Cloudera Data Lineage, il team ha compilato un elenco di tutti i job ETL contenenti SQL specifici commentati. Questo compito, richiesto per un importante aggiornamento di sistema, avrebbe richiesto un tempo significativo se eseguito manualmente, ma è stato completato istantaneamente tramite automazione.
In particolare, Cloudera Data Lineage ha rafforzato la preparazione all'audit e l'accuratezza dei dati, fornendo agli stakeholder una chiara visibilità del flusso dei dati attraverso le pipeline, i repository e i report di BI. Invece di affidarsi esclusivamente al team di ingegneria dei dati per tracciare manualmente le origini e le trasformazioni dei dati, i team di conformità, ricerca istituzionale e finanza potevano verificare in modo indipendente da dove provenissero i dati e come venissero calcolati. Questo ha ridotto il rischio di errori di segnalazione, accelerato le risposte alle richieste normative e di accreditamento, e altro ancora, il tutto alleviando la pressione sui budget e sulle risorse IT limitate.
Sei fiducioso nella capacità della tua organizzazione di dimostrare conformità e accuratezza dei dati di fronte a un controllo di budget o a cambiamenti operativi rapidi? Qual è la trasformazione più complessa di una pipeline di dati che vorresti documentare e mappare automaticamente la prossima settimana?
Parliamo di come Cloudera Data Lineage può aiutarti a raggiungere l'eccellenza nei dati.
This may have been caused by one of the following: