L'Indice di prontezza dei dati 2026: comprendere le basi per un'AI di successo

Scopri i risultati

1 ottobre 2025 | Azienda

Potenziare l'IA aziendale con dati sintetici strutturati: preservare la privacy e le proprietà statistiche delle fonti

8 min di lettura • di Andreas Tsiartas , Yi-Hsun Tsai , e Robert Hryniewicz

AI Enterprise Ai

Nell'era dell'AI basata sui dati, le imprese hanno bisogno di set di dati di alta qualità per analizzare o addestrare modelli di AI, ma le normative sulla privacy dei dati e le preoccupazioni etiche limitano l'uso o la condivisione di dati reali. In che modo le organizzazioni possono innovare senza compromettere le informazioni sensibili?

Noi di Cloudera abbiamo ideato una soluzione in grado di colmare questa lacuna. Synthetic Data Studio di Cloudera, parte del set di strumenti di Cloudera AI Studio , è uno strumento che crea set di dati interamente sintetici che imitano i modelli dati reali di un'organizzazione, così che le organizzazioni possano innovare senza rischi per le informazioni riservate.

Punti chiave

L'approccio di Cloudera alla generazione di dati sintetici offre un modello per le aziende che vogliono utilizzare o condividere dati strutturati sensibili. L'approccio illustra:

La privacy come caratteristica: i dati sintetici diventano un asset strategico che consente l'innovazione in ambiti ristretti

La fedeltà statistica è importante: le istruzioni di clustering e seed assicurano che i dati sintetici mantengano le relazioni sfumate che rendono i modelli efficaci.

Scalabilità per l'AI aziendale: i flussi di lavoro automatizzati riducono i costi e i tempi di generazione dei dati sintetici.

La sfida aziendale: sfruttare i modelli di AI assicurando la conformità

Prendiamo in considerazione una società di servizi finanziari che si impegna a prevedere i default sui prestiti. I dati reali in questo ambito sono un tesoro di dettagli sensibili: livelli di reddito, storia lavorativa e punteggi di credito. La condivisione di tali dati con terze parti o modelli di AI è piena di ostacoli normativi ed etici.

I tradizionali metodi di dati sintetici spesso non riescono a catturare le relazioni logiche sfumate tra variabili, come i debiti esistenti possano influenzare il comportamento di rimborso, o la coerenza logica tra i punti dati tra righe e colonne. Le aziende necessitano di una soluzione di dati sintetici che possa scalare, preservare l'integrità statistica dei dati originali e garantire la conformità agli standard di privacy.

La soluzione di Cloudera: generazione strutturata di dati sintetici

La soluzione di Cloudera segue un flusso di lavoro in quattro fasi che incorpora tecniche di clustering, Cloudera Synthetic Data Studio e una convalida rigorosa.

Fase 1: Dati del profilo

Il percorso inizia con la partizione e il clustering dei dati per creare profili statistici. Categorizzando i mutuatari in gruppi in base ai livelli di rischio (ad esempio, richiedenti ad alto rischio rispetto a richiedenti a basso rischio) e raggruppando ulteriormente variabili numeriche come importi dei prestiti e tassi di interesse, distilliamo il set di dati in "istruzioni iniziali".

Le istruzioni seed codificano le proprietà statistiche di ciascun gruppo, come le medie, le deviazioni standard e le correlazioni, incorporando al contempo le informazioni del mutuatario, come i voti o gli stati del prestito. Questo passaggio garantisce che i dati sintetici ereditino la struttura dei dati originali senza esporre dettagli sensibili.

Passaggio 2: generare dati usando Cloudera Synthetic Data Studio

Con queste istruzioni di seed in atto, la fase successiva sfrutta la generazione alimentata da LLM. Utilizzando modelli avanzati come Llama 3.3-70B-Instruct, sintetizziamo nuovi record guidati dai progetti statistici presenti nelle istruzioni seed. Cloudera Synthetic Data Studio agisce come una forza creativa, generando dati che preservano le relazioni e i modelli definiti nelle istruzioni seed.

È qui che avviene la magia: il modello non produce solo numeri casuali, ma costruisce dati che riflettono la complessità degli scenari reali, come il reddito di un mutuatario possa logicamente influenzare la sua storia di rimborso.

Passaggio 3: filtra i dati

Tuttavia, non tutti i dati generati soddisfano la qualità richiesta. Per garantire l'affidabilità, impieghiamo un innovativo flusso di lavoro LLM-as-a-judge.

Questo passaggio valuta i risultati sintetici secondo un insieme di criteri, tra cui la coerenza della formattazione, la coerenza logica (ad esempio, garantire che i conti ipotecari siano allineati allo stato di proprietà della casa) e il realismo (ad esempio, generare tassi di interesse plausibili). Vengono conservati solo i dati che ottengono un punteggio elevato, ovvero che raggiungono la soglia di 9 su 10. Questo processo di filtraggio agisce come una barriera di qualità, garantendo che il dataset finale sia realistico che statisticamente robusto.

Fase 4: convalida dei dati

La fase finale del flusso di lavoro prevede la validazione statistica e visiva. Confrontando dati sintetici con il dataset originale utilizzando metriche come la divergenza KL per variabili categoriche e differenze media/deviazione standard per caratteristiche continue, confermiamo che i dati sintetici rispecchiano le distribuzioni reali.

L'impatto: Privacy senza compromessi

L'approccio di Cloudera genera dati privi di informazioni personali identificabili (PII) e pattern sensibili, pur mantenendo la fedeltà statistica necessaria per addestrare modelli accurati. Ciò consente alle aziende di condividere dati sintetici con sistemi di terze parti o collaborare con partner esterni senza timore di violazioni dei dati o sanzioni normative.

Come mostrato nella Tabella 1, troviamo che utilizzando un modello Llama 3.3 70B-Instruct per generare dati di prestito strutturati (27 colonne in totale), il 100% dei dati generati corrisponde all'output atteso, il 97,2% non contiene errori logici incrociati quando giudicato da un LLM, le medie statistiche si discostano del 12% dalla distribuzione originale e le correlazioni tra colonne deviano di 0,24.

Risultati della generazione di dati strutturati utilizzando Llama 3.3-70B-Instruct
Integrità dei dati	Accuratezza del formato al 100%	I dati sintetici corrispondono perfettamente alla struttura originale.
Fedeltà statistica	deviazione media del 12%	I dati sintetici imitano accuratamente le proprietà statistiche chiave dell'originale.
Coerenza logica tra colonne	2,8% errori logici	I dati generati riflettono relazioni logiche del mondo reale.
Preservazione della correlazione tra colonne	differenza di correlazione dello 0,24%	Le connessioni chiave tra le caratteristiche sono preservate in modo autentico.

Tabella 1: Risultati della generazione di dati strutturati utilizzando Llama 3.3-70B-Instruct

Conclusioni

Con l'aumento della complessità dei modelli di AI e l'inasprimento delle normative sulla privacy, la richiesta di dati di alta qualità e conformi alla privacy non potrà che intensificarsi. Nei prossimi anni, ci aspettiamo che le metodologie di generazione di dati strutturate ridefiniranno i settori dalla sanità alla finanza, dove la privacy dei dati è non negoziabile.

L'approccio strutturato ai dati sintetici di Cloudera dimostra che le aziende possono soddisfare questa domanda senza compromettere la privacy o le prestazioni. Combinando il clustering, Cloudera Synthetic Data Studio e valutazioni rigorose, le organizzazioni possono sfruttare tutto il potenziale dei dati strutturati.

Se desideri saperne di più, visita il nostro tour del prodotto Cloudera AI Studios o contatta il nostro team all’indirizzo ai_feedback@cloudera.com.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Altri articoli di questo autore ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Altri articoli di questo autore ›

Robert Hryniewicz

Director of Product Marketing

Altri articoli di questo autore ›

Correlato

24 giugno 2026 | Tecnico

Come la sovranità dei dati modella la strategia AI nei settori regolamentati

8 min di lettura • Dario Perez

Pronto a cominciare?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.