Nell'era dell'AI basata sui dati, le imprese hanno bisogno di set di dati di alta qualità per analizzare o addestrare modelli di AI, ma le normative sulla privacy dei dati e le preoccupazioni etiche limitano l'uso o la condivisione di dati reali. In che modo le organizzazioni possono innovare senza compromettere le informazioni sensibili?
Noi di Cloudera abbiamo ideato una soluzione in grado di colmare questa lacuna. Synthetic Data Studio di Cloudera, parte del set di strumenti di Cloudera AI Studio , è uno strumento che crea set di dati interamente sintetici che imitano i modelli dati reali di un'organizzazione, così che le organizzazioni possano innovare senza rischi per le informazioni riservate.
Punti chiaveL'approccio di Cloudera alla generazione di dati sintetici offre un modello per le aziende che vogliono utilizzare o condividere dati strutturati sensibili. L'approccio illustra:
|
Prendiamo in considerazione una società di servizi finanziari che si impegna a prevedere i default sui prestiti. I dati reali in questo ambito sono un tesoro di dettagli sensibili: livelli di reddito, storia lavorativa e punteggi di credito. La condivisione di tali dati con terze parti o modelli di AI è piena di ostacoli normativi ed etici.
I tradizionali metodi di dati sintetici spesso non riescono a catturare le relazioni logiche sfumate tra variabili, come i debiti esistenti possano influenzare il comportamento di rimborso, o la coerenza logica tra i punti dati tra righe e colonne. Le aziende necessitano di una soluzione di dati sintetici che possa scalare, preservare l'integrità statistica dei dati originali e garantire la conformità agli standard di privacy.
La soluzione di Cloudera segue un flusso di lavoro in quattro fasi che incorpora tecniche di clustering, Cloudera Synthetic Data Studio e una convalida rigorosa.
Il percorso inizia con la partizione e il clustering dei dati per creare profili statistici. Categorizzando i mutuatari in gruppi in base ai livelli di rischio (ad esempio, richiedenti ad alto rischio rispetto a richiedenti a basso rischio) e raggruppando ulteriormente variabili numeriche come importi dei prestiti e tassi di interesse, distilliamo il set di dati in "istruzioni iniziali".
Le istruzioni seed codificano le proprietà statistiche di ciascun gruppo, come le medie, le deviazioni standard e le correlazioni, incorporando al contempo le informazioni del mutuatario, come i voti o gli stati del prestito. Questo passaggio garantisce che i dati sintetici ereditino la struttura dei dati originali senza esporre dettagli sensibili.
Con queste istruzioni di seed in atto, la fase successiva sfrutta la generazione alimentata da LLM. Utilizzando modelli avanzati come Llama 3.3-70B-Instruct, sintetizziamo nuovi record guidati dai progetti statistici presenti nelle istruzioni seed. Cloudera Synthetic Data Studio agisce come una forza creativa, generando dati che preservano le relazioni e i modelli definiti nelle istruzioni seed.
È qui che avviene la magia: il modello non produce solo numeri casuali, ma costruisce dati che riflettono la complessità degli scenari reali, come il reddito di un mutuatario possa logicamente influenzare la sua storia di rimborso.
Tuttavia, non tutti i dati generati soddisfano la qualità richiesta. Per garantire l'affidabilità, impieghiamo un innovativo flusso di lavoro LLM-as-a-judge.
Questo passaggio valuta i risultati sintetici secondo un insieme di criteri, tra cui la coerenza della formattazione, la coerenza logica (ad esempio, garantire che i conti ipotecari siano allineati allo stato di proprietà della casa) e il realismo (ad esempio, generare tassi di interesse plausibili). Vengono conservati solo i dati che ottengono un punteggio elevato, ovvero che raggiungono la soglia di 9 su 10. Questo processo di filtraggio agisce come una barriera di qualità, garantendo che il dataset finale sia realistico che statisticamente robusto.
La fase finale del flusso di lavoro prevede la validazione statistica e visiva. Confrontando dati sintetici con il dataset originale utilizzando metriche come la divergenza KL per variabili categoriche e differenze media/deviazione standard per caratteristiche continue, confermiamo che i dati sintetici rispecchiano le distribuzioni reali.
L'approccio di Cloudera genera dati privi di informazioni personali identificabili (PII) e pattern sensibili, pur mantenendo la fedeltà statistica necessaria per addestrare modelli accurati. Ciò consente alle aziende di condividere dati sintetici con sistemi di terze parti o collaborare con partner esterni senza timore di violazioni dei dati o sanzioni normative.
Come mostrato nella Tabella 1, troviamo che utilizzando un modello Llama 3.3 70B-Instruct per generare dati di prestito strutturati (27 colonne in totale), il 100% dei dati generati corrisponde all'output atteso, il 97,2% non contiene errori logici incrociati quando giudicato da un LLM, le medie statistiche si discostano del 12% dalla distribuzione originale e le correlazioni tra colonne deviano di 0,24.
Risultati della generazione di dati strutturati utilizzando Llama 3.3-70B-Instruct |
|||
Integrità dei dati |
Accuratezza del formato al 100% |
I dati sintetici corrispondono perfettamente alla struttura originale. |
|
Fedeltà statistica |
deviazione media del 12% |
I dati sintetici imitano accuratamente le proprietà statistiche chiave dell'originale. |
|
Coerenza logica tra colonne |
2,8% errori logici |
I dati generati riflettono relazioni logiche del mondo reale. |
|
Preservazione della correlazione tra colonne |
differenza di correlazione dello 0,24% |
Le connessioni chiave tra le caratteristiche sono preservate in modo autentico. |
|
Tabella 1: Risultati della generazione di dati strutturati utilizzando Llama 3.3-70B-Instruct
Con l'aumento della complessità dei modelli di AI e l'inasprimento delle normative sulla privacy, la richiesta di dati di alta qualità e conformi alla privacy non potrà che intensificarsi. Nei prossimi anni, ci aspettiamo che le metodologie di generazione di dati strutturate ridefiniranno i settori dalla sanità alla finanza, dove la privacy dei dati è non negoziabile.
L'approccio strutturato ai dati sintetici di Cloudera dimostra che le aziende possono soddisfare questa domanda senza compromettere la privacy o le prestazioni. Combinando il clustering, Cloudera Synthetic Data Studio e valutazioni rigorose, le organizzazioni possono sfruttare tutto il potenziale dei dati strutturati.
Se desideri saperne di più, visita il nostro tour del prodotto Cloudera AI Studios o contatta il nostro team all’indirizzo ai_feedback@cloudera.com.
This may have been caused by one of the following: