ClouderaNOW Scopri gli agenti AI, il cloud Bursting e i Data fabric per l'AI | 8 aprile

Registrati ora
  • Cloudera Cloudera
  • | Tecnico

    Colmare il divario tra calcolo ad alte prestazioni e AI sovrana: parte uno di tre

    Gabriele Folchi headshot
    Lama Itani headshot
    Persone che camminano su un ponte tra architetture moderne

    Storicamente, l'analisi dei dati ad alte prestazioni si è concentrata principalmente su R&S per le industrie di ingegneria/produzione. Mentre i casi d'uso operativi per l'analisi dei dati, basati su sistemi di Big Data analoghi, operavano in isolamento. 

    Oggi, l'ascesa dell'AI generativa (GenAI) e del machine learning (ML) rappresenta un'opportunità significativa per collegare questi due ambiti. Questa sinergia permette alle aziende con entrambe le divisioni di sfruttare le rispettive competenze e gli investimenti infrastrutturali, con conseguente aumento della produttività e un vantaggio competitivo per le organizzazioni di ricerca e sviluppo. In particolare, gli ingegneri meccanici che lavorano con calcolo ad alte prestazioni possono accelerare drasticamente lo sviluppo di prodotti e ottenere approfondimenti operativi utilizzando metodi di compressione intelligenti basati sull'AI (come modelli a ordine ridotto) addestrati su piattaforme big data.

    Questa serie di blog, articolata in tre parti, illustra come e perché un data lakehouse sovrano, cioè un data lakehouse aperto che può operare sotto la sovranità di un cliente, non sotto la giurisdizione del fornitore dell'infrastruttura, rappresenti l'architettura necessaria per scalare la fisica sperimentale e i flussi di lavoro dell'AI in una capacità robusta e di livello aziendale. Spieghiamo anche perché Cloudera è la scelta di riferimento per le organizzazioni che desiderano unire la precisione dell'ingegneria con l'agilità dell'analisi dei dati moderna.


    Nozioni di base sull'elaborazione ad alte prestazioni e sui risolutori di ordini ridotti 


    Il modello a ordine completo

    Comprendere la meccanica delle simulazioni è fondamentale per apprezzare il ruolo trasformativo dell'AI nell'ingegneria. Le simulazioni multi-fisiche tradizionali, come l'analisi agli elementi finiti (utilizzata per testare l'integrità strutturale reale) o la fluidodinamica computazionale (utilizzata per modellare il movimento di aria o liquidi), funzionano scomponendo una struttura fisica (come un ponte) in una "mesh" o sistema di milioni di minuscoli elementi. La rappresentazione matematica di questi elementi assume spesso la forma di un sistema di tensori interagenti, ossia di insiemi strutturati di numeri utilizzati per modellare il modo in cui forze, pressione, temperatura e movimento interagiscono nel sistema.

    Il modello completo è il più dettagliato e fisicamente accurato di quel sistema. Il suo comportamento fisico viene simulato da un risolutore (ad esempio, OpenFOAM) che calcola continuamente equazioni complesse. Questo processo calcola le variazioni di questi tensori in base alla fisica, incluso il modo in cui la reazione di un singolo elemento influisce sui suoi vicini più prossimi e sul sistema nel suo insieme. Sebbene questo offra una precisione incredibile, ha un costo: queste simulazioni sono estremamente esigenti dal punto di vista computazionale, spesso richiedendo che un cluster di supercomputer funzioni per giorni solo per analizzare uno scenario, limitando la rapidità con cui i team possono iterare, testare alternative o portare prodotti sul mercato.

    Il modello a ordine ridotto

    Un modello a ordine ridotto è una tecnica basata sull'AI che semplifica drasticamente simulazioni complesse. Si basa su tecniche matematiche avanzate, che vanno dai metodi classici come la scomposizione a valori singoli alle moderne architetture di reti neurali artificiali come gli autocodificatori, per approssimare sistemi non lineari altamente complessi. 

    Nella sua essenza, un modello di ordine ridotto identifica e cattura i modelli più importanti e determinanti all'interno degli enormi volumi di dati tensoriali simulati generati da un modello di ordine completo.

    Riducendo il problema a un livello elementare, il modello a ordine ridotto comprime efficacemente l'enorme spazio computazionale in uno “spazio latente” molto più piccolo: una rappresentazione matematica semplificata del sistema (in pratica, un “gemello digitale”). Ciò significa che, invece di dover elaborare milioni di equazioni complesse per un risolutore tradizionale, il modello a ordine ridotto potrebbe dover risolvere solo 50 variabili latenti per spiegare il 99% della fisica sottostante.

    Per gli ingegneri meccanici, il cui flusso di lavoro quotidiano ruota attorno all'ottimizzazione delle prestazioni, dell'affidabilità e dei costi del prodotto attraverso innumerevoli combinazioni di geometria, materiali, spessore e peso, questa capacità cambia il ritmo dell'innovazione. Il loro flusso di lavoro consiste essenzialmente in una sequenza continua di scenari ipotetici, che attingono sia a conoscenze sintetiche provenienti da modelli basati sulla fisica, sia a dati di implementazione reali. L'integrazione dei modelli a ordine ridotto in questo processo offre numerosi vantaggi strategici significativi, come:
     

    Opportunità strategica per il modello a ordine ridotto

    Spiegazione

    Impatto aziendale

    Iterazione rapida

    Esegui migliaia di modifiche al design e scenari ipotetici in pochi secondi.

    Riduce i tempi di sviluppo del prodotto da mesi a pochi giorni.

    Distribuzione edge compute

    I modelli a ordine ridotto sono compatti e sufficientemente veloci da essere eseguiti direttamente su controller embedded o dispositivi IoT (Internet of Things) sul campo.

    Consente di prendere decisioni in tempo reale sul dispositivo e di effettuare un controllo automatizzato, con o senza connettività al cloud.

    Gemelli digitali in tempo reale

    Alimenta una rete neurale fisicamente informata (PINN) che funziona parallelamente alla macchina reale, utilizzando dati dei sensori in tempo reale per prevedere comportamenti e anomalie del sistema.

    Sposta la manutenzione dalla riparazione dei guasti alla manutenzione preventiva, riducendo i tempi di inattività e prolungando la vita utile delle risorse.


    Sviluppo di modelli a ordine ridotto: dalla teoria alla produzione

    Le ROM offrono un valore considerevole accelerando i flussi di lavoro di engineering, ma un'implementazione di successo richiede di gestire specifici vincoli tecnici e realtà operative che le organizzazioni devono affrontare in modo sistematico.

    Requisiti per i dati di addestramento

    I modelli accurati a ordine ridotto richiedono grandi volumi di dati provenienti da modelli a ordine completo. Ad esempio, la creazione di un modello affidabile per l'analisi degli incidenti automobilistici richiede da 500 a 2000 esecuzioni complete del modello su diverse configurazioni di materiali e geometrie, che rappresentano settimane di tempo di cluster di calcolo ad alte prestazioni. Dati di addestramento scarsi producono modelli a ordine ridotto che falliscono catastroficamente al di fuori delle condizioni di test. Gli strumenti automatizzati per la progettazione degli esperimenti aiutano a ottimizzare quali simulazioni eseguire, riducendo del 30–40% il numero di simulazioni complete del modello necessarie, pur mantenendo la precisione.

    Compromessi sull'accuratezza

    Le prestazioni del modello a ordine ridotto peggiorano al di fuori dei limiti di addestramento. Ad esempio, un modello a funzionamento ridotto delle pale di una turbina addestrato per temperature operative da 800 a 1200°C può produrre un errore del 15–20% a 1250°C. Questo problema può essere affrontato attraverso tecniche di modellazione d'insieme e quantificazione dell'incertezza. Quando l'affidabilità del modello scende al di sotto delle soglie predefinite, i trigger automatici possono avviare le esecuzioni di convalida utilizzando il modello originale a ordine completo.

    Carico di validazione

    In ambienti critici per la sicurezza (automotive, aerospaziale, energia, ecc.), le applicazioni di modelli a ordine ridotto richiedono una convalida rigorosa rispetto ai modelli a ordine completo, spesso comportando uno sforzo significativo (come studi di correlazione estesi). Questo perché gli enti normativi richiedono un'equivalenza documentata prima di approvarne l'uso. 

    Sebbene il processo di convalida possa essere intensivo, una volta convalidati, i modelli a ordine ridotto consentono migliaia di iterazioni rapide che sarebbero impossibili solo con la simulazione tradizionale (modelli a ordine completo).

    Divario delle competenze

    Lo sviluppo efficace di modelli di ordine ridotto richiede competenze sia nell'ingegneria del machine learning sia nella fisica dei domini. Un data scientist che lavora da solo può costruire modelli matematicamente eleganti, ma privi di interpretabilità fisica. Un ingegnere meccanico che lavora da solo può avere difficoltà con l'ottimizzazione degli iperparametri (ad esempio, la selezione dell'architettura e la scalatura del modello). Pertanto, i piccoli team interfunzionali superano costantemente i gruppi più grandi e isolati. È importante investire in programmi di formazione che insegnino agli ingegneri strumenti moderni di machine learning.

    Implementazione edge 

    Gli scenari di controllo in tempo reale richiedono un'inferenza deterministica (<10 millisecondi di latenza) sull'hardware integrato. Non tutte le architetture di modelli a ordine ridotto soddisfano questi requisiti di latenza e memoria. Le reti neurali profonde spesso superano i budget di risorse, mentre i modelli lineari di ordine ridotto troppo semplificati sacrificano la precisione. 

    La migliore pratica attuale è la distribuzione a fasi: 

    1. Inizia con modelli cloud a ordine ridotto per la visualizzazione dei gemelli digitali e la manutenzione predittiva. 

    2. Distribuisci i controller perimetrali solo dopo che test hardware-in-the-loop approfonditi hanno convalidato le prestazioni in tempo reale.


    Scaling Reduced-Order Models: From Ad-Hoc Scripts to Enterprise Machine-Learning Ops (MLOps)

    Sebbene la base matematica dei modelli a ordine ridotto sia solida, l'ostacolo principale risiede nella standardizzazione del loro sviluppo e della loro implementazione in un'intera organizzazione. Attualmente, molti team di R&D si affidano a una raccolta decentralizzata di script Python, a file system non gestiti o a ambienti proprietari di fornitori. Questi approcci possono funzionare per progetti individuali, ma falliscono in termini di governance, conformità e pratiche standard di comunità aperta del settore.

    Per raggiungere la scala, l'addestramento dei modelli a ordine ridotto deve trattare i dati di simulazione con gli stessi rigorosi principi di governance dei dati standard per la gestione dei registri finanziari o dei dati dei clienti. 

    Affrontare questo cambiamento implica risolvere problematiche quali:
     

    Requisito di MLOps

    Spiegazione

    Impatto aziendale

    Gestione dei dati su larga scala

    Le pipeline di dati scalabili e gli strumenti di trasformazione (come Spark) estraggono le caratteristiche chiave e standardizzano enormi quantità di dati storici di simulazione da diversi solutori (come OpenFOAM).

    Garantisce che i dati di simulazione complessi siano puliti, gestiti e pronti per un addestramento affidabile dell'AI, riducendo il lavoro aggiuntivo e i rischi.

    Monitoraggio degli esperimenti del team

    Ambienti sicuri e condivisi (come Jupyter Notebooks) dotati di strumenti per il tracciamento di esperimenti di apprendimento automatico (come MLFlow) permettono a fisici e data scientist di co-sviluppare codice, provare diversi modelli di AI e annotare costantemente metriche, come iperparametri e perdite.

    Garantisce cronologia completa e riproducibilità. Quando un modello a operazioni ridotte va in produzione, i team possono risalire istantaneamente alla sua versione esatta, ai dati, alle impostazioni, alle metriche di valutazione dell’accuratezza al momento della compilazione e alla configurazione degli iperparametri usati per ottenere quel risultato: fondamentali per i settori regolamentati.


    Per saperne di più, continua a leggere nella seconda parte!

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.