Cloudera nominata leader nel The Forrester Wave™: Data Fabric Platforms, Q4 2025

Leggi il report
  • Cloudera Cloudera
  • | Azienda

    Il contesto è la parte difficile: lezioni pratiche nella costruzione di sistemi agentic AI

    Pamela Pan headshot
    Navita Sood Headshot
    finestre dell'edificio

    Perché l'ingegneria del contesto è importante e come i team la stanno realizzando

    «Come si ottengono i dati giusti, nel posto giusto, al momento giusto?» 

    Questa è la sfida principale dietro la realizzazione dell'agentic AI nell'azienda. Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano sbloccato potenti capacità di ragionamento e orchestrazione, la loro efficacia dipende da qualcosa di più fondamentale: fornire il giusto contesto aziendale per ragionare e agire. L'ingegneria del contesto è una disciplina incentrata sulla definizione del modo in cui dati, metadati, politiche di accesso e memoria si uniscono per guidare il comportamento degli agenti in modo sicuro e spiegabile.

    In Cloudera vediamo questo in prima persona collaborando con clienti aziendali che sperimentano nuovi casi d'uso di AI generativa (GenAI) e agentic AI. La costruzione di sistemi di agentic AI dipende da qualcosa con cui la maggior parte delle organizzazioni ha difficoltà: un'architettura di dati che cattura, governa e riutilizza le conoscenze nell'intero ciclo di vita dell'AI. 

    In questo blog condividiamo il nostro approccio alla creazione di sistemi di agentic AI, che raggruppa le capacità fondamentali in tre categorie: Connessione, Contestualizzazione e Consumo. Questo approccio consente ai nostri clienti aziendali di creare sistemi agentici intelligenti, affidabili, spiegabili e pronti per la produzione.

    Connetti: abbatti i silos in modo controllato

    Gli agenti AI moderni non possono prosperare in ambienti frammentati. Tuttavia, la maggior parte delle aziende dispone di dati distribuiti su più cloud, data center, sistemi legacy e formati incoerenti. Esporre quei dati a un sistema di AI senza struttura o salvaguardie porta a problemi di prestazioni e rischi di governance.

    Nelle implementazioni di successo, abbiamo visto le organizzazioni concentrarsi innanzitutto sulla creazione di un livello di dati unificato che abbraccia ambienti e formati. Questo non significa centralizzare tutti i dati, ma unirli in un'architettura data fabric. Questo fornisce un livello unificato con metadati condivisi, politiche di accesso, ingegneria dei dati federati e interoperabilità runtime.

    L'implementazione di un formato di tabella aperta e di accesso API standard semplifica l'accesso ai dati offrendo al contempo flessibilità. Le architetture open lakehouse sono importanti qui perché forniscono viste in tempo reale e coerenti dei dati tra i motori, soprattutto per flussi di lavoro basati su agenti che dipendono da generazione aggiunta e ragionamento affidabile al recupero. 

    Contestualizzare: dare agli agenti più di un semplice accesso

    Dopo aver collegato i dati, la sfida si sposta sull’aiutare gli agenti a capire quali dati esistono e come vengono utilizzati. Questo inizia con la scoperta: identificare automaticamente le fonti di dati tra i sistemi cloud e on-premises e attivare i metadati, come nomi di tabelle, campi, formati e altro ancora. Strumenti come Cloudera Octopai Data Lineage scansionano script ETL, fanno reverse engineering della logica delle pipeline e catturano come i dati si muovono e si trasformano tra sistemi dalla sorgente alla loro destinazione finale, catturando tutte le dipendenze lungo il percorso.

    Queste informazioni costituiscono la base per il lineage, che mostra come i set di dati sono correlati e come cambiano nel tempo. La linea di discendenza è importante quando è necessario convalidare un risultato, spiegare una raccomandazione o un'azione dell'agente, o tracciare un output difettoso alla sua origine. Crea trasparenza e fiducia nei sistemi con cui gli agenti interagiscono.

    Infine, la catalogazione porta queste informazioni in una struttura utilizzabile. Un archivio di metadati centralizzato aiuta sia gli esseri umani che gli agenti a localizzare ciò di cui hanno bisogno, a comprendere le relazioni tra i set di dati e a individuare le politiche che influiscono sul modo in cui i dati devono essere gestiti. Un catalogo solido agisce come un progetto, fornendo un grafico di conoscenza che offre agli agenti una mappa chiara e navigabile del patrimonio di dati dell'azienda. Raccoglie i metadati tecnici, operativi e aziendali, incluse tutte le definizioni di business e la logica di business necessaria per comprendere i dati e agire. 

    La contestualizzazione consente agli agenti di fare molto di più che recuperare informazioni. Permette di esplorare schemi, porre domande migliori e prendere decisioni con una comprensione più profonda dell'ambiente in cui operano.

    Consumare: fornire il contesto giusto al momento giusto

    L'ultimo passo nella costruzione di sistemi agenti consiste nel permettere all'AI di agire in modo tracciabile, sicuro e basato sulle informazioni giuste. È qui che le scelte architettoniche contano: le protezioni, l'osservabilità e l'accesso controllato determinano se gli agenti si comportano in modo prevedibile quando è importante.

    Abbiamo scoperto che è utile mappare le tecniche comuni di ingegneria del contesto alle sfide sottostanti dei dati che sono progettate per essere risolte. Ecco alcuni esempi di come si manifestano nella pratica:

    Sfida alla preparazione dei dati

    Tecnica di ingegneria del contesto

    L'approccio di Cloudera

    Dati sensibili che trapelano nei prompt

    Ingegneria dei prompt

    Gateway di prompt per redigere i dati sensibili

    Dati disordinati e non strutturati o indici vettoriali obsoleti

    RAG

    Pipeline di dati in streaming in tempo reale governate e sicure

    Mancanza di tracciabilità, set di allenamento fragili

    Messa a punto

    Migliora la spiegabilità dell'AI con il tracciamento del lineage

    Agenti che superano i limiti, decisioni opache

    Accesso a strumenti/API

    Etichettatura dei metadati, classificazione autonoma dei dati, accesso dettagliato e audit trails completi su ogni chiamata di sistema.

    Agenti impossibilitati ad accedere alle conoscenze interne dell'azienda

    Protocolli di contesto modello (MCP)

    Accesso controllato al contesto basato su Apache Iceberg con cataloghi REST

    La scelta della tecnica giusta dipende dal ruolo dell'agente, dalla sensibilità dei dati e dall'ambiente operativo. Di seguito sono riportati i casi d'uso aziendali più comuni e le combinazioni consigliate che hanno funzionato bene nella pratica:

    Casi d'uso

    Metodi consigliati

    Assistente informativo interno

    RAG + DB vettoriale + riserva ingegneristica tempestiva

    Bot per l'abilitazione delle vendite con dati di gestione delle relazioni con i clienti (CRM)

    Chiamata di funzione + iniezione del contesto aziendale.

    Agente di supporto specifico per prodotto

    Fine-tuning o contesto condiviso RAG + MCP

    Flusso di lavoro multi-agente di analisi dei dati per estrarre informazioni. 

    LangGraph + MCP + accesso agli strumenti + memoria a blocchi

    Comprensione dei documenti (PDF, Excel)

    Ingressi multimodali + pipeline di preprocessing

    Questo approccio al consumo garantisce che gli agenti operino con precisione, sicurezza e allineamento agli obiettivi aziendali.

    Punti chiave: dal Framework all'Azione

    In Cloudera, abbiamo trascorso anni a navigare nelle complessità dei dati aziendali: colmare i silos, far rispettare la governance, costruire pipeline sicure per AI e analytics, e far emergere lineage in ambienti ibridi. Quindi, quando sono comparsi i pattern di agentic AI, non partivamo da zero. Sapevamo dove risiede il contesto, e come catturarlo in modo sicuro con le giuste protezioni.

    Con Cloudera Octopai Data Lineage, i team possono mappare automaticamente i flussi di dati, tracciare le dipendenze e catalogare i metadati tra ambienti cloud e on-premises. Aggiungendo cataloghi dati, osservabilità e controllo degli accessi, gli agenti possono interagire con i sistemi in modo più sicuro e intelligente. I team acquisiscono visibilità, governance e fiducia, fondamentali per scalare questi flussi di lavoro in tutta l'azienda.

    Per rendere questi elementi praticabili, abbiamo integrato queste capacità nei nostri Open Data Lakehouse e Cloudera AI Studios, fornendo alle aziende le basi per progettare, distribuire e gestire sistemi basati su agenti sicuri in produzione.

    Scopri di più su come Cloudera può aiutarti a produrre i tuoi agenti AI con il giusto contesto aziendale di cui hanno bisogno.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.