Il 2025 è stato un anno difficile per chi aveva puntato su un unico fornitore di servizi cloud. A dicembre, i clienti di Snowflake hanno osservato impotenti mentre un aggiornamento dello schema è Cascading in più regioni, bloccando le query per 13 ore. Gli utenti di Databricks hanno dovuto fare i conti con giorni di servizi di intelligenza artificiale degradati.
A ottobre, la regione US-East-1 di Amazon Web Services (AWS) è rimasta inattiva per 15 ore, un errore DNS che ha interessato DynamoDB e ha causato il blocco di oltre 1.000 aziende. A giugno, un'eccezione a puntatore nullo nel binario Service Control di Google Cloud ha disabilitato più sistemi tra cui Cloud Storage, Compute Engine e BigQuery per diverse ore, con effetti a catena su Spotify, Discord e OpenAI.
In tutti questi incidenti, lo schema è stato lo stesso: i clienti aggiornavano le pagine di stato e aspettavano che qualcun altro risolvesse il problema. La differenza tra i fornitori non sta nel fatto che si verifichino o meno delle interruzioni, ma nelle opzioni a disposizione quando si verificano.
L’incidente di dicembre di Snowflake è stato innescato da un aggiornamento dello schema del database incompatibile con le versioni precedenti. Gli errori di mancata corrispondenza delle versioni hanno causato il fallimento o il blocco a tempo indeterminato delle operazioni in più regioni su AWS, Microsoft Azure e Google Cloud Platform (GCP). Le comunicazioni di Snowflake indicavano che non c’erano soluzioni alternative ad eccezione dei clienti che avevano preconfigurato la replica in regioni non interessate. Tutti gli altri hanno dovuto aspettare.
L'interruzione di Databricks a dicembre (durata di più giorni) ha incluso problemi con Unity Catalog, degrado delle prestazioni di calcolo in più regioni e un'interruzione di Mosaic AI che si è protratta per giorni. Gli aggiornamenti di stato hanno ripetutamente evidenziato che stavano "collaborando con il fornitore del cloud su possibili percorsi di mitigazione". Questa frase dice tutto sulla catena di dipendenza: quando Azure ha una giornata no, anche i clienti di Databricks nelle regioni di Azure hanno una giornata no.
L'incidente di Google Cloud di giugno ha rivelato la stessa vulnerabilità. Una politica difettosa con campi vuoti è stata inserita nelle tabelle di configurazione globali e replicata in tutto il mondo in pochi secondi. I dati corrotti hanno attivato cicli di crash che hanno messo offline i servizi core per 7,5 ore. Le dashboard di stato di Google inizialmente non erano disponibili. I team SRE non sono riusciti nemmeno a confermare l'entità del disastro.
La ridondanza regionale non aiuta quando il guasto è logico e non fisico. Quando una piattaforma si basa su metadati coordinati globalmente o su configurazioni condivise, un singolo aggiornamento negativo si propaga ovunque. Il guasto ti segue da una regione all'altra.
Inoltre, in questi scenari, l'infrastruttura è distribuita, ma il controllo rimane centralizzato. Quando il piano di controllo di Snowflake si guasta, non importa che funzionino su AWS, Azure e Google Cloud sottostante. Quando Databricks aspetta che Azure risolva qualcosa, il marketing multi-cloud non aiuta. L'unico punto di errore è il livello proprietario in alto.
L'analisi Gartner® 2025 sulle tendenze dell'adozione del cloud stima che oltre il 50% delle organizzazioni non otterrà i risultati attesi dalle loro implementazioni multi-cloud entro il 2029. Il problema centrale: la mancanza di interoperabilità tra gli ambienti.
In Forrester Predictions 2026: Interruzioni del Cloud, Private AI sui Cloud Privati e l'Ascesa dei Neocloud, la società di ricerca prevede almeno due grandi interruzioni di più giorni nel 2026. Il settore del cloud sta subendo una massiccia transizione infrastrutturale mentre gli hyperscaler si affrettano a costruire data center nativi con intelligenza artificiale. Quell'investimento ha un costo: gli ambienti legacy x86 e ARM vengono deprioritizzati, portando a un'infrastruttura obsoleta che vacilla di fronte a una complessità crescente.
Nello stesso articolo di Forrester sulle previsioni, si stima che almeno il 15% delle aziende passerà a implementazioni di intelligenza artificiale privata basate su cloud privati nel 2026. I fattori: aumento dei costi dell'AI, preoccupazioni per il blocco dei dati e il rischio operativo di dipendere da infrastrutture sempre più ottimizzate per le priorità altrui. Le interruzioni del 2025 sono state un'anteprima di ciò che accade quando i tuoi carichi di lavoro non sono la principale preoccupazione del fornitore.
La maggior parte delle aziende ha architetture "multi-cloud casuali" tramite acquisizioni, shadow IT o selezione di strumenti best-of-breed, non tramite una pianificazione architettonica deliberata. I loro carichi di lavoro sono distribuiti tra i vari provider, ma non hanno la capacità di spostare dati e carichi di lavoro quando le cose vanno male.
Progettare per la resilienza implica garantire che la tua piattaforma di dati e AI consenta la portabilità ed elimini i punti unici di failover.
La piattaforma Cloudera è progettata per la portabilità, offrendoti la possibilità di fare failover tra ambienti per mantenere le operazioni: carichi di lavoro e dati possono spostarsi su AWS, Azure, Google Cloud e ambienti on premise senza riscritture, attriti o bloccaggio del fornitore. Gli aggiornamenti non vengono forzati come modifiche globali non retrocompatibili.
Quando avviene l'inevitabile interruzione, hai due opzioni: passare a un altro cloud o spostare i carichi di lavoro di nuovo al tuo data center. Non sei costretto a guardare una pagina di stato: mantieni il controllo sui tuoi dati e puoi mantenere operazioni coerenti e conformità, indipendentemente da dove risiedono i dati.
Per approfondire come creare un'architettura resiliente con Cloudera, leggi il nostro blog: Progettare per la resilienza dei dati: garantire la continuità aziendale con Cloudera
L'espansione dell'AI sta mettendo a dura prova l'infrastruttura e le società di analisi prevedono ulteriori turbolenze in futuro: Forrester prevede interruzioni di più giorni, Gartner prevede un'adozione difensiva del multi-cloud. Le imprese che arriveranno al 2026 in forma saranno quelle che considereranno la resilienza come un principio architettonico piuttosto che come una casella da spuntare.
Cloudera non ha un failover cross-cloud pronto all'uso con un solo pulsante. Nessuno ce l'ha. Ma noi siamo posizionati architettonicamente per supportare questa resilienza in modo diverso dalle piattaforme proprietarie.
Se le interruzioni del 2025 ti hanno messo a disagio, ci piacerebbe parlarne con te. Perché il cloud è solo il computer di qualcun altro. E quando quel computer ha una giornata storta, dovresti avere un'alternativa.
Per saperne di più su come progettare per la resilienza con Cloudera, contatta il nostro team di servizi professionali, esamina le demo dei nostri prodotti o iscriviti a una prova gratuita di 5 giorni.
This may have been caused by one of the following: