Apache Zeppelin

Un notebook basato su web completamente aperto che consente un'analisi dei dati interattiva.

Apache Zeppelin è un notebook multiscopo basato sul web nuovo e in corso di sviluppo, che permette di portare su Hadoop e Spark le funzionalità di acquisizione dei dati, esplorazione dei dati, visualizzazione, condivisione e collaborazione.

Cosa fa Zeppelin

I notebook interattivi basati su browser consentono a data engineer, analisti di dati e data scientist di essere più produttivi grazie allo sviluppo, l'organizzazione, l'esecuzione e la condivisione del codice dei dati e la visualizzazione dei risultati senza necessità di riga di comando e senza i dettagli dei cluster. I notebook consentono a questi utenti non solo di eseguire, ma anche di lavorare in modo interattivo con lunghi flussi di lavoro. Sono disponibili numerosi notebook per Spark. iPython continua a essere un'opzione matura e un ottimo esempio di notebook per la data science. La galleria Hortonworks fornisce una definizione dello stack Ambari che aiuta i clienti a impostare in modo rapido iPython sui loro cluster Hadoop. 

Apache Zeppelin è un nuovo notebook basato sul web che permette di portare su Spark le funzionalità di esplorazione dei dati, visualizzazione, condivisione e collaborazione. È compatibile con Python e con un elenco in continua evoluzione di linguaggi di programmazione come Scala, Hive, SparkSQL, shell e markdown.

zeppelin_medical

I diversi linguaggi sono supportati tramite gli interpreti di linguaggio Zeppelin

La scoperta, l'esplorazione, il reporting e la visualizzazione dei dati sono componenti chiave del flusso di lavoro di data science. Zeppelin fornisce un "Modern Data Science Studio" che può essere utilizzato immediatamente con Spark e Hive. In realtà, Zeppelin supporta backend in più lingue che supportano un ecosistema di origini dati in continua evoluzione. I notebook di Zeppelin offrono ai data scientist un'esperienza interattiva di snippet-at-time. La galleria Hortonworks contiene una raccolta di notebook Zeppelin.


Inoltre dopo aver esaminato il notebook e aver trovato delle informazioni da condividere, è possibile creare un rapporto e stamparlo o inviarlo.

zeppelinReport

Noi di Cloudera riteniamo che Spark & Hadoop siano perfetti insieme e che Zeppelin sia un componente fondamentale per accelerare le soluzioni di data science.

 

Ultimi miglioramenti ai notebook basati sul web

Anche con l'uso dei notebook, il processo di data wrangling continua a essere impegnativo. Spesso, per i data scientist, le operazioni di ingegnerizzazione delle funzionalità, selezione degli algoritmi, messa a punto, condivisione del lavoro con altre persone e distribuzione del loro lavoro in fase di produzione, sono molto complesse.

Per questo, lavoriamo per migliorare i notebook Zeppelin a vantaggio della comunità. Abbiamo aggiunto a Zeppelin Hive Interpreter e stiamo lavorando per rendere più stabile l'editor.  Stiamo intensificando il nostro coinvolgimento con la comunità Zeppelin per contribuire nello sviluppo di funzionalità come sicurezza, statistiche riassuntive, guida sensibile al contesto, così da migliorare l'esperienza di sviluppo dei dati.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.