Menù
CLOSE
La nostra offerta per...
BACK

Data Lake

“Ecco un metodo di lavoro nuovo
che fa risparmiare tempo e denaro
e aiuta a condividere
le informazioni.”

Acquisisci i dati
nel formato nativo
e li usi come vuoi

Se non puoi sapere oggi che dati ti serviranno domani, il Data Lake fa per te

Scopri di più

Un Data Lake è un nuovo metodo di lavoro che semplifica e potenzia l’archiviazione, la gestione e l’analisi dei Big Data, utilizzando dati provenienti da fonti diversificate e disomogenee, nel loro formato nativo, o in una copia quasi esatta del formato nativo.

Si tratta di un metodo di lavoro nuovo perché i sistemi storicamente utilizzati per archiviare, processare e analizzare dati sono definiti e strutturati in base all’uso finale che si prevede di farne, attraverso un’architettura di tipo “Data Warehouse”.

Usando un Data Lake riduci i costi di archiviazione e hai spazio infinito, abbassi i costi di consolidamento dei dati e condividi le informazioni più facilmente.

Contattaci per saperne di più
Contattaci per saperne di più

Principali
caratteristiche

Dati integrati in qualunque formato e flussi di processing studiati per te

Compatibile con qualsiasi strumento di ingestion / upload

Abbiamo sviluppato una metodologia che standardizza le procedure di inserimento di nuove sorgenti dati nel Data Lake. Questo permette non solo di ridurre i tempi per l’onboarding di nuove sorgenti dati, ma anche di limitare notevolmente i rischi di bug.

 

Analisi integrate nei flussi di processing

La fase di analisi, basata su ambiente Hadoop, consente di esplorare i dati attraverso strumenti come HUE, Hive, Redshift, MySQL e di sviluppare modelli di machine learning per esempio collegandovi gli strumenti in uso ai data scientist. I risultati delle analisi compiute in questa fase sono poi utilizzati nei flussi di processing, per estrarre valore dai dati in maniera automatizzata e continua.

Architettura progettata insieme a te

Iniziamo dall’analisi dei tuoi obiettivi strategici, definiamo i processi di governance dei dati e analizziamo la struttura del tuo team, le sorgenti dati, i flussi informativi. Solo dopo aver ottenuto una fotografia chiara del punto di partenza, progettiamo l’architettura del Data Lake, passo per passo, insieme a te.

Garanzia di sicurezza e privacy

L’accesso al Data Lake è regolato da un sistema di ruoli, ciascuno con dei propri permessi configurabili a livello di amministrazione.

Principali
caratteristiche

Dati integrati in qualunque formato e flussi di processing studiati per te

Chi lo utilizza

Cosa può
fare?

Con un buon processo
di governance,
puoi fare
qualunque cosa

Cosa può
fare?

Cosa può
fare?

Costruire un data lake è la soluzione ideale per aziende che hanno la necessità di fare analisi cross-funzionali sui Big Data, che hanno processi interni strutturati per garantire la governance dei dati, che hanno personale competente sia nelle tecnologie impiegate per la costruzione della piattaforma, sia nell’analisi dei dati, o che possono avvalersi di consulenze esterne specializzate nelle aree in cui sono carenti.

Come
funziona?

Ingestion,
Processing,
Analysis,
Integration

Come
funziona?

Ingestion,
Processing,
Analysis,
Integration

Come
funziona?

Come
funziona?

01.

Caratteristiche generali

02.

Il Data Lake di Neodata

Caratteristiche generali

Un Data Lake è una soluzione assemblata sfruttando tecnologie avanzate e complesse di data storage e data analysis. Semplificando, potremmo raggruppare le componenti di un Data Lake in quattro categorie, che rappresentano le quattro fasi di gestione dei dati:

  • Data Ingestion e Storage, ossia la capacità di acquisire dati in tempo reale o in batch; e la capacita' di conservare e accedere a dati strutturati, semi strutturati e non strutturati nel formato originario in cui sono prodotti e tramite un sistema di ruoli configurabile;
  • Data Processing, ossia la capacità di lavorare sui dati grezzi in modo che siano pronti per essere analizzati con procedure standard; ed anche la capacita' di ingegnerizzare le soluzioni di estrazione di valore dai dati, attraverso processi automatici e periodici, che sono il risultato delle operazioni di analisi;
  • Data Analysis, ossia la capacità di creare modelli per l'estrazione sistematica di informazioni dai dati, che può avvenire in tempo reale o attraverso processi eseguiti periodicamente;
  • Data Integration, ossia la capacità di agganciare alla piattaforma applicativi che consentano di interrogare il Data Lake ed estrarne dati in formati utilizzabili per scopi specifici.

Per costruire un Data Lake non esiste una ricetta valida universalmente; è necessario avvalersi di un fornitore di tecnologia che sappia disegnare l’architettura della piattaforma in base ai requisiti condivisi dal Cliente, equipaggiandola con le componenti hardware e software che consentono di gestire con la massima efficienza - cioè fornendo il miglior risultato, nel miglior tempo possibile, risparmiando risorse – le quattro fasi di gestione dei dati cui si è accennato, adottando processi di monitoring affidabili e automatici.

 

Il Data Lake di Neodata

Ingestion e Storage

È possibile portare nel Data Lake dati di qualunque natura (strutturati, non-strutturati o semi-strutturati). Il Data Lake e’ compatibile con qualsiasi strumento di ingestion/upload che possa caricare i dati su S3 o su un server sftp. In particolare e’ compatibile con Flume e Sqoop.

Per lo streaming il Data Lake di Neodata utilizza nativamente Kinesis ed e’ compatibile con Kafka.

In questa fase i dati vengono conservati nello stesso formato grezzo in cui sono prodotti.

Neodata ha sviluppato una metodologia che standardizza le procedure di inserimento di nuove sorgenti dati nel Data Lake. Questo permette non solo di ridurre i tempi per l’onboarding di nuove sorgenti dati, ma anche di limitare notevolmente i rischi di bug.

Al fine di garantire sicurezza e privacy, l’accesso al Data Lake è regolato da un sistema di ruoli, ciascuno con dei propri permessi configurabili a livello di amministrazione.

Processing

Una volta che i dati sono caricati su S3, si innescano una serie di processi atti a organizzarli e a renderli disponibili per le analisi successive.

Alcune delle tipiche operazioni sono: cambi di formato verso soluzioni più performanti (ad esempio in Parquet o Avro), parsing dei dati per estrarre specifiche entità (ad esempio da un file .json), operazioni su uno o più campi (e.g. cambio di formato di data), inserimento dei dati in strutture Sql o Nosql (e.g. Hive, HBase, Redshift, MySQL), arricchimento dei dati (e.g. aggiunta di informazioni su una specifica entità tramite inferenza o matching con altre sorgenti dati).

Le operazioni di processing poggiano su Hadoop (HDFS), S3 o Kinesis, ed usano MapReduce, Tez, Spark e ElasticSearch a seconda dei casi. Vengono utilizzati vari linguaggi e strumenti quali, ad esempio, pig, hive, java, python, e lambda functions. Si tratta quindi di processing altamente scalabili rispetto sia al volume sia alla natura dei dati in ingresso.

Il processing è inoltre eseguito in maniera automatizzata grazie all’utilizzo di workflow scheduler (Oozie), con frequenze specifiche che possono essere impostate in maniera indipendente per ciascuna sorgente. Le frequenze vanno dall’ora al mese, in aggiunta ovviamente allo streaming che viene effettuato in real-time.

Analysis

In questa fase ricadono due tipi di operazioni: quelle di esplorazione dei dati e quelle di creazione di nuova conoscenza.

Nel primo caso si possono utilizzare strumenti quali HUE, Hive, Athena, Redshift o anche MySQL e Tableau, in base a dove sono stati conservati i dati alla fine del processing e alla mole degli stessi.

Nel secondo caso, gli strumenti tipici sono quelli del data scientist: Weka, Python, R, Spark ed in generale l’ambiente Hadoop, ma sono ovviamente a disposizione anche tutti i precedenti. Questa è la fase in cui si costruiscono, ad esempio, i modelli di machine learning, o si definiscono le strutture degli ipercubi da integrare con altri strumenti, e.g. piattaforme di BI come Tableau.

I risultati delle analisi compiute in questa fase vengono poi utilizzati nei flussi di processing. In questo modo si riescono a sfruttare le nuove conoscenze acquisite per estrarre valore dai dati, in maniera automatizzata e continua. A seconda delle circostanze, questo si traduce nell’aggiornamento di dashboard di visualizzazione, nella creazione di report, nell’invio di una segnalazione o tanto altro ancora.

Integration

La conoscenza gestita all’interno del Data Lake viene utilizzata da vari sistemi esterni per alimentare processi fondamentali per il business dell’azienda.

I flussi di esportazione di dati comprendono connettori verso le principali DMP (tra cui exaudi, la DMP di Neodata) e DSP/SSP (.....). Le informazioni derivanti dall’analisi sono rese accessibili attraverso un sistema di reporting integrato all’interno della piattaforma che permette un accesso regolamentato e corrispondente alle policy aziendali di diffusione della conoscenza. Allo stesso tempo i dati sono accessibili attraverso le principali piattaforme di BI (Tableau, Qlik, …) per permettere ulteriori livelli di analisi e approfondimento.

Un SDK con le sue API permette l’accesso al Data Lake anche attraverso un livello applicativo.

Monitoring

Tenere traccia di tutte le operazioni compiute sul Data Lake e’ un compito complesso e della massima importanza. Per questo motivo esiste un sistema di monitoraggio automatizzato che verifica costantemente se tutte le sorgenti dati vengono inserite nel Data Lake per come pianificato e se tutti i processi creati sono in corso regolarmente. Qualora vengano identificate delle anomalie di qualunque tipo, ad esempio un processo sta impiegando piu’ tempo del normale per completarsi, vengono inviati degli alert specifici. Le soglie ed i parametri del servizio di monitoraggio, cosi’ come i destinatari degli alert possono essere perosnalizzati per ogni sorgente e/o processo.

Visualizza grafico

Servizi
aggiuntivi
su richiesta

Sfruttare i dati che hai non è più un problema

Analysis / Data Science

Forse vorresti sfruttare appieno i dati che raccogli tramite il Data Lake, integrando applicazioni specifiche di data analysis e costruendo analisi personalizzate che ti consentano di misurarti con i KPI specifici del tuo business, e vuoi un confronto? Il cuore di Neodata è la scienza dei dati e il nostro team di Data Scientists, esperti in analisi avanzata e data visualization, è a tua disposizione. Possiamo darti supporto on demand o garantirti una presenza costante, anche presso la tua sede.

Il nostro obiettivo è quello di renderti il più possibile autonomo nelle attività di consultazione e comprensione dei dati, per questo cercheremo di fornirti modelli che puoi utilizzare e condividere senza dipendere dal nostro supporto, anche organizzando sessioni di formazione se necessario.

 

Progettazione, system integration e supporto

Il nostro metodo di lavoro nello sviluppo del Data Lake prevede una fase iniziale di identificazione degli obiettivi strategici del cliente e un piano di governance che tenga conto sin da subito delle tematiche di privacy e trattamento dei dati.

Segue un’analisi as-is, che si propone di mappare i processi, la struttura organizzativa dei team coinvolti nel progetto, le sorgenti dati, i flussi e i protocolli di comunicazione, oltre alle policy che definiscono i criteri di evoluzione dell’architettura tecnologica dell’azienda.

Poi lavoriamo sulla progettazione vera e propria, trasformando le guidelines di progetto in definizione specifica delle funzionalità di sistema, dei flussi informativi, del modello dati dinamico, delle dotazioni IT, identificando le figure professionali che dovranno supportare il progetto. Neodata mette a disposizione Project Managers, Business Consultants, System Architects, Data Scientists, Data Visualization Specialists e supporto tecnico.