Che cos’è esattamente un Data Lake, come funziona, e soprattutto come va utilizzato in azienda per estrarre dai dati valore per il business?
Prova a rispondere Emanuele Mambelli, Responsabile Ricerca e Sviluppo di Neodata: “Prima di ogni altra cosa bisogna sgomberare il campo da un preconcetto sbagliato. Di solito quando si parla di Data Lake si pensa che ci sia un prodotto che appartiene a quella categoria. Ebbene, il Data Lake non è un prodotto. Chi dice di avere un Data Lake in portfolio mente sapendo di mentire. Il Data Lake è infatti una metodologia di trattamento e utilizzo dei Big Data. E ribadisco il termine: Big Data. Non ha senso ipotizzare l’adozione di un approccio Data Lake in assenza di Big Data”.
Data Lake: quale differenza con il Data Warehouse
Il Data Lake consente quindi di far confluire e memorizzare tutti i Big Data in un unico luogo, con l’obiettivo primario di eliminare i silos aziendali e favorire l’elaborazione delle informazioni a cavallo delle varie linee di business in modo trasparente e dinamico, mettendo a disposizione potenzialmente di qualsiasi utente l’intero patrimonio informativo. “Una logica incentrata sul fatto che non si può presupporre fin dall’inizio cosa si farà con i dati confluiti nel repository”, precisa Mambelli, sottolineando che è proprio questa la principale differenza con il Data Warehouse tradizionale. “Il Data Warehouse permette di inquadrare in modo preciso dati standard, caratterizzati da una loro definizione statica e capaci di identificare specifici processi aziendali. Nel momento in cui ho una struttura aziendale ben definita, che non cambia spesso, un Data Warehouse, svolgendo adeguatamente il suo compito, soddisfa pienamente le esigenze dell’organizzazione. Permette agli utenti di comprendere come gestire i dati nel modo migliore, aiuta a definire la struttura per le analisi e le ottimizza. I problemi sorgono nel momento in cui si ha a che fare con business che, soprattutto facendo leva sulle nuove tecnologie, manifestano la necessità di evolversi continuamente. A quel punto il Data Warehouse non riesce a garantire la rapidità e l’agilità di cui necessita l’azienda”.
Come cambia il paradigma adottando una soluzione Data Lake
Il Data Lake, invece, catapulta le imprese nella sfera del possibile, e offre il più ampio margine d’azione durante il processo di trasformazione digitale. “Un tema ben noto alle società attive in settori in cui la capacità di gestione del dato diventa un fattore critico di successo”, dice Mambelli. “Penso alle banche e alle assicurazioni, ma anche ai network televisivi, e a chiunque lavori nell’ambito dell’IoT”. Cambiando il paradigma, deve anche cambiare l’approccio al dato. Proprio perché le informazioni “galleggiano” nel repository senza una struttura predeterminata e senza uno scopo predefinito, è fondamentale assegnare a ciascun dato tag ed estensioni per poterne facilitare la ricerca e l’identificazione in funzione del tipo di analisi che si vuole effettuare. “Con il Data Lake l’utilizzo dei dataset in ambito applicativo è inverso rispetto a quanto avviene secondo la logica del Data Warehouse”, spiega Mambelli: “Col nuovo approccio, prima si comprende quali dati si hanno a disposizione, poi si capisce quali possono essere utilizzati e infine li si incrocia, con l’aiuto di algoritmi di machine learning, per sprigionarne il potenziale. Solo allora si può creare un’applicazione in grado di sfruttarli a vantaggio del business. I dati immagazzinati in unico repository non sono infatti automaticamente utili e utilizzabili. Lo diventano nel momento in cui li si conosce, ovvero quando si sa cosa contengono, qual è il loro significato, dove sono posizionati”.
Data Lake: una rivoluzione non solo tecnologica ma anche manageriale
Qui entra in gioco l’altro aspetto fondamentale del Data Lake: occorre saper gestire le attività di documentazione dei dati, pena la perdita di valore durante la processazione. “È uno sforzo che vale la pena di fare solo se si intende trasformare l’azienda in una vera data-driven company”, avverte Emanuele Mambelli. “Tutto ciò, infatti, presuppone un commitment aziendale forte, e la disponibilità a dedicare risorse interne – opportunamente formate – alla gestione del dato, con la consapevolezza che se non si utilizza il patrimonio informativo a disposizione, prima o poi diventa una spesa inutile”.
Per le attività di data governance, ovvero di qualificazione delle informazioni che fluiscono nel Data Lake, servono figure professionali come data engineer e data architect. Rispetto all’utilizzo vero e proprio del dato, e alla creazione di algoritmi intelligenti capaci di valorizzarlo, occorrono invece data analyst e data scientist. “Dal mio punto di vista, la parte di data governance può anche essere esternalizzata”, aggiunge Mambelli, “mentre data analysis e data science, strategiche specialmente per le aziende di una certa dimensione, hanno necessariamente bisogno di risorse interne, focalizzate su progetti che le rendano gradualmente padrone del dominio e delle tecnologie in uso”.
Ma occorre anche un diverso approccio alla managerialità: le nuove figure appena citate devono poter interagire in un contesto aziendale che sia il più ampio possibile, sia sul livello strategico sia su quello operativo, e devono per questo fare affidamento su interlocutori preparati su entrambi i piani. “A livello strategico, il Data Lake verrà interrogato per effettuare analisi utili a indirizzare le decisioni di business, correlando dati trasversali alle varie divisioni aziendali ed elaborando sintesi in grado di sviluppare una logica previsionale attraverso le varie fasi dall’analisi: da quella descrittiva a quella prescrittiva, passando naturalmente per quella predittiva”, continua Mambelli. “A livello operativo, si andrà incontro a necessità più concrete. Parliamo quindi di ottimizzazione dei processi in funzione dell’evoluzione delle dinamiche aziendali o del mercato. Il Data Lake, in questo senso, mette l’organizzazione in condizione di reagire in tempo reale per cogliere le grandi opportunità offerte dalla trasformazione digitale e in particolar modo dal Cloud”. Cloud che oltre a essere un fine, è anche un mezzo. “È infatti attraverso il Cloud”, chiosa Mambelli”, che diventa possibile accedere a tutte le tecnologie di processing e storage distribuiti, con una scalabilità potenzialmente infinita: la dimensione ideale per lo sviluppo di una logica compiuta del Data Lake”.