Menù
CLOSE
Nuestra oferta para…
BACK

Data Lake

“Este es un nuevo método de trabajo
que permite ahorrar tiempo, dinero
y ayuda a compartir información “.

Adquieres los datos
en formato nativo
y los utilizas como quieres

Si no puedes saber hoy qué datos te servirán mañana, el data lake lo hace por ti.

Mayor información

Un Data Lake es un nuevo método de trabajo que simplifica y potencia el almacenamiento, la gestión y el análisis del Big Data, utilizando datos provenientes de fuentes diferentes y heterogéneas, en su formato nativo, o en una copia casi exacta del formato nativo.

Se trata de un nuevo método de trabajo porque los sistemas históricos utilizados para almacenar, procesar y analizar datos, son definidos y estructurados en base al uso final que esperas darle, a través de una estructura de tipo “Data Warehouse”.

Usando un Data Lake reduces los costos de almacenamiento y tienes espacio infinito, bajas los costos de consolidación de datos y compartes la información más fácilmente.

Contáctanos para obtener mayor información
Contáctanos para obtener mayor información

Principales
características

Datos integrados en cualquier formato y flujos de procesamiento estudiados por ti

Compatible con cualquier instrumento de inserción/upload

Hemos desarrollado una metodología que estandariza los procedimientos de inserción de nuevas fuentes de datos en el Data Lake.

Esto permite no solo de reducir el tiempo para la incorporación de nuevas fuentes de datos, sino que también de limita notablemente los riesgos de error.

Análisis integrados en los flujos de procesamiento

La fase de análisis, basada en un ambiente Hadoop, permite explorar los datos a través de instrumentos como HUE, Hive, Redshift, MySQL y desarrollar modelos de machine learning, por ejemplo, conectando los instrumentos en uso a los datos científicos. Los resultados de los análisis en esta fase son luego utilizados en los flujos de procesamiento, para extraer valor de los datos en manera automatizada y continua.

Estructura proyectada junto a ti

Iniciamos con el análisis de tus objetivos estratégicos, definimos los procesos de gestión de datos y analizamos la estructura de tu equipo, las fuentes de datos, los flujos informativos. Solo después de haber obtenido un panorama claro del punto de inicio, proyectaremos la estructura del Data Lake, paso a paso, junto a ti.

Garantía de seguridad y privacidad

El acceso al Data Lake está regulado por un sistema de roles, cada uno con su respectivo permiso de configuración a nivel de administración.

Principales
características

Datos integrados en cualquier formato y flujos de procesamiento estudiados por ti

¿Quién lo utiliza?

¿Qué cosa
puede hacer?

Con un buen proceso
de gestión,
puedes hacer
cualquier cosa.

¿Qué cosa
puede hacer?

¿Qué cosa
puede hacer?

Construir un data lake es la solución ideal para empresas que tienen la necesidad de realizar  análisis interfuncionales sobre el Big Data, que tienen procesos internos estructurados para garantizar la gestión de datos, que tienen personal competente sea en las tecnologías utilizadas para la construcción de la plataforma, sea en el análisis de datos, o que puedan servirse de consultorías externas especializadas en las áreas en las cuales carecen.

¿Cómo
funciona?

Ingestión,
Procesamiento,
Análisis,
Integración

¿Cómo
funciona?

Ingestión,
Procesamiento,
Análisis,
Integración

¿Cómo
funciona?

¿Cómo
funciona?

01.

Características generales

02.

El Data Lake de Neodata

Características generales

Un Data Lake es una solución ensamblada que utiliza tecnologías avanzadas y complejas de almacenamiento  y análisis de datos. Simplificando, podemos reagrupar los componentes de un Data Lake en cuatro categorías, que representan las cuatro fases de gestión de los datos:

  • Inserción y almacenamiento de datos,  la capacidad de adquirir datos en tiempo real o in batch; y la capacidad de conservar y acceder a datos estructurados, semi-estructurados o en el  formato original en cual son producidos y a través un sistema de roles configurables.
  • Procesamiento de datos,  la capacidad de trabajar con datos no procesados de manera que se encuentren listos para ser analizados mediante procesos estándar; y también la capacidad de utilizar ingeniería para crear soluciones  de extracción de valores de los datos, a través de procesos automáticos y periódicos, que son el resultado de las operaciones de análisis.
  • Análisis de datos,  la capacidad de crear modelos para la extracción sistemática de información de los datos, que puede ser en tiempo real o a través de procesos realizados periódicamente.
  • Integración de datos,  la capacidad de conectar a la plataforma a aplicaciones que permiten consultar el Data Lake y extraer datos en formatos utilizables para fines científicos.

Para construir un Data Lake no existe una receta válida universalmente, es necesario servirse de un proveedor de tecnologías que sepa diseñar la estructura de la plataforma en base a los requisitos expresados por el cliente, equipándola con componentes hardware y software, que permita gestionar con la máxima eficacia -  es decir, proporcionando el mejor resultado, en el mejor tiempo posible, ahorrando recursos - las cuatro fases de gestión de datos ya mencionadas, adoptando procesos de supervisión confiables y automáticos. 

El Data Lake de Neodata

Inserción y almacenamiento

Es posible cargar en el Data Lake datos de cualquier naturaleza (estructurados, no estructurados y semiestructurados). El Data Lake es compatible con cualquier instrumento de inserción/upload que pueda cargar datos en S3 o en un server sftp. En particular es compatible con Flume y Sqoop.

Para la transmisión, el Data Lake de Neodata utiliza nativamente Kinesis y es compatible con Kafka.

En esta fase los datos vienen conservados en el formato original en el cual son producidos.

Neodata ha desarrollado una metodología que estandariza el procedimiento de inserción de nuevas fuentes de datos en el Data Lake. Esto permite no solo reducir los tiempos para la incorporación de nuevas fuentes de datos, sino que también permite  limitar notablemente los riesgos de error.

Con el fin de garantizar seguridad y privacidad, el acceso al Data Lake está regulado por un sistema de roles, cada uno con sus propios permisos configurables a nivel de administración.

Procesamiento

Una vez que los datos son cargados en S3, se inicializan una serie de procesos destinados a organizarlos y prepararlos para su análisis.

Algunas de las operaciones típicas consisten en: cambios de formatos hacia soluciones más eficaces (por ejemplo en Parquet o Avro ), análisis de datos para extraer entidades específicas (por ejemplo un archivo .json), operaciones sobre uno o más campos (por ejemplo el cambio de formato de datos), inserción de datos en estructuras Sql o Nosql (por ejemplo  Hive, HBase, Redshift, MySQL),  enriquecimiento de datos (por ejemplo adición de información en una específica entidad a través de la inserción o matching con otras fuentes de datos).

Las operaciones de procesamiento se basan en Hadoop (HDFS), S3 o Kinesis, usan MapReduce, Tez, Spark e ElasticSearch según sea el caso. Vienen utilizados varios lenguajes e instrumentos, por ejemplo; pig, hive, java, python, y lambda functions. Se trata de procesamiento altamente escalable con respecto tanto al volumen como a la naturaleza de los datos que ingresan.

El procesamiento es además realizado de manera automatizada gracias a la utilización de workflow scheduler (Oozie), con frecuencias específicas que puedan ser configuradas de manera independiente para cada fuente. Las frecuencias van de la hora al mes, adicionalmente a la transmisión que viene efectuada en tiempo real.

Análisis

En esta fase recaen dos tipos de operaciones: aquellas de exploración de datos y aquellas de creación de nuevos conocimientos.

En el primer caso se pueden utilizar instrumentos como HUE, Hive, Athena, Redshift o también MySQL y Tableau, en base a donde fueron conservados los datos al final del procesamiento y a la cantidad de los mismos.

En el segundo caso, los instrumentos típicos son aquellos correspondientes al data science: Weka, Python, R, Spark y en general el ambiente Hadoop, pero obviamente también se encuentran a disposición todos los precedentes. Esta es la fase en el cual se construyen, por ejemplo, los modelos de machine learning, o se definen las estructuras de los hipercubos a integrar con otros instrumentos, por ejemplo plataformas de BI como Tableu.

Los resultados de los análisis hechos en esta fase vienes luego utilizados en los flujos de procesamiento. De esta manera se pueden aprovechar los nuevos conocimientos adquiridos para extraer valor de los datos, en manera automática y continua. Según la circunstancia, esto se refleja en la actualización del dashboard de visualización, en la creación de reportes, en el envío de una notificación o mucho más aún.

Integración

El conocimiento gestionado dentro del Data Lake es utilizado por varios sistemas externos para alimentar procesos fundamentales para el negocio de la empresa.

Los flujos de exportación de datos utilizan conectores hacia las principales DMP (entre ellas exaudi, la DMP de Neodata) y DSP/SSP(…). La información derivada del análisis se encuentra disponible a través de un sistema de reportes integrado dentro de la plataforma que permite un acceso regulado y acorde a la política empresarial de difusión del conocimiento. Al mismo tiempo los datos son accesibles a través de las principales plataformas de BI (Tableau, Qlik, …) para permitir ulteriores niveles de análisis y profundización.

Un SDK con sus API permite el acceso al Data Lake también a nivel de aplicación.

Monitoreo

Tener un registro de todas las operaciones hechas en el Data Lake es una tarea compleja y de máxima importancia. Por este motivo existe un sistema de monitoreo automatizado que verifica constantemente que todas las fuentes de datos son incorporadas en el Data Lake como fue planificado y si todos los procesos creados trabajen correctamente. En el momento que se verifican anomalías de cualquier tipo, por ejemplo un proceso está empleando más tiempo del normal para completarse, vienen enviados alertas específicos. Los límites y los parámetros del servicio de monitoreo, así como los destinatarios de las alertas pueden ser personalizados para cada fuente y/o proceso.

Visualiza el gráfico

Servicios
añadidos
a pedido

Explotar los datos que posees no será más un problema

Análisis/ Ciencia de los datos 

¿Quizá quisieras aprovechar completamente los datos que recoges a través del Data Lake, integrando aplicaciones específicas de análisis de datos y construyendo análisis personalizados que te permitan confrontarte con los KPI específicos de tu negocio? El núcleo de Neodata es la ciencia de los datos y nuestro equipo de científicos de datos, expertos en análisis avanzados y visualización de datos, se encuentra a tu disposición. Podemos darte soporte a pedido o garantizarte una presencia constante, incluso en tu sede.

Nuestro objetivo es aquel darte la mayor autonomía posible en las actividades de consulta y comprensión de los datos, por eso buscaremos de ofrecerte modelos que puedes utilizar y compartir sin depender de nuestro soporte, también organizando sesiones de formación si es necesario.

 

Diseño, sistemas de integración y soporte

Nuestro método de trabajo en el desarrollo del Data Lake prevé una fase inicial de identificación de los objetivos estratégicos del cliente y un plan de gestión que desde el inicio tenga en cuenta la privacidad y tratamiento de los datos.

Sigue el análisis as-is, que tiene como objetivo mapear los procesos, la estructura organizativa del equipo envuelto en el proyecto, las fuentes de datos, el flujo y los protocolos de comunicación, además a la política que definen los criterios de evolución de la estructura tecnológica de la empresa.

Luego trabajamos en el diseño propiamente dicho, transformando las líneas guías del proyecto en definiciones específicas de la funcionalidad de sistema, de los flujos informativos, del modelo de datos dinámicos, de las dotaciones IT, identificando las figuras profesionales que deberán soportar el proyecto. Neodata pone a disposición Project Managers, Business Consultants, System Architects, Data Scientists, Data Visualization Specialists y soporte técnico.

Inscríbete a nuestra newsletter

Ingresa tu correo electrónico

Thanks to subscribe to our newsletter