Lagos de datos en la nube frente a los locales

Manejar grandes cantidades de datos es un requisito previo de la transformación digital, y la clave para esto son los conceptos de lagos de datos y almacenes de datos, así como centros de datos y mercados de datos.

En este artículo, comenzaremos en la parte superior de esa jerarquía y veremos los lagos de datos. A medida que las organizaciones intentan controlar sus datos y extraer el mayor valor posible de ellos, el lago de datos es un concepto fundamental.

Es un área de gestión y análisis de datos que depende del almacenamiento, a veces mucho, y es una actividad que está lista para pasar a la nube, pero que también se puede manejar en las instalaciones.

También veremos el tipo de almacenamiento necesario para un lago de datos, a menudo almacenamiento de objetos, y los pros y los contras de construir internamente o usar la nube.

Lago de datos vs almacén de datos El lago de datos se concibe como el primer lugar al que fluyen los datos de una organización. Es el repositorio de todos los datos recopilados de las operaciones de la organización, donde residirá en un formato más o menos crudo.

Quizás haya algún etiquetado de metadatos para facilitar las búsquedas de elementos de datos, pero se pretende que el acceso a los datos en el lago de datos sea realizado por especialistas como científicos de datos y aquellos que desarrollan puntos de contacto aguas abajo del lago.

Aguas abajo es apropiado porque el lago de datos se ve, como un lago real, como algo en el que fluyen todas las fuentes de datos, y son potencialmente, muchas, variadas y sin procesar.

Desde el lago, los datos irían aguas abajo al almacén de datos, lo que se considera que implica algo más procesado, empaquetado y listo para el consumo.

Si bien el lago de datos contiene múltiples almacenes de datos, en formatos que no son fácilmente accesibles o legibles para la gran mayoría de los empleados (no estructurados, semiestructurados y estructurados), el almacén de datos se compone de datos estructurados en bases de datos a las que se les ofrecen aplicaciones y empleados acceso. Un centro de datos o un centro de datos pueden permitir datos que los departamentos consumen aún más fácilmente.

Entonces, un lago de datos contiene grandes cantidades de datos en su forma original. A diferencia de las consultas al almacén de datos o al mercado, para interrogar al lago de datos se requiere un enfoque de esquema en lectura.

Lago de datos: tipos de datos y métodos de acceso Las fuentes de datos en un lago de datos incluirán todos los datos de una organización o una de sus divisiones.

Puede incluir datos estructurados de bases de datos relacionales, datos semiestructurados como CSV y archivos de registro, así como datos en formatos XML y JSON, datos no estructurados como correos electrónicos, documentos y PDF, así como datos binarios, como imágenes, audio. y video.

En términos de protocolo de almacenamiento, eso significa que necesitará almacenar datos que se originaron en el almacenamiento de archivos, bloques y objetos.

Pero, de ellos, el almacenamiento de objetos es una opción común de protocolo para el lago de datos en sí. No olvide que el acceso no será a los datos en sí, sino a los encabezados de metadatos que describen los datos, que podrían adjuntarse a cualquier cosa, desde una base de datos hasta una foto. La consulta detallada de los datos a menudo ocurre en otros lugares, no en el lago de datos.

El almacenamiento de objetos es muy adecuado para almacenar grandes cantidades de datos, como datos no estructurados. Es decir, no puede consultarlo como lo haría con una base de datos en el almacenamiento de bloques, pero puede almacenar varios tipos de objetos en una estructura plana grande y averiguar qué hay allí.

El almacenamiento de objetos generalmente no está diseñado para un alto rendimiento, y eso está bien para los casos de uso de lago de datos donde las consultas son más complejas de construir y procesar que en una base de datos relacional en un almacén de datos. Pero eso está bien porque muchas consultas en la etapa del lago de datos serán para proporcionar almacenes de datos más fáciles de consultar para el almacén de datos descendente.

Lago de datos local vs nube Todos los argumentos habituales en las instalaciones frente a la nube se aplican a las operaciones del lago de datos.

La implementación de un lago de datos en las instalaciones debe tener en cuenta los requisitos de espacio y energía, el diseño, la adquisición de hardware y software, la gestión, las habilidades para ejecutarlo y los costos continuos en todas estas áreas.

La subcontratación del lago de datos a la nube tiene la ventaja de descargar los costos de gasto de capital (capex) de infraestructura a un gasto operativo (opex) de pagos al proveedor de nube. Sin embargo, eso podría resultar en costos inesperados a medida que los volúmenes de datos escalen y en el flujo de datos hacia y desde la nube, por lo que también se le cobrará.

Por lo tanto, se necesita un análisis cuidadoso de los beneficios e inconvenientes de cada uno. Eso también podría tener en cuenta cuestiones como el cumplimiento y la conectividad que van más allá de la arquitectura del lago de datos y el almacenamiento.

Por supuesto, también puede operar entre las dos ubicaciones, en una forma de nube híbrida al irrumpir en la nube cuando sea necesario.

Productos de lago de datos locales En términos de almacenamiento, un lago de datos a menudo necesitará una buena cantidad. Si se trata del lago de datos para una organización a escala empresarial, definitivamente será el caso.

A mediados de la última década, los proveedores de almacenamiento parecían probar las aguas con productos de lago de datos. EMC, por ejemplo, tuvo su Federation Business Data Lake, lanzado en 2015, que entregó almacenamiento de EMC, además de los productos de big data VMware y Pivotal.

Pero eso pareció durar poco. Para 2017, Dell EMC tenía como objetivo su plataforma de datos elásticos en implementaciones de lago de datos.

En otros lugares, Dell EMC también ha dirigido su gama de productos Isilon de almacenamiento conectado a la red (NAS) escalable en casos de uso de lago de datos.

Hitachi Vantara tiene quizás más énfasis en análisis, big data e Internet de las cosas (IoT) desde su cambio de marca. Ofrece capacidad de lago de datos basada en su almacenamiento Hitachi Content Platform junto con la plataforma Lumada IoT y los entornos de integración de datos Pentaho.

La integración y análisis de datos de Pentaho está dirigida a big data. Se puede acceder a los informes y análisis de forma remota, y una vez que un usuario obtiene acceso a los datos, se pueden procesar y consumir en cualquier lugar. Pentaho admite almacenes de datos Hadoop, Spark, NoSQL y bases de datos analíticas. La plataforma Lumada IoT utiliza el software de orquestación, visualización y análisis de datos Pentaho.

IBM también se incluye en la categoría de proveedores de almacenamiento que hacen ruido sobre los lagos de datos. Ofrece sus arreglos de almacenamiento y consultoría, además de asociarse con Cloudera para ofrecer soluciones de lago de datos. Cloudera es una plataforma de gestión de datos que permite la orquestación y el análisis de grandes volúmenes de datos.

NetApp no hace un gran juego con los lagos de datos como tales, pero ofrece sus arreglos con tecnología Ontap como almacenamiento para big data, Hadoop y Splunk, por ejemplo.

HPE tampoco realiza jugadas muy específicas hacia la implementación del lago de datos, excepto para decir que puede construir uno utilizando su cartera de productos de pago por uso de GreenLake.

Es justo decir que puede construir lagos de datos en el hardware de cualquier proveedor, y el kit básico de caja blanca también es una opción popular. Parece que algunos de los grandes proveedores de almacenamiento pasaron por un breve período ofreciendo productos adaptados a lagos de datos, y se habló incluso de dispositivos de lago de datos, pero estos proyectos son grandes con muchos tentáculos y se prestan más a un enfoque de consultoría y soluciones. .

Entrar en la nube Los proveedores de hardware incursionaron en productos de lago de datos discretos, pero finalmente parecen haber llegado a la conclusión de que es un área amorfa en términos de marketing y ventas y que sus brazos de consultoría lo recogerán.

Mientras tanto, los grandes proveedores de la nube han optado por el otro lado, y los tres ofrecen servicios de lago de datos definidos.

La solución de lago de datos de AWS ofrece una consola desde la que los clientes pueden buscar y explorar conjuntos de datos disponibles. Luego, pueden etiquetar, buscar, compartir, transformar, analizar y controlar subconjuntos específicos de datos en una empresa o con otros usuarios externos.

Se basa en el almacenamiento de objetos S3 de AWS y utiliza una variedad de servicios de AWS para unirlos que incluyen microservicios de AWS Lambda, Amazon Elasticsearch, autenticación de usuario de Cognito, AWS Glue para la transformación de datos y análisis de Amazon Athena.

La oferta de lago de datos de Azure es similar y ofrece la capacidad de ejecutar programas de procesamiento y transformación de datos masivamente paralelos en U-SQL, R, Python y .Net (de Azure) sobre petabytes de datos.

Luego, puede usar HDInsight de Azure, que es un servicio de análisis de código abierto administrado que incluye marcos como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm y R.

Google Cloud Platform se parece un poco menos a una ventanilla única para la implementación de lago de datos que AWS y Azure. No hay duda de que puede crear lagos de datos en GCP, y se jactan de que Twitter lo hace con ellos, por un lado, pero probablemente sea más un proyecto de consultoría que las ofertas de tipo estándar de los otros dos.

Lagos de datos mejor definidos por los proveedores de la nube No hay duda de que la idea del lago de datos es un concepto útil. La idea de un repositorio en el que fluyen todos los datos corporativos y donde se seleccionan y luego se hace más accesible es una buena idea.

Y es bastante fácil ver que ciertos tipos de almacenamiento se adaptan mejor a él. Sus necesidades no son inmediatas y rápidas, por lo que el almacenamiento bastante barato y profundo como el basado en objetos es ideal.

Lo interesante es que los proveedores de almacenamiento local parecían hacer una gran cantidad de big data / data lakes y, en algunos casos, incluso promocionaron la idea de un dispositivo de lago de datos.

Pero la realidad de la implementación del lago de datos ha sido algo bastante más grande y con múltiples tentáculos, lo que lo hizo no adecuado para productos discretos, por lo que los proveedores de hardware han coqueteado con él y han seguido adelante, a menos que la consultoría y los servicios proporcionen su ruta hacia él. .

Mientras tanto, sin embargo, los grandes proveedores de nube, que se basan principalmente en servicios, han podido unir soluciones para construir lagos de datos con relativa facilidad y, por lo tanto, al menos en las ofertas de AWS y Azure, las soluciones de lago de datos son prominentes y bien definido.