Cinco puntos clave sobre el almacenamiento de datos no estructurados en las instalaciones y en la nube

Los datos no estructurados están proliferando masivamente. Está creciendo en volumen en más del 50% al año y, según IDC, formará el 80% de todos los datos para 2025 y ya lo hace para algunas organizaciones.

Eso significa que los datos no estructurados son un potencial dolor de cabeza para el almacenamiento, pero también son una valiosa fuente de inteligencia.

Hay otra cifra del 80% que vuela con respecto a los datos no estructurados, que es que cuatro quintas partes de toda la información relevante para el negocio se origina en datos no estructurados, principalmente texto.

En otras palabras, está en correos electrónicos, informes, artículos, reseñas de clientes, notas de clientes y otras formas de texto no estructurado. También se encuentra en publicaciones de redes sociales, hallazgos de investigaciones médicas, videos, grabaciones de voz y datos de monitoreo de sistemas remotos (Internet de las cosas). En otras palabras, los datos no estructurados son muy variados y pueden variar en tamaño desde unos pocos bytes hasta muy grandes.

Por lo tanto, sean o no precisas las cifras del 80%, destacan la importancia de los datos no estructurados.

En este artículo, veremos la gran variedad de datos no estructurados, las estructuras que existen en los datos no estructurados, el almacenamiento de objetos y NAS, y los servicios en la nube que están dirigidos a datos no estructurados.

No hay una talla única para todos en términos de almacenamiento

En términos de tamaño y formato, los datos no estructurados pueden comprender todo, desde datos de monitoreo de sistemas remotos de Internet de las cosas (IoT) hasta video. Eso abarca tamaños de archivo que van desde unos pocos bytes hasta varios gigabytes o más. En el medio, hay muchos datos basados ​​en texto que se derivan de correos electrónicos, informes, interacción con el cliente, etc.

Para definirlo, podemos decir que es el tipo de datos que no se mantienen en el formato estructurado que asociamos con una base de datos relacional tradicional. En cambio, podría residir en cualquier forma entre datos sin procesar y algún tipo de base de datos NoSQL, que en realidad abarca una gama de productos / métodos para ordenar datos que van más allá de la forma tradicional de SQL de hacer las cosas.

El tipo de almacenamiento necesario depende de dos cosas. No estamos hablando aquí de la base de datos en uso, sino del almacenamiento en el que se encuentra.

Aquí los requisitos se refieren a su capacidad, pero también a los requisitos de E / S que le impondrá la organización.

Por lo tanto, el almacenamiento de datos no estructurados podría ser cualquier cosa, desde un volumen relativamente bajo y un bajo rendimiento de E / S, como NAS, dispositivo de almacenamiento de objetos o instancia en la nube, hasta un enorme almacenamiento distribuido de archivos u objetos de alto rendimiento.

No tan desestructurado como podría pensar

“No estructurado” puede ser un nombre inapropiado. De hecho, podría ver datos no estructurados existentes en un continuo. En un extremo estarían cosas como datos de IoT, correos electrónicos, documentos y posiblemente algunos candidatos menos obvios como voz y video que tienen encabezados de metadatos o vienen con formatos (XML, JSON) que permiten un análisis básico. Estos son datos semiestructurados.

En el otro extremo, habría una gran cantidad de texto obtenido de sitios web o publicaciones en redes sociales que serían los más difíciles de analizar y procesar.

Está más allá del alcance de este artículo entrar en detalles sobre lagos de datos, almacenes, marts, pantanos, etc., y los métodos para ordenar datos dentro de ellos, como NoSQL.

La decisión clave desde el primer punto sigue siendo: el almacenamiento de back-end dependerá de la capacidad requerida y los tiempos de acceso, el perfil de E / S y la disponibilidad potencial y la capacidad de escalar.

NAS escalable

NAS no es lo que solía ser. El NAS de escalabilidad horizontal ha llevado el almacenamiento de acceso a archivos al ámbito de la capacidad y el rendimiento muy altos. NAS solía significar un solo archivador, y eso significaba el potencial de quedar aislado.

El NAS de escalabilidad horizontal está construido con un sistema de archivos paralelo que proporciona un único espacio de nombres en múltiples cajas NAS con la capacidad de escalar a miles de millones de archivos. Se puede agregar capacidad y, en algunos casos, también la potencia de procesamiento.

El NAS de escalabilidad horizontal tiene la ventaja de que es compatible con Posix, por lo que funciona bien con aplicaciones tradicionales y se beneficia de funciones como el bloqueo de archivos, que puede ser importante desde el punto de vista del acceso.

El NAS de escalabilidad horizontal también fue recientemente la única opción para datos no estructurados de alto rendimiento, aunque el almacenamiento de objetos se está poniendo al día.

El almacenamiento NAS de escalabilidad horizontal local está disponible en los cinco principales fabricantes de matrices de almacenamiento físico: Dell EMC, NetApp, Hitachi, HPE e IBM. También tienen formas de colocar los datos en niveles en la nube y, en algunos casos, ofrecen instancias en la nube de sus productos NAS.

Los tres grandes proveedores de la nube, AWS, Azure y Google Cloud, proporcionan almacenamiento de archivos que va desde los niveles de servicio estándar hasta los premium, a menudo basados ​​en el almacenamiento de NetApp.

También hay una nueva generación de productos de almacenamiento de archivos diseñados para uso en la nube híbrida. Estos incluyen Qumulo, WekaIO, Nexenta y Hedvig. Elastifile se contó entre estos, pero fue comprado por Google en 2019.

Almacenamiento de objetos

El almacenamiento de objetos es un competidor más reciente para la corona del almacenamiento de datos no estructurados. Mantiene los datos en un formato plano al que se accede a través de una identificación única, con encabezados de metadatos que permiten la búsqueda y algunos análisis.

El almacenamiento de objetos ganó fuerza como alternativa a algunos de los inconvenientes del NAS de escalamiento horizontal, que puede sufrir impactos en el rendimiento a medida que crece debido a su estructura jerárquica.

El almacenamiento de objetos también es posiblemente el formato nativo de la nube. Es enormemente escalable y accesible a través de interfaces de programación de aplicaciones (API), lo que encaja bien con la forma de hacer las cosas de DevOps.

En comparación con el almacenamiento de archivos, el almacenamiento de objetos carece de bloqueo de archivos y, hasta hace poco, estaba rezagado en términos de rendimiento, aunque eso está cambiando y está impulsado por la necesidad de un análisis rápido de datos no estructurados.

Los cinco grandes hacen almacenamiento de objetos para uso local, con formas de almacenamiento de objetos en niveles en la nube. Además, existen especialistas en almacenamiento de objetos como Scality, Cloudian, Quantum, Pure Storage y Ceph de código abierto.

Todas las ofertas de almacenamiento básico de los grandes proveedores de la nube se basan en el almacenamiento de objetos, y se ofrecen distintas clases de servicio / rendimiento. AWS, por ejemplo, ofrece diferentes clases de almacenamiento S3 que varían según los requisitos de tiempo de acceso y el valor o la reproducibilidad de los datos.

Contenedores y beneficios de la nube

Los tres grandes proveedores de nube ofrecen sus servicios de almacenamiento de objetos centrales para su uso como almacenamiento de lago de datos.

Microsoft ofrece un servicio específico que manejará datos no estructurados, Azure Data Lake.

Los beneficios aquí son que el proveedor de la nube ofrece capacidad expandible y los medios para obtener datos a través de pasarelas, etc. La desventaja, por supuesto, es que debe pagar por ello, y cuantos más datos ingrese al lago de datos, cuanto más cuesta.

Además, los hiperescaladores ofrecen bases de datos NoSQL en sus nubes. Estas pueden ser propias (Google Datastore, Amazon DynamoDB, Azure Cosmos DB) o bases de datos NoSQL de terceros que se pueden implementar en sus nubes.