¿Qué funciona mejor con el estado sólido?

Los sistemas RAID han sido los componentes básicos del almacenamiento empresarial desde la década de 1990. Pero RAID, una matriz redundante de discos económicos, se originó la década anterior en una investigación de la Universidad de California, Berkeley.

Los investigadores de Berkeley fueron pioneros en el uso de unidades de computadora personal de bajo costo para datos críticos. Al combinar unidades en una matriz, superaron las limitaciones de velocidad y confiabilidad de los discos duros de PC y las acercaron al rendimiento de unidades de mainframe mucho más caras.

Durante tres décadas, el disco basado en RAID ha proporcionado la mayor parte del almacenamiento para servidores, respaldo y archivo, e incluso computación en la nube. Pero con el almacenamiento flash cayendo en costo y creciendo en capacidad, ¿RAID sigue siendo relevante?

Cada vez más, los proveedores han desarrollado niveles RAID más complejos para adaptarse a los medios SSD, mientras que los protocolos alternativos de protección de datos, como la codificación de borrado, han ganado terreno entre los proveedores de la nube y los operadores de almacenamiento híbrido y de objetos.

Niveles RAID

Los sistemas RAID protegen los datos de dos formas principales: duplicando un disco físico en su totalidad o almacenando datos de paridad en uno o más discos que se utilizan para reconstruir una unidad defectuosa.

Los diseñadores de sistemas que crean matrices RAID necesitan equilibrar el rendimiento, la resistencia y la sobrecarga de capacidad de los datos duplicados o de paridad. En su forma más simple, RAID 1, o duplicación, copia simultáneamente todos los datos en dos o tres unidades. La sobrecarga de capacidad, la cantidad de almacenamiento adicional necesaria para los espejos, es, por lo tanto, el 100% o el 200% del almacenamiento utilizable.

Otros niveles de RAID tienen como objetivo reducir la sobrecarga de almacenamiento y, por lo tanto, el costo sin una penalización indebida del rendimiento. RAID 1 proporciona el mejor rendimiento y, fundamentalmente, los tiempos de reconstrucción más rápidos sin necesidad de volver a crear datos utilizando bits de paridad.

RAID 4 utiliza bandas a nivel de bloque y almacena datos de paridad en una sola unidad. RAID 5 utiliza bandas con paridad distribuida sin la necesidad de un disco de paridad dedicado. RAID 6 usa paridad distribuida dual para protección de datos adicional. RAID 10 combina duplicación y creación de bandas.

Los niveles RAID 2 y 3 rara vez se utilizan hoy en día en los sistemas empresariales. Varios proveedores ahora tienen sistemas RAID patentados, con el objetivo de reducir la sobrecarga de capacidad aún más que RAID 5 o RAID 6.

¿RAID es relevante para el almacenamiento flash?

Solo en términos de rendimiento, RAID no es una opción obvia para el almacenamiento basado en flash. El rendimiento de un solo medio supera fácilmente a RAID en casi todos los escenarios empresariales habituales.

«Los SSD SAS que utilizan flash NAND ofrecen una latencia de un orden de magnitud menor y un rendimiento de uno a dos órdenes de magnitud mayor, dependiendo de si estamos hablando de lecturas aleatorias o secuenciales», dice Eric Burgener, vicepresidente de investigación en la práctica de infraestructura empresarial de IDC .

Pero en términos de costo, los medios flash siguen siendo significativamente más caros que los discos giratorios.

Dejando de lado la capacidad por unidad generalmente más baja de los medios flash, que requiere el uso de matrices más grandes, las SSD son De 7 a 8 veces más caro que los discos giratorios equivalentes.

Aunque esto no descarta RAID 1 o RAID 10 para matrices basadas en flash, lo limitará a aplicaciones con poca tolerancia a la pérdida de datos y la necesidad de tiempos de restauración cortos.

“RAID 1 proporciona el mejor rendimiento si lo usa localmente; solo tiene dos escrituras, o tres si ejecuta tres espejos”, dice Burgener. “Proporciona el menor impacto en el modo de recuperación, ya que solo tiene que leer desde un dispositivo y no tiene que realizar ningún cálculo para ‘reconstruir’ los datos. Pero es el más caro «.

RAID 5 y 6: una opción práctica para flash

Esos altos costos llevaron a los investigadores a desarrollar RAID 4, 5 y 6. Las tecnologías ahora están maduras porque los proveedores de sistemas de almacenamiento se prepararon cuando los discos giratorios eran más pequeños y costosos de lo que son hoy. Gran parte de ese trabajo se traduce bien en el mundo del almacenamiento flash.

“Este alto costo de la redundancia es una de las razones por las que se desarrollaron niveles RAID como RAID 4, 5 o 6 o enfoques de codificación de borrado”, dice Burgener. “Ofrecen una sobrecarga de capacidad mucho menor, pero tienden a tener un mayor impacto en el modo de recuperación, ya que los datos deben leerse desde múltiples dispositivos y el cálculo debe realizarse en esos datos utilizando una o más franjas de paridad”.

Sin embargo, estas desventajas se superan, en cierta medida, por el mayor rendimiento del almacenamiento flash, especialmente en las lecturas. La desventaja sigue siendo que un porcentaje significativo del costoso almacenamiento flash se reserva para los datos de paridad. En un sistema RAID 6, con un diseño estándar de 4 + 2 (4 bits de datos y 2 bits de paridad), la sobrecarga es un tercio del almacenamiento.

Para los sistemas convencionales, y donde las necesidades de almacenamiento de datos son relativamente modestas (hasta alrededor de 20 TB), es probable que RAID 6 sea suficiente. La mayoría de los arquitectos de TI calculan que la mayor capacidad de recuperación de RAID 6 vale el aumento de costes o la penalización de la capacidad sobre RAID 5. RAID 10 también es una opción, normalmente para las aplicaciones más sensibles a la latencia y para alta disponibilidad.

Protección de datos para arreglos all-flash y la nube

Aun así, los proveedores están desarrollando nuevas formas de protección de datos que se adaptan mejor al almacenamiento basado en flash, al reducir la sobrecarga de capacidad. Estos sistemas también aprovechan el tamaño de unidad promedio más pequeño para flash, para distribuir los datos de paridad en más volúmenes.

Los proveedores de matrices all-flash han ofrecido en gran medida RAID 6 hasta la fecha, pero varias empresas lo han desafiado con nuevas tecnologías.

Kaminario, por ejemplo, usa un formato 22 + 2 para sus arreglos all-flash. Esto reduce la sobrecarga, pero solo funciona con matrices con 24 o más unidades.

VAST Data combina SSD Intel Optane y SSD QLC y utiliza un diseño 150 + 4 muy económico, que funciona con una sobrecarga de alrededor del 2%. Pero la capacidad mínima del sistema es 1 PB.

Codificación de borrado

La adopción de la codificación de borrado ha sido impulsada por las grandes plataformas en la nube, pero se está volviendo más común en el almacenamiento de objetos híbrido y local. Es probable que la codificación de borrado sea más común, sobre todo porque brinda a las empresas más control sobre el nivel de protección que desean, así como la redundancia física.

La desventaja de la codificación de borrado ha sido en gran medida el rendimiento, aunque con el rendimiento del almacenamiento todo flash, esa brecha se ha reducido.

Decaimiento de datos: diferentes arquitecturas

Sin embargo, los sistemas flash tienen algunas diferencias técnicas clave que afectan el diseño de los esquemas RAID.

El almacenamiento flash se deteriora cuanto más se usa, y ese es más el caso de las escrituras que de las lecturas. Los medios flash más nuevos pero más baratos, como la celda de cuatro niveles (QLC), tienen una vida de escritura más corta que las generaciones anteriores de flash NAND. Pero las aplicaciones empresariales pueden requerir una gran cantidad de escritura, por lo que los diseñadores de hardware deben crear técnicas para minimizar las escrituras y extender la vida útil del sistema.

Esto no es algo que sucede con los discos giratorios, por lo que los departamentos de TI no pueden simplemente «levantar y cambiar» las cargas de trabajo de los arreglos convencionales a los arreglos flash y esperar los mismos niveles de protección.

“Al diseñar algoritmos de protección de datos para datos basados ​​en flash, tiene algunas entradas nuevas: una latencia mucho más baja y un rendimiento más alto, pero una resistencia mucho menor”, ​​dice Burgener. «Así que los esquemas que minimizan la escritura son más interesantes».