El Paris Brain Institute (ICM) ha implementado un arreglo all-flash OpenFlex E3000 de Western Digital con medios NVMe y conectividad RoCE de NVMe-over-Fabrics a los servidores.
La solución ofrecía los beneficios gemelos de ser muy rápida (no es una red de área de almacenamiento (SAN) ordinaria) y poder entregar entrada / salida (E / S) en varios pisos en las instalaciones del ICM para su computación de alto rendimiento (HPC ) necesidades.
El ICM se formó en 2010 para reunir el trabajo de 700 investigadores. La información recopilada durante las imágenes médicas y la microscopía se procesa en las estaciones de trabajo, pero entre la captura y el análisis de datos, los datos también se centralizan en el centro de datos del sótano del ICM.
“El desafío con la implementación es que para atravesar los pisos que separan los laboratorios y el centro de datos, el tráfico tiene que viajar a través de cables Ethernet y conmutadores que también manejan archivos compartidos”, dice la directora técnica del ICM, Caroline Vidal.
“Históricamente, una instalación como esta habría usado NAS [network-attached storage] almacenamiento, que realmente no tendría el rendimiento para igualar las velocidades de lectura y escritura de los instrumentos. Con los últimos microscopios, los datos tardan cada vez más en guardarse, y luego para que estén disponibles en las estaciones de trabajo significa que los investigadores a veces esperan horas frente a sus pantallas «.
“Inicialmente, elegimos un NAS de Active Circle que tenía una serie de características que consideramos esenciales, como la seguridad de los datos. Pero nos dimos cuenta de que la pérdida de datos no era realmente un problema para nuestros investigadores; el verdadero problema era la espera para obtener sus datos.
“Para 2016, habíamos decidido abandonar el NAS y compartir todos los hallazgos a través del almacenamiento Lustre en nuestra supercomputadora, porque está diseñado para un acceso simultáneo rápido”, dice Vidal.
Al igual que otros institutos de investigación, el centro de datos del ICM se basa en su supercomputadora. Los datos que se procesan se almacenan en un clúster del sistema de archivos Lustre y luego se archivan en el almacenamiento de objetos, con los datos en uso por parte de los científicos disponibles desde un NAS.
Pero después de tres años, eso fue todo. El 3 PB de capacidad en el sistema de archivos Lustre estaba saturado con datos de observación. Simplemente no había más espacio para más.
NVMe / RoCE: velocidad de una SAN, implementación sencilla como NAS
Vidal agrega: “En 2019, comenzamos a pensar en descentralizar el almacenamiento desde las estaciones de trabajo en el sentido de distribuir el almacenamiento all-flash entre pisos. La dificultad fue que nuestro edificio no está bien adaptado para implementar cosas de esta manera. Habríamos necesitado mini centros de datos en nuestros pasillos, y eso habría significado mucho trabajo «.
Entonces, uno de los arquitectos técnicos de Vidal se acercó a Western Digital, que propuso que ICM realizara una prueba de concepto de una solución NVMe sobre telas inédita en ese momento.
“Lo interesante del producto OpenFlex fue que, con NVMe / RoCE, sería posible instalarlo en nuestro centro de datos y conectarlo a estaciones de trabajo en varios pisos a través de nuestra infraestructura existente”, dice Vidal.
“Físicamente, el producto es más fácil de instalar que una caja NAS. También es más rápido que los arreglos flash que hubiéramos implementado junto a los laboratorios «.
NVMe-over-fabric es un protocolo de almacenamiento que permite que las unidades de estado sólido (SSD) NVMe se traten como extensiones de memoria no volátil conectadas a través del bus PCIe del servidor. Elimina el protocolo SCSI como capa intermedia, que tiende a formar un cuello de botella y, por lo tanto, permite velocidades de flujo varias veces más rápidas en comparación con una matriz conectada tradicionalmente.
NVMe que usa RoCE es una implementación de NVMe-over-Fabrics que usa cables y conmutadores Ethernet prácticamente estándar. El beneficio aquí es que esta es una infraestructura ya implementada en muchos edificios de oficinas.
NVMe-over-RoCE no utiliza capas de TCP / IP. Eso es distinto de NVMe-over-TCP, que es un poco menos eficiente y no permite que el tráfico de red y de almacenamiento pase a través de las mismas conexiones.
“Al principio, podíamos conectar OpenFlex a través del equipo de red que teníamos instalado, que era de 10 Gbps. Pero estaba envejeciendo, así que en poco tiempo pasamos a 100 Gbps, lo que permitió a OpenFlex flexionar sus músculos ”, dice Vidal.
ICM verificó la viabilidad de la implementación con su socio de integración 2CRSi, a quien se le ocurrió la idea de implementar OpenFlex como una SAN en la que la capacidad parecería local para cada estación de trabajo.
“El sistema operativo OpenFlex le permite conectarse con 1,000 máquinas cliente”, dice el director técnico de 2CRSi, Frédéric Mossmann. “Solo tiene que dividir todo el almacenamiento en volúmenes independientes, con hasta 256 posibles, y cada uno se convierte en la unidad de cuatro estaciones de trabajo. Las máquinas cliente deben estar equipadas con tarjetas compatibles con Ethernet, como las de Mellanox, que se comunican a 10 Gbps para admitir RoCE «.
Vidal añade: “Hicimos pruebas y el resultado más destacado fue la latencia, que estaba por debajo de 40µs. En la práctica, eso permite la captura de imágenes de una manera completamente fluida para que una estación de trabajo pueda ver secuencias sin tartamudear «.
Sistema abierto
El chasis E3000 se implementó a principios de 2020 y ocupaba 3U de espacio en rack. Cinco de sus seis ranuras verticales están provistas de módulos NVMe de 15TB para un total de 75TB. Según Western Digital, cada uno de estos ofrece un rendimiento de 11,5 GBps para lecturas y escrituras con alrededor de 2 millones de IOPS de cada uno.
Todos estos elementos están dirigidos por un controlador Linux accesible a través de la línea de comandos o desde una consola Puppet al particionar unidades o asignar capacidad dinámicamente a cada usuario.
“Una cosa que realmente nos convenció es la apertura del sistema. Estamos muy interesados en las tecnologías libres en el mundo científico ”, dice Vidal.
“El hecho de saber que existe una comunidad que puede desarrollar rápidamente extensiones para los casos de uso que necesitamos, pero también que cualquier fabricante puede proporcionar módulos SSD compatibles, nos tranquiliza a pesar de que hemos elegido una solución innovadora relativamente no probada”, agrega Vidal. explicando cómo el ICM está desempeñando el papel de un caso de prueba para OpenFlex.
En ICM, OpenFlex admite módulos SSD que pueden expandirse en capacidad bruta a 61,4 TB. En la parte posterior, cada módulo SSD tiene dos puertos Ethernet de 50 Gbps en formato de conector óptico QSFP28.
“La matriz ofrece una multitud de usos”, dice Vidal. “Mientras esperábamos modernizar nuestra infraestructura Ethernet, hemos conectado OpenFlex con varias máquinas cliente. Con el tiempo, lo conectaremos al NAS sin disco para realizar copias de seguridad en los laboratorios. Estos están conectados a las estaciones de trabajo a través de una red tradicional para limitar los gastos de implementación de las tarjetas Mellanox RoCE.
«Al mismo tiempo, hemos conectado OpenFlex al resto del centro de datos para validar que podemos proporcionar metadatos de Lustre durante el procesamiento pesado».
Vidal dice que la pandemia de Covid-19 ha ralentizado el despliegue, pero ella ya ha visto beneficios.
“Nuestros científicos no están limitados por la lentitud del movimiento de datos en su canal de análisis clínico. Ahora pueden trabajar en imágenes con una resolución 4x a la anterior. No dudamos que esto ayudará a profundizar la comprensión de las enfermedades neurológicas y ayudará a la rápida introducción de nuevos tratamientos ”, agrega.