El incidente de tiempo de inactividad afecta a los usuarios de una de las principales regiones de centros de datos de Amazon en EE. UU.

Los usuarios de Amazon Web Services (AWS) esperan una explicación completa del gigante de la nube pública sobre la causa de una interrupción prolongada en una de sus principales regiones de centros de datos de EE. UU. Que comenzó el miércoles 25 de noviembre de 2020, hora de EE. UU.

Se sabe que la fuente del incidente de tiempo de inactividad se originó dentro de la región del centro de datos US-East-1 de la compañía y fue causado por un defecto en la interfaz de programación de aplicaciones (API) de su servicio de transmisión de datos en tiempo real, Kinesis Data Streams (KDS ).

Se sabe que el problema ha arruinado la usabilidad de varios servicios de Internet de alto perfil que dependen de KDS durante el incidente, muchos de los cuales usaron el sitio de redes sociales Twitter para confirmar que se vieron afectados por el problema del tiempo de inactividad. Uno dijo:

“Una interrupción de Amazon AWS está afectando actualmente a Adobe Spark, por lo que es posible que tenga problemas para acceder o editar sus proyectos. Estamos trabajando activamente con AWS e informaremos cuando el problema haya desaparecido. https://t.co/uoHPf44HjL para conocer el estado actual de Spark. ¡Nos disculpamos por cualquier inconveniente! – Adobe Spark (@AdobeSpark) 25 de noviembre de 2020. «

La interrupción también ha servido para resaltar las interdependencias que existen dentro de la cartera más amplia de AWS, ya que se sabe que los problemas encontrados por la API de KDS han afectado negativamente el rendimiento de varios otros servicios de AWS que dependen de ella para funcionar.

Las páginas de estado del servicio en la nube de la compañía hacen referencia a otros «servicios dependientes» que se han visto afectados por la interrupción, que AWS reconoció por primera vez alrededor de las 2 am hora GMT del jueves 26 de noviembre.

Por ejemplo, los encuestados en el feed de Twitter de AWS Support informaron problemas con su oferta de prueba y creación de código, Code Pipeline, su servicio de monitoreo de infraestructura, Amazon Cloudwatch y, en un momento durante la interrupción, la página de estado del servicio tampoco estaba disponible.

En el momento de redactar este artículo, el panel de estado del servicio de AWS confirmó que la empresa había resuelto el problema y que se había restablecido el servicio a todas las partes afectadas de la cartera de AWS, pero no se han proporcionado más detalles en este momento sobre las circunstancias condujo a que ocurriera la interrupción en primer lugar.

“Hemos identificado la causa raíz del evento Kinesis Data Streams y hemos completado acciones inmediatas para evitar que vuelva a ocurrir. Kinesis y CloudWatch funcionan con normalidad ”, dijo un comunicado en la página Estado del servicio de AWS, publicado hoy justo después de las 9 am GMT.

Liz Beavers, experta en jefe del proveedor de software de monitoreo de TI SolarWinds, dijo que la escala de la interrupción sugiere que las estrategias de gestión de interrupciones de AWS dejan mucho que desear.

«Sin estrategias sólidas de gestión de incidentes y problemas, vemos cortes generalizados con un alto impacto como el de AWS hoy», dijo. “Con muchas unidades y clientes diferentes interconectados a través de la plataforma AWS, es crucial que los socios de Amazon cuenten con una estrategia de mesa de servicio de TI para optimizar y resolver incidentes repetidos, que generalmente ocurren con una gran interrupción de TI como esta.

“Parte de tener una respuesta estratégica de la mesa de servicio a una interrupción también es equipar a los equipos de TI con un canal de comunicación singular para dar a conocer el problema conocido en toda la organización. Esto no solo ayuda a contextualizar el impacto total del problema, sino que le permite a TI solucionar problemas de manera más efectiva y, en algunos casos, publicar documentación para posibles soluciones «.

Mike Kiersey, tecnólogo principal del proveedor de plataforma de integración como servicio (PaaS) de Dell Technologies, Boomi, dijo que el incidente resalta cuán dependientes son grandes partes de la economía digital de la necesidad de transmisión de datos en tiempo real.

“Los problemas que afectan a Kinesis subrayan la absoluta necesidad de poder procesar y administrar datos en tiempo real”, dijo. “Si el flujo de datos deja de funcionar, las consecuencias pueden ser enormes, especialmente para los proveedores de la nube.

“La gestión de datos en tiempo real se reduce a una integración y supervisión efectivas, lo que permite una transición sin problemas a una red de estructura de datos más modernizada. Al tener una plataforma integrada receptiva, los puntos de datos se vuelven más accesibles, ágiles y transparentes para comprender cómo se comunican las aplicaciones «.

Kiersey agregó: «Las organizaciones deben considerar cómo están diseñando e integrando la plataforma de transmisión en el tejido central de su arquitectura empresarial, unida por la gestión de datos maestros que tiene el potencial de fronteras geográficas y entre departamentos».

Salir de la versión móvil