AWS explica las interrupciones y facilitará el seguimiento de las futuras

El director ejecutivo de Amazon Web Services, Adam Selipsky, pronuncia un discurso de apertura durante la conferencia AWS re: Invent en Las Vegas el 30 de noviembre de 2021.

Noah Berger | imágenes falsas

Amazon Web Services publicó el viernes una explicación de una interrupción de una hora a principios de esta semana que interrumpió su negocio minorista y los servicios en línea de terceros. La compañía también dijo que planea renovar su página de estado.

Los problemas en la gran región de centros de datos de Amazon US-East-1 en Virginia comenzaron a las 10:30 am ET del martes, dijo la compañía.

«Una actividad automatizada para escalar la capacidad de uno de los servicios de AWS alojados en la red principal de AWS desencadenó un comportamiento inesperado de una gran cantidad de clientes dentro de la red interna», escribió la compañía en una publicación en su sitio web. Como resultado, los dispositivos que conectan una red interna de Amazon y la red de AWS se sobrecargaron.

Varias herramientas de AWS sufrieron, incluido el servicio EC2 ampliamente utilizado que proporciona capacidad de servidor virtual. Los ingenieros de AWS trabajaron para resolver los problemas y recuperar los servicios durante las próximas horas. El servicio EventBridge, que puede ayudar a los desarrolladores de software a crear aplicaciones que actúen en respuesta a determinadas actividades, no se recuperó por completo hasta las 9:40 pm ET.

El tiempo de inactividad puede dañar la percepción de que la infraestructura en la nube es confiable y está lista para manejar migraciones de aplicaciones desde centros de datos físicos. También puede tener importantes repercusiones en las empresas. AWS tiene millones de clientes y es el proveedor líder del mercado.

AWS se disculpó por el impacto que la interrupción tuvo en sus clientes.

Los sitios web populares y los servicios más utilizados quedaron fuera de línea, incluidos Disney +, Netflix y Ticketmaster. Las aspiradoras Roomba, las cámaras de seguridad Ring de Amazon y otros dispositivos conectados a Internet, como cajas de arena para gatos inteligentes y ventiladores de techo conectados a aplicaciones, también fueron eliminados por el apagón.

Las propias operaciones minoristas de Amazon se paralizaron en algunos bolsillos de los EE. UU. Las aplicaciones internas utilizadas por el personal de almacén y entrega de Amazon dependen de AWS, por lo que la mayoría de los empleados del martes no pudieron escanear paquetes o acceder a las rutas de entrega. Los vendedores externos tampoco podían acceder a un sitio utilizado para administrar los pedidos de los clientes.

Durante la interrupción, AWS intentó mantener a los clientes al tanto de lo que estaba sucediendo, pero la nube tuvo problemas para actualizar su página de estado, conocida como Service Health Dashboard.

«Como el impacto en los servicios durante este evento se debió a una única causa raíz, optamos por proporcionar actualizaciones a través de un banner global en el Panel de estado del servicio, que desde entonces hemos aprendido hace que a algunos clientes les resulte difícil encontrar información sobre este problema, «, Dijo AWS.

Además, los clientes no pudieron crear casos de soporte durante siete horas durante la interrupción.

AWS dijo que ahora está tomando medidas para abordar ambos problemas.

«Esperamos lanzar una nueva versión de nuestro Service Health Dashboard a principios del próximo año que facilitará la comprensión del impacto del servicio y una nueva arquitectura del sistema de soporte que se ejecuta activamente en varias regiones de AWS para garantizar que no tengamos retrasos en la comunicación con los clientes. «, Dijo AWS.

No es la primera vez que AWS cambia la forma en que informa los problemas.

En 2017, una interrupción que afectó al popular servicio de almacenamiento AWS S3 impidió que los ingenieros mostraran el color correcto para indicar el tiempo de actividad en el Panel de estado del servicio. Amazon publicó pancartas y fue a Twitter para publicar nueva información.

«Hemos cambiado la consola de administración de SHD para que se ejecute en varias regiones de AWS», dijo Amazon en un mensaje sobre ese episodio.

RELOJ: La semana que fue: caída de los servicios web de Amazon

Salir de la versión móvil