Interrupción de Facebook causada por una cascada de errores, dice

Una cascada de errores cometidos durante el mantenimiento en la red de Facebook causó la interrupción que desconectó sus servicios el lunes, dijo la compañía en una publicación de blog publicada el martes.

La familia de aplicaciones de Facebook, que incluye Instagram, WhatsApp y Messenger, estuvo fuera de línea durante más de cinco horas mientras los empleados se apresuraban a reparar el daño. Más de 3.500 millones de personas en todo el mundo utilizan los servicios de Facebook para comunicarse con amigos y familiares, distribuir mensajes políticos y expandir sus negocios a través de publicidad y divulgación.

El problema inicial ocurrió en una red que Facebook llama su «columna vertebral», que conecta sus centros de datos en todo el mundo, escribió Santosh Janardhan, vicepresidente de infraestructura de Facebook, en la publicación del blog.

Durante el mantenimiento de la red, se emitió un comando para evaluar cuánta capacidad estaba disponible. Pero el comando fracasó, desconectando la red y bloqueando la comunicación de los centros de datos de Facebook, dijo Janardhan. Una herramienta de auditoría diseñada para detectar comandos erróneos no pudo detectar el error, agregó.

Pero fue solo el comienzo de los problemas. «Este cambio provocó una desconexión completa de nuestras conexiones de servidor entre nuestros centros de datos e Internet», escribió Janardhan. «Y esa pérdida total de conexión provocó un segundo problema que empeoró las cosas».

Con los centros de datos de Facebook fuera de línea, los servidores de la compañía que administran sus direcciones de Internet tampoco estaban disponibles. «Esto hizo imposible que el resto de Internet encontrara nuestros servidores», dijo Janardhan.

A medida que el alcance de la interrupción se hizo evidente, los ingenieros de Facebook lucharon por restaurar el acceso porque sus centros de datos están fuertemente protegidos y los empleados no pudieron ingresar de inmediato, dijo la compañía.

«Hemos trabajado mucho para fortalecer nuestros sistemas para evitar el acceso no autorizado, y fue interesante ver cómo ese endurecimiento nos ralentizó mientras intentábamos recuperarnos de una interrupción causada no por una actividad maliciosa sino por un error de nuestra propia creación», dijo el Sr. Janardhan escribió.

Una vez que los ingenieros estuvieron dentro de los centros de datos de Facebook y comenzaron a trabajar, pudieron restaurar la red. Pero debían ser graduales al poner los servidores en línea para no abrumar el sistema, dijo Janardhan.

La compañía planeaba estudiar cómo ocurrió la interrupción y crear simulacros que permitirían a los empleados practicar la reparación de los sistemas de Facebook más rápidamente, agregó.

Salir de la versión móvil