Lecciones aprendidas para la recuperación de desastres tras el 9/11

Mientras que algunas reglas fueron impuestas por el gobierno federal, las corporaciones por lo general han doblado sus propias capacidades de recuperación de desastres.

 
Arquitecturas cloud internas, o virtualización, así como la capacidad de ejecutar múltiples centros de datos en tiempo real con conmutación por error activo, han disminuido el tiempo medio entre las fallas del sistema y los puntos de recuperación de datos.
 
Pero quizás el cambio más grande que surgió en el mundo post 11/9 -impulsado en parte por los desastres naturales posteriores como el huracán Katrina- ha sido un nuevo enfoque en mantener a los trabajadores trabajando cuando caen los sistemas corporativos.
 
Resistencia de la fuerza de trabajo
En los años posteriores al 11/9, las empresas se han visto obligadas a considerar entornos de trabajo más flexibles que permitan a los empleados trabajar de forma remota en caso de desastre a través del uso de redes privadas virtuales (VPN) u otros medios, tales como dispositivos de mano como teléfonos inteligentes.
 
La analista de Gartner, Roberta Witty, cree que la lección más importante del 11/9 puede parecer altruista, pero en realidad se trata de la supervivencia del más apto: Las empresas tienen que cuidar su fuerza de trabajo.
 
Gartner utiliza el término "Resistencia de la fuerza de trabajo" para referirse a las mejores prácticas que aseguran que los trabajadores tengan acceso a servicios de Internet, energía para los dispositivos móviles, el uso de redes privadas virtuales y que las cadenas de llamadas y servicios de notificación masiva estén en su lugar.
 
"Una cosa que se hizo notar en ese evento fue el largo lapso de tiempo entre el momento en que sucedió y cuándo fue distribuida la información", señala Witty. "Por lo tanto, se volvió importante poder decirle a los trabajadores acerca del evento. Usted desea comunicarse con ellos a cada hora, ya sea que se trate de información nueva o no".
 
Las empresas de servicios de notificación en emergencias como Everbridge, SunGard, Omnilert y Federal Signal han visto un alza enorme en los servicios automatizados de ramificación de llamadas.
 
Los servicios municipales también han incrementado sus capacidades para ayudar a las funciones de las empresas y los trabajadores durante un desastre. Cuando el mes pasado, millones de personas en el noreste se quedaron sin electricidad durante el huracán Irene, las oficinas municipales que tenían electricidad instalaron cafés de Internet y estaciones de carga de móviles como un servicio público. Mediante la coordinación con la oficina local de manejo de emergencias, las empresas pueden encontrar rápidamente cómo es que las autoridades de la ciudad o Estado enfrentan los desastres.
 
"Nada se puede hacer si las personas que integran sus equipos de recuperación de desastres no pueden acudir en su ayuda", indica Witty. "FEMA ha hecho un gran trabajo desde el 11/9 y Katrina en la movilización de las agencias estatales hacia el nivel local".
 
Los equipos de recuperación de desastres corporativos y de los servicios públicos están utilizando cada vez más los medios sociales como Facebook y Twitter, para mantener informados a los empleados y comunicarse con los actores principales. Muchas empresas incluso han creado el puesto de Oficial de los medios sociales, para gestionar las comunicaciones en línea y asegurarse de mantener actualizados los sitios corporativos.
 
"Se trata también de controlar los rumores", añade Witty.
 
Además, algunas compañías ahora consideran la posibilidad de tener refugios, linternas, alimentos y agua a mano para los empleados que se quedan en la oficina, y también tener un sitio remoto operativo de recuperación para asegurarse de poder restaurar los sistemas críticos tan pronto como sea posible.
 
Gestión de riesgos
Incluso después del 11/9, los administradores de TI dijeron que tenían que luchar por el dinero para implementar los planes y la tecnología de recuperación de desastres.
 
Lo que comenzó con el 11/9, y que evolucionó con numerosos casos de fraude, fue el concepto de que la gestión de riesgos era necesaria como parte de la planificación de recuperación de desastres.
  
"Los directores de riesgos que no solían ver el lado TI de las cosas, ahora hablan más sobre los riesgos de TI a medida que se vuelve algo que ellos necesitan incorporar como parte de la capacidad de gestión del riesgo empresarial", señala Rodney Nelsestuen, un alto director de investigación en la consultora industrial Tower Group.
 
El gobierno de EE.UU. se encargó de que en los años siguientes a los ataques terroristas, el sector financiero gastara cientos de millones de dólares en la actualización de sistemas internos para cumplir con la Ley Patriota. Dicha ley requería que las compañías de servicios financieros reforzaran su capacidad para marcar a los clientes y a las transacciones sospechosas.
 
"El hecho es que la maldad existe -el 11/9 produjo esa sensación, pero no creo que la gente esperara que suceda internamente", señala Nelsestuen.
  
De acuerdo con Tower Group, después del 11/9, alrededor del 39% de los presupuestos de TI fueron para la integración de sistemas back-end, el 34% se gastó en nuevo software, y el 24% se utilizó para mejorar las infraestructuras de TI, tales como sistemas de servidores, redes y almacenamiento. Otro 2% se gastó en servicios de outsourcing con los operadores de bases de datos de los clientes, como Regulatory Data Corp International LLC (RDC) en Nueva York.
 
Firmas como Merrill Lynch, cuya sede se encontraba justo al lado de la zona cero y perdió su centro primario de datos durante seis semanas, realizó un análisis de brecha para determinar lo que faltaba y lo que podría ser necesario para responder ante otro desastre.
 
Los analistas dicen que hoy en día los análisis de brecha periódicos siguen siendo un componente clave para la preparación ante desastres.
 
Cantor Fitzgerald LP, una firma de bonos de comercio ubicada en el World Trade Center, perdió 658 empleados y su centro de datos principal el 11 de septiembre. Fue el peor escenario para ellos. "Eran uno de los principales operadores de bonos en el mundo. No imaginamos el alcance de ese desastre", señala Nelsestuen.
 
Lo más notable acerca de los esfuerzos de recuperación de Cantor Fitzgerald es que sus competidores intervinieron para darles la mano y se hicieron cargo de las operaciones de sus bonos para que la empresa pudiera continuar con sus operaciones, mientras se recuperaba de la devastación.
 
"Nadie previó eso: si tenemos un desastre, ¿usted podría hacer nuestros procesos y darnos el crédito?", señala Nelsestuen. "Pero, ese tipo de cosas salieron de ese nivel de desastre… La gente empezó a pensar en la contingencia humana que nunca antes había sido tomada en cuenta".
 
RPO y RTO (Objetivo de punto de recuperación y Objetivo de tiempo de recuperación por sus siglas en inglés)
Los desastres empresariales se clasifican en tres categorías por Tower Group: naturales, como huracanes y terremotos; fallas tecnológicas; y humanas, ya sea a propósito o por accidente. Pero no importa lo que cause un desastre, la mejor forma de recuperarse es estar siempre reexaminándola, señala Nelsestuen.
 
"Las empresas se preguntan: ¿Cómo podemos cambiar nuestra infraestructura tecnológica para que sea más recuperable y dinámica? Cuando se produce una falla, los datos siguen almacenados hasta ese punto", agrega.
 
Hoy en día se piensa en la recuperación ante desastres y la continuidad de negocio como términos de objetivos de punto de recuperación (RPO) y objetivos de tiempo de recuperación (RTO). En otras palabras, la cantidad de datos que una empresa está dispuesta a perder si sus sistemas se caen.
 
Por ejemplo, una empresa que sincrónicamente replica todas las copias de seguridad para centros de datos independientes que están activos y ejecutándose 24/7, crea una arquitectura con un apretado RPO y RTO. Una empresa que permite que los datos se repliquen fuera de las instalaciones de forma asíncrona o que se hagan copias de seguridad sólo en cinta, espera que se pierdan algunos de los datos que se transmiten en el momento de la falla y suponen que se demorarán más en restaurar los sistemas.
 
"El concepto anterior era tener un centro de datos de producción y luego el centro de recuperación de desastres que tenía de 24 a 72 horas para re establecerse y seguir adelante", señala Nelsestuen. "Ahora están intentando hacer copias de seguridad interna entre los dos. Hoy día hay muchas instituciones procesando datos en múltiples centros de datos durante todo el día".
 
La virtualización ha permitido que las empresas sean más dinámicas en su recuperación debido a los sistemas de auto-sanación y las capacidades de failover automatizado; cuando un servidor o un centro de datos falla, se puede establecer otro con los mismos datos casi al instante.
 
"Ahora es mucho más dinámico, con la posibilidad de instalar copias de seguridad… y regresar a cualquier punto en el tiempo", señala Nelsestuen. "Incluso he visto a algunas instituciones que están buscando crear un rastro del papel, de modo que si todo lo demás falla -sacan una regla de cálculo y una hoja de papel".
 
Las distancias geográficas rara vez se consideraban antes del 11/9. La mayoría de las empresas eran felices replicando datos entre las sedes que estaban a pocos kilómetros de un centro de datos principal. Algunas empresas, como Nasdaq, replicaban datos fuera del estado. Aun así, algunos todavía llegaban con errores, agrega Nelsestuen.
 
"Sé de una empresa que tiene centros de datos en Florida y Galveston, Texas, lo que significa que un solo huracán puede traerse abajo ambos sitios", añade.
 
La nube
Los servicios en la nube, o de aplicaciones y proveedores de servicios de almacenamiento, no son nada nuevo. Incluso antes del 11/9, empresas como Storage Networks se ofrecía para almacenar datos empresariales en una instalación externa a la que se podía acceder de forma remota en caso de desastre.
  
Hoy en día, una combinación de servicios de nubes públicas y privadas ofrece un esquema de protección más robusto, donde los datos más críticos del negocio -los que son necesarios para mantener los ingresos- se repliquen en un proveedor de servicios o se almacenen en una nube corporativa accesible desde cualquier lugar.
 
Las nubes públicas son particularmente ventajosas para las pequeñas y medianas empresas debido a que ofrecen servicios de clase empresarial -en lo que respecta a capacidades de recuperación de desastres- a un costo asequible. Sin embargo, los expertos le aconsejan a las empresas que no acaparen el ancho de banda. Cuantos más datos desee recuperar, más le va a costar. Por lo que debe almacenar solo lo que necesita para que el negocio vuelva a funcionar -sin toda su velocidad.
 
Otro consejo: a la hora de elegir un proveedor de servicios en la nube, las empresas deben asegurarse de que el proveedor esté en una red de energía diferente.
 
"Una empresa puede pensar que está bien cubierta porque está replicando sus datos en el centro de datos que está a una milla de distancia, pero puede estar en la misma red de energía que el edificio de oficinas", señala Al Berman, director ejecutivo del Disaster Recovery Institute International (DRI) en la ciudad de Nueva York. Si la red eléctrica cae, la empresa y su centro de datos fuera del sitio pueden verse afectados al mismo tiempo.
 
Nelsestuen cree que los servicios en la nube son sobredimensionados, especialmente en el sector de servicios financieros. Mientras Tower Group estima que el gasto en administradores de la nube crecerá a 27 millones de dólares en el 2015, eso es solo el 5% o 6% del total de gasto en TI de los servicios financieros.
 
"Todavía hay muchos temas relacionados con aspectos de seguridad y de funcionamiento en eso", señala. "Hay un enorme esfuerzo para tratar de crear nubes internas. Están virtualizando sus plataformas, el hardware y las redes, para tener copias de seguridad continuas. Pero eso es todo interno".
 
Al final, señala Witty, el 11/9 dio lecciones a que aún están siendo puestas en práctica por las empresas.
 
"Habían lagunas inmensas en lo que las empresas eran capaces de hacer antes del 11/9", comenta. "El 11 de setiembre nos mostró que no habían programas de continuidad de negocio adecuadamente establecidos. Nos mostró que es importante administrar y seguir al personal, así como cuidar de ellos, y… tener implementados programas de asistencia al empleado. Trabajar con la policía y otras agencias del gobierno -todo eso también se hizo muy importante".
 
Lucas Mearian, Computerworld (US)