Los centros de datos siguen siendo fundamentales en la empresa moderna, es por ello que a continuación le presentamos lo que puede hacer para identificar y mitigar los riesgos en las operaciones del centro de datos, gracias a una correcta gestión del riesgo.
Hace media década, a raíz del auge de la computación en la nube, algunos evangelistas de TI, CIO y grandes firmas de investigación tecnológica predijeron la muerte inminente del centro de datos tal como lo conocemos. Sin embargo, Mark Settle, columnista de CIO.com, en ese entonces recomendó no cancelar los centros de datos y se aventuró a pronosticar cómo continuarían creciendo en función de la evolución de, exacto, los datos.
En la actualidad, los centros de datos continúan no sólo sobreviviendo, sino que prosperan junto con los sistemas híbridos y multinube en nuevos avatares, como los de servicio local. Y no sólo eso, los centros de datos están preparados para satisfacer la demanda emergente de servicios relacionados con la tecnología emergente, como la informática de punta, el Internet de las Cosas y el 5G.
Como resultado de estas nuevas aplicaciones y las necesidades emergentes en la informática del usuario final (EUC) y las soluciones de movilidad, los centros de datos se están volviendo cada vez más complejos, lo que genera más riesgos internos y externos. El tiempo de inactividad es un riesgo persistente, con un solo evento que supera las pérdidas de 11,000 dólares por minuto.
A continuación se describe lo que pueden hacer las empresas para identificar y mitigar los riesgos en las operaciones del centro de datos.
1. Tener un enfoque integrado para la gestión de riesgos.
La tormenta invernal sin precedentes y el posterior corte de energía en Texas en febrero de 2021 demostraron ser una verificación de la realidad para los centros de datos en el estado. Aunque no hubo fallas a gran escala, hubo problemas importantes con los sistemas eléctricos de conmutación por error.
Desde un punto de vista funcional, los centros de datos son instalaciones físicas que ejecutan aplicaciones críticas para el negocio, mientras que desde la perspectiva empresarial, son partes de bienes raíces o activos de capital que deben presupuestarse y administrarse.
El punto es que un solo punto de falla podría (y con frecuencia lo hace) causar una gran interrupción en las operaciones y, en consecuencia, conducir a una pérdida de ingresos. Es por eso que necesita un plan y una política de gestión de riesgos generalizados que se apliquen a toda la organización.
Aquí es donde entra en juego la Gestión Integrada de Riesgos (IRM).
Gartner define IRM como “un conjunto de prácticas y procesos respaldados por una cultura consciente del riesgo y tecnologías habilitadoras que mejoran la toma de decisiones y el desempeño a través de una visión integrada de qué tan bien una organización administra su conjunto único de riesgos “.
En el mundo pospandémico, las empresas que implementan trabajo remoto, BYOD, CYOD y otros cambios en las prácticas del lugar de trabajo están combinando su estrategia de transformación digital con actualizaciones de infraestructura de TI para identificar, tolerar y mitigar los riesgos que surgen de desastres naturales, cadena de suministro y procesamiento de datos. , así como los inherentes a su modelo de negocio.
Si usted se encuentra en medio de una transformación digital, debe monitorear todos los procesos y factores, externos o internos, que pueden afectar su centro de datos y estar preparado para lidiar con múltiples riesgos que surgen de uno o varios eventos que ocurren simultáneamente.
La transformación digital no es sólo para las empresas o las organizaciones que dependen en gran medida de los datos o la tecnología, sino que también se aplica a las pymes en el lugar de trabajo posterior a una pandemia, incluidas aquellas que comenzaron con la nube pública como sustituto del centro de datos.
Incluso el gobierno federal se está tomando en serio la transformación digital: transformar la infraestructura del centro de datos para aprovechar la tecnología en la nube es uno de sus dos objetivos centrales (mejorar la experiencia del usuario en línea es otro).
“La optimización del centro de datos es una medida clave para la creación de cuadros de mando en la Ley Federal de Reforma de la Adquisición de Tecnología de la Información. Esta medición es en parte un reflejo de qué tan bien la infraestructura de la agencia se aprovecha de la nube”, afirma Jeff Shupack, un experto en transformación digital con 15 años de práctica en la reducción del riesgo de iniciativas de capital global con implementaciones Lean-Agile.
Las organizaciones se están dando cuenta de que las metodologías ágiles, el análisis de Big Data, las soluciones de movilidad y DevOps funcionan en conjunto con un centro de datos confiable y actualizado para una prevención de riesgos eficiente, una respuesta adecuada a los riesgos y una rápida recuperación ante desastres. Como resultado, están recurriendo a marcos que permiten implementar estas mejores prácticas en infraestructuras de TI híbridas para garantizar la continuidad del negocio, reducir el OPEX y mejorar la experiencia digital del cliente.
2. Conozca sus riesgos
No importa cuán completo sea su plan de gestión de riesgos, nunca podrá evolucionar más rápido que la tecnología. Y la nueva tecnología y las nuevas prácticas laborales están creando más complejidades que nunca. Echemos un vistazo rápido a los diferentes tipos de riesgos que enfrentan los centros de datos.
- Seguridad informática inadecuada
Posiblemente el mayor riesgo al que se enfrentan los centros de datos en la actualidad, las infracciones de seguridad cibernética pueden variar desde ataques DoS hasta ingeniería social y robo de datos. La violación de datos promedio costó 4.24 millones de dólares en 2021, el más alto en 17 años.
Las fallas de aplicaciones y sistemas también tienen un impacto en el frente de seguridad física, lo que resulta en situaciones en las que las tarjetas de identificación no se pueden verificar, se pierden las conexiones de CCTV o se niega la entrada al personal autorizado a ciertas áreas.
- Falla del sistema
Sin una arquitectura resistente y una conectividad continua, redundante y de gran ancho de banda, un centro de datos está condenado al fracaso. Los servidores, los dispositivos de red y los equipos asociados necesitan características como agrupamiento y duplicación para reducir las posibilidades de tiempo de inactividad.
A veces, las aplicaciones o el software (como los hipervisores) actúan y eliminan servidores o redes enteros con ellos. Ustede debe asegurarse que todas las aplicaciones funcionen a la perfección en una infraestructura híbrida y también se comuniquen con las aplicaciones nativas de la nube.
- Falla en la alimentación eléctrica
Aunque es extremadamente raro, los cortes de energía pueden ocurrir y ocurren, principalmente como consecuencia de desastres naturales. Debe proporcionar rutas de energía respaldadas por UPS o generador a todos los racks y sistemas de enfriamiento en su centro de datos. Una conexión directa a una red eléctrica de varias subestaciones ayuda a protegerse contra una interrupción en la subestación local.
- Fuga de agua
Las inundaciones o las filtraciones de agua pueden significar la fatalidad para los equipos del centro de datos. Sin embargo, los conductos de agua y el drenaje en buen estado son cruciales para los sistemas de enfriamiento y control de incendios.
- Ruido de alto decibelio
Un riesgo menos conocido pero significativo para los centros de datos es la exposición prolongada a vibraciones de sonido fuertes y de alta frecuencia, que pueden disminuir la eficacia de los sistemas de almacenamiento, reducir el rendimiento de lectura / escritura y, en última instancia, afectar la integridad de los datos. Los centros de datos deben construirse lejos de estadios, estaciones de bomberos, aeropuertos y similares, y deben ubicarse dentro de edificios que utilicen tecnología de supresión acústica.
- Fuego
Los picos de energía eléctrica y los cortocircuitos son causas comunes de incendios en los centros de datos. Si no se contienen rápidamente, los incendios pueden arrasar en hardware por valor de miles de dólares en minutos. Irónicamente, los sistemas de aire acondicionado y refrigeración disipan el humo y dificultan la detección de un incendio en las primeras etapas. Utilice sistemas de detección de humo con sensores fotoeléctricos para monitorear continuamente el aire en su centro de datos en busca de señales de humo.
- Planificación deficiente de la recuperación ante desastres
Si bien la copia de seguridad de datos es un procedimiento bastante simple en estos días, se prefieren los centros de datos a la nube pública por una combinación de razones de seguridad y rendimiento: esperaría la recuperación inmediata de los datos transaccionales en caso de una falla del sistema.
Por supuesto, esto depende de factores como la naturaleza del negocio y el marco regulatorio al que pertenece. Razón de más para tener un plan claro de recuperación para cada evento de falla diferente; lo mismo ocurre con los recursos informáticos, de almacenamiento o de red.
Los planes de recuperación ante desastres más preventivos cuentan con sistemas de monitoreo que rastrean los factores de riesgo que afectan los centros de datos y envían alertas cuando se cruzan los umbrales críticos.
3. Evalúe el riesgo antes de gestionarlo
No todos los riesgos, como las empresas, son iguales. Si bien los centros de datos enfrentan sus propios riesgos distintivos, especialmente para diferentes verticales, las técnicas de mitigación de riesgos que termina utilizando no necesariamente deben adaptarse al entorno de un centro de datos.
Por lo tanto, necesita un plan de gestión de riesgos que enumere todos los riesgos imaginables que enfrenta su centro de datos y especifique las respuestas a cada tipo de incidente. Antes de que suceda.
Empiece por llevar a cabo una auditoría de riesgos : una evaluación integral de todas las instalaciones que posee y opera. Evalúe los factores que afectan el diseño de las instalaciones, la infraestructura de TI y los procesos operativos.
Si ha habido incidentes importantes o interrupciones en el pasado, haga un análisis de la causa raíz (si aún es posible) para abordar cualquier brecha que no haya cubierto. ¿Qué puede hacer para asegurarse de que el tiempo de inactividad no vuelva a ocurrir en circunstancias similares?
Además, si opera una arquitectura híbrida con múltiples centros de datos y sistemas en la nube, audite cada uno por sí solo, así como las rutas de datos y las conexiones entre todos ellos.
Si opera en industrias altamente reguladas, como las finanzas y la atención médica, debe realizar evaluaciones periódicas de riesgos del centro de datos y pruebas de desastres como parte de sus operaciones de rutina.
Como con todo lo demás, la creación de un marco, una política o una hoja de trucos (como mínimo) proporciona una referencia rápida de las categorías de riesgo que se aplican a usted, los sistemas a los que afecta cada categoría, los costos estimados de daños y recuperación, y el protocolo a seguir en caso de incidente o desastre.
Por ejemplo, la empresa de consultoría de TI Capgemini emplea un enfoque en evolución para la gestión de riesgos que identifica y cuantifica los riesgos junto con sus costos de mitigación. “Hemos puesto en marcha un sistema de gestión de riesgos mensual que registra todos los riesgos y problemas con planes de acción y contención. Un presupuesto de inversión está disponible si se requieren cambios”, asevera Kevin Read , Gerente Senior del Centro de Entrega de Capgemini.
Matar el tiempo de inactividad
Un centro de datos, o incluso toda la infraestructura de TI de una empresa, nunca funciona de forma aislada. Hay innumerables componentes y factores que hacen que los centros de datos funcionen las 24 horas del día.
La mitigación de riesgos con la infraestructura de TI es una responsabilidad compartida, no solo del CIO o CTO. Debe tener una cantidad adecuada de personal de TI capacitado y dispuesto a hacer lo que sea necesario para mantenerse al tanto de las operaciones del centro de datos.
Les dejo con un consejo de Gavin Millard , vicepresidente de marketing de productos de Tenable: “Los objetivos en conflicto pueden ser difíciles de abordar, pero uno de los métodos más efectivos para hacerlo es tener un proceso altamente eficiente para identificar continuamente donde reside un riesgo. También necesita un método predecible y confiable para actualizar los sistemas sin afectar los objetivos comerciales generales de la organización “.