Cómo administrar la sobrecarga de Big Data

Solía ser algo solo para los científicos, gigantes de Internet y los megamedios sociales (Amazon, Twitter, Facebook y Shutterfly). Pero ahora, cada vez más empresas de todo tipo desean ganar una ventaja competitiva recurriendo al big data, con la esperanza de desenterrar la valiosa información que pueda tener. En la actualidad, compañías como Walmart, Campbell Soup, Pfizer, Merck y cadenas de tiendas como Wawa tienes grandes planes para sus grandes datos.

Algunas se están aventurando con la analítica de los grandes datos para responder con mayor rapidez a los clientes, mantener un mejor registro de la información del consumidor o conseguir llegar con nuevos productos al mercado de manera más rápida.

“Todos los negocios en esta Era de Internet, si no lo hacen, su competencia lo va a hacer”, sostiene Ashish Nadkarni, analista de almacenamiento de IDC.

Las organizaciones de todos los tamaños están siendo inundadas por los datos, tanto de fuentes internas como externas. Gran parte de los datos está siendo emitida en tiempo real, y gran parte de ellos se convierte en obsoleta en minutos, horas o unos cuantos días.

El resultante crecimiento de las necesidades de almacenamiento es especialmente problemático para las grandes empresas, en donde la cantidad de datos estructurados y no estructurados que requieren de almacenamiento creció en promedio 44% del 2010 al 2011, de acuerdo a Aberdeen Group. En compañías de todo tamaño, los requerimientos de almacenamiento de datos se están duplicando cada 2,5 años. Es más, se requieren de diferentes herramientas para optimizar el almacenamiento de videos, hojas de cálculo, bases de datos formateadas y datos completamente no estructurados.

“El desafío es intentar mantener el gasto en almacenamiento en línea con los requerimientos de almacenamiento”, señala Dick Csaplar, analista de virtualización y almacenamiento de Aberdeen. Las tecnologías que pueden ayudar a los usuarios de big data a evitar ese destino incluyen la virtualización del almacenamiento, deduplicación y almacenamiento por capas. Para los grandes usuarios, como los científicos, sitios web de medios sociales y desarrolladores de simulaciones, las mejores opciones son el almacenamiento de bases de datos orientadas a objetos y relacionales.

Pero las bases de los sistemas diseñados para mantener los petabytes (o más) de datos en un formato fácilmente accesible son más complejas que los trabajos internos de las plataformas de almacenamiento convencionales. A continuación el consejo de los expertos para administrar y almacenar big data.

¿Qué tipos de datos está analizando?
El tipo de almacenamiento que se requiere depende del tipo y la cantidad de datos que está analizando. Todos los datos tienen un tiempo de caducidad. El precio de una acción, por ejemplo, solo es relevante por un minuto o dos antes de que el precio cambie. Un puntaje de baseball es visto por alrededor de 24 horas, o hasta el siguiente partido. Este tipo de datos necesitan residir en un almacenamiento primario cuando es demandado, y luego puede ser trasladado a un almacenamiento más económico. Un vistazo a las tendencias a la largo de varios años apoya la idea de que los datos almacenados por largos periodos de tiempo usualmente no necesitan encontrarse en un medio primario de fácil acceso.

¿Cuánto almacenamiento realmente necesita?
La cantidad y tipo de almacenamiento que necesita para big data depende tanto de la cantidad de datos que necesita almacenar como del tiempo que esos datos van a seguir siendo útiles.

Existen tres tipos de datos involucrados en la analítica de grandes datos, afirma Nadkarni. “Pueden ser datos de streaming provenientes de varias fuentes que le llegan literalmente cada segundo, y el periodo de tiempo antes de que esos datos sean viejos es de unos minutos”, sostiene. Este tipo de datos incluye las actualizaciones del clima, el tráfico, los tópicos de tendencia en las redes sociales y los tuits acerca de eventos alrededor del mundo.

Big data también puede incluir a los datos que se encuentran descansando o los datos generados y controlados por el negocio para un uso moderado.

Los datos de streaming requieren solo de capacidades de captura rápida y analítica, sostiene Nadkarni.“Una vez que los haz analizado, ya no los necesitas”. Pero para los datos que se encuentran descansando o los datos controlados por el negocio, “es imperativo que los guarde”, afirma.

¿Qué tipo de herramientas de almacenamiento funcionan mejor?
Para las empresas que están empezando a lidiar con el almacenamiento y el análisis de los grandes datos, los analistas de la industria señalan que la virtualización del almacenamiento puede colocar bajo un solo paraguas a todo el almacenamiento, la deduplicación puede comprimir los datos y un enfoque de almacenamiento por capas puede asegurar que la mayor parte de los datos valiosos se mantenga en los sistemas más fácilmente accesible.

La virtualización del almacenamiento proporciona una capa de abstracción de software que esconde los dispositivos físicos del usuario, y permite que todos los dispositivos sean administrados como un solopool. Aunque la virtualización de servidores es un componente bien establecido de las infraestructuras de TI actuales, la virtualización del almacenamiento aún tiene camino por recorrer.

En una encuesta de febrero del 2012, Aberdeen encuestó a 106 grandes compañías, solo el 20% de los que respondieron afirmaron que tenían una sola aplicación de administración del almacenamiento. El promedio fue tres aplicaciones de administración para 3,2 dispositivos de almacenamiento.

Sin embargo, muchos proveedores de almacenamiento se encuentran poco deseosos de que sus dispositivos sean administrados por el producto de otro proveedor. La virtualización del almacenamiento es “mucho más compleja y necesita más tiempo, por ello no ha tenido el recibimiento de la virtualización de servidores”, sostiene Csaplar. En cambio, muchos administradores de almacenamiento están buscando implementaciones tipo nube para que el almacenamiento de capa tres o cuatro, mueva los datos de manera más sencilla entre diferentes infraestructuras y reducir así los costos de almacenamiento. “Algunas empresas lo han hecho y han obtenido buenos resultados, pero no es pan comido”, sostiene el ejecutivo.

Csaplar espera ver un incremento en la utilización del almacenamiento basado en nube y otros recursos de computación basados en nube en el futuro cercano, a medida que mejore la conectividad de la red, los costos se reduzcan y la capacidad para encriptar y desencriptar datos mejore. “Con la nube, uno tiene una factura para el presupuesto operativo, no un presupuesto de capital aparte”, señala.

Deduplicación y compresión
Los administradores pueden reducir la cantidad de almacenamiento que se necesita con la deduplicación, la cual elimina los datos redundantes usando herramientas de compresión de datos que identifican cadenas cortas, idénticas y repetidas en los archivos individuales y almacenan solo una sola copia de ellas.

¿En cuánto se pueden reducir las necesidades de almacenamiento? En la encuesta de Aberdeen, 13% de los que respondieron afirmaron que habían reducido los datos en 50%, pero una cifra más probable para la mayoría de las empresas podría ser una reducción de 30% a 50% en los datos estructurados muy repetitivos, sostuvo Csaplar.

Almacenamiento en capas
Una vez que el negocio decide qué datos desea analizar, los administradores de almacenamiento pueden poner los datos más recientes y más importantes en el medio de almacenamiento más rápido y confiable. A medida que el dato envejece, puede ser trasladado a un almacenamiento más lento y barato. Los sistemas que automatizan el proceso de colocar en capas el almacenamiento están ganando terreno, pero aún no son usados de manera generalizada.

Cuando se desarrollan niveles de almacenamiento, los administradores deben tomar en consideración la tecnología de almacenamiento, la velocidad del dispositivo y la forma de RAID que se necesita para proteger los datos.

La respuesta estándar al failover es la replicación, usualmente en la forma de arrays de RAID. Pero en escalas masivas, el RAID puede crear más problemas de los que resuelve, señala Neil Day, vicepresidente senior y CTO de Shutterfly, un sitio de fotos en línea que permite a los usuarios almacenar un número ilimitado de imágenes en resolución original. El almacenamiento ha superado los 30 petabytes de datos.

En un esquema tradicional de almacenamiento de datos en RAID, las copias de cada dato tienen un‘espejo’ y son almacenadas en los varios discos del array, asegurando la integridad y la disponibilidad. Pero eso significa que un solo dato almacenado y con espejo, puede inflarse y requerir más de cinco veces su tamaño original. A medida que crecen los drives usando los arrays de RAID -los drives de tres terabytes son muy atractivos desde la perspectiva de la densidad y el consumo de energía- el tiempo que se necesita para conseguir un repuesto para un drive con problemas crece cada vez más.

Shutterfly con el tiempo adoptó la tecnología de código de borrado, en donde una pieza de un dato puede romperse en partes, cada una inservible por sí sola, y dispersarse en diferentes discos o servidores. En cualquier momento, los datos pueden ser completamente re ensamblados con una parte de los pedazos, incluso si varios pedazos se han perdido debido a fallas en los discos. En otras palabras, uno no necesita crear varias copias de los datos; una sola instancia puede asegurar la integridad de los datos y su disponibilidad. Debido a que los códigos de borrado se basan en software, la tecnología puede ser usada con hardware commodity, lo cual reduce los costos de crecimiento aún más.

Uno de los proveedores iniciales de software de código de borrado es Cleversafe, que ha añadido información de localización para crear lo que llama código de dispersión, que permite a los usuarios almacenar partes -rebanadas, como los llaman- en lugares geográficamente separados, como los centros de datos.

Los usuarios de mega big data
Al igual que Shutterfly, las empresas con grandes necesidades de almacenamiento deben ver más allá del almacenamiento por bloques, señala Nadkarni. “Cuando uno habla de grandes conjuntos de datos del rango de los petabytes, uno tiene que ver en el almacenamiento basado en objetos o en un sistema distribuido de archivos”, señala el ejecutivo. “Piense en las ofertas comerciales como el almacenamiento Isilon de EMC o el Fluid File System de Dell… y soluciones de código abierto. Son más económicas para almacenar datos, y desde la perspectiva del desempeño, pueden ofrecer un ratio precio/desempeño mejor. Y, por último, pueden crecer”.

Los usuarios de software comercial generalmente tienen datos que en parte es descartable o tiene pocos requerimientos postproceso, añade.

Se requiere de menos administradores
Cuando se despliegan correctamente las tecnologías de virtualización del almacenamiento, deduplicación, almacenamiento por capas y código de borrado deberían reducirse las necesidades de administradores, ya que las herramientas le permiten a uno administrar los datos a través de un solo panel. En el caso de Shutterfly, la infraestructura automatizada de almacenamiento permitió a la empresa reducir el crecimiento de su personal de mantenimiento. A medida que el mantenimiento diario de la compañía se reduce, los administradores pueden tener más tiempo para proyectos proactivos.

En algunos casos, los proyectos de big data son realizados por equipos especiales, no por el personal tradicional de TI, sostiene Nadkarni. “Son de propiedad y son operados por las unidades de negocio porque la infraestructura de TI no es lo suficientemente ágil para soportar los ambientes de big data o podrían no tener las habilidades necesarias para ello”.

“Uno podría tener una situación en donde los administradores del almacenamiento no se encuentran involucrados”, añade. “O podrían tener solo un pequeño papel en donde [provisionan] algo de almacenamiento y todo lo demás es hecho por las personas de sistemas”.

Muy pronto
Una tendencia que Nadkarni considera que se quedará es el concepto de trasladar la capa de computación a los datos. “Uno ve las soluciones de Cleversafe y soluciones de otros proveedores de almacenamiento que están construyendo capacidades de computación en la capa de almacenamiento”, señala. “Ya no es viable trasladar los datos en donde se encuentra la capa de computación. Es prácticamente imposible, especialmente si solo se tiene unos cuantos minutos para analizar los datos antes de que sean obsoletos. Entonces ¿por qué no dejo que la capa de cómputo se encuentre donde se encuentran los datos?”.

Cleversafe ofrece una solución de gama alta basada en Hadoop para grandes usuarios de grandes datos como Shutterfly, “pero están intentando hacerlo para todo propósito”, señala Nadkarni.“Cleversafe rompe el modelo de procurar [poder de cómputo] de un proveedor y almacenamiento de aplicaciones de otro proveedor”. Para tener éxito con las empresas principales, “las unidades de negocio tendrán que comenzar a pensar de formas diferentes. Confía de que esto con el tiempo prospere ya que las eficiencias en el actual modelo simplemente no les permiten verse bien en el campo del big data”.

Y añade, “big data es una forma de que las personas mantengan su ventaja competitiva. Para obtener el máximo de sus datos, van a tener que cambiar procesos y la forma en que funcionan como compañía, van a tener que ser muy rápidos para obtener valor de estos datos”.

Pero antes de bucear en una nueva infraestructura de almacenamiento de big data, “las personas tienen que hacer su tarea”, señala Csaplar. “Investigar y hablar con personas que lo han hecho antes. No es lo más adelantado, así que hable con alguien que ya lo ha hecho para que no tenga que cometer los mismos errores que ellos han cometido”.

– Computerworld US