¿Es la nube el sitio indicado para almacenar los datos?

La única gran noticia que viene de la primera conferencia de usuarios de Amazon Web Service ha sido el lanzamiento del nuevo servicio de la compañía, Redshift, una herramienta de data warehouse basada en la nube. Pero surge la pregunta: ¿Es la nube el lugar adecuado para su almacén de datos?

Los funcionarios de AWS dicen que para las empresas que luchan por administrar sus datos, la nube puede proporcionar una alternativa de bajo costo a la inversión en infraestructura. Quizá los mayores problemas que frenan a Redshift son las mismas preocupaciones que vienen junto con el uso de la nube pública en general. Algunos simplemente no se sienten cómodos poniendo los datos financieros o confidenciales en la nube pública. Y luego está la cuestión de cómo toda esa información se transfiere a la nube.

Estos problemas -una combinación de beneficios potenciales relacionados con los costos y la capacidad de gestión, junto con la preocupación por la seguridad y la transferencia de datos- probablemente significarán que Redshift sigue el camino de muchos de los otros servicios de AWS orientados a empresas, señala Jeff Kelly, investigador de big data en The Wikibon Project. Los negocios que ven al futuro y que ya han adoptado la nube de Amazon, se pueden mover más rápido a la nube por servicios como el almacén de datos; mientras que las grandes empresas que han tardado en saltar a la nube pública, pueden probar el servicio sobre una base de caso de uso para ver si es el sistema más adecuado para ellos.

Los almacenes de datos se han definido tradicionalmente como servicios a medida que agregan datos de varias fuentes diferentes y las recolectan en una ubicación central para poder generar informes y consultas de la misma. Muchas empresas utilizan data warehouses para elaborar periódicamente informes financieros o análisis de los indicadores del negocio. Redshift es una herramienta basada en SQL diseñada para escalar desde un terabyte hasta múltiples tamaños de petabytes.

Junto con el anuncio de Redshift, AWS también lanzó dos nuevos tipos de instancias de máquina virtual destinadas a trabajar con Redshift, incluyendo una instancia XL que tiene 2TB de almacenamiento local, y un tipo de instancia 8XL con 16TB de almacenamiento. AWS se ha asociado con la empresa de análisis de base de datos ParAccel para que hacer la arquitectura de Redshift después de que Amazon.com, la compañía matriz de AWS, invirtiera en la empresa el año pasado. Al igual que en los almacenes de datos tradicionales que están en las instalaciones de la empresa, Redshift puede ser diseñada para, por ejemplo, integrar los datos de la base de datos de Amazon DynamoDB NoSQL, Simple Storage Service (S3), o las aplicaciones existentes en las instalaciones propias del cliente. Redshift es un repositorio de datos para que puedan ser expuestos a las herramientas de análisis de negocios que ejecutan informes sobre él.

“Creo que definitivamente habrá algún interés” por Redshift, señala Kelly, el investigador de Wikibon. “Uno de los problemas con los almacenes de datos es que muchas veces esto es muy crítico, como la información propietaria que algunos pueden ser reacios a enviar fuera a un proveedor de la nube”. Para las organizaciones que tienen datos alojados en silos, tiene demandas variables; o para empresas que no cuentan con la infraestructura de gestión de almacenamiento de datos en las instalaciones, podría ser una opción atractiva. “Si ya está haciendo gestión de datos en la nube, y en la nube de Amazon, en particular, esto parece una oportunidad para tomar ventaja de un nuevo servicio”, comenta.

Uno de los mayores desafíos con el data warehouse en la nube es la forma en que los datos se transfieren hacia arriba en una nube de AWS. El bombeo de terabytes o incluso petabytes de datos, hasta la nube de AWS a través de la Internet pública no solo puede venir con problemas de seguridad, sino que también se come ancho de banda. AWS tiene contactos con los sitios de los proveedores de terceros, como Equinix, para conexiones directas a la nube. Y los funcionarios de AWS dicen que el envío de datos en discos físicos a través de un servicio de transporte es una forma común en que los clientes ingresan y sacan datos de la nube de AWS.

Por supuesto, la migración de datos a la nube no un gran problema si los datos ya están en la nube de AWS, como es el caso para muchas nuevas empresas que han confiado en los servicios de AWS hasta el momento. AWS lanzó Data Pipeline en el segundo día de la conferencia para ayudar a gestionar la transferencia de datos en toda la nube de AWS con 10 conexiones Gigabit. Sin embargo, muchas empresas con una gran cantidad de datos ya tienen un almacén de datos, por lo que tal vez una empresa puede probar Redshift para el almacenamiento de nuevos datos, pero la información confidencial sobre la compañía -como los informes financieros o la información de identificación personal de los clientes- no puede estar ahí todavía, sugiere Kelly.

Una de las mayores ventajas de Redshift, según AWS, es el costo. AWS afirma que, basándose en el uso de Redshift por Amazon.com, puede manejar datos que están alrededor de mil dólares por terabyte de datos al año, frente a los 19 mil a 25 mil dólares por terabyte de datos al año de un almacén de datos en las instalaciones.

Ese es un ahorro potencial para las grandes empresas, y elimina una barrera de costos que ha llevado el almacenamiento de datos de regreso a las pequeñas y medianas empresas, según el científico en jefe de AWS, Matt Wood. Igualmente importante, señala, es que Redshift y otros servicios de AWS permiten que las empresas se enfoquen en sus propios negocios, en lugar de administrar la infraestructura.

Así que si AWS cree que el data warehouse es un gran ajuste para la computación en la nube, ¿por qué los otros proveedores no lo hacen? Kognitio, una plataforma europea de administración de datos y de BI, ha generado algunos rumores en cuanto al data warehouse basado en la nube y está tratando de llevarlo al mercado empresarial de EE.UU., pero no ha ganado mucha tracción desde que lo lanzó hace más de dos años. Los almacenes de datos como Oracle, Microsoft, IBM y otros, pueden habilitar el almacenamiento de datos basado en la nube, pero no han hecho pública esta capacidad.

Luego están los nuevos jugadores en este espacio. EMC y VMware anunciaron hace poco su iniciativa Pivotal, una combinación de tecnologías basadas en la nube y de big data de cada una de las empresas. Google, con su servicio BigQuery, es otro jugador a seguir en este espacio, indica Kelly.

Sin embargo, Redshift parece un movimiento natural de AWS. Recientemente la compañía ha estado tratando de reforzar sus productos, servicios e imagen para el mercado empresarial, lo cual es evidente por el anuncio de su desplazamiento hacia nuevos servicios como Redshift y Glacier. Los ejecutivos de AWS mencionaron al mercado empresarial en la conferencia de usuarios. Del mismo modo, hicieron un claro lanzamiento dirigido a las grandes empresas. Redshift todavía se encuentra en las primeras etapas; AWS solo anunció una versión beta limitada del producto y la ha estado acunando hasta el momento en que se esté disponible un Redshift con todas las funciones.

Aunque la mayoría de las empresas no estén listas para utilizar un gran almacén de datos en la nube ahora mismo, Philip Russom, director de investigación para la gestión de datos en The Data Warehousing Institute, señala que Redshift podría ser un intento de AWS para ser el primero en ese mercado. “Si es un proveedor, deseará estar por delante de la demanda antes de que realmente se eleve”, indica el ejecutivo. “Amazon tiene un buen historial en el mundo de la nube, así que si alguien está buscando descargar el almacenamiento de datos a la nube, parece ser un lugar natural hacia dónde mirar”.

– Network World US / IDG News