Big Data más allá de Hadoop

Hadoop y MapReduce han sido pilares del movimiento de Big Data, pero algunas compañías necesitan ahora formas nuevas y más rápidas para extraer el valor de negocio a los masivos -y en constante crecimiento- conjuntos de datos.
 
Mientras que muchas organizaciones de gran tamaño siguen recurriendo al framework de fuente Hadoop; su creador, Google, y otros ya se han pasado a nuevas tecnologías.
 
La plataforma Apache Hadoop es una versión de código abierto del sistema de archivos de Google y la tecnología de Google MapReduce. Fue desarrollado por el motor de búsqueda para gestionar y procesar grandes volúmenes de datos en hardware de consumo.
 
Ha sido una parte fundamental de la tecnología de manipulación utilizada por Google para rastrear e indexar la web.
 
Cientos de empresas han adoptado Hadoop en los últimos tres años para la gestión de volúmenes de datos estructurados, semi-estructurados y no estructurados de rápido crecimiento.
 
La tecnología de código abierto ha demostrado ser una opción más barata que las tecnologías tradicionales de almacenamiento de datos empresariales, para aplicaciones como registro de datos y análisis de eventos, gestión de eventos de seguridad, análisis de medios sociales y otras aplicaciones que implican conjuntos de datos a escala de petabytes.
 
Sin embargo, los analistas señalan que algunas empresas han comenzado a mirar más allá de Hadoop. Éste está construido para manejar trabajos de procesamiento por lotes, donde los datos son recogidos y procesados en lotes. Los datos en un entorno de Hadoop se rompen y se almacena en un clúster de servidores de productos básicos altamente distribuidos o nodos.
 
Con el fin de obtener un informe de los datos, los usuarios tienen que escribir primero un trabajo, presentarlo y esperar a que se distribuya a todos los nodos y se procese.
 
Mientras que la plataforma Hadoop se comporta bien, no es lo suficientemente rápida como para algunas aplicaciones clave, señala Curt Monash, experto en base de datos y análisis, y director de Monash Research. Por ejemplo, a Hadoop no le va bien en la gestión de consultas interactivas ad hocsobre grandes conjuntos de datos, añade.
 
"Hadoop tiene problemas con respuestas interactivas", indica Monash. "Si puede soportar latencias de unos segundos, Hadoop está bien. Pero Hadoop MapReduce nunca va a ser útil para las latencias inferiores a un segundo".
 
Las empresas que necesitan estas capacidades ya están mirando más allá de Hadoop para sus necesidades de análisis de Big Data.
 
Google, de hecho, comenzó a utilizar una tecnología desarrollada internamente llamada Dremel, para analizar interactivamente o "solicitar" cantidades masivas de datos de registro generados por sus miles de servidores en todo el mundo.
 
Google señala que la tecnología Dremel soporta "el análisis interactivo de series de datos muy grandes a través de grupos comunes de máquinas básicas".
 
La tecnología puede hacer búsquedas a través de millones de filas de tablas de datos en cuestión de segundos y escalar a miles de CPU y petabytes de datos, y el soporte de un lenguaje de consulta tipo SQL hace que a los usuarios les sea fácil interactuar con los datos y formular consultas ad hoc, según Google.
 
Aunque las tecnologías convencionales de administración de bases de datos relacionales han soportado consultas interactivas durante años, Dremel ofrece una escalabilidad y velocidad mucho mayores, afirma Google.
 
Miles de usuarios de Google utilizan Dremel para una variedad de aplicaciones, tales como el análisis de documentos web, seguimiento de los datos de instalación de aplicaciones de Android, informes de fallas y mantenimiento de estadísticas I/O de cientos de miles de discos.
 
Sin embargo, Dremel no es un remplazo para MapReduce y Hadoop, añade Ju-kay Kwek, gerente de producto del recientemente lanzado servicio alojado de análisis de datos de Google, BigQuery, basado en Dremel.
 
Google utiliza Dremel junto con MapReduce, añade. Hadoop MapReduce se utiliza para preparar, limpiar, transformar y organizar grandes cantidades de datos de registro del servidor y, a continuación, Dremel se utiliza para analizar los datos.
 
Hadoop y Dremel se distribuyen las tecnologías de computación, pero cada una fue construida para hacer frente a problemas muy diferentes, indice Kwek.
 
Por ejemplo, si Google está tratando de solucionar un problema con su servicio de Gmail, tendría que mirar a través de grandes volúmenes de datos de registro para identificar el problema rápidamente. "Gmail tiene 450 millones de usuarios. Si cada usuario tiene varios cientos de interacciones con Gmail, piense en el número de eventos y la interacción que tendríamos que iniciar", indica Kwek.
 
"Dremel nos permite entrar en el sistema y comenzar a interrogar los registros con consultas especulativas", explica Kwek. Un ingeniero de Google podría decir: "Muéstreme todos los tiempos de respuesta que están por encima de 10 segundos. Ahora muéstremelos por región", añade Kwek. Dremel permite que los ingenieros identifiquen rápidamente cuando se produce una desaceleración, agrega.
 
"Dremel distribuye los datos a través de muchas máquinas y envía la consulta a todos los servidores y les pregunta a cada uno ¿tiene mi respuesta? A continuación, lo agrega y regresa la respuesta en, literalmente, segundos".
 
Usar Hadoop y MapReduce para la misma tarea tomaría más tiempo, porque requiere escribir un trabajo, lanzarlo y esperar a que se extienda por todo el grupo antes de que la información pueda ser enviada de nuevo a un usuario. "Se puede hacer, pero es complicado. Es como tratar de usar una taza para cortar pan", señala Kwek.
 
El mismo tipo de volúmenes de datos que llevó Google a Dremer años atrás, ha comenzado a aparecer en algunas organizaciones empresariales convencionales, agrega Kwek.
 
Las empresas de la industria automotriz, farmacéutica, logística y servicios financieros están constantemente inundadas de datos, y están buscando herramientas que les ayuden a consultarlos y analizarlos rápidamente.
 
El servicio de análisis BigQuery, alojado por Google, está siendo posicionada para tomar ventaja de la necesidad de nuevas tecnologías de grandes datos.
 
De hecho, señala la analista de Gartner, Rita Sallam, el servicio alojado Dremel podría ser un elemento de cambio para el análisis de Big Data.
 
El servicio permite que las empresas consulten grandes conjuntos de datos de forma interactiva sin tener que comprar costosas tecnologías de análisis subyacentes, señala Salam. Las empresas pueden explorar y experimentar con diferentes tipos de datos y volúmenes de datos en una fracción de lo que costaría comprar una plataforma de análisis de datos empresariales, añade.
El verdadero aspecto destacable de BigQuery no es su tecnología subyacente, sino su potencial para recortar costos en las grandes empresas, indica.
 
"Ofrece una manera efectiva, en términos de costo, para analizar grandes conjuntos de datos", en comparación a las tradicionales plataformas de datos empresariales. "Realmente tiene un potencial de cambiar la ecuación de costos, y permite que las empresas experimenten con sus grandes datos", señala Salam.
 
Los principales proveedores de productos de inteligencia de negocio, incluyendo SAS Institute, SAP,Oracle, Teradata y Hewlett-Packard, se han apresurado a ofrecer herramientas que ofrecen capacidades mejoradas de análisis de datos. Al igual que Google, la mayoría de estos vendedores ven a la plataforma Hadoop como almacén masivo de datos para la preparación y puesta en escena de múltiples datos estructurados para ser analizados por otras herramientas.
 
Apenas pocos días atrás, SAP dio a conocer un conjunto de Big Data diseñado para permitir que las grandes organizaciones integren entornos Hadoop con la base de datos en memoria HANA de SAP y tecnologías asociadas.
 
El producto utiliza la plataforma SAP HANA para leer y cargar datos desde entornos Hadoop, y luego hacer rápidos análisis interactivos en los datos mediante informes de SAP y herramientas de análisis.
 
SAS ha anunciado una capacidad similar para High Performance Analytic Server, dado de alta hace unas semanas. HP con la tecnología adquirida con la compra de Vertica, Teradata con su adaptadorAster-Hadoop,  e IBM con sus set de herramientas Netezza, pronto ofrecerán capacidades similares.
 
Pero el negocio también ha atraído a un puñado de nuevas empresas.
 
Una de ellas, Metamarkets, ha desarrollado un servicio basado en la nube diseñado para ayudar a que las empresas analicen grandes cantidades de datos frescos en tiempo real. En el corazón de este servicio está una tecnología de base de datos memoria distribuida incluida y desarrollada internamente llamada Druida, según el CEO de la compañía, Driscoll Michael. Él compara a Druid con Dremel en el concepto.
 
"Dremel fue diseñado desde el principio para ser un almacén de datos analítico", señala Driscoll. Su diseño de memoria interna con columna en paralelo hace que sea varias órdenes más rápido que un almacén de datos tradicional, añade. "Tenemos una arquitectura muy similar. Estamos orientados en columnas, distribuidos y con memoria interna", agrega.
 
La tecnología de Metamarkets, sin embargo, permite que las empresas ejecuten consultas sobre los datos incluso antes de que se transmitan a un almacén de datos, por lo que permite una visión aún más rápida que Dremel, añade.
 
Metamarkets lanzó Druid a principios de este año para la comunidad de código abierto, con el fin de estimular más la actividad de desarrollo en torno a la tecnología.
 
La demanda de esta tecnología es impulsada por la necesidad de velocidad, señala Driscoll.
 
Hadoop, añade, es simplemente demasiado lenta para las empresas que necesitan tiempos de respuesta en sub-milisegundos. Las tecnologías de análisis, como las ofrecidas por los proveedores tradicionales son más rápidas que Hadoop, pero aún no se adaptan tan bien como un Dremel o un Druid, indica Driscoll.
 
Nodeable, otra nueva empresa, ofrece un servicio de nube alojada llamado StreamReduce que es similar a la oferta de Metamarkets.
 
StreamReduce es alimentado por Storm, una tecnología de análisis de datos de código abierto desarrollado originalmente por BackType, antes de que fuera adquirido por Twitter el año pasado. Storm, también se utiliza internamente por Twitter, está diseñada para permitir que las empresas ejecuten análisis en tiempo real de los datos de transmisión.
 
Nodeable ofrece un conector para Hadoop, por lo que las empresas también pueden utilizar el servicio para ejecutar consultas interactivas con los datos almacenados en su entorno Hadoop, comenta el CEO, Dave Rosenberg.
 
Nodeable se inició como una empresa de gestión de sistema de nube, pero cambió de giro cuando vio una gran oportunidad en la tecnología de análisis de datos. "Nos dimos cuenta que faltaba un complemento en tiempo real para Hadoop. Nos preguntamos, ¿cómo alcanzamos el tiempo real con Hadoop?", señala Rosenberg.
 
Servicios como los de Nodeable no remplazan a Hadoop, lo complementan, agrega Rosenberg.
 
StreamReduce le ofrece a las empresas una manera de extraer información práctica de la transmisión de datos, que se pueden almacenar en un ambiente Hadoop, o en otro almacén de datos, para hacerles un procesamiento por lotes más tradicional después, explica.
 
Los motores de transmisión como los ofrecidos por Nodeable y Metamarkets son diferentes a  tecnologías como Dremel en un aspecto importante: están diseñados para el análisis de los datos en bruto, antes de que lleguen a una base de datos. Dremel y otras tecnologías están diseñadas para consultas ad hoc de los datos que ya están en un almacén, como un entorno Hadoop.
 
Mientras tanto, los grandes jugadores de Hadoop no se están quedando de brazos cruzados.
 
Cloudera, el mayor proveedor de tecnología comercial Hadoop, lanzó una tecnología llamada Cloudera Impala, un motor de consulta en tiempo real de los datos almacenados en el Hadoop Distributed File System.
 
La tecnología Impala permitirá que las empresas hagan operaciones por lotes y en tiempo real sobre los datos estructurados y no estructurados dentro de un sistema, de acuerdo con Cloudera.