MapReduce cede a Spark el corazón de Hadoop

Cloudera, una de las compañías pioneras en Big Data, ha anunciado que está reemplazando MapReduce por Spark para el procesamiento general de datos, dentro de su ecosistema Hadoop, en un comunicado emitido este pasado 9 de septiembre, por la firma radicada en Palo Alto.

Esta iniciativa se debe, en gran medida, a la amplia adopción que está teniendo Spark entre los clientes de Cloudera, durante los últimos 18 meses, y a que, además, se está convirtiendo en el proyecto de código abierto más popular dentro de la comunidad Hadoop.

En el mismo comunicado Mike Olson, fundador y director de estrategia de Cloudera, indicó que: “Spark está superando a MapReduce, en la ejecución simultánea de trabajos, con cientos de procesos cada uno de ellos, en grandes cluster multi-tenant con decenas de miles de nodos; aunque todavía hay mucho trabajo que hacer. Es un objetivo ambicioso, pero con la comunidad de desarrolladores y usuarios, junto a nuestro liderazgo, creemos que es altamente factible su rápida evolución y adopción.”

Como ya se habló en este mismo blog, en un post publicado el pasado mes de febrero, sobre la posibilidad de que Spark sustituyera a MapReduce dentro del ecosistema de Hadoop, tras el anuncio el pasado junio de IBM comprometiéndose a integrar Spark en sus software de análisis, a donar su tecnología de aprendizaje de máquinas SystemML al ecosistema de Spark y a ofrecerlo como un su servicio en su nube IBM bluemixel; que una compañía como Cloudera apueste claramente por esta tecnología, junto a su cada vez más numerosa y activa comunidad de usuarios y desarrolladores, supone el espaldarazo definitivo para que se cumpla este presagio.

Spark es más rápido, al ser capaz de procesar los trabajos de entre 10 y 100 veces más rápido que MapReduce, y mucho más potente tanto para el procesamiento iterativo como interactivo, pero, lo más importante, es que no sólo es capaz ser ejecutado en Hadoop, también corre de manera integrada en otras herramientas Hadoopy como Hive y Pig.

Spark fue desarrollado por el AMPLab de la Universidad de California, en Berkeley, y publicado como open-souced bajo licencia BSD en 2010, antes de ser donado a la Apache Software Foundation en 2013.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s