Hadoop, cada vez más complejo y fragmentado

El increíblemente rápido ritmo de innovación que distingue el ecosistema Hadoop, con un constante crecimiento en su número de herramientas, encierra grandes ventajas, pero también inconvenientes. Principalmente porque introduce una complejidad para los administradores y desarrolladores, que se enfrentan a una fragmentación en la evolución que está viviendo su entorno. Nos encontramos con los esfuerzos de cada uno de los proveedores, que, para diferenciar sus distribuciones, añaden variaciones en las herramientas de gestión y afectan cada vez más a los procesos analíticos básicos.

Uno de los usos más comunes de Hadoop, ha venido de la mano de su capacidad para aumentar el tradicional almacenamiento de datos. Hadoop, que puede tener un coste tan sólo de 2.000 dólares por TB, ha facilitado disminuir la carga de trabajo en los procesamiento ETL, donde los costes pueden llegar a los 35.000 dólares por TB de datos.

Además de las ventajas de precio/rendimiento, los científicos de datos y analistas de negocio pueden utilizar Hadoop para trabajar con volúmenes de datos muy grandes y sin refinar.

Sin embargo el mayor valor de Hadoop está en su uso como plataforma analítica, que ayuda en la realización de un remake de los registros en sistemas heredados. Pero los sistemas modernos de Inteligencia requieren el análisis en tiempo real, y, a la vez, una mayor simplicidad operativa y el desarrollo de una correcta estructura base de Hadoop, para que puedan desarrollar su potencial.

Sin esa simplicidad, existe el riesgo de que la complejidad llegue a limitar el crecimiento de Hadoop y que la falta de habilidades operaciones y sus mayores costes de explotación, eliminen el ahorro inicial.

En este escenario, hay una oportunidad para que terceros actores, dentro del ecosistema, “escondan” parte de esta complejidad. Como podemos ver en un informe publicado en Wikibon, por George Gilbert, que analiza como simplificar el desarrollo y mantenimiento de aplicaciones Hadoop, y acelerar su ciclo de vida, a partir de la solución de Syncsort.

Este informe explica cómo el procesamiento de datos de Hadoop se puede combinar con sus herramientas de gestión, para aprovechar todo su potencial. Esto está estrechamente relacionado con la eclosión de un nuevo escenario, el de una única plataforma convergente para análisis; como puede ser la solución Databricks de Spark-as-a-Service, ya sea como complemento o sustituto de Hadoop.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s