Big Data, ha traído de su mano la aparición de muchos términos nuevos, que hacen referencia a algunas de sus disciplinas, que se han venido a mezclar con otros relativos a diferentes disciplinas preexistentes que también tienen relación con el manejo de grandes volúmenes de datos. Esto, muchas veces, nos genera confusión cuando queremos hacer alusión a una cuestión concreta.
¿Qué es Big Data?
Todos tenemos más o menos claro que cuando nos referimos a Big Data, lo hacemos a grandes volúmenes de datos que no se pueden procesar, de manera efectiva, con las aplicaciones tradicionales.
El procesamiento de grandes volúmenes de datos comienza con los datos en bruto, a los que debemos aplicar distintos procesos: agregación, normalización, procesamiento, etc.; que a menudo son imposibles de realizar en la memoria de un solo equipo.
Data Science o Ciencia de Datos
La ciencia de datos es un campo interdisciplinario sobre los procesos y sistemas que nos permiten extraer conocimiento o ideas a partir de datos en diversas formas, ya sean estos estructurados o no estructurados.
Surge de la continuación e integración de algunos de los campos tradicionales del análisis de datos; principalmente de la ciencia estadística, de la minería de datos y del análisis predictivo.
Data Scientific o Científico de Datos
Es uno de los actores humanos dentro del universo Big Data, y su misión principal es saber cómo aplicar las matemáticas y las estadísticas, así cómo se debe construir y validar un determinado modelo de manejo de datos, usando el diseño experimental más adecuado, para obtener el conocimiento o idea que encierran dichos datos.
En este post hay una descripción más detallada de este rol dentro del ecosistema Big Data.
Data Analytics o Analítica de Datos
El término hace referencia a la automatización de procesos relacionados con el tratamiento de los datos, como por ejemplo su consulta o su agregación.
Puede, por ejemplo, representar el establecimiento de diversas dependencias entre las variables de entrada, o también puede consistir en aplicar técnicas de minería de datos, con el objeto de permitir a un analista encontrar patrones dentro de un conjunto de datos.
Machine Learning o Aprendizaje Automático
Se trata de técnicas de inteligencia artificial, ampliamente utilizadas en la minería de datos. El aprendizaje automático utiliza un conjunto de datos de entrenamiento para construir un modelo que permita predecir el valor de nuestras variables objetivo.
La minería de datos utiliza esta potencia predictiva, usando diferentes algoritmos de aprendizaje automático, para aplicarlos a grandes volúmenes de datos.
Estos son algunos de los términos que hacen referencia a distintos aspectos del Big Data, pero ¿crees que falta alguno más? No dudes en decírmelo para incluirlo.
Podrias incluir la definición de Mineria de datos? Gracias. Seria genial tambien un grafico donde incluyas todos estos conceptos, para entender mejor.
Me gustaMe gusta
Hola Pedro, muchas gracias por tu sugerencia, en los próximos días aparecerá una actualidad del post. Un saludo
Me gustaMe gusta