Cómo ser Científico de Datos sin saber programar

Para ser un buen científico de datos se considera imprescindible saber programación, lo que es una barrera para todos los que no han tenido la oportunidad de haber tenido este tipo de asignatura en su proceso formativo.

Es seguro de que hay un gran número de personas que quieren entrar en el mercado de la ciencia de los datos, pero no cuentan con unos conocimientos adecuados de programación, que se suponen imprescindibles para el desempeño de su labor.

La buena noticia es que en el ecosistema digital se pueden encontrar multitud de herramientas, que obvian aspectos de la programación y proporcionan un entorno de usuario (GUI) fácil de usar, de manera que cualquier persona, con un conocimiento mínimo de como funcionan los algoritmos, puede utilizarlas para construir modelos predictivos.

Entre las que he tenido la oportunidad de conocer y trabajar, me gustaría destacar dos: RapidMiner y Google Cloud Prediction API

RapidMiner

Se lanzó al mercado en 2006, como software Open Source, bajo la marca Rapid-I, y ya ha conseguido levantar 35 millones de USD de financiación.

RapidMiner cubre todo el ciclo de vida del modelo de predicción, desde la preparación de datos, pasando por la construcción de modelos y, finalmente, alcanzando las fases de la validación y despliegue.

La GUI está basada en diagramas de bloques, algo muy similar a Matlab Simulink, y cuenta con bloques predefinidos que actúan como dispositivos plug and play. Sólo hay que conectarlos de forma correcta y una gran variedad de algoritmos se podrán ejecutar sin escribir una sola línea de código. Otra de sus funcionalidades interesantes es que permite integrar scripts personalizados tanto en R como en Python, para aquellos usuarios más avezados.

Cuenta con diferentes módulos, que pueden trabajar de forma independiente:

  • RapidMiner Studio: Concebido para la preparación de datos, la visualización y el modelado estadístico.
  • RapidMiner Server: Es un entorno con repositorios centrales, pensados para el trabajo en grupo, la gestión de proyectos y la implementación de modelos.
  • RapidMiner Radoop: Proporciona un entorno gráfico para el análisis de grandes volúmenes de datos, simplificando el proceso de creación, ejecución y operación de flujos de trabajo de análisis predictivo en clústeres Hadoop.
  • RapidMiner Cloud: Un repositorio basado en la nube que permite compartir fácilmente la información entre varios dispositivos

Esta solución está implantada en multitud de sectores, desde la automoción, pasando por el mundo de las finanzas (banca y seguros), el de las ciencias de la vida, los de la fabricación, el petróleo y el gas, el de los comercios minoristas,o el de las operadoras de telecomunicaciones; y llegando incluso al de las administraciones públicas.

Cuenta con una modalidad freemium para 10.000 data rows y 1 procesador lógico, pero para mayores necesidades dispone de modalidades de servicio en pago.

Google Cloud Prediction

La API de Google Cloud Prediction, basada en APIs RESTful (una forma de proporcionar interoperabilidad entre distintos entornos en Internet), permite crear modelos de aprendizaje automático para aplicaciones Android.

Los usuarios navegan cada día más desde sus dispositivos móviles, por lo que es importante disponer de herramientas que nos permitan entender qué está ocurriendo en este entorno para tomar decisiones. Esta plataforma está diseñada específicamente para aplicaciones móviles basadas en Android OS y entre sus casos de uso incluye:

  • Motor de recomendación: Según los últimos hábitos de visualización de un usuario, predecir qué otros contenidos o productos le pueden gustar a un usuario.
  • Detección de Spam: Para clasificar los correos electrónicos como spam o no-spam.
  • Análisis del sentimiento: Se pueden analizar los comentarios publicados, sobre un producto, servicio o contenido, para determinar si tienen un tono positivo o negativo.
  • Predicción de compra: Estimar el potencial de gasto de un usuario en un usuario en un día dado, basándose en su historial de compras.

Esta API se puede utilizar en cualquier sistema, y dispone también de bibliotecas específicas de los distintos clientes de API de Google para mejorar cuestiones relacionadas con el rendimiento y la seguridad; y puede interactuar con varios lenguajes de programación: Python, Go, Java, JavaScript, .net, NodeJS, Obj-C, PHP y Ruby.


Éstas son sólo dos de las múltiples herramientas que podemos encontrar para desarrollar labores como Científico de Datos. Pero seguro que conocéis más, por lo que espero vuestros comentarios, sugerencias y recomendaciones sobre aquellas con las que hayáis tenido la oportunidad de trabajar o de las que hayáis oído hablar.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s