¿Qué es un científico de datos?

El de científico de datos es, en la actualidad, el trabajo más cool que hay, y uno de los perfiles más demandados por las organizaciones. Pero ¿sabemos realmente qué es un científico de datos?

Hay muchas personas que se definen como tales, pero que en realidad no tienen el conjunto de habilidades necesarias para desempeñar el cargo. Esto no quiere decir que estos profesionales tengan una intención expresa de engañar. Lo novedoso de la ciencia de datos y la falta de una descripción precisa de este tipo de posición, hace que muchas personas piensen que están cualificados para desempeñar este rol dentro de las organizaciones por el simple hecho de que tiene que ver con los datos.

La ciencia de datos se refiere a la aplicación de todo un arsenal de herramientas y técnicas (matemáticas, cálculo, visualización, análisis, estadística, experimentación, definición de problemas, creación y validación de modelos,…) para inferir ideas y conceptos, así como para extraer el verdadero valor que encierran los datos: conocimiento.

Lo primero que debemos es entender que define al científico de datos como tal y que conjunto de habilidades debe tener; para poderle diferenciar, lo más precisamente posible, de un analista de datos o de un ingeniero de datos.

Para ayudar a resolver este desafío, desde Import.io proponen 20 cuestiones, que ayudan a evaluar si alguien tiene el perfil adecuado para ocupar el puesto de Científico de Datos. Debe ser alguien capaz de:

  1. Explicar cuál es el poder de la estadística.
  2. Decir qué es el análisis de la “causa origen” (root cause).
  3. Explicar que son la precisión de los datos y su recuperación, y como éstas se relacionan con la curva de ROC.
  4. Saber qué es la regularización de los datos y por qué es útil.
  5. Definir qué es el sesgo, en la selección de los datos, por qué es importante y cómo se puede evitar.
  6. Indicar cómo se debe validar un modelo creado para generar un entorno de predicción de una variable de resultado cuantitativo mediante regresión múltiple.
  7. Explicar qué son los métodos de remuestreo de datos, por qué son útiles y cuál son sus limitaciones.
  8. Explicar qué es un falso positivo y qué es un falso negativo, así como por qué es importante diferenciar entre unos y otros.
  9. Saber si es mejor tener demasiados falsos positivos o demasiados falsos negativos, y explicar por qué.
  10. Saber cómo se pueden detectar valores atípicos y qué se debe hacer si se encuentra uno.
  11. Expresar cómo podemos utilizar la teoría del valor extremo, las simulaciones de Montecarlo o cualquier otro tipo de estadística matemática, para estimar, lo más precisamente posible, la probabilidad de que ocurra un evento muy raro.
  12. Conocer la diferencia entre datos de formato “largo” y datos de formato “ancho”.
  13. Identificar y utilizar un método para determinar si unos datos estadísticos publicados, por ejemplo en el artículo de un periódico, son erróneos o están presentados para apoyar el punto de vista del autor, en lugar de aportar información correcta, fáctica y completa sobre el tema específico que se está tratando.
  14. Probar que introducir una mejora en un algoritmo existente, es realmente mejor que no hacer nada.
  15. Conocer herramientas de visualización de datos, y especialmente tener una opinión formada sobre las ventajas e inconvenientes y las fortalezas y debilidades de Tableau, R y SAS. Además de saber cómo representar cinco dimensiones en un gráfico o en un vídeo.
  16. Explicar el concepto de Edward Tufte: Chartjunk
  17. Aportar un ejemplo de como utilizar el diseño experimental para inferir el posible comportamiento de un usuario.
  18. Qué son los motores de recomendación y cómo funcionan.
  19. Estar familiarizado con conceptos como la fijación y elasticidad de precios, la gestión de inventario y la inteligencia competitiva; y dar ejemplos de cada uno de ellos.
  20. Conocer a otros científicos de datos, así como sus metodologías de trabajo, y cuál considera las mejores startups del sector.

En resumen, un científico de datos, debe saber cómo aplicar las matemáticas  y las estadísticas, así cómo construir y validar un modelo determinado usando el diseño experimental más adecuado. Tener conocimientos informáticos sin saber estadística es para un científico de datos lo mismo que para un cirujano es saber medicina pero no saber como manejar el bisturí.

Anuncios

Un comentario en “¿Qué es un científico de datos?

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s