No se pueden negar las oportunidades laborales que se están creando en torno al Big Data, sin embargo, este mundo se mueve tan deprisa que, en un plazo tan corto, no solo se desarrollan nuevas tecnologías, con sus respectivos ecosistemas, sino que se alcanza un grado de especialización tal como para establecer ciertas diferencias en cada perfil que se ha creado.
El ingeniero de datos es un profesional dedicado principalmente a aportar orden en el ese caos absoluto que son los datos no estructurados. Así pues, podemos decir que desarrolla, construye, prueba y mantiene arquitecturas de almacenamiento y gestión de los mismos, como bases de datos y sistemas de procesamiento a gran escala. Así pues, el ingeniero se enfrenta a múltiples problemas, como la ya mencionada falta de estructura (algo sencillamente impensable hace no tantos años), errores en dicha información (desde fallos ortográficos en Twitter hasta errores en la transcripción o el volcado de datos). El ingeniero debe ser conocedor de todos los problemas que pueden arrastrar los datos, y debe ser capaz de detectarlos en todos los casos, de corregirlos cuando sea posible, y de descartarlos si no queda otra alternativa.
Así pues, todo lo relacionado con los sistemas de adquisición, gestión, proceso y administración de datos debe pasar, de manera ineludible, por el ingeniero de datos, pues de su trabajo depende de manera crítica la arquitectura y, por lo tanto, el modo en el que se podrá trabajar posteriormente con dicha información. Los ingenieros de datos tendrán que recomendar, y en muchas ocasiones directamente implementar sistemas para mejorar la confiabilidad, eficiencia y calidad de los datos. Para ello, tendrán que emplear una variedad de lenguajes y herramientas para lograr la integración de diversos sistemas, fuentes de datos, etcétera. Además, también deberá permanecer siempre a la búsqueda de nuevas fuentes de información que puedan ser añadidas a las estructuras que maneja.
Si revisamos la documentación de Cognitive Class, estos son los skills y las herramientas con los que trabaja habitualmente un ingeniero de datos como Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL y programación. Y usará herramientas como DashDB, MySQL, MongoDB y Cassandra
Por lo dicho anteriormente, seguramente ya habrás llegado a la conclusión de que el científico de datos, a diferencia del ingeniero, no participa activamente en el proceso de adquisición y administración de los datos. Podemos decir que, cuando llegan a sus manos, ya han pasado por un proceso de “limpieza”, que garantiza su validez (se han eliminado, por ejemplo, los fallos que mencionábamos anteriormente, y que han sido detectados por el ingeniero) y, por lo tanto, el científico se dedicará a desarrollar sofisticados programas analíticos y sistemas de aprendizaje automático (Machine Learning y Deep Learning), así como métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
En esta fase es fundamental, claro está, que el científico de datos mantenga una comunicación muy, muy fluida con los responsables de negocio de las compañías en las que trabajan. En primer lugar, para que el científico conozca con el mayor nivel de detalla posible, la operativa y los modelos de negocio de la empresa, para ser capaz de detectar posibilidades relacionadas con los mismos y los datos con los que está trabajando. Y, por su parte, dichos responsables también deben implicarse en estos procesos, procurando entender las bases de su funcionamiento y, a partir de ahí, proponiendo objetivos que se puedan obtener a partir de dichos datos.
En base a los datos de Cognitive Class, estos son los skills y las herramientas más comunes en el día a día de un científico de datos deberá contar con conocimientos en Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning y estadística. Tendrá amplio conocimiento con herramientas como Data Science Experience, Jupyter y RStudio.
Ambos profesionales no solo comparten materia prima (los datos, claro) sino también parte de los lenguajes y herramientas (C#, Java, Hadoop, Scala, Spark, Storm, etcétera). Además, es imprescindible que ambas partes trabajen juntas para discutir múltiples aspectos relacionados con los datos y, además, compartir información sobre los procesos de negocio de la empresa. Dicho de otra manera, las funciones de ingeniero y científico están bastante definidas, pero al mismo tiempo es imprescindible que ambos formen un equipo muy bien cohesionado y con un canal de comunicación bidireccional abierto de manera constante.
Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence.
Muy buen artículo publicado, actualmente estoy estudiando un diplomado en Business Intelligence. Gracias