La ciencia de datos está en constante evolución, al igual que los títulos de trabajo y los roles dentro de cualquier equipo de datos moderno. Durante los primeros días del Data Science, muchos títulos de trabajo contenían el término «big data«.
En los últimos dos años, a medida que el Machine Learning se hizo cada vez más operativo, MLOps comenzó a aparecer en diferentes títulos de trabajo. Y hoy, a medida que las organizaciones crecen en su alfabetización de datos y madurez analítica, estamos viendo el surgimiento del rol de ingeniería analítica.
En pocas palabras, los ingenieros analíticos actúan como un puente entre las funciones de ingeniería y analista. Su función es aplicar las mejores prácticas de ingeniería para proporcionar conjuntos de datos limpios y transformados que estén listos para el análisis.
Más del perfil
En el sitio Dataform proporcionan una analogía de cómo los ingenieros analíticos encajan en el equipo de datos más amplio, usando de ejemplo: los armarios.
“Los ingenieros de datos construyen el armario, juntan la madera y las herramientas y las arman. Los ingenieros de análisis abren el armario y comienzan a colocar los platos, tazas y tazones, y los colocan en un orden determinado. Esto podría ser organizarlos en colores, formas o tamaños particulares. Luego, los analistas de datos van al armario y saben dónde se ubica todo, ya que está bien organizado».
El ingeniero de análisis se encuentra entre el analista de datos y el ingeniero de datos. Son quienes tienen las habilidades técnicas para optimizar las transformaciones de datos, junto con el conocimiento del dominio. Al trabajar en estrecha colaboración con el analista de datos, el ingeniero de análisis puede entregar datos limpios para que los use el analista de datos transformando los datos con las herramientas y tecnologías adecuadas, explica Josie Hall, directora de programas de Google.
Principales habilidades requeridas para la ingeniería analítica
SQL y DBT
Al igual que un analista de datos, los ingenieros analíticos comen y respiran SQL. Se usa todos los días para escribir transformaciones dentro de los modelos de datos. Mientras que los analistas de datos y profesionales de BI pueden preferir plataformas lowcode para generar SQL básico, un ingeniero de análisis comienza con SQL para un mayor control y consultas complejas. SQL es sin duda una de las habilidades más importantes que debe dominar para convertirse en ingeniero analítico. Con esto también viene la experiencia con dbt, que se trata de la herramienta de transformación de datos líder en la industria y la compañía que creó el rol del ingeniero analítico. Lo más probable es que la utilices esto para escribir modelos de datos. Dbt es bastante fácil de aprender siempre y cuando tengas dominado SQL.
Si bien los ingenieros analíticos no necesitan ser programadores maestros como los ingenieros de software o de datos, es importante que sepan programar en Python. La mayoría de las herramientas de canalización de datos utilizan Python y lo requieren al escribir su propia canalización. Algunos pueden argumentar que los ingenieros de datos poseen canalizaciones de datos, pero realmente depende de la empresa y el ancho de banda del equipo.
Herramientas modernas para el manjeo de pila de datos
Un ingeniero analítico debe estar familiarizado con las herramientas más populares en la pila de datos moderna. Esto significa familiaridad con las herramientas de ingesta, transformación, almacenamiento e implementación. No necesariamente necesita conocer todas las herramientas que existen, pero debe conocer los conceptos detrás de cada una de ellas.
Herramientas ETL
ETL significa «Extraer, Transformar y Cargar». Estas son herramientas que permiten a los ingenieros configurar canalizaciones de datos que extraen datos de diferentes fuentes, los transforman en datos consumibles y los cargan en bases de datos. Una de las herramientas ETL de código abierto más populares es Airflow.
Herramientas de computación en la nube
Si bien el término «herramientas de computación en la nube» es definitivamente un término general, los ingenieros analíticos y otros roles de datos aprovechan los servicios de computación en la nube como AWS, Azure, Google Cloud o Snowflake de manera regular. Estas herramientas permiten a los equipos de datos almacenar, procesar e implementar datos y soluciones de datos en la nube. La herramienta informática en la nube más popular es AWS.
Podría decirse que el control de versiones es la columna vertebral de las mejores prácticas de ingeniería de software. En pocas palabras, permite a los profesionales realizar un seguimiento de lo que hicieron y cuándo, deshacer cualquier cambio que decidan que no quieren y colaborar a escala con otros. Las herramientas de línea de comandos como Git permiten aplicar las mejores prácticas de control de versiones.
Habilidades de comunicación
Si bien cada rol de datos requiere habilidades de comunicación hasta cierto punto, la ingeniería analítica requiere el mismo nivel de habilidades de comunicación que requeriría un rol de analista de datos, junto con las habilidades técnicas de un ingeniero de datos. Convertirse en un mejor comunicador es una habilidad, no un talento. Consulte Conceptos de comunicación de datos para mejorar tus habilidades de comunicación técnica.
imagen: @biancoblue