Gracias al auge que tiene el Big Data una gran variedad de perfiles están en demanda, lo que representa una oportunidad única para los profesionales TI, así que ahondaremos en el perfil del Data Engineer (Ingeniero de datos).
Con anterioridad explicamos algunas diferencias que tiene esta posición con el Data Scientist (Científico de datos), ya que tienen algunos puntos de encuentro, pero un Data Engineer de manera sencilla se encarga de administrar los flujos de trabajo de datos, las tuberías y los procesos ETL, por mencionar algunas de sus funciones.
Un Ingeniero de Datos transforma los datos en un formato útil para su análisis. En muchos casos, trabajan con unidades y departamentos de negocios para entregar agregaciones de datos a ejecutivos, analistas de negocios y otros usuarios finales para obtener tipos de análisis más básicos para ayudar en las operaciones en curso.
Los Data Engineer comúnmente se ocupan de conjuntos de datos estructurados y no estructurados; como resultado, deben estar versados en diferentes enfoques de la arquitectura de datos y las aplicaciones. Una variedad de tecnologías de Big Data, incluida una variedad cada vez mayor de marcos de procesamiento e ingestión de datos de código abierto, también forman parte del kit de herramientas del ingeniero de datos.
Para llevar a cabo sus tareas, se espera que estos profesionales cuenten con habilidades en lenguajes de programación tales como C#, Java, Python, Ruby, Scala y SQL. También necesitan una buena comprensión de las herramientas de extracción, transformación y carga y API orientadas a REST para crear y administrar trabajos de integración de datos, y proporcionar a los analistas de datos y usuarios empresariales un acceso simplificado a conjuntos de datos preparados.
Los Data Lake de Hadoop que descargan parte del trabajo de procesamiento y almacenamiento de los almacenes de datos empresariales establecidos han sido un área principal de aplicación para el ingeniero de datos en apoyo de los esfuerzos de análisis de Big Data. Las bases de datos NoSQL y los sistemas Apache Spark también se están convirtiendo en componentes cada vez más comunes de los flujos de trabajo de datos establecidos por los ingenieros de datos. Otra área de enfoque es la arquitectura Lambda, que admite canalizaciones de datos unificadas para procesamiento por lotes y en tiempo real.
A medida que el trabajo de ingeniero de datos ha ganado más presencia y una clara definición, IBM, el proveedor de Hadoop, Cloudera y otras organizaciones comienzan a ofrecer certificaciones para profesionales de ingeniería de datos.
imagen: Adeolu Eletu