Los científicos de datos son expertos en big data con un peculiar conjunto de habilidades. Tener sólo calificaciones técnicas simplemente no ayudará a obtener un gran trabajo como Data Scientist.
Según el Informe sobre el futuro del trabajo 2020 del Foro Económico Mundial, un científico de datos será el trabajo con mayor demanda y crecimiento en la próxima década.
En marzo de 2021, había cerca de 31 000 ofertas de trabajo en LinkedIn para el puesto de científico de datos, y más de 250 000 personas ya se registraban como profesionales en ciencia de datos.
Los científicos de datos son figuras transformadoras en las organizaciones que aprovechan el análisis a través de la ciencia de datos. Los científicos de datos están ganando protagonismo entre las organizaciones que tienen la intención de mantenerse por delante de la competencia aprovechando el análisis de big data de la explosión de datos.
Algunas de las habilidades clave que se requerirán para destacar como Data Scientist son:
Python y R
Como ya se indicó en nuestro artículo anterior sobre cómo convertirse en un científico de datos, las estadísticas son el corazón de la programación de la ciencia de datos y, por lo tanto, es imprescindible que un profesional desarrolle experiencia en lenguaje Python y R para convertirse en un «científico de datos empresarial» y no solo un científico de datos. Es necesario aprender a programar en R y Python en un entorno real de sistemas de big data como Hadoop, Oracle o SAP HANA para que los profesionales puedan crear casos de uso de la industria, relacionados con Workforce Analytics, Customer Analytics y Marketing Analytics utilizando diversas técnicas de ciencia de datos como aprendizaje automático, computación estadística, modelos matemáticos y algoritmos.
Hadoop
Dado que la ciencia de datos implica el análisis de datos a gran escala, la exploración de grandes conjuntos de datos, su extracción y la aceleración de la innovación basada en datos, un científico de datos debe aprender Hadoop, ya que es una herramienta popular de código abierto para administrar y manipular grandes conjuntos de datos de múltiples repositorios. Un científico de datos debe estar familiarizado con varios componentes de Hadoop, como el sistema de archivos distribuido, MapReduce, Pig, Hive, Sqoop y Flume. La experiencia con Hive and Pig es un excelente punto de venta para los científicos de datos. La experiencia en herramientas en la nube como Amazon S3 junto con Hadoop agrega valor a la base de conocimientos de un científico de datos.
NoSQL
Es importante que un científico de datos trabaje con datos no estructurados, ya sea en forma de transmisiones de audio, transmisiones de video, actualizaciones de redes sociales o datos biométricos. La ciencia de datos se ocupa principalmente del análisis de datos no estructurados y, por lo tanto, el conocimiento experto en varias bases de datos NoSQL como MongoDB o HBase es imprescindible para escribir y ejecutar consultas complejas en datos no estructurados.
Machine Learning
Un científico de datos debe tener un conocimiento profundo de la extracción de datos, el aprendizaje supervisado/no supervisado y el reconocimiento de patrones. Algunos de los conceptos de machine learning que deben dominarse son redes neuronales, árboles de decisión, SVM y agrupamiento. Esta experiencia se puede obtener tomando un curso que lo ayude a ensuciarse las manos con los datos y hacer malabarismos con ellos.
Herramientas de visualización de datos
Hay un dicho que una imagen vale más que mil palabras. Es necesario que un científico de datos domine las habilidades de comunicar información basada en datos de una manera visualmente efectiva. Los científicos de datos deben ser capaces de describir los hallazgos de una manera que pueda ser interpretada por audiencias tanto técnicas como no técnicas. Por lo tanto, el conocimiento profundo de varias herramientas de visualización de datos como Tableau, D3.js y ggplot ayuda a los científicos de datos a proporcionar una visión clara de sus conocimientos basados en datos.
Probabilidad y Estadística
La estimación y la predicción son una parte integral de la ciencia de datos. La probabilidad y las estadísticas están entrelazadas, por lo que cuando la teoría de la probabilidad se combina con otros métodos estadísticos, un científico de datos puede:
- Encuentra anomalías en los datos.
- Identificar tendencias o patrones en los datos.
- Identificar dependencias entre dos o más variables.
- Pronostique tendencias futuras y mucho más.
El conocimiento de varios conceptos estadísticos y de probabilidad como el nivel de medición de datos, datos de población o de muestra, medidas de tendencia central, medidas de variabilidad, medidas de asimetría junto con otras habilidades matemáticas fundamentales de ciencia de datos es imprescindible.
Habilidades no técnicas necesarias para la ciencia de datos
3 C (Curiosity, Common sense and Communitcation)
El papel de un científico de datos está fuertemente impulsado por las 3 C (que como se muestran arriba son en inglés): curiosidad, sentido común y comunicación. En la mayoría de los casos, la organización no es consciente de que tiene un problema basado en datos, pero la curiosidad de un científico de datos puede generar oportunidades para obtener información significativa de los datos. Para formular cualquier definición de problema o hipótesis, sentido común y negocios, el conocimiento del dominio de un científico de datos juega un papel vital.
Un gran científico de datos se comunica con varias personas en una empresa para garantizar que el curso de acción para un problema determinado esté en el camino correcto. Las organizaciones buscan científicos de datos que puedan transmitir con fluidez y claridad los hallazgos técnicos de un problema basado en datos a equipos no técnicos.
Un científico de datos tiene que comunicar y comprender los requisitos de la aplicación, los requisitos comerciales, descubrir patrones y relaciones entre los grandes datos extraídos y transmitirlos al grupo de marketing, ejecutivos corporativos y equipos de desarrollo. Y para hacer todas estas cosas de la manera correcta, un científico de datos debe tener habilidades de narración para que pueda usar los datos para contar una historia de manera convincente y fácil de entender para todos.
Innovación
Un científico de datos no solo mira a su alrededor y juega con los datos. Un gran científico de datos debe ser innovador y creativo con sus capacidades de pensamiento. Él / ella debe tener ganas de aprender más y descubrir cosas novedosas con su creatividad original. La creatividad de un científico de datos les ayuda a determinar dónde los datos pueden agregar valor y generar resultados rentables para una organización.
Intuición de datos
Para convertirse en un científico de big data exitoso, no solo es suficiente dominar las habilidades técnicas, sino que es obligatorio que un científico de datos tenga una intuición sobre los datos. Un buen científico de datos no es aquel que solo ingresa todas las funciones posibles en un modelo de aprendizaje automático y analiza el resultado. Lo más importante que debe hacer un científico de big data antes de proporcionar información al modelo de aprendizaje automático es pensar si los datos tienen sentido. Los diversos tipos de preguntas en las que un científico de big data debería pensar son:
- ¿Qué modelo de machine learning deberían usar en función de la distribución de datos?
- ¿Qué significa si falta un punto de datos y cuál es la acción que pueden tomar para lidiar con un punto de datos faltante?
- ¿Las características son útiles y realmente pretenden transmitir lo que están destinadas?
Las respuestas a todas estas preguntas varían, según el tipo de problemas que un científico de datos está resolviendo y la forma en que se registran los datos. Un científico de datos exitoso tiene que buscar todos los escenarios posibles y adaptarse a ellos.
Experiencia comercial
Los científicos de datos deben poseer una sólida experiencia comercial en la industria en la que trabajan, para obtener una mejor comprensión de los problemas que la empresa está tratando de resolver. El campo de la ciencia de datos requiere identificar los problemas que son críticos para un negocio y cuáles son las nuevas estrategias que se pueden adoptar para aprovechar los datos para resolver esos problemas.
Una buena ecuación para el éxito en el campo de la ciencia de datos es una combinación de varios programas educativos, habilidades técnicas y habilidades no técnicas junto con años de experiencia. Definitivamente no es fácil conseguir un trabajo como científico de datos con tantas habilidades que dominar, especialmente si los profesionales están interesados en ingresar a empresas de TI de primer nivel.
imagen: @rawpixel.com