Cel: +52 (55) 3040-5403 Correo: mariana.velazquez@recluit.com
post-tittle

Habilidades prácticas que deben desarrollar los Data Scientist en 2022

Por: Reclu IT

10 de marzo de 2022

En los listados de habilidades para el Data Scientist tienden a resaltar conocimientos como Estadística, Matemáticas y Programación. Sin embargo, existen algunas que son más útiles en el día a día.

Por lo tanto, aquí mostramos una lista única de habilidades prácticas que mejorarán tus oportunidades de empleabilidad.

Escribir consultas SQL y construir canalizaciones de datos

Aprender a escribir consultas SQL sólidas y programarlas en una plataforma de gestión de flujo de trabajo como Airflow lo hará extremadamente deseable como científico de datos.

A las empresas les encantan los científicos de datos completos. Si puede intervenir y ayudar a construir canalizaciones de datos centrales, podrá mejorar los conocimientos que se recopilan, crear informes más sólidos y, en última instancia, facilitar la vida de todos.

Gestión de datos

Ya sea que estés creando modelos, explorando nuevas características para construir o realizando inmersiones profundas, necesitará saber cómo manejar los datos.

Data Wrangling significa transformar sus datos de un formato a otro.

La ingeniería de funciones es una forma de disputa de datos, pero se refiere específicamente a la extracción de funciones a partir de datos sin procesar.

No importa necesariamente cómo manipule sus datos, ya sea que use Python o SQL, pero debería poder manipular sus datos como quiera (dentro de los parámetros de lo que es posible, por supuesto).

Control de versiones / GitHub

Cuando se habla del «control de versiones», nos referimos específicamente a GitHub y Git. Git es el principal sistema de control de versiones utilizado en el mundo, y GitHub es esencialmente un repositorio basado en la nube para archivos y carpetas.

Si bien Git no es la habilidad más intuitiva para aprender al principio, es esencial saberlo para casi todos los roles relacionados con la programación, ya que permite colaborar y trabajar en proyectos en paralelo con otros.
Realiza un seguimiento de todas las versiones de su código (en caso de que necesite volver a versiones anteriores)

Comunicación

Una cosa es construir un tablero visualmente impactante o un modelo intrincado con más del 95 % de precisión. Pero si no puede comunicar el valor de sus proyectos a los demás, no obtendrá el reconocimiento que merece y, en última instancia, no tendrá el éxito que debería en su carrera.

La narración y la comunicación son habilidades muy infravaloradas en el mundo de la tecnología. Esta habilidad es lo que separa a los juniors de los seniors y gerentes.

Regresión/Clasificación

La construcción de modelos de regresión y clasificación, es decir, modelos predictivos, no es algo en lo que siempre estará trabajando, pero es algo que los empleadores esperarán que sepa si es un científico de datos.

Incluso si no es algo que hará a menudo, es algo en lo que debe ser bueno porque desea poder crear modelos de alto rendimiento. Por lo tanto, debe tener una buena comprensión de las técnicas de preparación de datos, los algoritmos potenciados, el ajuste de hiperparámetros y las métricas de evaluación de modelos.

IA explicable/Machine Learning explicable

Muchos algoritmos de Machine Learning se consideraron «cajas negras» durante mucho tiempo porque no estaba claro cómo estos modelos derivaban sus predicciones en función de sus respectivas entradas. Eso ahora está cambiando debido a la adopción generalizada de técnicas explicables de aprendizaje automático, como SHAP y LIME.

SHAP y LIME son dos técnicas que le indican no solo la importancia de cada función, sino también el impacto en el resultado del modelo, similar a los coeficientes en una ecuación de regresión lineal.

Con SHAP y LIME, puede crear modelos explicativos y también comunicar mejor la lógica detrás de sus modelos predictivos.

Pruebas A/B (Experimentación)

Las pruebas A/B son una forma de experimentación en la que compara dos grupos diferentes para ver cuál funciona mejor en función de una métrica determinada.

Podría decirse que las pruebas A/B son el concepto estadístico más práctico y ampliamente utilizado en el mundo corporativo. ¿Por qué? Las pruebas A/B le permiten combinar 100 o 1000 de pequeñas mejoras, lo que resulta en cambios y mejoras significativos con el tiempo.

PNL

PNL, o Procesamiento del Lenguaje Natural, es una rama de la IA que se enfoca en el texto y el habla. A diferencia del aprendizaje automático, diría que la PNL está lejos de madurar, que es lo que la hace tan interesante.

La PNL tiene muchos casos de uso…

  • Se puede utilizar para el análisis de sentimientos para ver cómo se sienten las personas acerca de una empresa o de los productos de una empresa.
  • Se puede usar para monitorear las redes sociales de una empresa separando los comentarios positivos y negativos.
  • PNL es el núcleo detrás de la construcción de chatbots y asistentes virtuales
  • PNL también se usa para la extracción de texto (examinar documentos)
  • En general, PNL es un nicho realmente interesante y útil en el mundo de la ciencia de datos.

Desarrollo métrico

Más recientemente, los científicos de datos han asumido la responsabilidad del desarrollo de métricas porque las métricas emergentes dependen de 1) datos para calcular la métrica y 2) código para calcular y generar la métrica.

El desarrollo de métricas implica varias cosas:

  • Implica elegir la métrica correcta que un equipo o departamento debe usar para ayudarlos a monitorear sus objetivos.
  • Aclarar y establecer cualquier suposición que se deba hacer para que las métricas se mantengan.
  • Desarrollar la métrica, codificarla y construir una canalización para monitorearla periódicamente.

Esperamos que esto ayude a guiar a los profesionales y les brinde alguna dirección. Hay mucho que aprender, así que definitivamente elegiría un par de habilidades que te suenen más interesantes y partir de ahí.

imagen: @rawpixel.com

Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)
post-tittle

Habilidades prácticas que deben desarrollar los Data Scientist en 2022

Por: Reclu IT

10 de marzo de 2022

En los listados de habilidades para el Data Scientist tienden a resaltar conocimientos como Estadística, Matemáticas y Programación. Sin embargo, existen algunas que son más útiles en el día a día.

Por lo tanto, aquí mostramos una lista única de habilidades prácticas que mejorarán tus oportunidades de empleabilidad.

Escribir consultas SQL y construir canalizaciones de datos

Aprender a escribir consultas SQL sólidas y programarlas en una plataforma de gestión de flujo de trabajo como Airflow lo hará extremadamente deseable como científico de datos.

A las empresas les encantan los científicos de datos completos. Si puede intervenir y ayudar a construir canalizaciones de datos centrales, podrá mejorar los conocimientos que se recopilan, crear informes más sólidos y, en última instancia, facilitar la vida de todos.

Gestión de datos

Ya sea que estés creando modelos, explorando nuevas características para construir o realizando inmersiones profundas, necesitará saber cómo manejar los datos.

Data Wrangling significa transformar sus datos de un formato a otro.

La ingeniería de funciones es una forma de disputa de datos, pero se refiere específicamente a la extracción de funciones a partir de datos sin procesar.

No importa necesariamente cómo manipule sus datos, ya sea que use Python o SQL, pero debería poder manipular sus datos como quiera (dentro de los parámetros de lo que es posible, por supuesto).

Control de versiones / GitHub

Cuando se habla del «control de versiones», nos referimos específicamente a GitHub y Git. Git es el principal sistema de control de versiones utilizado en el mundo, y GitHub es esencialmente un repositorio basado en la nube para archivos y carpetas.

Si bien Git no es la habilidad más intuitiva para aprender al principio, es esencial saberlo para casi todos los roles relacionados con la programación, ya que permite colaborar y trabajar en proyectos en paralelo con otros.
Realiza un seguimiento de todas las versiones de su código (en caso de que necesite volver a versiones anteriores)

Comunicación

Una cosa es construir un tablero visualmente impactante o un modelo intrincado con más del 95 % de precisión. Pero si no puede comunicar el valor de sus proyectos a los demás, no obtendrá el reconocimiento que merece y, en última instancia, no tendrá el éxito que debería en su carrera.

La narración y la comunicación son habilidades muy infravaloradas en el mundo de la tecnología. Esta habilidad es lo que separa a los juniors de los seniors y gerentes.

Regresión/Clasificación

La construcción de modelos de regresión y clasificación, es decir, modelos predictivos, no es algo en lo que siempre estará trabajando, pero es algo que los empleadores esperarán que sepa si es un científico de datos.

Incluso si no es algo que hará a menudo, es algo en lo que debe ser bueno porque desea poder crear modelos de alto rendimiento. Por lo tanto, debe tener una buena comprensión de las técnicas de preparación de datos, los algoritmos potenciados, el ajuste de hiperparámetros y las métricas de evaluación de modelos.

IA explicable/Machine Learning explicable

Muchos algoritmos de Machine Learning se consideraron «cajas negras» durante mucho tiempo porque no estaba claro cómo estos modelos derivaban sus predicciones en función de sus respectivas entradas. Eso ahora está cambiando debido a la adopción generalizada de técnicas explicables de aprendizaje automático, como SHAP y LIME.

SHAP y LIME son dos técnicas que le indican no solo la importancia de cada función, sino también el impacto en el resultado del modelo, similar a los coeficientes en una ecuación de regresión lineal.

Con SHAP y LIME, puede crear modelos explicativos y también comunicar mejor la lógica detrás de sus modelos predictivos.

Pruebas A/B (Experimentación)

Las pruebas A/B son una forma de experimentación en la que compara dos grupos diferentes para ver cuál funciona mejor en función de una métrica determinada.

Podría decirse que las pruebas A/B son el concepto estadístico más práctico y ampliamente utilizado en el mundo corporativo. ¿Por qué? Las pruebas A/B le permiten combinar 100 o 1000 de pequeñas mejoras, lo que resulta en cambios y mejoras significativos con el tiempo.

PNL

PNL, o Procesamiento del Lenguaje Natural, es una rama de la IA que se enfoca en el texto y el habla. A diferencia del aprendizaje automático, diría que la PNL está lejos de madurar, que es lo que la hace tan interesante.

La PNL tiene muchos casos de uso…

  • Se puede utilizar para el análisis de sentimientos para ver cómo se sienten las personas acerca de una empresa o de los productos de una empresa.
  • Se puede usar para monitorear las redes sociales de una empresa separando los comentarios positivos y negativos.
  • PNL es el núcleo detrás de la construcción de chatbots y asistentes virtuales
  • PNL también se usa para la extracción de texto (examinar documentos)
  • En general, PNL es un nicho realmente interesante y útil en el mundo de la ciencia de datos.

Desarrollo métrico

Más recientemente, los científicos de datos han asumido la responsabilidad del desarrollo de métricas porque las métricas emergentes dependen de 1) datos para calcular la métrica y 2) código para calcular y generar la métrica.

El desarrollo de métricas implica varias cosas:

  • Implica elegir la métrica correcta que un equipo o departamento debe usar para ayudarlos a monitorear sus objetivos.
  • Aclarar y establecer cualquier suposición que se deba hacer para que las métricas se mantengan.
  • Desarrollar la métrica, codificarla y construir una canalización para monitorearla periódicamente.

Esperamos que esto ayude a guiar a los profesionales y les brinde alguna dirección. Hay mucho que aprender, así que definitivamente elegiría un par de habilidades que te suenen más interesantes y partir de ahí.

imagen: @rawpixel.com

Deja tu comentario

Tu dirección de correo electrónico no será publicada.

Campos obligatorios(*)

Política de privacidad de www.recluit.mx

Para recibir la información sobre sus Datos Personales, la finalidad y las partes con las que se comparte,
contacten con el Propietario.