Reclu IT

Los Data Lake se han fortalecido en los últimos años como un patrón de diseño moderno que se adapta a los datos actuales y a la forma en que muchos usuarios desean organizar y usar sus datos.

En la actualidad, se requiere capturar, en un sólo grupo, grandes datos, datos no estructurados y datos de nuevas fuentes como Internet of Things (IoT), redes sociales, canales de clientes y fuentes externas como socios y agregadores de datos. Además, los responsables en el área están bajo presión para desarrollar el valor comercial y la ventaja organizativa de todas estas colecciones de datos, a menudo a través de análisis orientados al descubrimiento.

Para ayudar a los profesionales de administración de datos y sus contrapartes comerciales a superar estos desafíos y aprovechar al máximo los Data Lake el resto de este artículo explica «El Manifiesto del Data Lake», una lista de las mejores prácticas para el diseño y uso de los lagos de datos, cada uno declarado como una recomendación procesable.

Incorporar datos rápidamente con poca o ninguna mejora inicial

La adopción de la práctica de ingestión temprana y procesamiento tardío permitirá que los datos integrados estén disponibles lo antes posible para operaciones, informes y análisis. Esto exige diversos métodos de ingestión para manejar diversas estructuras de datos, interfaces y tipos de contenedores; escalar a grandes volúmenes de datos y latencias en tiempo real; y para simplificar la incorporación de nuevas fuentes de datos y conjuntos de datos.

Controlar quién realiza las cargas en el Data Lake

Sin este control, un lago de datos puede convertirse fácilmente en un pantano de datos, que es un conjunto de datos desorganizado e indocumentado que es difícil de navegar, gobernar y aprovechar. Se debe establecer el control a través de la gobernanza de datos basada en políticas. Un administrador o curador de datos debe hacer cumplir las políticas antidumping de un lago de datos. Aun así, las políticas deberían permitir excepciones, como cuando un analista de datos o un científico de datos vierte datos en entornos limitados de análisis.

Los datos deben persistir en un estado sin procesar para preservar sus detalles y esquemas originales

Los datos de origen detallados se conservan en el almacenamiento, por lo que se pueden reutilizar repetidamente a medida que surgen nuevos requisitos comerciales para los datos del lago. Además, los datos sin procesar son excelentes para análisis orientados a la exploración y el descubrimiento (por ejemplo, minería, agrupación y segmentación), que funcionan bien con muestras grandes, datos detallados y anomalías de datos (valores atípicos, datos no estándar).

Mejorar los datos en el momento de la lectura a medida que se accede y procesa al Data Lake

Esto es común con las prácticas de usuario de autoservicio, a saber, exploración y descubrimiento de datos, junto con la preparación y visualización de datos. Los datos se modelan y estandarizan a medida que se consultan de forma iterativa, y los metadatos también se pueden desarrollar durante la exploración. Tenga en cuenta que estas mejoras de datos deben aplicarse a copias de datos para que la fuente detallada sin procesar permanezca intacta. Como alternativa, algunos usuarios mejoran los Data Lake sobre la marcha con virtualización, gestión de metadatos y otras semánticas.

Capturar los datos del Big Data y otras nuevas fuentes

Los datos de la encuesta TDWI muestran que más de la mitad de los Data Lake se implementan exclusivamente en Hadoop, y otro cuarto se despliega parcialmente en Hadoop y parcialmente en los sistemas tradicionales. Muchos Data Lake se implementan para manejar grandes datos (es decir, grandes volúmenes de datos web), por lo que Hadoop es una buena opción. Los lagos de datos basados en Hadoop capturan cada vez más grandes colecciones de datos de nuevas fuentes, especialmente IoT (máquinas, sensores, dispositivos, vehículos), redes sociales y canales de comercialización.

Integrar datos de diversas fuentes y estructuras

Los Data Lake no son sólo para IoT y Big Data. Muchos usuarios combinan datos empresariales tradicionales y Big Data moderno en un lago basado en Hadoop para permitir análisis avanzados, ampliar las vistas de los clientes con Big Data, ampliar muestras de datos de análisis de fraude y riesgo existentes y enriquecer las correlaciones de fuentes cruzadas para grupos y segmentos más perspicaces . Además, TDWI ha visto que los datos combinados del lago permiten la optimización de la logística, el análisis de sentimientos, el monitoreo comercial cercano, el análisis de los resultados de los pacientes en la atención médica y el mantenimiento predictivo.

Un Data Lake cuando se implementa en Hadoop, puede ayudar con todas estas tendencias y requisitos, si los usuarios pueden superar los desafíos. En particular, el Data Lake todavía es muy nuevo, por lo que sus mejores prácticas y patrones de diseño se están fusionando. La mayoría de estos se encuentran basados en Hadoop, que en sí mismo aún es inmaduro.

Campos obligatorios(*)

Mejores prácticas para responsables del Data Lake

Por: Reclu IT

14 de agosto de 2019

De reclutador en TI a consultor en perfiles IT

Habilidades que deben aprender los Desarrolladores Full-Stack este 2023

Consejos de salud para empezar este 2023

Seguridad informática es muy parecida al futbol

¿Cuáles son los tipos de IA que existen en la actualidad?

Las habilidades de los Data Science que serán relevantes en 2023

¿Qué vendrá para el IoT en este 2022?

Mejores prácticas para responsables del Data Lake

Deja tu comentario

Mejores prácticas para responsables del Data Lake

Notas relacionadas

5 habilidades blandas esenciales para desarrollar en cualquier trabajo

Consejos para que líderes IT mejoren la retención de los desarrolladores

¿Cuál es la situación de la escasez de talento tecnológico?

Conocimientos que deben dominar los desarroladores web

¿Cómo será trabajar en las IT en 2028?

Deja tu comentario

Newsletter

Encuentra artículos

Secciones

Consultoría

Academia

Colaterales

Tendencias

Crononauta

Quiénes Somos

Política de privacidad de www.recluit.mx