Los Data Lake se han fortalecido en los últimos años como un patrón de diseño moderno que se adapta a los datos actuales y a la forma en que muchos usuarios desean organizar y usar sus datos.
En la actualidad, se requiere capturar, en un sólo grupo, grandes datos, datos no estructurados y datos de nuevas fuentes como Internet of Things (IoT), redes sociales, canales de clientes y fuentes externas como socios y agregadores de datos. Además, los responsables en el área están bajo presión para desarrollar el valor comercial y la ventaja organizativa de todas estas colecciones de datos, a menudo a través de análisis orientados al descubrimiento.
Para ayudar a los profesionales de administración de datos y sus contrapartes comerciales a superar estos desafíos y aprovechar al máximo los Data Lake el resto de este artículo explica «El Manifiesto del Data Lake», una lista de las mejores prácticas para el diseño y uso de los lagos de datos, cada uno declarado como una recomendación procesable.
- Incorporar datos rápidamente con poca o ninguna mejora inicial
La adopción de la práctica de ingestión temprana y procesamiento tardío permitirá que los datos integrados estén disponibles lo antes posible para operaciones, informes y análisis. Esto exige diversos métodos de ingestión para manejar diversas estructuras de datos, interfaces y tipos de contenedores; escalar a grandes volúmenes de datos y latencias en tiempo real; y para simplificar la incorporación de nuevas fuentes de datos y conjuntos de datos.
- Controlar quién realiza las cargas en el Data Lake
Sin este control, un lago de datos puede convertirse fácilmente en un pantano de datos, que es un conjunto de datos desorganizado e indocumentado que es difícil de navegar, gobernar y aprovechar. Se debe establecer el control a través de la gobernanza de datos basada en políticas. Un administrador o curador de datos debe hacer cumplir las políticas antidumping de un lago de datos. Aun así, las políticas deberían permitir excepciones, como cuando un analista de datos o un científico de datos vierte datos en entornos limitados de análisis.
- Los datos deben persistir en un estado sin procesar para preservar sus detalles y esquemas originales
Los datos de origen detallados se conservan en el almacenamiento, por lo que se pueden reutilizar repetidamente a medida que surgen nuevos requisitos comerciales para los datos del lago. Además, los datos sin procesar son excelentes para análisis orientados a la exploración y el descubrimiento (por ejemplo, minería, agrupación y segmentación), que funcionan bien con muestras grandes, datos detallados y anomalías de datos (valores atípicos, datos no estándar).
- Mejorar los datos en el momento de la lectura a medida que se accede y procesa al Data Lake
Esto es común con las prácticas de usuario de autoservicio, a saber, exploración y descubrimiento de datos, junto con la preparación y visualización de datos. Los datos se modelan y estandarizan a medida que se consultan de forma iterativa, y los metadatos también se pueden desarrollar durante la exploración. Tenga en cuenta que estas mejoras de datos deben aplicarse a copias de datos para que la fuente detallada sin procesar permanezca intacta. Como alternativa, algunos usuarios mejoran los Data Lake sobre la marcha con virtualización, gestión de metadatos y otras semánticas.
- Capturar los datos del Big Data y otras nuevas fuentes
Los datos de la encuesta TDWI muestran que más de la mitad de los Data Lake se implementan exclusivamente en Hadoop, y otro cuarto se despliega parcialmente en Hadoop y parcialmente en los sistemas tradicionales. Muchos Data Lake se implementan para manejar grandes datos (es decir, grandes volúmenes de datos web), por lo que Hadoop es una buena opción. Los lagos de datos basados en Hadoop capturan cada vez más grandes colecciones de datos de nuevas fuentes, especialmente IoT (máquinas, sensores, dispositivos, vehículos), redes sociales y canales de comercialización.
- Integrar datos de diversas fuentes y estructuras
Los Data Lake no son sólo para IoT y Big Data. Muchos usuarios combinan datos empresariales tradicionales y Big Data moderno en un lago basado en Hadoop para permitir análisis avanzados, ampliar las vistas de los clientes con Big Data, ampliar muestras de datos de análisis de fraude y riesgo existentes y enriquecer las correlaciones de fuentes cruzadas para grupos y segmentos más perspicaces . Además, TDWI ha visto que los datos combinados del lago permiten la optimización de la logística, el análisis de sentimientos, el monitoreo comercial cercano, el análisis de los resultados de los pacientes en la atención médica y el mantenimiento predictivo.
Un Data Lake cuando se implementa en Hadoop, puede ayudar con todas estas tendencias y requisitos, si los usuarios pueden superar los desafíos. En particular, el Data Lake todavía es muy nuevo, por lo que sus mejores prácticas y patrones de diseño se están fusionando. La mayoría de estos se encuentran basados en Hadoop, que en sí mismo aún es inmaduro.