Tejido de datos (Data Fabric) es una solución integral de gestión e integración de datos que consta de arquitectura, software de gestión e integración de datos y datos compartidos que ayudan a las organizaciones a gestionar sus datos. Una estructura de datos proporciona una experiencia de usuario unificada y coherente y acceso a los datos para cualquier miembro de una organización en todo el mundo y en tiempo real.
Está diseñada para ayudar a las organizaciones a resolver problemas de datos complejos y casos de uso mediante la administración de sus datos, independientemente de los diversos tipos de aplicaciones, plataformas y ubicaciones donde se almacenan los datos. La estructura de datos permite el acceso sin fricciones y el intercambio de datos en un entorno de datos distribuidos.
Al aprovechar los servicios de datos y las API, el Data Fabric reúne datos de sistemas heredados, lagos de datos, almacenes de datos, bases de datos SQL y aplicaciones, lo que proporciona una visión holística del rendimiento empresarial. En contraste con estos sistemas de almacenamiento de datos individuales, su objetivo es crear más fluidez en los entornos de datos, intentando contrarrestar el problema de la gravedad de los datos, es decir, la idea de que los datos se vuelven más difíciles de mover a medida que crecen en tamaño. Una estructura de datos abstrae las complejidades tecnológicas involucradas en el movimiento, la transformación y la integración de datos, haciendo que todos los datos estén disponibles en toda la empresa.
Las arquitecturas de estructuras de datos operan en torno a la idea de acoplar de forma flexible los datos de las plataformas con las aplicaciones que los necesitan. Un ejemplo de arquitectura de estructura de datos en un entorno de múltiples nubes puede parecerse al siguiente, donde una nube, como AWS, administra la ingesta de datos y otra plataforma, como Azure, supervisa la transformación y el consumo de datos. Entonces, podría tener un tercer proveedor, como IBM Cloud Pak for Data, que proporcione servicios analíticos. La arquitectura de la estructura de datos une estos entornos para crear una vista unificada de los datos.
Dicho esto, este es solo un ejemplo. No existe una única arquitectura de datos para una estructura de datos, ya que diferentes empresas tienen diferentes necesidades. La diversa cantidad de proveedores de la nube y las implementaciones de infraestructura de datos aseguran la variación entre las empresas. Sin embargo, las empresas que utilizan este tipo de marco de datos muestran similitudes en sus arquitecturas, que son exclusivas de una estructura de datos. Más específicamente, tienen seis componentes fundamentales, que Forrester describe en el informe «Enterprise Data Fabric Enables DataOps». Estas seis capas incluyen lo siguiente:
- Capa de gestión de datos: esta es responsable del gobierno de datos y la seguridad de los datos.
- Capa de ingesta de datos: esta capa comienza a unir los datos de la nube, encontrando conexiones entre los datos estructurados y no estructurados.
- Procesamiento de datos: la capa de procesamiento de datos refina los datos para garantizar que solo se muestren los datos relevantes para la extracción de datos.
- Orquestación de datos: esta capa crítica realiza algunos de los trabajos más importantes para la estructura de datos: transformar, integrar y limpiar los datos, haciéndolos utilizables para los equipos de toda la empresa.
- Descubrimiento de datos: esta capa muestra nuevas oportunidades para integrar fuentes de datos dispares. Por ejemplo, podría encontrar formas de conectar datos en un data mart de cadena de suministro y un sistema de datos de gestión de relaciones con clientes, lo que permite nuevas oportunidades para ofertas de productos a clientes o formas de mejorar la satisfacción del cliente.
- Acceso a datos: esta capa permite el consumo de datos, asegurando los permisos correctos para que ciertos equipos cumplan con las regulaciones gubernamentales. Además, esta capa ayuda a mostrar datos relevantes mediante el uso de tableros y otras herramientas de visualización de datos.
¿Por qué gana relevancia el tejido de datos?
La consultora americana Gartner predijo ya el año pasado, en una de sus investigaciones, que el mercado de «tejido de datos» o data fabric sería la nueva tendencia para analizar y procesar datos.
De hecho, se calcula que el 74% de las organizaciones están buscando activamente nuevas herramientas de automatización de la información para sus negocios. Por lo tanto, a la vista está que hay una demanda urgente de las compañías focalizadas en los datos, y el data fabric parece ser una solución plausible para quienes quieran explorar al máximo los datos sin perderse en el intento.
Otra de las predicciones que se manejan, según Gartner, es que para 2023 el 30% de las organizaciones aprovecharán la inteligencia colectiva de sus análisis y superarán a los competidores que dependan únicamente del análisis centralizado. Esto explica también la previsión de que el data fabric supere los 3.300 millones de dólares para 2026, según Rpint.
Ventajas del Tejido de Datos
- Se une a cualquier fuente de datos mediante conectores y componentes pre-empaquetados, lo que elimina la necesidad de código.
- El data frabric, provee capacidades de integración y consumo de datos, ya sea entre fuentes o aplicaciones.
- Soporta big data, datos en tiempo real y por lotes.
- Administra múltiples ambientes: nube privada, híbrida, multi nube, ya sean como fuente de datos o como consumidores de datos.
- Puede integrar capacidades de data quality, data preparation y data governance, reforzadas por machine learning.
- Soporta el intercambio de datos con actores internos y externos mediante API.
En conclusión, el data fabric no es simplemente una combinación de tecnologías tradicionales y contemporáneas, sino un concepto de diseño que cambia el enfoque de las cargas de trabajo de humanos y máquinas optimizando los tiempos al máximo nivel.
El diseño mejora la gestión de los datos al automatizar tareas repetitivas (crear perfiles de conjuntos de datos, descubrir y alinear esquemas con nuevas fuentes y reparar los trabajos de integración de datos fallidos). Ninguna solución independiente puede facilitar una arquitectura de datos completa.