En estos días parece que se vive una revolución tecnológica, debido al desarrollo del Big Data y la analítica, aunque aún existe un problema si consideramos las cifras del último Índice Cisco Mobile Visual Networking, que proyecta un aumento de siete veces del tráfico mundial de datos e 2021 y 5,5 mil millones personas con teléfonos móviles, superando al número de cuentas bancarias (5,4 mil millones).
En este escenario, el uso la nube es la solución creada por la industria para dar respuesta a la interrogante. Sin embargo, existe una herramienta alternativa y de bajo costo, que está próxima a cumplir una década, y que cada vez es más utilizada en la región: hablamos del Hadoop, un ecosistema diverso que almacena toda clase de datos estructurados y no estructurados como audios, videos y archivos de registro, nos indica Marcelo Sukni, gerente general para Chile y Perú de SAS.
Hadoop nació como un software libre en 2008 y desde entonces se volvió altamente popular en Europa y Estados Unidos, ya que al ser económica abrió la puerta para que compañías e industrias de todos los tamaños y segmentos almacenaran sus datos en esta plataforma. Según el informe Hadoop Market-Global Opportunity Analysis and Industry Forecast 2014-2021, elaborado por Allied Market Research, en 2015 Norteamérica fue la región que más aportó ingresos a esta plataforma. Sin embargo, se espera que para el próximo período del estudio el mercado europeo experimente el crecimiento más rápido de tecnología de gestión y análisis de datos basada en Hadoop.
El mismo reporte prevé que el mercado global de Hadoop alcancé los 84.600 millones de dólares para 2021, acumulando una tasa de crecimiento anual compuesto del 63,4% en los próximos cinco años.
Si bien es cierto Hadoop no es una herramienta nueva, el incremento en su cantidad de usuarios en Latinoamérica en los últimos años permite calificarlo como una tendencia para la región. Esto se debe a que es un sistema de código abierto, de bajo costo, que se utiliza para almacenar y procesar grandes volúmenes de datos.
La industria del Big Data necesita un espacio donde desenvolverse y eso es lo que aporta el Hadoop. Al mismo tiempo, uno de los desafíos es la constante actualización de Hadoop para todos los proyectos activos que se generan cada día. Por esto, es esencial contar con el trabajo de proveedores de soluciones para simplificar el análisis de la información con el fin de tomar las mejores decisiones de negocio posibles.
Se requiere de tecnología innovadora que unifique lenguajes de programación y desarrollo, que permitan hacer funcionar el negocio. Es aquí donde las soluciones analíticas son clave. Cualquier empresa que utilice Hadoop puede conseguir información nueva y de gran valor aplicando análisis a sus datos.
Para lograr construir modelos predictivos y algoritmos de aprendizaje, los científicos de datos tienen que hacer más esfuerzos en preparar información que trabajar con el modelo analítico. Los enfoques estrictamente lineales para preparar el almacenamiento de datos están obsoletos, por lo que si la empresa no cuenta con la herramienta adecuada, el esfuerzo del proyecto será el 80% de preparación de datos y sólo el 20% explorando los modelos.
La calidad de los datos es el gran problema en cualquier proyecto de integración de datos. Actualmente existen soluciones que permiten concentrarse en la exploración y el modelado analítico la mayor parte del tiempo, en lugar de gastar mucho tiempo preparando datos o asegurando su calidad. Comprende un conjunto completo de capacidades para ayudar a organizar sus datos en la forma apropiada en Hadoop, permite la combinación de datos de diferentes fuentes en un conjunto de datos y moverlo a una nueva ubicación.