Las organizaciones que buscan aprovechar Big Data imponen un conjunto mayor y diferente de requisitos de trabajo a sus Arquitectos de Datos en lugar de organizaciones en entornos tradicionales.
Si deseas convertirte en un gran Arquitecto de Big Data y tener un gran conocimiento de la arquitectura del almacén de datos, empiece por convertirse en un gran arquitecto de datos o ingeniero de datos. En cualquier entorno de datos, grande o no, el arquitecto de datos es responsable de alinear todos los activos de TI con los objetivos del negocio. Y así como el propietario de una casa contrata a un arquitecto para visualizar y comunicar cómo se unirán todas las piezas, también los propietarios de empresas emplearán arquitectos de datos para desempeñar un papel similar en su dominio. Pero en lugar de madera, concreto y comerciantes, una arquitectura de datos abarca datos, software, hardware, redes, servicios en la nube, desarrolladores, probadores, administradores de sistemas, DBA y todos los demás recursos de una infraestructura de TI.
Una arquitectura de datos ideal modela correctamente la forma en que la infraestructura y sus componentes se alinearán con los requisitos comerciales y también cómo un plan de implementación realizará el modelo en las operaciones diarias, reconociendo que los requisitos cambian constantemente. Ese modelo incluye los recursos mismos, los formatos y estructuras de datos optimizados y las mejores políticas para el manejo de datos por sistemas y personas. Eso significa que los grandes arquitectos de datos, al igual que sus homólogos de construcción de viviendas, deben tener un profundo conocimiento técnico.
Pero también deben saber cómo emplear ese conocimiento en el contexto de lo que los propietarios quieren (o deberían querer si ellos mismos tuvieran el conocimiento técnico). Por lo tanto, los arquitectos deben poder conversar cómodamente con los líderes de una organización. Tampoco pueden confiar en que la gente de negocios les diga lo que es importante. Los arquitectos de datos también deben aportar a estas conversaciones su propio conocimiento del negocio: sus prioridades, procesos, políticas, estrategia y entorno de mercado.
Ese es un rol muy importante ya, ¿qué hace que los arquitectos de big data sean especiales?
Lo que es especial son los datos, los sistemas, las herramientas y las expectativas de la administración. Las organizaciones que buscan aprovechar Big Data son cualitativamente diferentes de aquellas que no lo hacen. Esto se debe a que:
- Simplemente tienen muchos más datos con los que tratar, generalmente petabytes, no terabytes
- Los datos provienen de muchas fuentes diferentes en muchos formatos diferentes
- Todos los datos sirven para una o posiblemente dos estrategias principales.
Una estrategia es generar información crítica a una velocidad casi en tiempo real. La otra es automatizar las operaciones a gran escala en tiempo real (piense en los videos de Netflix o el mantenimiento predictivo remoto de GE en los motores de locomotoras y motores de sus clientes). En ambas estrategias, Big Data permite un modelo de negocio diferenciado por velocidad, escala, agilidad e inteligencia.
Un arquitecto de big data podría encargarse de reunir todos o algunos de los siguientes: datos de recursos humanos, datos de fabricación, datos de tráfico web, datos financieros, datos de lealtad del cliente, datos geográficamente dispersos, etc., etc., cada uno de los cuales puede ser vinculado a su propio sistema particular, lenguaje de programación y conjunto de casos de uso. Es posible que algunos de esos casos de uso ya no sean relevantes para el negocio actual, aunque es probable que muchos sigan siendo relevantes.
La razón por la que los programas se escribieron de cierta manera, o la forma en que los datos se formatean de cierta manera (por ejemplo, la razón por la cual un número de lealtad del cliente tiene 18 dígitos, no 15) puede no ser obvia o incluso documentada. Todo lo cual significa que los arquitectos de big data tienen más probabilidades que otros arquitectos de datos de enfrentar los desafíos y riesgos de ETL. Por lo tanto, deben ser mejores en el análisis forense del sistema, conocer las preguntas correctas que deben formularse sin que necesariamente se les solicite y aplicar las mejores prácticas para racionalizar procesos ETL complejos y mitigar la pérdida de datos.
El Arquitecto de Datos deberá dominar las tecnologías de almacenamiento de datos como Accumulo, Hadoop, Panoply, Redshift architecture, MapReduce, Hive, HBase, MongoDB y Cassandra, así como herramientas de minería y modelado de datos como Impala, Oozie, Mahout, Flume, ZooKeeper y Sqoop.
Los lenguajes de programación relevantes incluyen Java, Linux, PHP y Python. Las herramientas de visualización y BI incluyen Apache Zeppelin, Chartio, R Studio y Tableau. Obviamente, un arquitecto de big data también debe tener experiencia en el diseño e implementación de grandes soluciones de almacenamiento de datos locales y basadas en la nube que utilicen arquitecturas de cluster y RDMS paralelas y NoSQL.