El objetivo principal de la implementación de una arquitectura de Datos es estandarizar los métodos y protocolos, así como los sistemas para adquirir, almacenar, gestionar y compartir datos en toda la empresa para mejorar la toma de decisiones.
En las empresas modernas, la mayoría de las decisiones se toman en tiempo real, y para facilitar una infraestructura de Gestión de Datos eficiente y amigable en tiempo real, los arquitectos de datos sientan las bases o el proyecto subyacente para la Gestión de Datos de la organización.
Más recientemente, el concepto de arquitectura de datos moderna ha surgido de la creciente adopción de la nube por parte de las empresas, seguida de un cambio radical hacia las plataformas en la nube para todas o la mayoría de las tareas de gestión de datos. Sólo las plataformas en la nube, con sus variadas soluciones, pueden ofrecer la velocidad, la escalabilidad y la facilidad de uso de las plataformas de gestión de datos de nivel empresarial sin comprometer la calidad de los datos (cuestiones de gobernanza).
La diferencia significativa con respecto a la arquitectura de datos tradicional radica en la forma en que se manejan los datos en una plataforma de gestión de datos moderna. El procesamiento de datos en las instalaciones era complicado, requería mucho tiempo y recursos. La nube ofrecía soluciones revolucionarias a las necesidades de adquisición, almacenamiento, preparación y procesamiento de datos.
Con una capa de abstracción de datos, la Arquitectura de Datos moderna hace que el análisis de los datos empresariales sea fácil, rápido, coherente, eficiente y en tiempo real.
¿Qué esperar en 2022 de la arquitectura de datos?
Las características más destacadas de la Arquitectura de Datos moderna son:
- Pipelines de datos automatizados: Los procesos automatizados de integración de datos en la nube garantizan que los datos fluyan de manera eficiente a todas las partes de la organización sin comprometer la Calidad de los Datos.
- Seguridad de los datos: Los datos sin mecanismos de seguridad no pueden considerarse un activo empresarial. Las arquitecturas de datos basadas en la nube cuentan con estrictas directrices de seguridad de datos a través de mecanismos de acceso y autorización de datos controlados. Estos sistemas también cumplen con las normativas de privacidad de datos GDPR e HIPAA.
- Escalabilidad de los datos: La nube facilita la gestión robusta de los datos, que se puede escalar hacia arriba o hacia abajo según la demanda de una manera sensible a los costos.
Capacidades de IA o aprendizaje automático: Las capacidades incorporadas de IA y aprendizaje automático de las modernas Arquitecturas de Datos facilitan procesos de Gestión de Datos ágiles y precisos, desde la adquisición de datos hasta el análisis avanzado de los mismos. - Control de los resultados por parte del usuario final: La nube faculta a los usuarios a determinar cuándo y qué datos necesitan de sus sistemas de Gestión de Datos.
Intercambio de datos de confianza: Aunque la compartición de datos ayuda a disolver los datos en silos, plantea preocupaciones sobre la privacidad y la gobernanza de los datos. La nube permite compartir datos de confianza, lo que significa que todos trabajan con la “misma versión de la verdad”.
Tendencias de la arquitectura de datos para 2022
De la larga lista de tendencias de arquitectura de datos que marcaron el año 2021, las que vale la pena mencionar aquí son la democratización del acceso a los datos, la arquitectura preparada para la IA y el aumento del ingeniero de análisis, el tejido de datos, el catálogo de datos, DevOps y, por supuesto, la nube. Muchas de estas tendencias de 2021 seguirán creciendo, madurando y dominando el panorama de la arquitectura de datos de 2022.
Las ocho tendencias de la arquitectura de datos de 2022 que hay que observar y seguir son:
- Data Fabric: Esta tendencia, que continúa desde 2021, promete servicios de datos estandarizados y consistentes en toda la organización. Según Gartner, el tejido de datos “sirve como un tejido de capa integrada de datos y procesos de conexión”, para el análisis en tiempo real con datos que residen en entornos distribuidos. Con la maduración de las tecnologías de integración de datos, esta es una clara posibilidad de tendencia en 2022.
- Nube híbrida y multi-nube: Aunque la nube pública es la más adecuada para las arquitecturas de datos modernas, los persistentes problemas de seguridad y gobernanza de los datos obligarán a las empresas a considerar opciones híbridas y multicloud. Dado que la estructura de datos facilita el análisis rápido de los datos en todo tipo de configuraciones de nube, el crecimiento de la estructura de datos significa también el crecimiento de la nube híbrida y múltiple.
- Catálogo de información: Continuando a partir de 2021, esta tendencia promueve la arquitectura construida en torno a los catálogos de información que ayudan a los productores y consumidores de datos a entender los datos de los que disponen. Una ventaja adicional es que los catálogos de información ayudan tanto a los usuarios de datos como a los analistas a aplicar “la semántica no solo a los datos, sino también a los informes, los modelos analíticos, las decisiones y otros activos analíticos”, según Tapan Patel, director senior de Gestión de Datos de SAS. Aunque los catálogos de información aún están madurando, esta tecnología ya está recibiendo respuestas positivas.
- Crecimiento de Data Lakehouse: A medida que las empresas siguen luchando contra los silos de datos inconexos y los datos propietarios, la necesidad de una arquitectura de datos única se hace más evidente. Los Lakehouses prometen un futuro de código abierto, impulsado por la IA y el ML, amigable con la nube y con una única Arquitectura de Datos unificada.
- Democratización de los datos y la analítica: Un estudio conjunto de Google y Harvard Business Review (HRB) revela que la mayoría de los líderes empresariales reconocen la importancia de la democratización del acceso a los datos y la democratización de la analítica para el éxito de un negocio. Con las arquitecturas de datos en la nube, esta tendencia aumentará rápidamente en 2022.
- Crecimiento de las capacidades de IA/ML (automatización): Las Arquitecturas de Datos en la nube ofrecerán al personal técnico un acceso rápido a todos los recursos con los que necesitan trabajar. Por un lado, los recursos de almacenamiento, computación y red de los entornos en la nube son muy superiores a los de los centros de datos locales; por otro lado, la conectividad de la infraestructura de datos hace que el uso compartido de recursos entre los entornos en la nube locales, privados, públicos e híbridos para las operaciones de IA/ML sea fácil y eficiente. Así, el continuo crecimiento de las arquitecturas de datos basadas en la nube favorecerá el crecimiento de las funciones de IA/ML o la automatización.
- Malla de datos: El marco de malla de datos ofrece la “democratización” del acceso a los datos y la gestión de los mismos. En este escenario, los datos son cuidadosamente curados y gobernados por expertos en el dominio. La malla de datos es una tecnología innovadora para eliminar las barreras técnicas y los problemas humanos de los entornos de gestión de datos.
- Gobierno y calidad de los datos: Divididos entre las fuerzas contradictorias de la innovación y el cumplimiento de las barreras normativas, los propietarios y operadores de las empresas están ansiosos por implementar estrictas medidas de Gobernanza de Datos en sus negocios. Un estudio reciente de Teradata revela que el 77% de los líderes empresariales encuestados admiten que sus empresas están más preocupadas que nunca por la Calidad y el Gobierno de los Datos. Este nuevo enfoque ayudará a las empresas a combatir los sesgos en las decisiones basadas en la IA.
Pensamientos para el futuro de las arquitecturas de datos
Los tres principales impulsores del futuro de la infraestructura de datos pueden describirse como el paso a la nube pública, más SaaS y el aumento de la ingeniería de datos.
- Cambio a las plataformas de la nube pública
A partir de 2015, el cambio a la nube para los servicios de gestión de datos marcó la era de la arquitectura de datos abierta. Las plataformas de nube pública para los servicios de Gestión de Datos exigieron la separación de los servicios de almacenamiento y computación, y favorecieron la integración de servicios ofrecidos por diferentes proveedores de servicios (soluciones Apache) para diferentes servicios. Esta tendencia está ganando cada vez más terreno y no muestra ninguna ralentización. El fin de los recursos y sistemas de gestión de datos propietarios y el crecimiento de la capa de datos independiente en las arquitecturas de datos modernas han dado lugar a soluciones más escalables y eficientes. - Crecimiento de las capas de servicio SaaS
Esto ha hecho que las arquitecturas de datos abiertas tengan un gran éxito. Los servicios SaaS eliminan la necesidad de descargas, instalaciones, configuración o mantenimiento regular de los activos de software por parte de las empresas individuales. Así, Arquitectura de Datos abierta, intercalada con los servicios SaaS, facilita una solución de gestión de datos fácilmente gestionable con una huella cero en las instalaciones en términos de coste y mantenimiento. Por ejemplo, Dremio Cloud, combinado con los servicios SaaS ofrece las capacidades de procesamiento de datos más escalables, seguras, bien gobernadas y con múltiples motores para todas las empresas con soluciones de BI totalmente integradas.Las soluciones de ingeniería de datos ofrecidas por los proveedores de soluciones de lago de datos han agilizado las pesadas tareas de los equipos de ingeniería y gestión de datos. Por ejemplo, el Proyecto Nessie, una solución de “metastore” para lagos de datos y casas de lago, facilita las tareas de ingeniería de datos.