Los avances en la industria del Data Management han provocado un repunte de popularidad de áreas como la gobernanza de datos y la gestión de los metadatos. En la actualidad las organizaciones disponen de grandes volúmenes de información, datos recopilados de diferentes fuentes con los que hacer análisis y mejorar la productividad en unos mercados cada vez más competitivos.
Para alcanzar este punto, se ha pasado por un primer cambio cultural centrado en esta recopilación de datos y en cómo sacar el máximo rendimiento a estos. El siguiente paso, ha surgido de forma natural al aparecer la necesidad de gestionar esos nuevos volúmenes de información: ¿están los datos actualizados? ¿Dispongo de una buena calidad de datos para los procesos de la compañía? ¿Satisfacen los marcos regulatorios actuales?
Tendencias en arquitectura de datos
En este artículo vamos a repasar las tres tendencias en Data Management que han llegado para quedarse y otras que estarán por llegar asociadas a las arquitecturas de datos. En un siguiente artículo analizaremos otras novedades dentro del área de Data Management, pero fuera del área de arquitectura.
Data Fabric
Al principio era habitual tener que elegir entre un Data Warehouse o un Data Lake. A medida que crecemos en volumen de datos o de complejidad, suele ser cada vez más habitual disponer de una combinación de ambos, y con esto crece la probabilidad de que un valor figure en varios sistemas con información diferente.
Este modelo de arquitectura centraliza todos los orígenes de datos en una sola capa lógica (“Enterprise Data Layer”) y aplica en ella todos los procesos de gestión de datos: seguridad, validación, análisis predictivo, etc. Esto permite mantener la coherencia de los datos y asegurar que se entregue un valor único para cada dato.
Data Mesh
Existen modelos de negocio que necesitan disponer de una base de datos distribuida o con diferentes propietarios de los datos. Estos modelos tienen importantes ventajas en la descentralización de los datos, pero un alto coste en la gestión, ya que requiere de un minucioso control para garantizar el orden y la consistencia de la información.
A este respecto, Zahmak Dehghani propuso, en su libro de 2019, un modelo organizativo para definir una guía para una arquitectura descentralizada. Basó su arquitectura Data Mesh en el cumplimiento de los siguientes principios:
- Propiedad impulsada por el dominio.
- Datos como producto.
- Gobernanza federada.
- Infraestructura de autoservicio.
Empresas como Zalando o Netflix han llevado a la práctica este tipo de arquitecturas, pero no han logrado superar las expectativas. Por el momento, se sigue trabajando en su implementación para aprovechar las ventajas de un modelo descentralizado de datos.
Edge Data Management
Además de los almacenes de datos ubicados en el Data Center o en servidores externos, el aumento de dispositivos IoT o de teléfonos móviles ha generado una zona denominada perimetral (“Edge”) que también necesita ser gestionada. En esta zona hablamos de dispositivos que sufren o pueden sufrir problemas de latencia y conectividad, por lo que no existe una disponibilidad continua de la información contenida en estos dispositivos.
La industria ha orientado este reto en función de dos requisitos a cubrir:
- Enfocado a respuesta: los datos deben almacenarse y visualizarse inmediatamente. Un ejemplo podría ser los datos producidos por un avión comercial. Los datos de aviónica contienen la información que mantiene en vuelo el avión y no es requerido conectar con la torre para la toma de decisiones. En este caso los datos están disponibles para el piloto en tiempo real.
- Enfocado a analítica: se dota al dispositivo de capacidades de computación suficientes para realizar operaciones de Machine Learning y para ejecutar modelos predictivos. Por este motivo, los datos permanecen dentro del dispositivo y son utilizados sin salir del mismo.