Os avanços na indústria de gerenciamento de dados levaram a um aumento na popularidade de áreas como governança de dados e gerenciamento de metadados. As organizações têm agora grandes volumes de informação, dados coletados de uma variedade de fontes com as quais podem realizar análises e melhorar a produtividade em mercados cada vez mais competitivos.
Para chegar a este ponto, a primeira mudança cultural foi focada na coleta de dados e em como tirar o máximo proveito dos mesmos. O próximo passo surgiu naturalmente, pois surgiu a necessidade de gerenciar esses novos volumes de informação: os dados estão atualizados, tenho dados de boa qualidade para os processos da empresa, satisfazem os marcos regulatórios atuais e atendem às necessidades dos processos comerciais da empresa?
Tendências em arquitetura de dados
Neste artigo vamos rever as três tendências em Gerenciamento de dados que vieram para ficar e outras que ainda estão por vir associadas a arquiteturas de dados. Em um artigo a seguir, analisaremos outros desenvolvimentos dentro da área de Gerenciamento de Dados, mas fora da área de arquitetura.
Tecido de dados
No início era comum ter que escolher entre um Data Warehouse ou um Data Lake. À medida que crescemos em volume de dados ou complexidade, torna-se cada vez mais comum ter uma combinação de ambos, e com ela a probabilidade de um valor aparecer em vários sistemas com informações diferentes.
Este modelo de arquitetura centraliza todas as fontes de dados em uma única camada lógica ("Enterprise Data Layer") e aplica todos os processos de gerenciamento de dados: segurança, validação, análise preditiva, etc., a esta camada. Isto torna possível manter a consistência dos dados e garantir que um valor único seja entregue para cada pedaço de dado.
Malha de dados
Há modelos de negócios que precisam ter um banco de dados distribuído ou com diferentes proprietários de dados. Estes modelos têm vantagens importantes na descentralização dos dados, mas um custo elevado na gestão, pois requer um controle meticuloso para garantir a ordem e a consistência das informações.
A este respeito, Zahmak Dehghani propôs, em seu livro de 2019, um modelo organizacional para definir um roteiro para uma arquitetura descentralizada. Ele baseou sua arquitetura Data Mesh na conformidade com os seguintes princípios:
- Propriedade de domínio.
- Dados como um produto.
- Governança federada.
- Infra-estrutura de auto-atendimento.
Empresas como Zalando ou Netflix implementaram este tipo de arquitetura, mas não conseguiram superar as expectativas. Por enquanto, eles ainda estão trabalhando em sua implementação a fim de tirar proveito dos benefícios de um modelo de dados descentralizado.
Gerenciamento de dados de borda
Além dos armazéns de dados localizados no Centro de dados ou em servidores externos, o aumento dos dispositivos IoT ou telefones celulares gerou uma área conhecida como a "borda" que também precisa ser gerenciada. Nesta área estamos falando de dispositivos que sofrem ou podem sofrer de problemas de latência e conectividade, de modo que não há disponibilidade contínua das informações contidas nestes dispositivos.
A indústria tem visado este desafio com base em dois requisitos a serem cumpridos:
- Focado na resposta: Os dados devem ser armazenados e exibidos imediatamente. Um exemplo poderiam ser os dados produzidos por uma aeronave comercial. Os dados aviônicos contêm as informações que mantêm a aeronave em vôo e não é necessário conectar-se à torre para a tomada de decisão. Neste caso, os dados estão disponíveis para o piloto em tempo real.
- Foco na análise: o dispositivo é dotado de capacidade computacional suficiente para realizar operações de Aprendizagem da máquina e para executar modelos preditivos. Por este motivo, os dados permanecem dentro do dispositivo e são utilizados sem sair do dispositivo.