curso
O que é uma malha de dados?
As arquiteturas de dados centralizadas podem ser uma estratégia de dados eficaz, até que comecem a ter dificuldades com o volume e a complexidade crescentes dos dados.
À medida que os dados aumentam, esses sistemas centralizados podem enfrentar gargalos. Eles dependem de um único ponto de controle, que pode ficar sobrecarregado. O resultado são processos lentos e dificuldade de extrair insights valiosos de forma eficiente.
Uma malha de dados é um sistema arquitetônico com gerenciamento de dados descentralizado e específico do domínio. Essa abordagem permite que as equipes assumam o controle de seus próprios dados, levando a uma melhor qualidade dos dados e a insights mais rápidos.
Se você quiser saber mais sobre gerenciamento de dados, confira meus outros artigos desta série:
O que é uma malha de dados?
Uma malha de dados é uma abordagem moderna para a arquitetura de dados que muda o gerenciamento de dados de um modelo centralizado para um descentralizado.
Ele enfatiza a propriedade orientada por domínio, em que o gerenciamento de dados se alinha com áreas comerciais específicas. Esse alinhamento torna as operações de dados mais escalonáveis e flexíveis, aproveitando o conhecimento e a experiência das pessoas mais próximas dos dados.
Princípios básicos
No centro de uma malha de dados estão quatro princípios fundamentais que orientam sua implementação e operação.
Propriedade orientada para o domínio
Os dados pertencem e são gerenciados pelas equipes de domínio mais próximas da fonte. Essas equipes têm o melhor entendimento do contexto e do valor dos dados, o que as torna as administradoras ideais de seus próprios dados.
Dados como um produto
Tratar os dados como um produto significa estabelecer interfaces bem definidas, padrões de qualidade e documentação. Isso facilita a descoberta, o acesso e o consumo de dados. Isso ajuda a garantir que os dados agreguem valor aos seus usuários.
Infraestrutura de dados de autoatendimento
As equipes recebem as ferramentas e a infraestrutura necessárias para criar, implantar e gerenciar seus produtos de dados de forma independente. Isso reduz a dependência das equipes centrais de TI e acelera as operações de dados.
Governança computacional federada
Um modelo de governança federada mantém a consistência, a segurança e a conformidade dos dados em toda a organização. Ele equilibra a supervisão central e a autonomia específica do domínio, permitindo práticas de governança personalizadas.
Para saber mais, confira este artigo sobre o que é uma federação de dados.
Esses princípios promovem coletivamente um ambiente em que os dados são mais acessíveis, confiáveis e valiosos em uma grande organização.
Como funciona uma malha de dados
Os produtos de dados são os blocos de construção de uma malha de dados. Eles são ativos reutilizáveis e detectáveis que encapsulam dados específicos do domínio, projetados com interfaces claras e padrões de qualidade. Eles facilitam a integração e o uso dos dados em toda a organização.
Por exemplo, uma equipe de vendas poderia criar um produto de dados que incluísse o histórico de compras do cliente e as tendências de vendas. A equipe de marketing pode, então, acessar e usar facilmente esses dados para adaptar suas campanhas.
O gráfico acima mostra uma visão simplificada de um exemplo de malha de dados para uma organização. As políticas gerais de governança de dados orientam cada um dos quatro departamentos: Vendas, finanças, marketing e desenvolvimento de produtos. Cada departamento é responsável por seus próprios dados e cria um produto de dados completo hospedado em uma plataforma compartilhada. Os consumidores de dados interagem com produtos de dados em toda a organização por meio de um plano de experiência de malha de dados unificado.
Arquitetura de malha de dados
Uma arquitetura típica de malha de dados consiste em vários componentes principais que funcionam juntos:
Produtos de dados de domínio
Os produtos de dados são o coração da malha de dados. As equipes de domínio as possuem e gerenciam. Essas equipes são responsáveis pela qualidade e manutenção de seus produtos de dados e por garantir que eles atendam às necessidades dos usuários.
Plataforma de infraestrutura de dados
A plataforma de infraestrutura de dados oferece uma base comum para armazenamento, processamento e governança de dados. Ele oferece suporte ao desenvolvimento e à implantação de produtos de dados, oferecendo as ferramentas e tecnologias necessárias.
Governança de dados
A governança de dados estabelece políticas e padrões de qualidade, segurança e acesso aos dados para garantir práticas de gerenciamento de dados consistentes e em conformidade. Esse componente é fundamental para manter a confiança nos dados em toda a organização. Você pode saber mais neste curso sobre Conceitos de governança de dados.
Plano de experiência de malha de dados
O plano de experiência da malha de dados é a interface amigável que permite a descoberta, o acesso e o consumo de produtos de dados. Isso garante que os consumidores de dados possam encontrar e usar facilmente os dados de que precisam. Gosto de pensar nisso como uma loja onde posso encontrar todos os produtos de dados da organização.
Implementação da malha de dados
Digamos que você esteja interessado em implementar uma malha de dados em sua organização. Por onde começar? Vamos examinar algumas etapas importantes.
Identificar domínios
Comece definindo limites claros em torno dos domínios de negócios. Esse alinhamento ajuda a atribuir a propriedade dos dados às equipes certas. Identificar áreas de negócios distintas dentro da organização, como vendas, marketing, finanças ou desenvolvimento de produtos.
Estabelecer a propriedade dos dados
Atribua a propriedade dos dados às equipes de domínio relevantes. Essas equipes são responsáveis pela qualidade e pelo gerenciamento de seus próprios dados.
Criar produtos de dados
Definir e desenvolver produtos de dados que atendam às necessidades dos consumidores de dados. Esses consumidores podem ser funcionários da mesma organização, investidores ou outras partes interessadas. Certifique-se de que esses produtos sejam detectáveis, bem documentados e reutilizáveis para maximizar seu valor.
Por exemplo, a equipe de vendas pode criar um produto de dados que inclua o histórico de compras do cliente e as tendências de vendas, que é então usado pela equipe de marketing, os consumidores de dados neste exemplo.
Governança federada
Estabeleça um modelo de governança federada para manter a consistência e a conformidade dos dados. Essa abordagem permite práticas de governança específicas do domínio e, ao mesmo tempo, garante que os padrões organizacionais gerais sejam atendidos.
Nosso modelo de governança deve equilibrar a supervisão central com a autonomia específica do domínio. Confira esta folha de dicas sobre governança de dados para você ver algumas dicas.
Implementar uma infraestrutura de autoatendimento
Equipe as equipes com as ferramentas e plataformas necessárias para gerenciar seus produtos de dados de forma independente. Fornecer às equipes de domínio acesso a uma plataforma comum de infraestrutura de dados que inclua ferramentas para armazenamento, processamento, gerenciamento e linhagem de dados (leia mais neste artigo sobre o que é uma linhagem de dados). Isso reduz as dependências das equipes centrais de TI e acelera as operações de dados.
A transição para uma arquitetura de malha de dados pode parecer assustadora, mas a recompensa pode ser substancial para grandes organizações.
Ferramentas para malhas de dados
As malhas de dados geralmente exigem ferramentas que ofereçam suporte às equipes de domínio para criar, implantar e gerenciar seus produtos de dados de forma independente. Essas ferramentas variam de plataformas de armazenamento e processamento de dados a soluções de governança e descoberta.
Ferramentas pagas
Aqui estão algumas ferramentas populares usadas em malhas de dados:
Ferramenta |
Descrição |
Baseado na nuvem |
Principais recursos |
Plataforma analítica unificada que integra engenharia, ciência e análise de dados |
Sim |
Delta Lake para armazenamento de dados, MLflow para machine learning, Databricks SQL para análise |
|
Plataforma de dados baseada em nuvem para armazenamento de dados, lagos e compartilhamento |
Sim |
Escalabilidade, compartilhamento de dados, colaboração segura, Snowflake Data Marketplace |
|
Governança de dados e plataforma de catálogo que suportam os princípios de malha de dados |
Sim |
Catálogo de dados, governança de dados, privacidade de dados e gerenciamento de qualidade de dados |
Ferramentas de código aberto
Vamos agora explorar algumas ferramentas populares de código aberto para malhas de dados:
Ferramenta |
Descrição |
Baseado na nuvem |
Principais recursos |
Plataforma de streaming de eventos distribuídos |
Sim |
Fluxo de dados em tempo real, escalabilidade |
|
Automação do fluxo de trabalho e sistema de agendamento |
Sim |
Orquestração de fluxos de trabalho de dados complexos |
|
Ferramenta de transformação de dados para engenharia analítica |
Sim |
Transformações baseadas em SQL, controle de versão |
Essas ferramentas oferecem uma combinação de recursos que podem ajudar as organizações a implementar uma arquitetura de malha de dados de forma eficaz. É importante pesquisar uma variedade de ferramentas para criar um conjunto personalizado de ferramentas que atenda às necessidades específicas de uma organização.
Benefícios de uma malha de dados
Uma malha de dados oferece escalabilidade às organizações, acomodando de forma mais eficaz os volumes de dados e a complexidade crescentes do que as abordagens centralizadas. Essa escalabilidade garante que as organizações possam gerenciar e processar grandes quantidades de dados sem encontrar gargalos ou problemas de desempenho.
A descentralização do gerenciamento de dados em uma malha de dados promove a agilidade, permitindo que as organizações respondam mais rapidamente às necessidades comerciais e às condições de mercado em constante mudança. Essa flexibilidade permite que as equipes adaptem suas estratégias de dados individuais em tempo real, garantindo que possam ficar à frente da curva em um cenário de negócios em rápida evolução.
Em uma arquitetura de malha de dados, a qualidade dos dados é aprimorada por meio da propriedade específica do domínio. As equipes de domínio, que possuem o conhecimento e o contexto mais relevantes, são responsáveis por gerenciar e manter seus produtos de dados. Essa abordagem garante a precisão, a confiabilidade e o alinhamento dos dados com os objetivos comerciais.
Além disso, uma arquitetura de malha de dados promove a colaboração entre domínios e o compartilhamento de conhecimento. Ao eliminar os silos de dados, as equipes podem aproveitar a experiência umas das outras, o que leva a uma melhor tomada de decisão e a melhores resultados gerais.
Desafios da adoção de uma malha de dados
A adoção de uma malha de dados traz seus próprios desafios que as organizações devem enfrentar.
Um grande obstáculo é a mudança cultural exigida pelo. A mudança para uma malha de dados exige uma mudança fundamental na cultura organizacional. Em vez de uma equipe de dados centralizada ser responsável por todos os dados de uma organização, as malhas de dados exigem a tomada de decisões descentralizada e a propriedade dos dados. Essa mudança exige a adesão de todos os níveis da organização e pode encontrar resistência daqueles que estão acostumados ao controle centralizado.
A complexidade técnica da implementação de uma malha de dados também pode ser um desafio. Haverá novas ferramentas, processos e habilidades, o que pode exigir um investimento significativo em treinamento e infraestrutura. As organizações devem garantir que tenham os recursos e a experiência necessários para fazer uma transição bem-sucedida para uma arquitetura de malha de dados.
Encontrar o equilíbrio certo entre aautonomia do domínio e a governança central representa outro desafio. Embora as equipes de domínio precisem de liberdade para inovar e gerenciar seus produtos de dados de forma independente, a governança central é fundamental para manter a consistência, a segurança e a conformidade dos dados em toda a organização. Alcançar esse equilíbrio requer planejamento e coordenação cuidadosos para estabelecer estruturas de governança que acomodem tanto as necessidades específicas do domínio quanto os objetivos organizacionais abrangentes.
Quando considerar uma malha de dados
Organizações grandes e complexas, com cenários de dados extensos e variados, geralmente consideram as abordagens centralizadas inadequadas para o dimensionamento eficiente. Nesses ambientes, onde os volumes e as complexidades dos dados continuam a crescer, uma malha de dados oferece uma alternativa descentralizada que pode acomodar melhor as necessidades da organização.
As organizações que operam em ambientes ágeis, onde respostas rápidas às mudanças no mercado ou às demandas dos clientes são essenciais, também podem se beneficiar da flexibilidade de uma malha de dados. Sua natureza descentralizada permite uma adaptação mais rápida aos requisitos comerciais em constante evolução. Isso aumenta a agilidade e a capacidade de resposta.
Uma malha de dados pode ser particularmente benéfica para organizações com propriedade de dados naturalmente distribuída entre diferentes equipes ou departamentos. Ao alinhar as práticas de gerenciamento de dados com a estrutura existente da organização, uma malha de dados capacita as equipes de domínio a assumir a propriedade de seus próprios produtos de dados. Essa propriedade distribuída promove a responsabilidade e garante que os dados sejam gerenciados por aqueles que têm o conhecimento e o contexto mais relevantes.
No entanto, as organizações que dependem muito de práticas de dados padronizadas e homogeneizadas em todos os departamentos ou que não têm domínios de negócios distintos podem não se beneficiar de uma malha de dados. Sem limites claramente definidos e tomada de decisões descentralizada, as vantagens da propriedade e da agilidade específicas do domínio podem ser perdidas. Essas organizações podem se beneficiar mais de uma abordagem centralizada para o gerenciamento de dados.
Malha de dados vs. Tecido de dados
Uma estrutura de dados é uma abordagem mais centralizada para criar um ambiente de dados unificado em uma organização. Ele integra várias fontes de dados e sistemas em uma plataforma única e coesa, oferecendo aos usuários uma visão unificada dos dados.
As estruturas de dados geralmente enfatizam a integração, a governança e a segurança dos dados para garantir a consistência e a confiabilidade em toda a organização. Você pode ler mais neste artigo sobre o que é uma malha de dados.
Embora tanto a malha de dados quanto o tecido de dados abordem os desafios do gerenciamento de dados moderno, eles o fazem por meio de abordagens diferentes. Uma malha de dados prioriza a descentralização e a propriedade orientada por domínio, enquanto uma malha de dados enfatiza a centralização e a integração.
A escolha entre essas abordagens depende de fatores como estrutura organizacional, panorama de dados e objetivos comerciais.
Aspecto |
Malha de dados |
Tecido de dados |
Propriedade |
Propriedade orientada ao domínio; dados pertencentes a equipes de domínio |
Propriedade centralizada; os dados são de propriedade central |
Integração de dados |
Descentralizado; a integração é feita por equipes de domínio |
Centralizado; integração gerenciada por uma plataforma central |
Governança |
Modelo de governança federada; autonomia específica do domínio |
Governança centralizada; padronizada em toda a organização |
Qualidade dos dados |
Responsabilidade específica por domínio; melhoria da qualidade dos dados |
Governança centralizada; garante a qualidade consistente dos dados |
Acesso aos dados |
Infraestrutura de dados de autoatendimento; capacita as equipes de domínio |
Controle de acesso centralizado; gerenciado por equipes centrais de TI |
Conclusão
O paradigma de malha de dados oferece uma solução para os desafios das arquiteturas de dados centralizadas em grandes organizações. Ao descentralizar o gerenciamento de dados e alinhá-lo aos domínios de negócios, a malha de dados melhora a escalabilidade, a agilidade, a qualidade dos dados e a inovação.
Para saber mais sobre gerenciamento de dados, confira estes recursos:
Aprenda a gerenciar dados com estes cursos!
curso
Data Management Concepts
curso
Introduction to Databricks

blog
O que é ciência de dados? Definição, exemplos, ferramentas e mais
blog
O que significa democratizar os dados? Liberando o poder das culturas de dados
blog
O que significa cultura de dados? Guia abrangente para uma organização mais orientada por dados
blog
O que é alfabetização em dados? Um guia para líderes de dados e análise
blog
As 10 principais ferramentas de ciência de dados a serem usadas em 2024

blog