Saltar al contenido principal

¿Qué es una malla de datos?

Una malla de datos es una arquitectura de datos descentralizada en la que equipos de dominios específicos poseen y gestionan sus datos como productos, utilizando una infraestructura compartida y adhiriéndose a principios de gobernanza federada.
Actualizado 29 jul 2024  · 10 min de lectura

Las arquitecturas de datos centralizadas pueden ser una estrategia de datos eficaz, hasta que empiezan a tener problemas con el creciente volumen y complejidad de los datos.

A medida que aumentan los datos, estos sistemas centralizados pueden sufrir cuellos de botella. Dependen de un único punto de control, que puede verse desbordado. El resultado son procesos lentos y dificultades para extraer información valiosa de forma eficaz.

Una malla de datos es un sistema arquitectónico de gestión de datos descentralizado y específico de un dominio. Este enfoque capacita a los equipos para hacerse cargo de sus propios datos, lo que conduce a una mejor calidad de los datos y a perspectivas más rápidas.

Si quieres saber más sobre la gestión de datos, consulta mis otros artículos de esta serie:

¿Qué es una malla de datos?

Una malla de datos es un enfoque moderno de la arquitectura de datos que desplaza la gestión de datos de un modelo centralizado a otro descentralizado.

Hace hincapié en la propiedad orientada al dominio, donde la gestión de datos se alinea con áreas de negocio específicas. Esta alineación hace que las operaciones de datos sean más escalables y flexibles, aprovechando los conocimientos y la experiencia de quienes están más cerca de los datos.

Principios básicos

En el corazón de una malla de datos hay cuatro principios clave que guían su implantación y funcionamiento.

Propiedad orientada al dominio

Los datos pertenecen y son gestionados por los equipos de dominio más cercanos a la fuente. Estos equipos comprenden mejor el contexto y el valor de los datos, lo que les convierte en los administradores ideales de sus propios datos.

Los datos como producto

Tratar los datos como un producto significa establecer interfaces bien definidas, normas de calidad y documentación. Esto hace que los datos sean más fáciles de descubrir, acceder y consumir. Esto ayuda a garantizar que los datos aportan valor a sus usuarios.

Infraestructura de datos de autoservicio

A los equipos se les proporcionan las herramientas y la infraestructura que necesitan para construir, desplegar y gestionar sus productos de datos de forma independiente. Esto reduce la dependencia de los equipos informáticos centrales y acelera las operaciones de datos.

Gobernanza informática federada

Un modelo de gobierno federado mantiene la coherencia, la seguridad y el cumplimiento de los datos en toda la organización. Equilibra la supervisión central y la autonomía específica del dominio, permitiendo prácticas de gobernanza a medida.

Para saber más, consulta este artículo sobre qué es una federación de datos.

Estos principios fomentan colectivamente un entorno en el que los datos son más accesibles, fiables y valiosos dentro de una gran organización.

Cómo funciona una malla de datos

Los productos de datos son los componentes básicos de una malla de datos. Son activos reutilizables y descubribles que encapsulan datos específicos del dominio, diseñados con interfaces claras y normas de calidad. Facilitan la integración y el uso de los datos en toda la organización. 

Por ejemplo, un equipo de ventas podría crear un producto de datos que incluya el historial de compras de los clientes y las tendencias de ventas. El equipo de marketing puede acceder fácilmente a estos datos y utilizarlos para adaptar sus campañas.

El gráfico muestra una vista simplificada de un ejemplo de malla de datos de una organización.

El gráfico anterior muestra una vista simplificada de un ejemplo de malla de datos de una organización. Las políticas generales de gobernanza de datos guían a cada uno de los cuatro departamentos: Ventas, Finanzas, Marketing y Desarrollo de Productos. Cada departamento es responsable de sus propios datos y crea un producto de datos completo alojado en una plataforma compartida. Los consumidores de datos interactúan con los productos de datos de toda la organización a través de un plano de experiencia de malla de datos unificado.

Arquitectura de malla de datos

Una arquitectura de malla de datos típica consta de varios componentes clave que funcionan juntos:

Productos de datos de dominio

Los productos de datos son el corazón de la malla de datos. Los equipos de dominio los poseen y gestionan. Estos equipos son responsables de la calidad y el mantenimiento de sus productos de datos y de garantizar que satisfacen las necesidades de los usuarios.

Plataforma de infraestructura de datos

La plataforma de infraestructura de datos proporciona una base común para el almacenamiento, procesamiento y gobierno de los datos. Apoya el desarrollo y despliegue de productos de datos ofreciendo las herramientas y tecnologías necesarias.

Gobernanza de datos

La gobernanza de datos establece políticas y normas de calidad, seguridad y acceso a los datos para garantizar prácticas de gestión de datos coherentes y conformes. Este componente es crucial para mantener la confianza en los datos en toda la organización. Puedes obtener más información en este curso sobre Conceptos de gobierno de datos.

Plano de experiencia de la malla de datos

El plano de experiencia de la malla de datos es la interfaz fácil de usar que permite descubrir, acceder y consumir productos de datos. Garantiza que los consumidores de datos puedan encontrar y utilizar fácilmente los datos que necesitan. Me gusta pensar en esto como un almacén donde puedo encontrar todos los productos de datos de la organización.

Implementación de la malla de datos

Supongamos que estamos interesados en implantar una malla de datos en nuestra organización. ¿Por dónde empezamos? Repasemos algunos pasos clave.

Identificar dominios

Empieza por definir unos límites claros en torno a los dominios empresariales. Esta alineación ayuda a asignar la propiedad de los datos a los equipos adecuados. Identifica distintas áreas de negocio dentro de la organización, como ventas, marketing, finanzas o desarrollo de productos.

Establecer la propiedad de los datos

Asigna la propiedad de los datos a los equipos de dominio correspondientes. Estos equipos son responsables de la calidad y la gestión de sus propios datos.

Crea productos de datos

Define y desarrolla productos de datos que satisfagan las necesidades de los consumidores de datos. Estos consumidores pueden ser empleados de la misma organización, inversores u otras partes interesadas. Asegúrate de que estos productos son descubribles, están bien documentados y son reutilizables para maximizar su valor. 

Por ejemplo, el equipo de ventas puede crear un producto de datos que incluya el historial de compras de los clientes y las tendencias de ventas, que luego utilizará el equipo de marketing, los consumidores de datos en este ejemplo.

Gobernanza federada

Establecer un modelo de gobierno federado para mantener la coherencia y el cumplimiento de los datos. Este enfoque permite prácticas de gobierno específicas de cada dominio, al tiempo que garantiza el cumplimiento de las normas generales de la organización. 

Nuestro modelo de gobernanza debe equilibrar la supervisión central con la autonomía específica de cada ámbito. Consulta esta hoja de trucos para la Gobernanza de Datos para obtener algunos consejos.

Implantar una infraestructura de autoservicio

Equipa a los equipos con las herramientas y plataformas que necesitan para gestionar sus productos de datos de forma independiente. Proporcionar a los equipos de dominio acceso a una plataforma de infraestructura de datos común que incluya herramientas para el almacenamiento, procesamiento, gestión y linaje de datos (lee más en este artículo sobre qué es un linaje de datos). Esto reduce la dependencia de los equipos informáticos centrales y acelera las operaciones de datos.

La transición a una arquitectura de malla de datos puede parecer desalentadora, pero la recompensa puede ser sustancial para las grandes organizaciones.

Herramientas para mallas de datos

Las mallas de datos suelen requerir herramientas que ayuden a los equipos de dominio a crear, desplegar y gestionar sus productos de datos de forma independiente. Estas herramientas van desde plataformas de almacenamiento y procesamiento de datos hasta soluciones de gobernanza y descubrimiento.

Herramientas de pago

He aquí algunas herramientas populares utilizadas en las mallas de datos:

Herramienta

Descripción

En la nube

Características principales

Databricks

Plataforma analítica unificada que integra la ingeniería de datos, la ciencia y la analítica

Delta Lake para almacenamiento de datos, MLflow para aprendizaje automático, Databricks SQL para análisis

Snowflake

Plataforma de datos basada en la nube para almacenamiento, lagos y compartición de datos

Escalabilidad, intercambio de datos, colaboración segura, Snowflake Data Marketplace

Collibra Data Intelligence Cloud

Plataforma de gobernanza y catálogo de datos compatible con los principios de la malla de datos

Catálogo de datos, gobernanza de datos, privacidad de datos y gestión de la calidad de datos

Herramientas de código abierto

Exploremos ahora algunas herramientas populares de código abierto para mallas de datos:

Herramienta

Descripción

En la nube

Características principales

Apache Kafka

Plataforma distribuida de streaming de eventos

Flujo de datos en tiempo real, escalabilidad

Apache Airflow

Sistema de automatización y programación del flujo de trabajo

Orquestación de flujos de trabajo de datos complejos

dbt (Herramienta de Construcción de Datos)

Herramienta de transformación de datos para la ingeniería analítica

Transformaciones basadas en SQL, control de versiones

Estas herramientas ofrecen una mezcla de capacidades que pueden ayudar a las organizaciones a implantar eficazmente una arquitectura de malla de datos. Es importante investigar diversas herramientas para crear un conjunto a medida que satisfaga las necesidades específicas de una organización.

Ventajas de una malla de datos

Una malla de datos proporciona a las organizaciones escalabilidad al acomodar con mayor eficacia los crecientes volúmenes de datos y complejidad que los enfoques centralizados. Esta escalabilidad garantiza que las organizaciones puedan gestionar y procesar grandes cantidades de datos sin encontrar cuellos de botella ni problemas de rendimiento.

Descentralizar la gestión de datos dentro de una malla de datos fomenta la agilidad, permitiendo a las organizaciones responder más rápidamente a las cambiantes necesidades empresariales y condiciones del mercado. Esta flexibilidad permite a los equipos adaptar sus estrategias de datos individuales en tiempo real, garantizando que puedan mantenerse a la vanguardia en un panorama empresarial en rápida evolución.

En una arquitectura de malla de datos, la calidad de los datos se mejora mediante la propiedad específica del dominio. Los equipos de dominio, que poseen los conocimientos y el contexto más relevantes, son responsables de gestionar y mantener sus productos de datos. Este enfoque garantiza la exactitud, fiabilidad y alineación de los datos con los objetivos empresariales.

Además, una arquitectura de malla de datos fomenta la colaboración entre dominios y el intercambio de conocimientos. Al romper los silos de datos, los equipos pueden aprovechar la experiencia de los demás, lo que conduce a una mejor toma de decisiones y a mejores resultados generales.

Retos de la adopción de una malla de datos

Adoptar una malla de datos conlleva sus propios retos que las organizaciones deben sortear.

Un obstáculo importante es el cambio cultural que requiere. Avanzar hacia una malla de datos requiere un cambio fundamental en la cultura organizativa. En lugar de que un equipo de datos centralizado sea responsable de todos los datos de una organización, las mallas de datos requieren una toma de decisiones descentralizada y la propiedad de los datos. Este cambio requiere la participación de todos los niveles de la organización y puede encontrar resistencia por parte de quienes están acostumbrados al control centralizado.

La complejidad técnica de implantar una malla de datos también puede ser un reto. Habrá nuevas herramientas, procesos y habilidades, que pueden requerir una inversión significativa en formación e infraestructura. Las organizaciones deben asegurarse de que disponen de los recursos y la experiencia necesarios para realizar con éxito la transición a una arquitectura de malla de datos.

Encontrar el equilibrio adecuado entre laautonomía del dominio y la gobernanza central plantea otro reto. Aunque los equipos de dominio necesitan libertad para innovar y gestionar sus productos de datos de forma independiente, la gobernanza central es crucial para mantener la coherencia, la seguridad y el cumplimiento de los datos en toda la organización. Alcanzar este equilibrio requiere una planificación y coordinación cuidadosas para establecer marcos de gobernanza que se adapten tanto a las necesidades específicas del ámbito como a los objetivos generales de la organización.

Cuándo considerar una malla de datos

Las organizaciones grandes y complejas con paisajes de datos extensos y variados a menudo consideran que los enfoques centralizados son inadecuados para escalar de forma eficiente. En estos entornos, donde los volúmenes de datos y las complejidades siguen creciendo, una malla de datos ofrece una alternativa descentralizada que puede adaptarse mejor a las necesidades de la organización.

Las organizaciones que operan en entornos ágiles, donde es esencial responder con rapidez a los cambios del mercado o a las demandas de los clientes, también pueden beneficiarse de la flexibilidad de una malla de datos. Su naturaleza descentralizada permite una adaptación más rápida a la evolución de los requisitos empresariales. Esto aumenta la agilidad y la capacidad de respuesta.

Una malla de datos puede ser especialmente beneficiosa para las organizaciones con una propiedad de los datos naturalmente distribuida entre distintos equipos o departamentos. Al alinear las prácticas de gestión de datos con la estructura existente de la organización, una malla de datos capacita a los equipos de dominio para asumir la propiedad de sus propios productos de datos. Esta propiedad distribuida fomenta la responsabilidad y garantiza que los datos sean gestionados por quienes tienen la experiencia y el contexto más relevantes.

Sin embargo, las organizaciones que dependen en gran medida de prácticas de datos estandarizadas y homogeneizadas en todos los departamentos o que carecen de dominios empresariales diferenciados pueden no beneficiarse de una malla de datos. Sin unos límites claramente definidos y una toma de decisiones descentralizada, pueden perderse las ventajas de la propiedad y la agilidad específicas del dominio. Estas organizaciones pueden beneficiarse más de un enfoque centralizado de la gestión de datos.

Malla de datos vs. Tejido de datos

Un tejido de datos es un enfoque más centralizado para crear un entorno de datos unificado en toda una organización. Integra diversas fuentes de datos y sistemas en una plataforma única y cohesionada, proporcionando a los usuarios una visión unificada de los datos. 

Los tejidos de datos suelen hacer hincapié en la integración, la gobernanza y la seguridad de los datos para garantizar su coherencia y fiabilidad en toda la organización. Puedes leer más en este artículo sobre qué es un tejido de datos.

Aunque tanto la malla de datos como el tejido de datos abordan los retos de la gestión moderna de datos, lo hacen mediante enfoques diferentes. Una malla de datos prioriza la descentralización y la propiedad orientada al dominio, mientras que un tejido de datos enfatiza la centralización y la integración. 

La elección entre estos enfoques depende de factores como la estructura organizativa, el panorama de los datos y los objetivos empresariales.

Aspecto

Malla de datos

Tejido de datos

Propiedad

Propiedad orientada al dominio; los datos son propiedad de los equipos del dominio

Propiedad centralizada; los datos son propiedad centralizada

Integración de datos

Descentralizado; integración gestionada por equipos de dominio

Centralizada; Integración gestionada por una plataforma central

Gobernanza

Modelo de gobierno federado; Autonomía específica del dominio

Gobierno centralizado; Normalizado en toda la organización

Calidad de los datos

Responsabilidad específica de cada ámbito; Mejora de la calidad de los datos

Gobernanza centralizada; Garantiza la calidad coherente de los datos

Acceso a los datos

Infraestructura de datos de autoservicio; capacita a los equipos de dominio

Control de acceso centralizado; gestionado por equipos informáticos centrales

Conclusión

El paradigma de la malla de datos ofrece una solución a los retos de las arquitecturas de datos centralizadas en las grandes organizaciones. Al descentralizar la gestión de datos y alinearla con los dominios empresariales, la malla de datos mejora la escalabilidad, la agilidad, la calidad de los datos y la innovación.

Para saber más sobre la gestión de datos, consulta estos recursos:

Temas

¡Aprende gestión de datos con estos cursos!

curso

Responsible AI Data Management

4 hr
1.6K
Learn the theory behind responsibly managing your data for any AI project, from start to finish and beyond.
Ver detallesRight Arrow
Comienza El Curso
Ver másRight Arrow
Relacionado

blog

¿Qué es la ciencia de datos? Definición, ejemplos, herramientas y más

La ciencia de datos es un campo interdisciplinar que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos e ideas de datos estructurados y sin estructurar.
Matt Crabtree's photo

Matt Crabtree

15 min

blog

¿Qué es Microsoft Fabric?

Descubra cómo Microsoft Fabric revoluciona el análisis de datos y conozca cómo sus características principales permiten a las empresas tomar decisiones basadas en datos.
Kurtis Pykes 's photo

Kurtis Pykes

10 min

blog

¿Qué es la alfabetización en datos? Una guía para líderes de datos y análisis

Descubre la importancia de la alfabetización en datos en el mundo actual impulsado por los datos.
Matt Crabtree's photo

Matt Crabtree

21 min

blog

¿Qué son los datos etiquetados?

Los datos etiquetados son datos brutos a los que se les han asignado etiquetas para añadir contexto o significado, que se utilizan para entrenar modelos de machine learning en el aprendizaje supervisado.
Abid Ali Awan's photo

Abid Ali Awan

6 min

blog

¿Qué es el análisis de datos? Una guía experta con ejemplos

Explora el mundo del análisis de datos con nuestra completa guía. Conoce su importancia, proceso, tipos, técnicas, herramientas y principales carreras en 2023
Matt Crabtree's photo

Matt Crabtree

10 min

blog

¿Qué es una base de datos de grafos? Guía para principiantes

Explora el intrincado mundo de las bases de datos de grafos con nuestra guía para principiantes. Comprende las relaciones entre datos, profundiza en la comparación entre bases de datos de grafos y relacionales, y explora casos prácticos de uso.
Kurtis Pykes 's photo

Kurtis Pykes

11 min

See MoreSee More