curso
¿Qué es una malla de datos?
Las arquitecturas de datos centralizadas pueden ser una estrategia de datos eficaz, hasta que empiezan a tener problemas con el creciente volumen y complejidad de los datos.
A medida que aumentan los datos, estos sistemas centralizados pueden sufrir cuellos de botella. Dependen de un único punto de control, que puede verse desbordado. El resultado son procesos lentos y dificultades para extraer información valiosa de forma eficaz.
Una malla de datos es un sistema arquitectónico de gestión de datos descentralizado y específico de un dominio. Este enfoque capacita a los equipos para hacerse cargo de sus propios datos, lo que conduce a una mejor calidad de los datos y a perspectivas más rápidas.
Si quieres saber más sobre la gestión de datos, consulta mis otros artículos de esta serie:
¿Qué es una malla de datos?
Una malla de datos es un enfoque moderno de la arquitectura de datos que desplaza la gestión de datos de un modelo centralizado a otro descentralizado.
Hace hincapié en la propiedad orientada al dominio, donde la gestión de datos se alinea con áreas de negocio específicas. Esta alineación hace que las operaciones de datos sean más escalables y flexibles, aprovechando los conocimientos y la experiencia de quienes están más cerca de los datos.
Principios básicos
En el corazón de una malla de datos hay cuatro principios clave que guían su implantación y funcionamiento.
Propiedad orientada al dominio
Los datos pertenecen y son gestionados por los equipos de dominio más cercanos a la fuente. Estos equipos comprenden mejor el contexto y el valor de los datos, lo que les convierte en los administradores ideales de sus propios datos.
Los datos como producto
Tratar los datos como un producto significa establecer interfaces bien definidas, normas de calidad y documentación. Esto hace que los datos sean más fáciles de descubrir, acceder y consumir. Esto ayuda a garantizar que los datos aportan valor a sus usuarios.
Infraestructura de datos de autoservicio
A los equipos se les proporcionan las herramientas y la infraestructura que necesitan para construir, desplegar y gestionar sus productos de datos de forma independiente. Esto reduce la dependencia de los equipos informáticos centrales y acelera las operaciones de datos.
Gobernanza informática federada
Un modelo de gobierno federado mantiene la coherencia, la seguridad y el cumplimiento de los datos en toda la organización. Equilibra la supervisión central y la autonomía específica del dominio, permitiendo prácticas de gobernanza a medida.
Para saber más, consulta este artículo sobre qué es una federación de datos.
Estos principios fomentan colectivamente un entorno en el que los datos son más accesibles, fiables y valiosos dentro de una gran organización.
Cómo funciona una malla de datos
Los productos de datos son los componentes básicos de una malla de datos. Son activos reutilizables y descubribles que encapsulan datos específicos del dominio, diseñados con interfaces claras y normas de calidad. Facilitan la integración y el uso de los datos en toda la organización.
Por ejemplo, un equipo de ventas podría crear un producto de datos que incluya el historial de compras de los clientes y las tendencias de ventas. El equipo de marketing puede acceder fácilmente a estos datos y utilizarlos para adaptar sus campañas.
El gráfico anterior muestra una vista simplificada de un ejemplo de malla de datos de una organización. Las políticas generales de gobernanza de datos guían a cada uno de los cuatro departamentos: Ventas, Finanzas, Marketing y Desarrollo de Productos. Cada departamento es responsable de sus propios datos y crea un producto de datos completo alojado en una plataforma compartida. Los consumidores de datos interactúan con los productos de datos de toda la organización a través de un plano de experiencia de malla de datos unificado.
Arquitectura de malla de datos
Una arquitectura de malla de datos típica consta de varios componentes clave que funcionan juntos:
Productos de datos de dominio
Los productos de datos son el corazón de la malla de datos. Los equipos de dominio los poseen y gestionan. Estos equipos son responsables de la calidad y el mantenimiento de sus productos de datos y de garantizar que satisfacen las necesidades de los usuarios.
Plataforma de infraestructura de datos
La plataforma de infraestructura de datos proporciona una base común para el almacenamiento, procesamiento y gobierno de los datos. Apoya el desarrollo y despliegue de productos de datos ofreciendo las herramientas y tecnologías necesarias.
Gobernanza de datos
La gobernanza de datos establece políticas y normas de calidad, seguridad y acceso a los datos para garantizar prácticas de gestión de datos coherentes y conformes. Este componente es crucial para mantener la confianza en los datos en toda la organización. Puedes obtener más información en este curso sobre Conceptos de gobierno de datos.
Plano de experiencia de la malla de datos
El plano de experiencia de la malla de datos es la interfaz fácil de usar que permite descubrir, acceder y consumir productos de datos. Garantiza que los consumidores de datos puedan encontrar y utilizar fácilmente los datos que necesitan. Me gusta pensar en esto como un almacén donde puedo encontrar todos los productos de datos de la organización.
Implementación de la malla de datos
Supongamos que estamos interesados en implantar una malla de datos en nuestra organización. ¿Por dónde empezamos? Repasemos algunos pasos clave.
Identificar dominios
Empieza por definir unos límites claros en torno a los dominios empresariales. Esta alineación ayuda a asignar la propiedad de los datos a los equipos adecuados. Identifica distintas áreas de negocio dentro de la organización, como ventas, marketing, finanzas o desarrollo de productos.
Establecer la propiedad de los datos
Asigna la propiedad de los datos a los equipos de dominio correspondientes. Estos equipos son responsables de la calidad y la gestión de sus propios datos.
Crea productos de datos
Define y desarrolla productos de datos que satisfagan las necesidades de los consumidores de datos. Estos consumidores pueden ser empleados de la misma organización, inversores u otras partes interesadas. Asegúrate de que estos productos son descubribles, están bien documentados y son reutilizables para maximizar su valor.
Por ejemplo, el equipo de ventas puede crear un producto de datos que incluya el historial de compras de los clientes y las tendencias de ventas, que luego utilizará el equipo de marketing, los consumidores de datos en este ejemplo.
Gobernanza federada
Establecer un modelo de gobierno federado para mantener la coherencia y el cumplimiento de los datos. Este enfoque permite prácticas de gobierno específicas de cada dominio, al tiempo que garantiza el cumplimiento de las normas generales de la organización.
Nuestro modelo de gobernanza debe equilibrar la supervisión central con la autonomía específica de cada ámbito. Consulta esta hoja de trucos para la Gobernanza de Datos para obtener algunos consejos.
Implantar una infraestructura de autoservicio
Equipa a los equipos con las herramientas y plataformas que necesitan para gestionar sus productos de datos de forma independiente. Proporcionar a los equipos de dominio acceso a una plataforma de infraestructura de datos común que incluya herramientas para el almacenamiento, procesamiento, gestión y linaje de datos (lee más en este artículo sobre qué es un linaje de datos). Esto reduce la dependencia de los equipos informáticos centrales y acelera las operaciones de datos.
La transición a una arquitectura de malla de datos puede parecer desalentadora, pero la recompensa puede ser sustancial para las grandes organizaciones.
Herramientas para mallas de datos
Las mallas de datos suelen requerir herramientas que ayuden a los equipos de dominio a crear, desplegar y gestionar sus productos de datos de forma independiente. Estas herramientas van desde plataformas de almacenamiento y procesamiento de datos hasta soluciones de gobernanza y descubrimiento.
Herramientas de pago
He aquí algunas herramientas populares utilizadas en las mallas de datos:
Herramienta |
Descripción |
En la nube |
Características principales |
Plataforma analítica unificada que integra la ingeniería de datos, la ciencia y la analítica |
Sí |
Delta Lake para almacenamiento de datos, MLflow para aprendizaje automático, Databricks SQL para análisis |
|
Plataforma de datos basada en la nube para almacenamiento, lagos y compartición de datos |
Sí |
Escalabilidad, intercambio de datos, colaboración segura, Snowflake Data Marketplace |
|
Plataforma de gobernanza y catálogo de datos compatible con los principios de la malla de datos |
Sí |
Catálogo de datos, gobernanza de datos, privacidad de datos y gestión de la calidad de datos |
Herramientas de código abierto
Exploremos ahora algunas herramientas populares de código abierto para mallas de datos:
Herramienta |
Descripción |
En la nube |
Características principales |
Plataforma distribuida de streaming de eventos |
Sí |
Flujo de datos en tiempo real, escalabilidad |
|
Sistema de automatización y programación del flujo de trabajo |
Sí |
Orquestación de flujos de trabajo de datos complejos |
|
Herramienta de transformación de datos para la ingeniería analítica |
Sí |
Transformaciones basadas en SQL, control de versiones |
Estas herramientas ofrecen una mezcla de capacidades que pueden ayudar a las organizaciones a implantar eficazmente una arquitectura de malla de datos. Es importante investigar diversas herramientas para crear un conjunto a medida que satisfaga las necesidades específicas de una organización.
Ventajas de una malla de datos
Una malla de datos proporciona a las organizaciones escalabilidad al acomodar con mayor eficacia los crecientes volúmenes de datos y complejidad que los enfoques centralizados. Esta escalabilidad garantiza que las organizaciones puedan gestionar y procesar grandes cantidades de datos sin encontrar cuellos de botella ni problemas de rendimiento.
Descentralizar la gestión de datos dentro de una malla de datos fomenta la agilidad, permitiendo a las organizaciones responder más rápidamente a las cambiantes necesidades empresariales y condiciones del mercado. Esta flexibilidad permite a los equipos adaptar sus estrategias de datos individuales en tiempo real, garantizando que puedan mantenerse a la vanguardia en un panorama empresarial en rápida evolución.
En una arquitectura de malla de datos, la calidad de los datos se mejora mediante la propiedad específica del dominio. Los equipos de dominio, que poseen los conocimientos y el contexto más relevantes, son responsables de gestionar y mantener sus productos de datos. Este enfoque garantiza la exactitud, fiabilidad y alineación de los datos con los objetivos empresariales.
Además, una arquitectura de malla de datos fomenta la colaboración entre dominios y el intercambio de conocimientos. Al romper los silos de datos, los equipos pueden aprovechar la experiencia de los demás, lo que conduce a una mejor toma de decisiones y a mejores resultados generales.
Retos de la adopción de una malla de datos
Adoptar una malla de datos conlleva sus propios retos que las organizaciones deben sortear.
Un obstáculo importante es el cambio cultural que requiere. Avanzar hacia una malla de datos requiere un cambio fundamental en la cultura organizativa. En lugar de que un equipo de datos centralizado sea responsable de todos los datos de una organización, las mallas de datos requieren una toma de decisiones descentralizada y la propiedad de los datos. Este cambio requiere la participación de todos los niveles de la organización y puede encontrar resistencia por parte de quienes están acostumbrados al control centralizado.
La complejidad técnica de implantar una malla de datos también puede ser un reto. Habrá nuevas herramientas, procesos y habilidades, que pueden requerir una inversión significativa en formación e infraestructura. Las organizaciones deben asegurarse de que disponen de los recursos y la experiencia necesarios para realizar con éxito la transición a una arquitectura de malla de datos.
Encontrar el equilibrio adecuado entre laautonomía del dominio y la gobernanza central plantea otro reto. Aunque los equipos de dominio necesitan libertad para innovar y gestionar sus productos de datos de forma independiente, la gobernanza central es crucial para mantener la coherencia, la seguridad y el cumplimiento de los datos en toda la organización. Alcanzar este equilibrio requiere una planificación y coordinación cuidadosas para establecer marcos de gobernanza que se adapten tanto a las necesidades específicas del ámbito como a los objetivos generales de la organización.
Cuándo considerar una malla de datos
Las organizaciones grandes y complejas con paisajes de datos extensos y variados a menudo consideran que los enfoques centralizados son inadecuados para escalar de forma eficiente. En estos entornos, donde los volúmenes de datos y las complejidades siguen creciendo, una malla de datos ofrece una alternativa descentralizada que puede adaptarse mejor a las necesidades de la organización.
Las organizaciones que operan en entornos ágiles, donde es esencial responder con rapidez a los cambios del mercado o a las demandas de los clientes, también pueden beneficiarse de la flexibilidad de una malla de datos. Su naturaleza descentralizada permite una adaptación más rápida a la evolución de los requisitos empresariales. Esto aumenta la agilidad y la capacidad de respuesta.
Una malla de datos puede ser especialmente beneficiosa para las organizaciones con una propiedad de los datos naturalmente distribuida entre distintos equipos o departamentos. Al alinear las prácticas de gestión de datos con la estructura existente de la organización, una malla de datos capacita a los equipos de dominio para asumir la propiedad de sus propios productos de datos. Esta propiedad distribuida fomenta la responsabilidad y garantiza que los datos sean gestionados por quienes tienen la experiencia y el contexto más relevantes.
Sin embargo, las organizaciones que dependen en gran medida de prácticas de datos estandarizadas y homogeneizadas en todos los departamentos o que carecen de dominios empresariales diferenciados pueden no beneficiarse de una malla de datos. Sin unos límites claramente definidos y una toma de decisiones descentralizada, pueden perderse las ventajas de la propiedad y la agilidad específicas del dominio. Estas organizaciones pueden beneficiarse más de un enfoque centralizado de la gestión de datos.
Malla de datos vs. Tejido de datos
Un tejido de datos es un enfoque más centralizado para crear un entorno de datos unificado en toda una organización. Integra diversas fuentes de datos y sistemas en una plataforma única y cohesionada, proporcionando a los usuarios una visión unificada de los datos.
Los tejidos de datos suelen hacer hincapié en la integración, la gobernanza y la seguridad de los datos para garantizar su coherencia y fiabilidad en toda la organización. Puedes leer más en este artículo sobre qué es un tejido de datos.
Aunque tanto la malla de datos como el tejido de datos abordan los retos de la gestión moderna de datos, lo hacen mediante enfoques diferentes. Una malla de datos prioriza la descentralización y la propiedad orientada al dominio, mientras que un tejido de datos enfatiza la centralización y la integración.
La elección entre estos enfoques depende de factores como la estructura organizativa, el panorama de los datos y los objetivos empresariales.
Aspecto |
Malla de datos |
Tejido de datos |
Propiedad |
Propiedad orientada al dominio; los datos son propiedad de los equipos del dominio |
Propiedad centralizada; los datos son propiedad centralizada |
Integración de datos |
Descentralizado; integración gestionada por equipos de dominio |
Centralizada; Integración gestionada por una plataforma central |
Gobernanza |
Modelo de gobierno federado; Autonomía específica del dominio |
Gobierno centralizado; Normalizado en toda la organización |
Calidad de los datos |
Responsabilidad específica de cada ámbito; Mejora de la calidad de los datos |
Gobernanza centralizada; Garantiza la calidad coherente de los datos |
Acceso a los datos |
Infraestructura de datos de autoservicio; capacita a los equipos de dominio |
Control de acceso centralizado; gestionado por equipos informáticos centrales |
Conclusión
El paradigma de la malla de datos ofrece una solución a los retos de las arquitecturas de datos centralizadas en las grandes organizaciones. Al descentralizar la gestión de datos y alinearla con los dominios empresariales, la malla de datos mejora la escalabilidad, la agilidad, la calidad de los datos y la innovación.
Para saber más sobre la gestión de datos, consulta estos recursos:
¡Aprende gestión de datos con estos cursos!
curso
Data Management Concepts
curso
Introduction to Databricks
blog
¿Qué es la ciencia de datos? Definición, ejemplos, herramientas y más
blog
¿Qué es Microsoft Fabric?
blog
¿Qué es la alfabetización en datos? Una guía para líderes de datos y análisis
blog
¿Qué son los datos etiquetados?
blog
¿Qué es el análisis de datos? Una guía experta con ejemplos
blog