Gestión de datos maestros, Master Data Management o simplemente MDM es una denominación relativamente nueva para algo que hace tiempo preocupa a muchas empresas: necesitan conseguir y distribuir datos consistentes mediante diferentes sistemas, bases de datos y aplicaciones específicas departamentales, salvando para ello barreras tecnológicas y de la propia organización.
La gestión de datos maestros (MDM) se refiere a la creación para estos fines de una única base de datos llamada Master Data o de Datos Maestros.
Los datos maestros buscan una vista unificada de todos los datos de la empresa y su entorno. Por lo general, una gestión de datos maestros pueden incluir a clientes, proveedores, empleados y productos, pero también partners, filiales, etc. En diferentes industrias e incluso distintas empresas de la misma industria pueden diferir en sus necesidades de datos pero la importancia de MDM es que ofrece a la empresa una única versión de la verdad. Sin unos datos maestros claramente definidos, la empresa corre el riesgo de tener múltiples copias de datos que son incompatibles entre sí.
MDM suele ser más importante cuanto mayor es la organización. Una organización más grande implica que hay sistemas más dispares dentro de la empresa, y la dificultad en proporcionar una única fuente de la verdad, así como el beneficio de tener datos maestros, crece con cada fuente de datos adicional.
Un gran reto particular para la gestión de datos maestros se produce cuando hay una fusión o adquisición. Cada una de las organizaciones tendrá sus propios datos maestros, y cómo combinar los dos conjuntos de datos será un reto. Imaginemos los datos de los clientes: las dos compañías tienen probabilidades de tener diferentes identificadores únicos para cada cliente. Las direcciones y los números de teléfono pueden no coincidir. Uno puede tener un apodo y el otro puede tener el nombre completo. Todo ello contribuye a la dificultad de crear y mantener en un solo conjunto de datos maestros.
Diferencia entre Gestión de Datos Maestros y Data Warehousing
Por lo que hemos dicho hasta el momento parece que gestión de datos maestros y el data warehousing tienen mucho en común. Por ejemplo, el esfuerzo de transformación y limpieza de datos es muy similar a un proceso de ETL de data warehouse, y de hecho se pueden utilizar las mismas herramientas ETL. No es raro ver un MDM y una data warehouse juntos en un mismo proyecto. Sin embargo, es importante aclarar las principales diferencias entre los dos:
1. Objetivos diferentes
El objetivo principal de un data warehouse es analizar los datos de una manera multidimensional, mientras que el objetivo principal de una gestión de datos maestros es crear y mantener una única fuente de verdad para una dimensión particular dentro de la organización. Además, MDM necesita resolver las inconsistencias de los metadatos, ya que los datos maestros necesitarán ser propagados de nuevo al sistema de origen. Sin embargo en data warehouse no siempre es necesario ya que puede ser suficiente con tener una visión coherente a nivel de almacenamiento de datos en lugar de tener que garantizar la coherencia en el nivel de la fuente de datos.
2. Diferentes tipos de datos
Gestión de datos maestros solo se aplica a las entidades y no los datos de transacciones, mientras que un data warehouse incluye datos que son a la vez transaccionales y no transaccionales en su naturaleza. La forma más fácil de pensar acerca de esto es que MDM sólo afecta a los datos que existen en tablas dimensionales y no en tablas de hechos, mientras que en un entorno de data warehouse se incluyen tanto las tablas dimensionales como las tablas de hechos.
3. Diferentes Necesidades de Información
En data warehouse es importante ofrecer a los usuarios finales los tipos adecuados de informes utilizando el tipo correcto de herramienta de informes para facilitar el análisis. En MDM, las necesidades de información son muy diferentes. Es mucho más importante ser capaz de proporcionar informes sobre la gobernanza de datos y calidad de datos en lugar de informes basados en necesidades analíticas.
4. Donde se utilizan los datos
En un data warehouse, por lo general el único uso de esta «única fuente de verdad» es para aplicaciones que tienen acceso al data warehouse directamente, o aplicaciones que acceden a los sistemas que reciben sus datos directamente desde el data warehouse. La mayor parte del tiempo, las fuentes de datos originales no se ven afectadas. En la gestión de datos maestros, por el contrario, a menudo necesitan tener una estrategia que permita enviar una copia de los datos maestros de nuevo hacia el sistema de origen. Esto plantea desafíos que no existen en un entorno de data warehouse. Por ejemplo, ¿cómo puedes sincronizar los datos con la fuente original? ¿cuándo?, ¿una vez al día? ¿una vez cada hora? ¿Cómo gestionamos los casos en que se modifican datos tras pasar por el proceso de limpieza? ¿Y qué cantidad de modificación necesitamos hacer al sistema de origen para que pueda utilizar los datos maestros? Estas preguntas representan desafíos a los que se enfrenta MDM. Desafortunadamente, no hay una respuesta fácil ya que la solución depende de una variedad de factores específicos de cada organización, tales como el número de sistemas de fuente que hay, lo fácil o costoso que sea modificar el sistema de origen, e incluso las políticas internas de la empresa.