Cuando hablamos de tecnología de la información (IT) sabemos que existen algunos conceptos que todavía siguen siendo un misterio para la mayoría de la gente. Incluso algunos suenan extraños también para el personal de IT de empresas medianas o pequeñas. Pero es importante para la toma de decisiones en las empresas entender bien algunos de estos conceptos. Uno de ellos es la integración de datos.
En un principio, la integración de datos suena como una idea simple. Como es normal, muchas organizaciones almacenan información en múltiples bases de datos, y por esa razón necesitan una manera de recuperar los datos de las diferentes fuentes y juntarlos de una manera unificada. Por ejemplo, imaginemos que una empresa de electrónica se está preparando para lanzar un nuevo dispositivo móvil. El departamento de marketing puede ser que desee recuperar la información del cliente a partir de una base de datos de departamento de ventas y compararla con la información del departamento de producto para crear una lista objetivo de ventas específica. Un buen sistema de integración de datos permitiría al departamento de marketing ver la información de ambas fuentes de una manera unificada, dejando fuera cualquier información que no fuera necesaria.
La realidad es que la integración de datos es una disciplina complicada. No hay un enfoque universal para la integración de datos, y muchas de las técnicas que los expertos en IT utilizan, todavía están en evolución. Algunos enfoques de integración de datos podrían funcionar mejor que otros para una organización, dependiendo de las necesidades de esa organización. Vamos a echar un vistazo a algunas de las estrategias generales que los expertos en IT utilizan para integrar múltiples fuentes de datos.
Aproximación a la integración de datos
Las bases de datos pueden llegar a ser bastante complejas, y esa es la razón por la que la integración de datos sigue siendo una disciplina en desarrollo, aunque se realiza desde hace más de 30 años. El objetivo de la integración de datos es reunir datos de diferentes fuentes, combinarlos y presentarlos de una manera que parezca ser un todo unificado.
Enfoque inicial
Algunos enfoques de integración se basan en aplicaciones que hacen todo el trabajo por ti. Las aplicaciones, que son programas informáticos especializados, pueden localizar, recuperar e integrar la información por ti. Durante el proceso de integración, las aplicaciones deben manipular los datos para que la información de una fuente sea compatible con la información de otra fuente. El problema con este enfoque es que las aplicaciones se vuelven complejas y difíciles de programar ya que el número de fuentes de datos y los formatos aumentan.
Data warehouse
Luego tenemos el método de almacén de datos común, también conocido como data warehousing. Usando este método, todos los datos de las diferentes bases de datos que tienes la intención de integrar son extraídos, transformados y cargados. Eso significa que el data warehouse primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos los datos a un formato común para que un conjunto de datos sea compatible con otro. A continuación, carga estos nuevos datos en su propia base de datos. Cuando se envía la consulta, el data warehouse localiza los datos, los recupera y los presenta en una visión integrada.
La mayoría de los diseñadores de sistemas de integración de datos suponen que el objetivo final es crear el menor trabajo para el usuario final que sea posible, por lo que tienden a centrarse en las aplicaciones y técnicas de data warehousing.
Bases de datos en red
Para los sistemas de integración de datos que se basan en información que cambia con frecuencia, un enfoque de data warehouse no es ideal. Una manera en que los expertos de IT tratan de abordar este problema es diseñar sistemas que extraen los datos directamente de las fuentes de datos individuales. Ya que no hay base de datos centralizada dedicada a analizar, categorizar e integrar los datos para las consultas de los usuarios, dichas responsabilidades caen a otras partes del sistema.
Los expertos en IT definen estos sistemas de integración de datos en términos de esquemas. La visión unificada producida a partir de una consulta procesada es el esquema global. La estructura de las distintas fuentes de datos y la forma en que se relacionan entre sí es el esquema de origen. La forma en que los esquemas globales y de la fuente se interrelacionan se llama mapeo. Puedes pensar en el esquema de origen como el modelo para todos los datos dentro del sistema, mientras que el esquema global es un modelo para la vista presentada en respuesta a una consulta.