duplicidad de datos

Diferencia entre duplicidad de datos y redundancia de datos

Seguro que relacionado con las bases de datos has oído hablar más de una vez de duplicidad de datos y redundancia de datos. Son términos diferentes pero muchas veces cuesta diferenciarlos. En este artículo vamos a intentar verlo de forma clara y sencilla con un ejemplo para ver si conseguimos entender cuál es la diferencia.

En cuanto a la redundancia, en informática este concepto se utiliza para muchas otras cosas. No solo en lo referente a las bases de datos. Los sistemas redundantes son muy utilizados como medida de seguridad. Veremos también algo acerca de estos sistemas redundantes.


¡Descárgate el ebook gratuito sobre centralización de datos y evita tener datos duplicados!

Duplicidad de datos

Observa este ejemplo de creación de tablas en una base de datos para ver cómo podemos crear duplicidad de datos:

CREATE TABLE usuarios (nombre TEXT, id INTEGER);
CREATE TABLE amigos (nombre TEXT, amigo_de_id INTEGER);

Suponiendo que las dos tablas de arriba las estuviésemos creando en la misma base de datos y que los amigos son un subconjunto de los usuarios, con el ejemplo de arriba estamos duplicando el nombre del usuario en ambas tablas. Esto tiene la ventaja de que cuando se muestra la lista de amigos, no tenemos que acceder a la tabla de usuarios para leer el nombre.

Se trata de un ejemplo sencillo, pero muestra lo que llamamos la duplicidad de datos.

La duplicidad implica que vas a ser tú el responsable de actualizar también el campo nombre en la tabla de amigos cuando se cambia el nombre en la tabla de usuarios. Si no lo haces, los datos se vuelven incoherentes y los usuarios empezarán a ver que “ocurren cosas extrañas”

 

Redundancia de datos

Al contrario que con la duplicidad de datos, cuando hablamos de redundancia de datos, tú no creas dos copias de ningún dato. Pero la base de datos si que los tiene. Esto podría ocurrir por accidente, lo cual, si ocurre muy a menudo provoca que nuestra base de datos esté ocupando más espacio de lo necesario, o puede ser hecho de forma deliberada para temas de seguridad. Por ejemplo, puedes colocar tu base de datos en dos equipos distintos. Es decir, la base de datos está redundada en otro equipo. Si un equipo cae, el mismo dato está disponible en el otro equipo. El sistema de gestión de base de datos relacional (RDBM) se encarga de gestionar todo esto.

La redundancia por temas de seguridad es en definitiva una copia, pero el acceso a cualquiera de las versiones de los datos es de 1 a 1. El RDBM puede elegir uno u otro en base a diferentes parámetros tales como la rapidez o si la conexión de red del otro ordenador servidor está caída. Esta redundancia de datos es por tanto, parte de un plan de contingencias. Se trata de un sistema que refuerza las copias de seguridad con una capa adicional de protección, pero debe ser hecha con mucho cuidado ya que podría llevar a grandes problemas de incoherencia de datos, cuando una actualizacion no actualiza automáticamente otro campo. Como resultado de esto, podrías tener parte de la información con valores diferentes.

 

Sistemas redundantes

De la misma forma que en las bases de datos, en el resto de la informática, el término redundancia también se utiliza con fines de mejora de la seguridad. Normalmente hablamos de duplicar dispositivos. El objetivo de la redundancia es prevenir o recuperarse del fallo de un componente o sistema específico.

Hay muchos tipos de dispositivos redundantes. Los más comunes son los que se utilizan para almacenamiento de copias de seguridad. Mientras que la mayoría de los otros componentes del sistema pueden ser reemplazados fácilmente, si falla un disco duro, puede que no sea posible recuperar los datos. Por lo tanto, es importante realizar una copia de seguridad de tus datos a un disco duro secundario. En las empresas esto se hace de forma automática a través de una configuración RAID que se puede utilizar para tener duplicidad de datos entre dos unidades en tiempo real.

Otro tipo de dispositivo redundante es una fuente de alimentación secundaria. Los servidores web de mucho tráfico y otros sistemas críticos pueden tener varias fuentes de alimentación que se ponen en marcha en caso de que la principal falle. Aunque un sistema de alimentación ininterrumpida (SAI) no es técnicamente un dispositivo redundante, la batería dentro del protector contra sobretensiones proporciona redundancia de alimentación durante unos minutos si se pierde la energía eléctrica.

Las redes de ordenadores suelen implementar la redundancia también. Desde las redes de área local a las grandes conexiones troncales de Internet, es común tener rutas de datos redundantes. Esto significa que si un sistema se cae, la conexión entre los demás sistemas no se habrá roto. Por ejemplo, una red FDDI (Interfaz de Datos Distribuida por Fibra, Fiber Distributed Data Interface) tiene un «anillo» de datos duplicados que se utiliza de forma automática cuando se interrumpe la ruta de datos primaria. La redundancia de red puede llevarse a cabo por cualquiera añadiendo conexiones físicas adicionales o utilizando software de red que redirige automáticamente los datos cuando es necesario.

 

Conclusión

Como has podido ver, la diferencia principal entre duplicidad de datos y redundancia de datos estriba en si es el personal de IT que implementa la base de datos quien tiene que mantener la consistencia de la base de datos asegurando la actualización de todos los datos duplicados o es el propio sistema de gestión de base de datos relacional quien lo debe de controlar. En el caso de duplicidad de datos, se duplican sólo aquellos que necesitamos para aumentar la velocidad de ciertas operaciones mientras que en una replicación de datos estamos intentando aumentar la seguridad manteniendo dos copias y dejando que el RDBM gestione los accesos y las actualizaciones.

También hemos visto cómo la redundancia puede ser utilizada como medida de seguridad en casi cualquier componente o sistema informático. Bien utilizada te asegura cierta tolerancia a fallos. Algunas veces se confunden ambos términos dando a la redundancia connotaciones negativas, pero la redundancia solo es negativa cuando la duplicación es innecesaria o se produce como resultado de una mala planificación.

 

ventajas trabajar en cloud