Willkommen! - Bienvenido! - Welcome!

Bitácora digital de Información al cliente de Tux&Cía.
Bitácora Central: Tux & Cía.
Bitácora Técnica (multilingüe): TecniCambalandia
May the source be with you!

Sunday, March 28, 2010

Posibilidades de conjuntos RAID

Lo que RAID puede hacer
  • RAID puede mejorar el tiempo de servicio del equipo [uptime]. Los niveles RAID 1, 0+1 o 10, 5 y 6 (sus variantes, como el 50) permiten que un disco falle mecánicamente y que aun así los datos del conjunto sigan siendo accesibles para los usuarios. En lugar de exigir que se realice una restauración costosa en tiempo desde una cinta, DVD o algún otro medio de respaldo lento, un RAID permite que los datos se recuperen en un disco de reemplazo a partir de los restantes discos del conjunto, mientras al mismo tiempo permanece disponible para los usuarios en un modo degradado. Esto es muy valorado por las empresas, ya que el tiempo de no disponibilidad suele tener graves repercusiones. Para usuarios domésticos, puede permitir el ahorro del tiempo de restauración de volúmenes grandes, que requerirían varios DVD o cintas para las copias de seguridad.
  • RAID puede mejorar el rendimiento de ciertas aplicaciones. Los niveles RAID 0, 5 y 6 usan variantes de división (striping) de datos, lo que permite que varios discos atiendan simultáneamente las operaciones de lectura lineales, aumentando la tasa de transferencia sostenida. Las aplicaciones de escritorio que trabajan con ficheros grandes, como la edición de vídeo e imágenes, se benefician de esta mejora. También es útil para las operaciones de copia de respaldo de disco a disco. Además, si se usa un RAID 1 o un RAID basado en división con un tamaño de bloque lo suficientemente grande se logran mejoras de rendimiento para patrones de acceso que implique múltiples lecturas simultáneas (por ejemplo, bases de datos multiusuario).
Lo que RAID no puede hacer
  • RAID no protege los datos. Un conjunto RAID tiene un sistema de ficheros, lo que supone un punto único de fallo al ser vulnerable a una amplia variedad de riesgos aparte del fallo físico de disco, por lo que RAID no evita la pérdida de datos por estas causas. RAID no impedirá que un virus destruya los datos, que éstos se corrompan, que sufran la modificación o borrado accidental por parte del usuario ni que un fallo físico en otro componente del sistema afecten a los datos.
  • RAID no simplifica la recuperación de un desastre. Cuando se trabaja con un solo disco, éste es accesible normalmente mediante un controlador ATA o SCSI incluido en la mayoría de los sistemas operativos. Sin embargo, las controladoras RAID necesitan controladores software específicos. Las herramientas de recuperación que trabajan con discos simples en controladoras genéricas necesitarán controladores especiales para acceder a los datos de los conjuntos RAID. Si estas herramientas no los soportan, los datos serán inaccesibles para ellas.
  • RAID no mejora el rendimiento de todas las aplicaciones. Esto resulta especialmente cierto en las configuraciones típicas de escritorio. La mayoría de aplicaciones de escritorio y videojuegos hacen énfasis en la estrategia de buffering y los tiempos de búsqueda de los discos. Una mayor tasa de transferencia sostenida supone poco beneficio para los usuarios de estas aplicaciones, al ser la mayoría de los ficheros a los que se accede muy pequeños. La división de discos de un RAID 0 mejora el rendimiento de transferencia lineal pero no lo demás, lo que hace que la mayoría de las aplicaciones de escritorio y juegos no muestren mejora alguna, salvo excepciones. Para estos usos, lo mejor es comprar un disco más grande, rápido y caro en lugar de dos discos más lentos y pequeños en una configuración RAID 0.
  • RAID no facilita el traslado a un sistema nuevo. Cuando se usa un solo disco, es relativamente fácil trasladar el disco a un sistema nuevo: basta con conectarlo, si cuenta con la misma interfaz. Con un RAID no es tan sencillo: la BIOS RAID debe ser capaz de leer los metadatos de los miembros del conjunto para reconocerlo adecuadamente y hacerlo disponible al sistema operativo. Dado que los distintos fabricantes de controladoras RAID usan diferentes formatos de metadatos (incluso controladoras de un mismo fabricante son incompatibles si corresponden a series diferentes) es virtualmente imposible mover un conjunto RAID a una controladora diferente, por lo que suele ser necesario mover también la controladora. Esto resulta imposible en aquellos sistemas donde está integrada en la placa base. Esta limitación puede obviarse con el uso de RAID por software, que a su vez añaden otras diferentes (especialmente relacionadas con el rendimiento).

Conjuntos RAID 0+1 & RAID 1+0

RAID 0+1

Diagrama de una configuración RAID 0+1.
Un RAID 0+1 (también llamado RAID 01, que no debe confundirse con RAID 1) es un RAID usado para replicar y compartir datos entre varios discos. La diferencia entre un RAID 0+1 y un RAID 1+0 es la localización de cada nivel RAID dentro del conjunto final: un RAID 0+1 es un espejo de divisiones.
Como puede verse en el diagrama, primero se crean dos conjuntos RAID 0 (dividiendo los datos en discos) y luego, sobre los anteriores, se crea un conjunto RAID 1 (realizando un espejo de los anteriores). La ventaja de un RAID 0+1 es que cuando un disco duro falla, los datos perdidos pueden ser copiados del otro conjunto de nivel 0 para reconstruir el conjunto global. Sin embargo, añadir un disco duro adicional en una división, es obligatorio añadir otro al de la otra división para equilibrar el tamaño del conjunto.
Además, el RAID 0+1 no es tan robusto como un RAID 1+0, no pudiendo tolerar dos fallos simultáneos de discos salvo que sean en la misma división. Es decir, cuando un disco falla, la otra división se convierte en un punto de fallo único. Además, cuando se sustituye el disco que falló, se necesita que todos los discos del conjunto participen en la reconstrucción de los datos.
Con la cada vez mayor capacidad de las unidades de discos (liderada por las unidades serial ATA), el riesgo de fallo de los discos es cada vez mayor. Además, las tecnologías de corrección de errores de bit no han sido capaces de mantener el ritmo de rápido incremento de las capacidades de los discos, provocando un mayor riesgo de hallar errores físicos irrecuperables.
Dados estos cada vez mayores riesgos del RAID 0+1 (y su vulnerabilidad ante los fallos dobles simultáneos), muchos entornos empresariales críticos están empezando a evaluar configuraciones RAID más tolerantes a fallos que añaden un mecanismo de paridad subyacente. Entre los más prometedores están los enfoques híbridos como el RAID 0+1+5 (espejo sobre paridad única) o RAID 0+1+6 (espejo sobre paridad dual). Son los más habituales en las empresas.

RAID 1+0

Diagrama de una configuración RAID 10.
Un RAID 1+0, a veces llamado RAID 10, es parecido a un RAID 0+1 con la excepción de que los niveles RAID que lo forman se invierte: el RAID 10 es una división de espejos.
En cada división RAID 1 pueden fallar todos los discos salvo uno sin que se pierdan datos. Sin embargo, si los discos que han fallado no se reemplazan, el restante pasa a ser un punto único de fallo para todo el conjunto. Si ese disco falla entonces, se perderán todos los datos del conjunto completo. Como en el caso del RAID 0+1, si un disco que ha fallado no se reemplaza, entonces un solo error de medio irrecuperable que ocurra en el disco espejado resultaría en pérdida de datos.
Debido a estos mayores riesgos del RAID 1+0, muchos entornos empresariales críticos están empezando a evaluar configuraciones RAID más tolerantes a fallos que añaden un mecanismo de paridad subyacente. Entre los más prometedores están los enfoques híbridos como el RAID 0+1+5 (espejo sobre paridad única) o RAID 0+1+6 (espejo sobre paridad dual).
El RAID 10 es a menudo la mejor elección para bases de datos de altas prestaciones, debido a que la ausencia de cálculos de paridad proporciona mayor velocidad de escritura.

Disco múltiple RAID 10

Linux MD RAID 10 La controladora RAID software del kernel de Linux (llamada md, de multiple disk, ‘disco múltiple’) puede ser usada para construir un conjunto RAID 1+0 clásico, pero también permite un único nivel RAID 10 con algunas extensiones interesantes.
En particular, soporta un espejado de k bloques en n unidades cuando k no es divisible por n. Esto se hace repitiendo cada bloque k veces al escribirlo en un conjunto RAID 0 subyacente de n unidades. Evidentemente esto equivale a la configuración RAID 10 estándar.
Linux también permite crear otras configuraciones RAID usando la controladora md (niveles 0, 1, 4, 5 y 6) además de otros usos no RAID como almacenamiento multirruta y LVM2.

Conjunto RAID 5

RAID 5 [editar]

Diagrama de una configuración RAID 5.
Un RAID 5 usa división de datos a nivel de bloques distribuyendo la información de paridad entre todos los discos miembros del conjunto. El RAID 5 ha logrado popularidad gracias a su bajo coste de redundancia. Generalmente, el RAID 5 se implementa con soporte hardware para el cálculo de la paridad.
En el gráfico de ejemplo anterior, una petición de lectura del bloque «A1» sería servida por el disco 0. Una petición de lectura simultánea del bloque «B1» tendría que esperar, pero una petición de lectura de «B2» podría atenderse concurrentemente ya que seria servida por el disco 1.
Cada vez que un bloque de datos se escribe en un RAID 5, se genera un bloque de paridad dentro de la misma división (stripe). Un bloque se compone a menudo de muchos sectores consecutivos de disco. Una serie de bloques (un bloque de cada uno de los discos del conjunto) recibe el nombre colectivo de división (stripe). Si otro bloque, o alguna porción de un bloque, es escrita en esa misma división, el bloque de paridad (o una parte del mismo) es recalculada y vuelta a escribir. El disco utilizado por el bloque de paridad está escalonado de una división a la siguiente, de ahí el término «bloques de paridad distribuidos». Las escrituras en un RAID 5 son costosas en términos de operaciones de disco y tráfico entre los discos y la controladora.
Los bloques de paridad no se leen en las operaciones de lectura de datos, ya que esto sería una sobrecarga innecesaria y disminuiría el rendimiento. Sin embargo, los bloques de paridad se leen cuando la lectura de un sector de datos provoca un error de CRC. En este caso, el sector en la misma posición relativa dentro de cada uno de los bloques de datos restantes en la división y dentro del bloque de paridad en la división se utilizan para reconstruir el sector erróneo. El error CRC se oculta así al resto del sistema. De la misma forma, si falla un disco del conjunto, los bloques de paridad de los restantes discos son combinados matemáticamente con los bloques de datos de los restantes discos para reconstruir los datos del disco que ha fallado «al vuelo».
Lo anterior se denomina a veces Modo Interino de Recuperación de Datos (Interim Data Recovery Mode). El sistema sabe que un disco ha fallado, pero sólo con el fin de que el sistema operativo pueda notificar al administrador que una unidad necesita ser reemplazada: las aplicaciones en ejecución siguen funcionando ajenas al fallo. Las lecturas y escrituras continúan normalmente en el conjunto de discos, aunque con alguna degradación de rendimiento. La diferencia entre el RAID 4 y el RAID 5 es que, en el Modo Interno de Recuperación de Datos, el RAID 5 puede ser ligeramente más rápido, debido a que, cuando el CRC y la paridad están en el disco que falló, los cálculos no tienen que realizarse, mientras que en el RAID 4, si uno de los discos de datos falla, los cálculos tienen que ser realizados en cada acceso.
El RAID 5 requiere al menos tres unidades de disco para ser implementado. 
El fallo de un segundo disco provoca la pérdida completa de los datos.
El número máximo de discos en un grupo de redundancia RAID 5 es teóricamente ilimitado, pero en la práctica es común limitar el número de unidades. Los inconvenientes de usar grupos de redundancia mayores son una mayor probabilidad de fallo simultáneo de dos discos, un mayor tiempo de reconstrucción y una mayor probabilidad de hallar un sector irrecuperable durante una reconstrucción. A medida que el número de discos en un conjunto RAID 5 crece, el MTBF (tiempo medio entre fallos) puede ser más bajo que el de un único disco. Esto sucede cuando la probabilidad de que falle un segundo disco en los N-1 discos restantes de un conjunto en el que ha fallado un disco en el tiempo necesario para detectar, reemplazar y recrear dicho disco es mayor que la probabilidad de fallo de un único disco. Una alternativa que proporciona una protección de paridad dual, permitiendo así mayor número de discos por grupo, es el RAID 6.
Algunos vendedores RAID evitan montar discos de los mismos lotes en un grupo de redundancia para minimizar la probabilidad de fallos simultáneos al principio y el final de su vida útil.
Las implementaciones RAID 5 presentan un rendimiento malo cuando se someten a cargas de trabajo que incluyen muchas escrituras más pequeñas que el tamaño de una división (stripe). Esto se debe a que la paridad debe ser actualizada para cada escritura, lo que exige realizar secuencias de lectura, modificación y escritura tanto para el bloque de datos como para el de paridad. Implementaciones más complejas incluyen a menudo cachés de escritura no volátiles para reducir este problema de rendimiento.
En el caso de un fallo del sistema cuando hay escrituras activas, la paridad de una división (stripe) puede quedar en un estado inconsistente con los datos. Si esto no se detecta y repara antes de que un disco o bloque falle, pueden perderse datos debido a que se usará una paridad incorrecta para reconstruir el bloque perdido en dicha división. Esta potencial vulnerabilidad se conoce a veces como «agujero de escritura». Son comunes el uso de caché no volátiles y otras técnicas para reducir la probabilidad de ocurrencia de esta vulnerabilidad.

Conjunto RAID 1

RAID 1 (Data Mirroring)

Diagrama de una configuración RAID 1.
Un RAID 1 crea una copia exacta (o espejo) de un conjunto de datos en dos o más discos. Esto resulta útil cuando el rendimiento en lectura es más importante que la capacidad. Un conjunto RAID 1 sólo puede ser tan grande como el más pequeño de sus discos. Un RAID 1 clásico consiste en dos discos en espejo, lo que incrementa exponencialmente la fiabilidad respecto a un solo disco; es decir, la probabilidad de fallo del conjunto es igual al producto de las probabilidades de fallo de cada uno de los discos (pues para que el conjunto falle es necesario que lo hagan todos sus discos).
Adicionalmente, dado que todos los datos están en dos o más discos, con hardware habitualmente independiente, el rendimiento de lectura se incrementa aproximadamente como múltiplo lineal del número del copias; es decir, un RAID 1 puede estar leyendo simultáneamente dos datos diferentes en dos discos diferentes, por lo que su rendimiento se duplica. Para maximizar los beneficios sobre el rendimiento del RAID 1 se recomienda el uso de controladoras de disco independientes, una para cada disco (práctica que algunos denominan splitting o duplexing).
Como en el RAID 0, el tiempo medio de lectura se reduce, ya que los sectores a buscar pueden dividirse entre los discos, bajando el tiempo de búsqueda y subiendo la tasa de transferencia, con el único límite de la velocidad soportada por la controladora RAID. Sin embargo, muchas tarjetas RAID 1 IDE antiguas leen sólo de un disco de la pareja, por lo que su rendimiento es igual al de un único disco. Algunas implementaciones RAID 1 antiguas también leen de ambos discos simultáneamente y comparan los datos para detectar errores. La detección y corrección de errores en los discos duros modernos hacen esta práctica poco útil.
Al escribir, el conjunto se comporta como un único disco, dado que los datos deben ser escritos en todos los discos del RAID 1. Por tanto, el rendimiento no mejora.
El RAID 1 tiene muchas ventajas de administración. Por ejemplo, en algunos entornos 24/7, es posible «dividir el espejo»: marcar un disco como inactivo, hacer una copia de seguridad de dicho disco y luego «reconstruir» el espejo. Esto requiere que la aplicación de gestión del conjunto soporte la recuperación de los datos del disco en el momento de la división. Este procedimiento es menos crítico que la presencia de una característica de snapshot en algunos sistemas de ficheros, en la que se reserva algún espacio para los cambios, presentando una vista estática en un punto temporal dado del sistema de ficheros. Alternativamente, un conjunto de discos puede ser almacenado de forma parecida a como se hace con las tradicionales cintas.

Conjunto Redundante de Discos Independientes

En informática, el acrónimo RAID (del inglés Redundant Array of Independent Disks, «conjunto redundante de discos independientes», originalmente era conocido como Redundant Array of Inexpensive Disks, «conjunto redundante de discos baratos») hace referencia a un sistema de almacenamiento que usa múltiples discos duros entre los que distribuye o replica los datos. Dependiendo de su configuración (a la que suele llamarse «nivel»), los beneficios de un RAID respecto a un único disco son uno o varios de los siguientes: mayor integridad, mayor tolerancia a fallos, mayor throughput (rendimiento) y mayor capacidad. En sus implementaciones originales, su ventaja clave era la habilidad de combinar varios dispositivos de bajo coste y tecnología más antigua en un conjunto que ofrecía mayor capacidad, fiabilidad, velocidad o una combinación de éstas que un solo dispositivo de última generación y coste más alto.
En el nivel más simple, un RAID combina varios discos duros en una sola unidad lógica. Así, en lugar de ver varios discos duros diferentes, el sistema operativo ve uno solo. Los RAID suelen usarse en servidores y normalmente (aunque no es necesario) se implementan con unidades de disco de la misma capacidad. Debido al decremento en el precio de los discos duros y la mayor disponibilidad de las opciones RAID incluidas en los chipsets de las placas base, los RAID se encuentran también como opción en los ordenadores personales más avanzados. Esto es especialmente frecuente en los computadores dedicados a tareas intensivas de almacenamiento, como edición de audio y vídeo.
La especificación RAID original sugería cierto número de «niveles RAID» o combinaciones diferentes de discos. Cada una tenía ventajas y desventajas teóricas. Con el paso de los años, han aparecido diferentes implementaciones del concepto RAID. La mayoría difieren sustancialmente de los niveles RAID idealizados originalmente, pero se ha conservado la costumbre de llamarlas con números. Esto puede resultar confuso, dado que una implementación RAID 5, por ejemplo, puede diferir sustancialmente de otra. Los niveles RAID 3 y RAID 4 son confundidos con frecuencia e incluso usados indistintamente.
La misma definición de RAID ha estado en disputa durante años. El uso de término «redundante» hace que muchos objeten sobre que el RAID 0 sea realmente un RAID. De igual forma, el cambio de «barato» a «independiente» confunde a muchos sobre el pretendido propósito del RAID. Incluso hay algunas implementaciones del concepto RAID que usan un solo disco. Pero en general, diremos que cualquier sistema que emplee los conceptos RAID básicos de combinar espacio físico en disco para los fines de mejorar la fiabilidad, capacidad o rendimiento es un sistema RAID. 
Contenido

Red de área de almacenamiento [SAN]

Una red de área de almacenamiento, en inglés SAN (storage area network), es una red concebida para conectar servidores, matrices (arrays) de discos y librerías de soporte. Principalmente, está basada en tecnología fibre channel y más recientemente en iSCSI. Su función es la de conectar de manera rápida, segura y fiable los distintos elementos que la conforman.  
Contenido 

Comparación
Una SAN se puede considerar una extensión de Direct Attached Storage (DAS). Donde en DAS hay un enlace punto a punto entre el servidor y su almacenamiento, una SAN permite a varios servidores acceder a varios dispositivos de almacenamiento en una red compartida. Tanto en SAN como en DAS, las aplicaciones y programas de usuarios hacen sus peticiones de datos al sistema de ficheros directamente. La diferencia reside en la manera en la que dicho sistema de ficheros obtiene los datos requeridos del almacenamiento. En DAS, el almacenamiento es local al sistema de ficheros, mientras que en SAN, el almacenamiento es remoto. SAN utiliza diferentes protocolos de acceso como Fibre Channel y Gigabit Ethernet. En el lado opuesto se encuentra la tecnología Network-attached storage (NAS), donde las aplicaciones hacen las peticiones de datos a los sistemas de ficheros de manera remota mediante protocolos CIFS y Network File System (NFS).
Esquema

Híbrido SAN-NAS

Aunque la necesidad de almacenamiento es evidente, no siempre está claro cuál es la solución adecuada en una determinada organización. Elegir la solución correcta puede ser una decisión con notables implicaciones, aunque no hay una respuesta correcta única, es necesario centrarse en las necesidades y objetivos finales específicos de cada usuario u organización. Por ejemplo, en el caso concreto de las empresas, el tamaño de la compañía es un parámetro a tener en cuenta. Para grandes volúmenes de información, una solución SAN sería más acertada. En cambio, pequeñas compañías utilizan una solución NAS. Sin embargo, ambas tecnologías no son excluyentes y pueden convivir en una misma solución. Como se muestra en el gráfico, hay una serie de resultados posibles que implican la utilización de tecnologías DAS, NAS y SAN en una misma solución.


Posibles configuraciones.

Software de copias de seguridad

Fuente
Existe una gran gama de software para realizar copias de seguridad. 
Es importante definir previamente los requerimientos específicos para determinar el software adecuado.
Entre los más populares se encuentran Cobian, SeCoFi y CopiaData.
Existe una infinidad de programas adaptados a cada necesidad.
Para la adecuación a la LOPD de ficheros con datos de caracter personal de nivel alto (salud, vida sexual, religión, etc) la regulación exige que las copias de seguridad de dichos datos se almacenen cifrados y en una ubicación diferente al lugar de origen.
Para estos casos lo mejor es contar con un programa que realice copias de seguridad de manera automática almacenando los datos (cifrados) en un centro de datos externo.
La copia de seguridad es el mejor método de protección de datos de importancia, pero siempre existe la posibilidad de que la copia de datos no haya funcionado correctamente y en caso de necesidad de restauración de los datos no podamos realizarlo ya que la información de la copia de seguridad puede encontrarse corrupta por diversos motivos: 
- el medio en el que se realizaba la copia se encuentra dañado 
- los automatismos de copia no se han ejecutado correctamente 
- y otros muchos motivos que pueden causar que nuestras copias de seguridad sean incorrectas, y por lo tanto inútiles.
Para evitar este problema es muy importante que nos cercioremos de que hacemos las copias correctamente y comprobemos que somos capaces de restaurar la copia de seguridad a su ubicación original, comprobando así que la copia sea correcta y que somos capaces de restaurarla y conocemos el método de restauración, ya que en caso de necesidad crítica los nervios afloran y nos pueden echar por tierra nuestra labor de copia al realizar algún paso erróneo a la hora de restaurar los datos.
En el hipotético caso de que no podamos restaurar nuestra información, existe una última alternativa, ya que en el mercado existen aplicaciones de recuperación de datos que nos pueden ayudar en caso de que no podamos restaurar nuestra copia de seguridad, como son: Advanced File Recovery, diskdoctors, RecuperaData y stellar.
También existen métodos de recuperación de datos vía web, como e-ROL.
Por último, y en casos extremos como unidades dañadas, sólo nos quedaría recurrir a un laboratorio especializado en la recuperación de datos, como RecoveryLabs

Copia de seguridad: Optimización y Administración

Fuente
Manipulación de los datos de la copia de seguridad

Es una práctica habitual el manipular los datos guardados en las copias de seguridad para optimizar tanto los procesos de copia como el almacenamiento.
Compresión
La compresión es el mejor método para disminuir el espacio de almacenaje necesario y de ese modo reducir el coste.
Redundancia
Cuando varios sistemas guardan sus copias de seguridad en el mismo sistema de almacenamiento, existe la posibilidad de redundancia en los datos copiados. Si tenemos estaciones con el mismo sistema operativo compartiendo el mismo almacén de datos, existe la posibilidad de que la mayoría de los archivos del sistema sean comunes. El almacén de datos realmente sólo necesita almacenar una copia de esos ficheros para luego ser utilizada por cualquiera de las estaciones. Esta técnica puede ser aplicada al nivel de ficheros o incluso al nivel de bloques de datos, reduciendo el espacio utilizado para almacenar.
Des-duplicación
Algunas veces las copias de seguridad están duplicadas en un segundo soporte de almacenamiento. Esto puede hacerse para cambiar de lugar imágenes, para optimizar velocidades de restauración, ó incluso para disponer de una segunda copia a salvo en un lugar diferente o en soportes de almacenamiento diferentes.
Cifrado
La alta capacidad de los soportes de almacenamiento desmontables implica un riesgo de perderse o ser robados. Si se cifra la información de estos soportes se puede mitigar el problema, aunque esto presenta nuevos inconvenientes. Primero, cifrar es un proceso que consume mucho tiempo de CPU y puede bajar la velocidad de copiado. En segundo lugar, una vez cifrados los datos, la compresión es menos eficaz.

Administración del proceso de copia de seguridad

Limitaciones

Un esquema de copia de seguridad efectiva debe tener en consideración las limitaciones de la situación. Todo esquema de copia de seguridad tiene cierto impacto en el sistema que ha sido copiado. Si este impacto es significativo, la copia de seguridad debe ser acotada en el tiempo.
Todos los soportes de almacenamiento tienen una capacidad finita y un coste real. Buscar la cantidad correcta de capacidad acorde con las necesidades de la copia de seguridad es una parte importante del diseño del esquema de la copia.

Implementación

Alcanzar los objetivos definidos en vista de las limitaciones existentes puede ser una tarea difícil. Las herramientas y conceptos descritos a continuación pueden hacer que esta tarea sea más alcanzable.
Horarios
Programar un horario de ejecución de las copias de seguridad aumenta considerablemente su efectividad y nivel de optimización. Muchos paquetes de software de copias de seguridad ofrecen esta posibilidad.
Autentificación
Sobre el curso de operaciones regulares, las cuentas de usuario y/o los agentes del sistema que representan la copia de seguridad necesitan ser autentificados a cierto nivel. El poder de copiar todos los datos fuera o dentro del sistema requiere acceso sin restricción. Utilizar un mecanismo de autentificación es una buena manera de evitar que el esquema de la copia de seguridad sea usado por actividades sin autorizar.
Cadena de confianza
Los soportes de almacenamiento portátiles son elementos físicos y deben ser gestionados sólo por personas de confianza. Establecer una cadena de confianza individual es crítico para defender la seguridad de los datos.
Validación de copias de seguridad
El proceso por el cual los dueños de los datos pueden obtener información considerando como fueron copiados esos datos. El mismo proceso es también usado para probar conformidad para los cuerpos reguladores fuera de la organización. Terrorismo, complejidad de datos, valores de datos y aumento de la dependencia sobre volúmenes de datos crecientes, todos contribuyen a una ansiedad alrededor y dependencia sobre copias de seguridad satisfactorias. Por ello varias organizaciones normalmente relegan sobre terceras personas o soluciones independientes el testeo, validación, optimización y el hacerse cargo de sus operaciones de copia de seguridad. Algunos software de copias de seguridad modernas han incorporado capacidades de validación.
Reportando
En configuraciones más largas, los reportes son útiles para monitorizar los medios usados, el estado de dispositivos, errores, coordinación de saltos y cualquier otra información sobre el proceso de copia de seguridad.
Registrando
En suma a la historia de los reportes generados por el ordenador, actividades y registros de cambio son útiles para así entender mejor la copia de seguridad.
Verificación
Muchos programas de copia de seguridad hacen uso de checksums o hashes. Esto ofrece muchas ventajas. Primero, estos permiten a la integridad de los datos ser verificados sin hacer referencia al archivo original: si el archivo guardado en un medio de copia tiene el mismo checksum que el valor salvado, después es muy probable que sea correcto. Segundo, algunos programas de copias de seguridad pueden usar checksum para evitar hacer redundantes copias de archivos, y así mejorar la velocidad de la copia de seguridad. Esto es particularmente útil en procesos de reduplicado.

Consejos

  • Debería incluir en su copia de seguridad toda aquella información que no podría recuperar de otro modo.

Sucesos

  • Para casos realmente graves (explosión, incendio, inundaciones, etc) resulta muy conveniente disponer de un backup de sus datos en un lugar alejado. Existen empresas que proveen de almacenes ignífugos para guardar sus copias de seguridad.

Véase también

Copia de seguridad

Una copia de seguridad o backup en informática es un archivo digital, un conjunto de archivos o la totalidad de los datos considerados lo suficientemente importantes para ser conservados.

Contenido

Generalidades

Las copias de seguridad son un proceso que se utiliza para salvar toda la información, es decir, un usuario, quiere guardar toda la información, o parte de la información, de la que dispone en el PC hasta este momento, realizará una copia de seguridad de tal manera, que lo almacenará en algún medio de almacenamiento tecnológicamente disponible hasta el momento como por ejemplo cinta, DVD, BluRay, discos virtuales (proporcionados por Internet) o simplemente en otro Disco Duro, para posteriormente si pierde la información, poder restaurar el sistema.
La copia de seguridad es útil por varias razones:
  1. Para restaurar un ordenador a un estado operacional después de un desastre (copias de seguridad del sistema)
  2. Para restaurar un pequeño número de ficheros después de que hayan sido borrados o dañados accidentalmente (copias de seguridad de datos).
  3. En el mundo de la empresa, además es útil y obligatorio, para evitar ser sancionado por los órganos de control en materia de protección de datos. Por ejemplo, en España la Agencia Española de Protección de Datos (AEPD)
Normalmente las copias de seguridad se suelen hacer en cintas magnéticas, si bien dependiendo de lo que se trate podrían usarse disquetes, CD, DVD, discos ZIP, JAZ o magnético-ópticos, pendrives o pueden realizarse sobre un centro de respaldo remoto propio o vía internet.
La copia de seguridad puede realizarse sobre los datos, en los cuales se incluyen también archivos que formen parte del sistema operativo. Así las copias de seguridad suelen ser utilizadas como la última línea de defensa contra pérdida de datos, y se convierten por lo tanto en el último recurso a utilizar.
Las copias de seguridad en un sistema informático tienen por objetivo el mantener cierta capacidad de recuperación de la información ante posibles pérdidas. Esta capacidad puede llegar a ser algo muy importante, incluso crítico, para las empresas. Se han dado casos de empresas que han llegado a desaparecer ante la imposibilidad de recuperar sus sistemas al estado anterior a que se produjese un incidente de seguridad grave.

Almacenamiento

Modelos de almacén de datos

Cualquier estrategia de copia de seguridad empieza con el concepto de almacén de datos.
Los datos de la copia deben ser almacenados de alguna manera y probablemente deban ser organizados con algún criterio. Para ello se puede usar desde una hoja de papel con una lista de las cintas de la copia de seguridad y las fechas en que fueron hechas hasta un sofisticado programa con una base de datos relacional.
Cada uno de los distintos almacenes de datos tiene sus ventajas. Esto está muy relacionado con el esquema de rotación de copia de seguridad elegido.
Desestructurado
Un almacén desestructurado podría ser simplemente una pila de disquetes o CD-R con una mínima información sobre qué ha sido copiado y cuándo. Ésta es la forma más fácil de implementar, pero ofrece pocas garantías de recuperación de datos.
Completa + Incremental
Un almacén completo-incremental propone hacer más factible el almacenamiento de varias copias de la misma fuente de datos. En primer lugar se realiza la copia de seguridad completa del sistema. Más tarde se realiza una copia de seguridad incremental, es decir, sólo con los ficheros que se hayan modificado desde la última copia de seguridad. Recuperar y restaurar un sistema completamente a un cierto punto en el tiempo requiere localizar una copia de seguridad completa y todas las incrementales posteriores realizadas hasta el instante que se desea restaurar. Los inconvenientes son tener que tratar con grandes series de copias incrementales y contar con un gran espacio de almacenaje.
Espejo + Diferencial
Un almacén de tipo espejo + diferencial inversa es similar al almacén completo-incremental. La diferencia está en que en vez de hacer una copia completa seguida de series incrementales, este modelo ofrece un espejo que refleja el estado del sistema a partir de la última copia y un historial de copias diferenciales. Una ventaja de este modelo es que solo requiere una copia de seguridad completa inicial. Cada copia diferencial es inmediatamente añadida al espejo y los ficheros que son remplazados son movidos a una copia incremental inversa. Una copia diferencial puede sustituir a otra copia diferencial más antigua sobre la misma copia total.
Protección continua de datos
Este modelo va un paso más allá y en lugar de realizar copias de seguridad periódicas, el sistema inmediatamente registra cada cambio en el sistema anfitrión. Este sistema reduce al mínimo la cantidad de información perdida en caso de desastre.
Sintética (synthetic backup)
Esta tecnología permite crear una nueva imagen de copia de respaldo a partir de copias de respaldo anteriormente completas y posteriores incrementales. Es de gran utilidad sobre todo en redes de almacenamiento (SAN) ya que no es necesario la participación del host/nodo final, quitándole mucha carga de proceso.

Administrar un almacén de datos

Independientemente del modelo de almacén de datos o del soporte de almacenamiento utilizado en una copia de seguridad, es necesario un equilibrio entre accesibilidad, seguridad y coste.
En línea
El almacenamiento en línea es típicamente el más accesible de los tipos de almacenamiento de datos. Un buen ejemplo seria un gran array de discos. Este tipo de almacenamiento es muy conveniente y rápido, pero es relativamente más caro y está típicamente localizado cerca del sistema que pretende proteger. Esta proximidad es un problema en un caso de desastre. Además, el almacenamiento en línea es susceptible de ser borrado o sobre-escrito, incluso por accidente, o por un virus en el sistema.
Cerca de línea
Almacenamiento cercano en línea es más asequible y accesible que el almacenamiento en línea. Un buen ejemplo sería una biblioteca de cintas. Se necesita un dispositivo mecánico para mover las unidades de almacenamiento desde el almacén donde están hasta un lector donde son leídas o escritas.
Fuera de línea
Un almacenamiento fuera de línea es similar al cercano en línea, exceptuando que necesita una persona interaccionando para hacer los medios de almacenamiento disponibles. Esto puede ser tan simple como almacenar las cintas de copia de seguridad en un armario de ficheros.
Cámara fuera del lugar
Para proteger contra desastres u otro tipo de problemas en el lugar, mucha gente elige enviar los soportes de copia de seguridad a una cámara fuera del lugar de trabajo. La cámara puede ser tan simple como la oficina en casa del administrador del sistema o tan sofisticada como un búnker.
Centro de recuperación de datos
En el momento de un desastre, la información de una copia de seguridad puede no ser suficiente para restaurar un sistema. Algunas organizaciones tienen sus propios centros de recuperación, que están equipados para estos casos.

Elección, acceso, y manipulación de datos

Propuestas de copia de seguridad de datos

Decidir qué se va a incluir en la copia de seguridad es un proceso más complejo de lo que parece a priori.
Si copiamos muchos datos redundantes agotamos la capacidad de almacenamiento disponible rápidamente. Si no realizamos una copia de seguridad de los suficientes datos, podría perderse información crítica.
La clave está en guardar copias de seguridad sólo de aquello que se ha modificado.
Archivos a copiar
Sólo copiar los ficheros que se hayan modificado.
Depósito del sistema de ficheros
Copiar el sistema de ficheros que tienen los ficheros copiados. Esto normalmente implica desmontar el sistema de ficheros y hacer funcionar un programa como un depósito. Esto es también conocido como copia de seguridad particionada en bruto. Este tipo de copia de seguridad tiene la posibilidad de hacer funcionar una copia más rápida que la simple copia de ficheros. El rasgo de algunos software de depósitos es la habilidad para restaurar ficheros específicos de la imagen del depósito.
Control de Cambios
Algunos sistemas de ficheros poseen un bit de archivo para cada fichero este nos indica si recientemente ha sido modificado. Algunos software de copia de seguridad miran la fecha del fichero y la comparan con la última copia de seguridad, para así determinar si el archivo se ha modificado.
Incremental a nivel de bloque
Un sistema más sofisticado de copia de seguridad de ficheros es el basado en solamente copiar los bloques físicos del fichero que han sufrido algún cambio. Esto requiere un alto nivel de integración entre el sistema de ficheros y el software de la copia de seguridad.
Incremental o diferencial binaria
Son tecnologías de backup que se desarrollan en la década de 2000. El método es similar a la Incremental a nivel de bloque, pero basada en reflejar las variaciones binarias que sufren los ficheros respecto al anterior backup. Mientras las tecnologías a nivel de bloque trabajan con unidades de cambio relativamente grandes (bloques de 8Ks, 4Ks, 1K) las tecnologías a nivel de byte trabajan con la unidad mínima capaz de ahorrar espacio para reflejar un cambio. Otra diferencia importante es que son independientes del sistema de ficheros. Actualmente son las tecnologías que consiguen la máxima compresión relativa de la información y ofrecen así una ventaja importante en las copias de seguridad a través de la Internet.
Versionando el sistema de ficheros
El versionado del sistema de ficheros se mantiene atento a los cambios del fichero y crea estos cambios accesibles al usuario. Esta es una forma de copia de seguridad que está integrada al ambiente informático.

Copia de seguridad de datos en uso

Si un ordenador está en uso mientras se ejecuta su copia de seguridad, existe la posibilidad de que haya ficheros abiertos, ya que puede que se esté trabajando sobre ellos. Si un fichero está abierto, el contenido en el disco posiblemente no refleje exactamente lo que el usuario ve. Esto es especialmente frecuente en ficheros de bases de datos.
Cuando se intenta entender la logística de la copia de seguridad de ficheros abiertos, uno debe considerar que el proceso de copia de seguridad puede llevar varios minutos en copiar un gran fichero como una base de datos. A fin de copiar un fichero en uso, es vital que la copia de seguridad entera represente un único paso. Esto representa un reto cuando se está copiando un fichero en continua modificación. Aunque el archivo de base de datos esté bloqueado para evitar cambios, se debe implementar un método para asegurar que el original snapshot sea preservado con tiempo de sobra para ser copiado, incluso cuando se mantengan los cambios.
Snapshot – Copia en escritura
El snapshot (palabra del inglés) o copia instantánea de volumen, es una función de algunos sistemas que realizan copias de los ficheros como si estuvieran congelados en un momento determinado.
Copia de seguridad de ficheros abiertos – Ficheros bloqueados
Algunos paquetes de software de copias de seguridad no poseen la capacidad de realizar copias de ficheros abiertos. Simplemente comprueban que el fichero esté cerrado y si no lo está lo intentan más tarde.
Copias de seguridad de bases de datos en caliente
Algunos sistemas de gestión de bases de datos ofrecen medios para realizar imágenes de copias de seguridad de una base de datos mientras esté activa y en uso (en caliente). Esto normalmente incluye una imagen consistente de los ficheros de datos en un cierto momento más un registro de los cambios hechos mientras el algoritmo está funcionando.

Servicio Remoto de Copias de Respaldo

A remote, online, or managed backup service is a service that provides users with a system for backing up and storing computer files. Online backup providers are companies that provide this type of service.
Online backup systems are typically built around a client software program that runs on a schedule, typically once a day. This program collects, compresses, encrypts, and transfers the data to the remote backup service provider's servers. Other types of product are also available in the market, such as remote continuous data protection (CDP).
Providers of this type of service frequently target specific market segments. High-end LAN-based backup systems may offer services such as near-realtime transaction-level replication or open file backups. Consumer online backup companies frequently have beta software offerings and/or free-trial backup services.

Contents

[hide]

History

Most online/remote backup services came into existence during the heyday of the dotcom boom in the late 1990s with the exception of a few early pioneers like industry originator Rob Cosgrove, CEO of Remote Backup Systems. While the initial years of these service providers were about capturing market share distributed among the top few providers, the large industry players took cognizance of the importance and the role that these online backup providers were playing in the web services arena and M&A activity has become quite predominant in the last few years. Today, most service providers of online backup services position their services using the SaaS (software as a service) strategy and its relevance is predicted to increase exponentially in the years to come as personal and enterprise data storage needs rise. The last few years have also witnessed a healthy rise in the number of online backup providers with them existing independently as also as part of a business unit of a larger industry behemoth.[citation needed]

Typical features

Opened file backup
The ability to back up files that are frequently left open, such as Outlook files (*.pst) or SQL database files. This feature allows IT administrators to run backup jobs at any time of the day, not requiring server down-time. Most enterprise online backup products support an add-on for this. Higher-end products may support this natively.
Multi-platform
A multi-platform backup service can back up multiple platforms such as the various flavours of Windows, Macintosh, and Linux/Unix.
Network backup
A backup service supporting network backup can back up multiple computers , servers or Network Attached Storage appliances on a local area network from a single computer or device.
Multi-site
Some services offer the capability to back up both data at the primary site and data located at remote offices and branch offices, in a relatively seamless manner.
Continuous backup - Continuous Data Protection CDP
Allows the service to back up continuously or on a predefined schedule. Both methods have advantages and disadvantages. Most backup services are schedule-based and perform backups at a predetermined time. Some services provide continuous data backups which are used by large financial institutions and large online retailers. However, there is typically a tradeoff with performance and system resources.
Online access to files
Some services allow you to access backed-up files via a normal web browser. Many services do not provide this type of functionality.
Data compression
Data will typically be compressed with a lossless compression algorithm to minimize the amount of bandwidth used.
Differential data compression
A way to further minimize network traffic is to transfer only the binary data that has changed from one day to the next, similar to the open source file transfer service Rsync. More advanced online backup services use this method rather than transfer entire files.
Transfer encryption
Encryption to prevent interception of data. This does not mean that the data will necessarily be encrypted during storage.
End-to-end encryption
Encryption of data at the client. The encrypted data is then transmitted and stored on the server. This requires a client-generated key, and precludes data recovery should the key be lost. Depending on implementation, it may also preclude certain optimization techniques (such as recognition of common operating system files which don't need to be stored multiple times, and removal of duplicate user files across different users —'deduplication').
Bandwidth usage
User-selectable option to use more or less bandwidth; it may be possible to set this to change at various times of day.

Cost factors

Online backup services are usually priced as a function of the following things:[1]
  1. The total amount of data being backed up.
  2. The number of machines covered by the backup service.
  3. The maximum number of versions of each file that are kept.
  4. Data retention and archiving period options
  5. Managed backups vs. Unmanaged backups
Some vendors limit the number of versions of a file that can be kept in the system. Some services omit this restriction and provide an unlimited number of versions. Add-on features (plug-ins), like the ability to back up currently open or locked files, are usually charged as an extra, but some services provide this built in.
Most remote backup services reduce the amount of data to be sent over the wire by only backing up changed files. This approach to backing up means that the customers total stored data is reduced. Reducing the amount of data sent and also stored can be further drastically reduced by only transmitting the changed data bits by binary or block level incremental backups. Solutions that transmit only these changed binary data bits do not clog bandwidth by transmitting the same file data over and over again if only small amounts (ie a date change or different address in a word document)

Advantages of remote backup

Remote backup has advantages over traditional backup methods:[2]
  • Perhaps the most important aspect of backing up is that backups are stored in a different location from the original data. Traditional backup requires manually taking the backup media offsite.
  • Remote backup does not require user intervention. The user does not have to change tapes, label CDs or perform other manual steps.
  • Unlimited data retention.
  • Some remote backup services will work continuously, backing up files as they are changed.
  • Most remote backup services will maintain a list of versions of your files.[3]
  • Most remote backup services will use a 128 - 448 bit encryption to send data over unsecured links (ie internet)
  • A few remote backup services can reduce backup by only transmitting changed binary data bits

Disadvantages of remote backup

Remote backup has some disadvantages:
  • Depending on the available network bandwidth, the restoration of data can be slow. Because data is stored offsite, the data must be recovered either via the Internet or via tape or disk shipped from the online backup service provider.
  • Some backup service providers have no guarantee that stored data will be kept private - for example, from employees. As such, most recommend that files be encrypted before storing or automating this process.
  • It is possible that a remote backup service provider could go out of business or be purchased, which may affect the accessibility of one's data or the cost to continue using the service.
  • If encryption password is lost, no more data recovery will be possible. However with managed services this should not be a problem.
  • Residential broadband services often have monthly limits that preclude large backups. They are also usually asymmetric; the user-to-network link regularly used to store backups is much slower than the network-to-user link used only when data is restored.

Managed vs. Unmanaged Online Backup

Some services provide expert backup management services as part of the overall offering. These services typically include:
  • Assistance configuring the initial backup
  • Continuous monitoring of the backup processes on the client machines to ensure that backups actually happen
  • Proactive alerting in the event that any backups fail
  • Assistance in restoring and recovering data

See also

References

  1. ^ Online Backup Services
  2. ^ Guide to Online Backup
  3. ^ Why Online Backup?

Sincronización de archivos

File synchronization (or 'syncing') in computing is the process of making sure that files in two or more locations are updated through certain rules.
In one-way synchronization, also called mirroring, updates files are copied only from a 'source' location to a 'target' location, or locations, but no files are copied back to the source location. In two-way sync, updated files are copied in both directions, usually with the purpose of keeping the two locations identical to each other. The term synchronization is used in this article to mean exclusively two-way file synchronization.
File synchronization is commonly used for home backups on external hard drives or updating for transport on USB flash drives. 
The automatic process prevents copying already identical files and thus can save considerable time from a manual copy, also being faster and less error prone.[1] However this suffers from the limitation that the synchronized files have to physically fit in the portable drive. Synchronization software that only keeps a list of files and the changed files circumvents this problem (e.g. the "snapshot" feature in Beyond Compare or the "package" feature in Synchronize It!). It is particularly useful for mobile workers, or others that work on multiple computers. It is possible to synchronize multiple locations by synchronizing them a pair at a time.
Comparar: Data synchronization

Contents


Common features

  • Encryption for security, particularly when synchronizing across the Internet.
  • Compressing any data sent across a network, this requires a server.
  • Conflict detection where a file has been modified on both sources, as opposed to where it has only been modified on one. No conflict detection can lead to overwriting copies of the file with the most recent version causing data loss. For conflict detection, the synchronization software needs to keep a database of the synchronized files. Distributed conflict detection can be achieved by version vectors.
  • Open Files Support ensures data integrity when copying data or application files that are in-use or database files that are exclusively locked.
  • Specific support for using an intermediate storage device, such as a removable flash disc, to synchronize two machines. Although most synchronizing programs can be used in this way, providing specific support for this can reduce the amount of data stored on the device.
  • The ability to preview any changes before they are made.
  • The ability to view differences in individual files.
FreeFileSync open source
Ubuntu One  commercial
Windows Live Sync freeware