Sunteți pe pagina 1din 44

Respaldo y Recuperacin

Ing. Ronald Prez

rrperez@unimet.edu.ve rperez@shopepk.com ronaldperezr@hotmail.com

Administracin de Bases de Datos

Introduccin

Definicin de Recuperacin de una BD:


restablecimiento de un estado correcto de la BD (consistente) despus que un fallo del sistema haya ocasionado que el estado actual sea inconsistente.

Principios en los que se fundamenta:


redundancia fsica de los datos.
(disco-memoria, incluso disco-disco y redundancia mltiple)

Quin se encarga de la recuperacin?


La recuperacin la gestiona el mdulo gestor de recuperacin del SGBD.

Administracin de Bases de Datos

Tipos de Almacenamiento

Almacenamiento voltil: no sobrevive a las cadas del sistema. Almacenamiento no voltil: disco, cinta. Almacenamiento estable frente al no estable: la informacin no se pierde nunca se repite en varios medios voltiles(disco) con modos de fallos independientes

La BD requiere de almacenamiento no voltil


Administracin de Bases de Datos

Tipos de fallos
Durante la ejecucin de las transacciones, una BD puede sufrir diferentes fallos: Fallos de transaccin: Errores lgicos: una transaccin no puede completarse por algn error interno a la misma. Errores del sistema: una transaccin es abortada por el SGBD (p.e. para asegurar la consistencia o evitar el bloqueo mortal).

Administracin de Bases de Datos

Tipos de fallos
Durante la ejecucin de las transacciones, una BD puede sufrir diferentes fallos: Fallos catastrficos: que afectan al conjunto Cada del sistema: la falta de alimentacin u otro problema hardware (excepto de discos) detiene el funcionamiento normal y produce la prdida de la informacin en memoria voltil. Fallo del disco: se produce una destruccin total o parcial de los datos almacenados en un disco.

Administracin de Bases de Datos

Funcionamiento del mdulo de recuperacin


Los algoritmos de recuperacin son tcnicas para asegurar la consistencia de la BD y la atomicidad de las transacciones incluso en presencia de fallos. Para ello, los algoritmos de recuperacin tienen dos procedimientos de actuacin: 1) Acciones que se realizan durante el funcionamiento normal para disponer de la informacin necesaria en caso de tener que recuperarse de un fallo; 2) Acciones que se realizan para recuperar la base de datos despus de producirse un fallo.

Administracin de Bases de Datos

Conceptos bsicos

El sistema de recuperacin se ocupa de que se cumplan dos de las propiedades ACID de las transacciones: Almacenamiento
Atomicidad: se ejecutan todas las acciones o ninguna Durabilidad: cuando una T se completa los cambios realizados deben permanecer en el sistema
estable

La atomicidad implica slo dos posibilidades para las transacciones: abortar (ninguno de sus acciones tiene efecto, y debe
reiniciarse).

confirmar (sus acciones tienen efecto permanente). Transaccin activa: si ha empezado pero no ha alcanzado un estado final (aborto o confirmacin).

Administracin de Bases de Datos

Estructuras de datos para la recuperacin


El sistema de recuperacin se apoya en una serie de elementos para realizar su funcin

Realizacin de copias de seguridad.

completas o incrementales

Almacenamiento estable

Almacenamiento de una traza

que guarda las acciones (actualizaciones) realizadas (tambin llamada diario o log )

Administracin de Bases de Datos

Estructuras de datos: copia de seguridad

Copia de seguridad: es una copia total de la BD realizada en un momento en que la BD est en un estado consistente. o es una copia de seguridad incremental, formada slo por las modificaciones realizadas desde la ltima copia de seguridad incremental. Se utiliza tras un fallo del medio (fallo catastrfico). Se puede realizar con la BD detenida o en funcionamiento.

Administracin de Bases de Datos

Estructuras de datos: traza

La traza (o diario, o log ) guarda informacin sobre las actualizaciones realizadas en la BD (informacin necesaria para realizar la recuperacin en caso de fallo). Tiene 4 (o 5) tipos de entradas (registros de la traza):
[Comenzar_Trans, T] [T, g, BFIM, AFIM]
BFIM: BeFore IMage para deshacer AFIM: AFter IMage para rehacer

[Confirmar, T]

[Abortar, T]

Si se evita la restauracin en cascada (lo habitual, ya que se suele usar bloque en dos fases estricto), no es necesario registrar traza de las lecturas, excepto para auditora. Se usa la escritura anticipada de la traza: la traza de las acciones se guardan en el disco antes que sus efectos.
Administracin de Bases de Datos

Estructuras de datos: traza

La traza es un elemento fundamental para la recuperacin, por lo que suele duplicarse o triplicarse en varios discos para evitar su perdida. Ejemplo de traza para una planificacin P1:

Valores previos: A=2, B=2 P1: T1: lee A, A=A+2,esc(A),lee(B),B=B-1,esc(B),commit

[T1 init][T1,A,2,4][T1,B,2,1][T1 commit] ([pto control])

Administracin de Bases de Datos

Estructuras de datos: traza

Puntos de control (o de sincronismo): peridicamente se escribe en la traza un registro especial llamado punto de sincronismo, indicando que en ese momento el sistema escribe en el disco todos los buffers del SGBD que han sido modificados en la base de datos por las transacciones en curso (y que temporalmente estaban en memoria). El SGBD debe decidir el intervalo entre puntos de sincronismo (medido en tiempo o nmero de transacciones). Realizar un punto de control implica:
Suspensin temporal de la ejecucin de transacciones. Escritura forzada de todos los buffers modificados a disco. Escribir un registro especial en la traza [punto de control] Reactivar las transacciones en ejecucin.

Administracin de Bases de Datos

Reglas bsicas de gestin de buffers

En general (por velocidad) los sistemas traen los datos a memoria principal y realizan las actualizaciones en memoria (no en disco); para ello existe un conjunto de buffers en la memoria principal, llamado cach del SGBD. La funcin de la gestin de los buffers es del sistema operativo, pero dada su incidencia en el funcionamiento de la BD los SGBD participan en la gestin de buffers con llamadas de bajo nivel al SO. En la cach del SGBD hay bloques de datos, bloques de ndices, bloques de la traza.
Administracin de Bases de Datos

Reglas bsicas de gestin de buffers

Cuando el SGBD necesita un determinado bloque de datos: primero revisa la cach del SGBD para ver si est en ella; en caso contrario, el elemento se localiza en la BD y se copian las paginas de disco apropiadas a la cach; si la cach est llena se hace necesario desalojar una pgina que se pueda desalojar, evacundola (a disco) si ha sido modificada (en el lugar o en la sombra). los bits de reserva y de pgina sucia indican si la pgina est preparada para ser llevada a disco y si ha sido modificada. Pginas sucias: pginas actualizadas que no han sido todava escritas en disco.
Administracin de Bases de Datos

Reglas bsicas de gestin de buffers

Para decidir cuando una pgina sucia puede/debe ser escrita en disco se puede seguir: estrategia no-robar: una pgina sucia no puede ser escrita ni desalojada antes de que se confirme la transaccin que la actualiz. estrategia robar: una pgina sucia puede ser escrita y desalojada cuando sea necesario independientemente de que la transaccin haya llegado a la confirmacin. estrategia forzar: toda pgina sucia se escribe a disco cuando se confirma la transaccin que la actualiz (pequeo sobrecoste de escr.). estrategia no-forzar: no es necesario forzar la escritura cuando se confirma, slo cuando sea necesario por otras causas. La mayora de los SGBDs emplean robar/no-forzar para reducir las necesidades de memoria y agilizar el funcionamiento sin fallos.
Administracin de Bases de Datos

Reglas bsicas de gestin de buffers

Para garantizar transacciones:

la

atomicidad

de

las

Regla de traza por adelantado: la traza que contiene informacin de una actualizacin debe escribirse en el disco antes de escribir a disco dicho objeto actualizado de la BD. Se asegura la Atomicidad. Evita prdidas de
imagen anterior BFIM

Regla de confirmacin: todos los registros de la traza correspondientes a una transaccin deben escribirse en el disco antes de que se confirme dicha transaccin. Evita prdidas de Se asegura la Durabilidad.
imagen posterior AFIM Administracin de Bases de Datos

Procedimientos de recuperacin

Procedimiento de recuperacin: operaciones necesarias para arrancar la BD tras finalizar de modo normal o fallo. Utiliza las estructuras de datos estudiadas: traza o copia de seguridad, dependiendo del tipo de fallo. El objetivo es alcanzar un estado consistente de la BD minimizando el trabajo perdido. Cmo?
Deshacer actualizacin: escribir en BD la imagen anterior desde la traza Rehacer actualizacin: escribir en BD la imagen posterior desde la traza

Administracin de Bases de Datos

Procedimientos de recuperacin

Tipos de procedimientos de recuperacin: Recuperacin normal: tras una parada de la BD sin fallos, si el punto de control es el ltimo registro de la traza. Recuperacin en caliente: tras un fallo del sistema, si el ltimo registro de la traza no es un punto de control.
Busca el ltimo punto de sincronismo en la traza. Localiza las transacciones confirmadas y las transacciones abortadas (o interrumpidas). Deshace o rehace transacciones segn las diferentes tcnicas.

Recuperacin en fro: se usa tras un fallo del medio que no haya afectado a la traza. Se toma una imagen consistente a partir de una copia de seguridad y se procesa la traza desde el punto de sincronismo asociado a la copia de seguridad.
Administracin de Bases de Datos

Algoritmos de recuperacin

Conceptualmente, podemos distinguir dos tcnicas principales para recuperarse frente a fallos no catastrficos: Actualizacin diferida Actualizacin inmediata Las tcnicas de actualizacin diferida no actualizan la BD hasta llegar al punto de confirmacin. En las tcnicas de actualizacin inmediata las operaciones de una transaccin modifican la BD antes de que la transaccin confirme. Estudiaremos cuatro algoritmos que se basan en combinar acciones de las tcnicas anteriores.

Administracin de Bases de Datos

Algoritmos de recuperacin

Todos estos algoritmos se describen segn realizan las siguientes acciones: begin(t): introduce la transaccin t en el gestor de transacciones. leer(t,p,b): la transaccin t lee la pgina p en el bfer b. esc(t,b,p): la transaccin t escribe el bfer b en la pgina p. confirma(t): se confirma la transaccin t. aborta(t): se aborta la transaccin t. rearranca(): realiza la recuperacin tras un fallo del sistema. Estos algoritmos mantienen tres listas de transacciones: tr.activas (La), tr.abortadas (Lb), tr.confirmadas (Lc). En todos los algoritmos la accin begin(t) es idntica:
void begin( transac t) { inserta_en_lista(La,t); }

Administracin de Bases de Datos

Algoritmo no deshacer/rehacer

Con esta tcnica, basada en la actualizacin diferida, nunca es necesario deshacer una transaccin despus de un fallo del sistema, porque no han llegado a tener efecto. Por ello, no es necesario guardar las imgenes anteriores en la traza. La escritura en disco de las pginas actualizadas se difiere hasta llegar al punto de confirmacin de la transaccin. Abortar transacciones es muy barato. Slo es prctico para transacciones cortas y que actualicen pco.

Administracin de Bases de Datos

Algoritmo no deshacer/rehacer

Si se produce un fallo, las transacciones deben rehacerse. En esta tcnica no es necesario guardar el valor anterior (BFIM), ya que nunca se deshace. Siempre (en todas las tcnicas) hay que escribir la traza en disco antes de las propias actualizaciones. Durante el proceso de recuperacin despus de una cada una transaccin debe rehacerse si y slo si la traza contiene ambas marcas de inicio y de confirmacin de dicha transaccin. En todas las tcnicas las operaciones deben ser idempotentes, porque puede fallar durante la recuperacin.
Administracin de Bases de Datos

Algoritmo no deshacer/rehacer

Si la traza en tres instantes de tiempo al fallar es:

la recuperacin en cada caso es como sigue Caso (a): no se debe rehacer ninguna transaccin Caso (b): se debe rehacer T0 (y se ignoran los registros de T1)

Caso (c): se debe rehacer T0 y T1


Administracin de Bases de Datos

Algoritmo no deshacer/rehacer
Los algoritmos para las diferentes funciones con esta tcnica son:
void lee( transac t, pagina p, buffer b) { if (esta_actualizada_por(p,t) ) lee_img_post_en_buffer(p,b); else lee_pagina_en_buffer(p,b); } void esc( transac t,pagina p, buffer b) { esc_img_post_buffer_traza(p); }

La gestin de buffers se produce segn lo indicado en el apartado correspondiente, trayendo de disco a cach cuando se necesita, sin necesidad de indicarlo explcitamente en los algoritmos.

Administracin de Bases de Datos

Algoritmo no deshacer/rehacer
void rearranque() { transac t; for (t = La ; t!= NULL; t = t->sig) if( esta_en_lista(Lc,t) confirma(t); //donde rehace else aborta(t); //pero no necesita deshacer }

Aborta y confirma

void confirma( transac t) { pagina p; //recorre la traza hacia delante for (p=pagina_actualizada(t); p!=NULL; p=pagina_sig(t,p)) escribe_post_imag_traza_en_disco(p); //rehace inserta_en_lista(Lc,t); elimina_de_lista(La,t); } void aborta( transac t) { pagina p; buffer b; inserta_en_lista(Lb,t); elimina_de_lista(La_t); }

Administracin de Bases de Datos

Algoritmo no deshacer/rehacer
Ejemplo:
Guarda imagen posterior

[T1 init][T1,A,4][T1 commit][T2 init][T2,B,6][T2 commit]!FALLO!

init

lee B

B=B+3

esc B

commit

T2
A=2 B=3 4 6

FALLO

T1
init lee A A=A+2 esc A commit

Administracin de Bases de Datos

Algoritmo deshacer/no rehacer

Con esta tcnica, basada en la actualizacin inmediata, nunca es necesario rehacer una transaccin despus de un fallo del sistema. Por ello, no es necesario guardar las imgenes posteriores en la traza. Las pginas actualizadas se escriben en disco cada vez que se actualizan elementos, sin esperar a la confirmacin de la transaccin. Abortar transacciones puede ser caro (hay que deshacer las actualizaciones ya escritas en disco).

En la prctica no resulta lo ms eficiente.

Administracin de Bases de Datos

Algoritmo deshacer/no rehacer


Los algoritmos para las diferentes funciones con esta tcnica son:
void lee( transac t,pagina p, buffer b) { lee_pagina_en_buffer(p,b); } void esc( transac t,pagina p, buffer b) { inserta_imag_ant_buffer_traza(p); escribe_buffer_en_pagina(p,b); }

Administracin de Bases de Datos

Algoritmo deshacer/no rehacer


void rearranque() { transac t; for (t = La ; t!= NULL; t = t->sig) aborta(t); //donde deshace } void confirma( transac t) { pagina p; for (p=pagina_actualizada(t); p!=NULL; p=pagina_sig(t,p)) escribe_en_disco(p); inserta_en_lista(Lc,t); elimina_de_lista(La,t); } void aborta( transac t) { pagina p; buffer b; inserta_en_lista(Lb,t); for(p=pagina_actualizada(t); p!=NULL; P=pagina_sig(t,p)) escribe_en disco_imagen_ant_de_p_desde_traza(); //deshace elimina_de_lista(La,t); }

Slo aborta transacciones

Administracin de Bases de Datos

Algoritmo deshacer/no rehacer

Ejemplo:
[T1 init][T1,A,2][T1 commit][T2 init][T2,B,3]!FALLO! init lee B B=B+3

Guarda imagen anterior

esc B

T2
A=2 B=3 4 6

FALLO

T1
init
lee A A=A+2 esc A commit

Administracin de Bases de Datos

Algoritmo deshacer/rehacer

Esta tcnica, basada en la actualizacin inmediata, combina la habilidad de rehacer con la de deshacer. Las pginas sucias se vuelcan a disco en cualquier momento que sea necesario, aunque correspondan a transacciones no confirmadas (se ocupa el gestor de buffers). Se optimiza el funcionamiento normal (sin abortos ni fallos). El procedimiento de abortar es ms costoso. El procedimiento de rearranque ms costoso. Es el ms comnmente empleado por los SGBDs.

Administracin de Bases de Datos

Algoritmo deshacer/rehacer

Es imprescindible que los registros de la traza se escriban a disco antes que los datos actualizados. Procedimientos de recuperacin: Con las transacciones que en la traza tengan registrado el inicio pero no la confirmacin, se Deshace la transaccin, yendo hacia atrs en la traza desde el ltimo registro de la transaccin, restaurando las BFIM. Con las transacciones que tengan registrados en la traza el inicio y la confirmacin, se Rehace la transaccin, yendo hacia delante en la traza, desde el primer registro de la transaccin, estableciendo las AFIM. Las operaciones deben ser idempotentes. Se realizan primero las operaciones de Deshacer y luego las de Rehacer
Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Si la traza en tres instantes de tiempo al fallar es:

la recuperacin en cada caso es como sigue Caso (a): se deshace T0, restaurando A=1000 y B=2000 Caso (b): se deshace T1 y se rehace T0, restaurando C=700 y estableciendo A=950 y B=2050 Caso (c): se rehace T0 y T1, poniendo A=950, B=2050, C=600
Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Uso de los Puntos de control (checkpoints)

Los puntos de control, tanto en deshacer/rehacer como en los dems algoritmos, evitan tener que recorrer toda la traza para la recuperacin, lo que resultara muy costoso y realizara acciones innecesarias. Cuando se realiza (y registra) un punto de control, se escriben toda la informacin a disco y se guarda la informacin de las transacciones activas en ese momento. <checkpoint La>

Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Uso de los Puntos de control (checkpoints) Cuando el sistema se recupera de una cada se inicializan undo-list y redo-list vacas, se va recorriendo la traza hacia atrs hasta un punto de control, si se encuentra <Ti commit> se incluye Ti en la redo-list, si se encuentra <Tj start> y Tj no est en la redo-list se incluye Tj en la undo-list, al llegar a un <checkpoint La>, si se encuentra Tk en La y Tk no est en la redo-list se incluye en la undo-list, se sigue la traza hacia atrs hasta encontrar todos los <Tu start> de las Tu que estn la La, deshaciendo los pasos de las Tu, se avanza en la traza hasta el punto de control ms reciente, se sigue avanzando en la traza rehaciendo todas las operaciones registradas correspondientes a las Ti en la redolist. Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Uso de los Puntos de control (checkpoints) Ejercicio: deshacer/rehacer con la siguiente traza:
<T0 start> <T0, A, 0, 10> <T0 commit> <T1 start> /* Scan at step 1 comes up to here */ <T1, B, 0, 10> <T2 start> <T2, C, 0, 10> <T2, C, 10, 20> <checkpoint {T1, T2}> <T3 start> <T3, A, 10, 20> <T3, D, 0, 10> <T3 commit>
Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Los algoritmos para las diferentes funciones con esta tcnica son:
void lee( transac t,pagina p, buffer b) { if ( esta_actualizada_por(p,t) ) lee_img_post_en_buffer(p,b); else lee_pagina_en_buffer(p,b); } void esc( transac t,pagina p, buffer b) { inserta_imag_ant_buffer_traza(p); inserta_imag_post_buffer_traza(p); }

Administracin de Bases de Datos

Algoritmo deshacer-rehacer

void rearranque() { transac t; for (t = La ; t!= NULL; t = t->sig) Aborta y if( esta_en_lista(Lc,t) confirma(t); confirma else aborta(t); } void confirma( transac t) { pagina p; inserta_en_lista(Lc,t); for (p=pagina_actualizada(t); p!=NULL; p=pagina_sig(t,p)) if (esta_sucia(p)) escribe_post_imag_traza_en_disco(p); //rehace elimina_de_lista(La,t); } void aborta( transac t) { pagina p; bufer b;

inserta_en_lista(Lb,t); for (p=pagina_actualizada(t); p!=NULL; p=pagina_sig(t,p)) lee_en_buffer_img_ant_de_p_desde_traza(p,b); //deshace


elimina_de_lista(La_t); }

Administracin de Bases de Datos

Algoritmo deshacer/rehacer
Guarda imagen posterior y anterior

Ejemplo:

[T1 init][T1,A,2,4][T1 commit][T2 init][T2,B,3,6][T2 commit]!FALLO!

init

lee B

B=B+3

esc B

commit

T2
A=2 B=3 4 6

FALLO

T1
init lee A A=A+2 esc A commit

Administracin de Bases de Datos

Algoritmo no deshacer/no rehacer

Existen dos tcnicas bsicas de actualizacin:

actualizacin en el sitio, en la cual cuando es necesario escribir en disco se sobreescriben los objetos de la BD en su posicin original. Se utiliza en todos los algoritmos de recuperacin vistos anteriormente. El sombreado (paginacin en la sombra) escribe las pginas actualizadas en una nueva posicin, y mantiene (provisionalmente) las pginas originales en su ubicacin original. La nueva pgina slo es visible cuando la transaccin se confirma. Esta tcnica permite los algoritmos no deshacer/no rehacer.
Administracin de Bases de Datos

Algoritmo no deshacer/no rehacer


La paginacin en la sombra es una alternativa a la recuperacin basada en la traza (si no hay concurrencia de transacciones ni siquiera se necesita traza). En ejecuciones serializadas Se mantienen dos tablas de pginas, la tabla de pginas actual y la tabla de pginas en la sombra. Cuando se inicia una transaccin se copia la tabla de pginas actual en la tabla sombra. Cuando se actualiza una pgina, se escribe la pgina actualizada en una pgina no usada, y se actualiza la tabla actual para apuntar a sta (dejando la sombra sin modificar) Cuando se confirma la transaccin, se descarta la tabla sombra. Si se produce un fallo, la tabla sombra se copia en la actual. No es necesario ni rehacer ni deshacer

Administracin de Bases de Datos

Algoritmo no deshacer/no rehacer paginacin en la sombra

Administracin de Bases de Datos

Algoritmo no deshacer/no rehacer


Inconvenientes Se debe guardar y copia la tabla de pginas entera. En cualquier caso hay que gestionar la recoleccin de basura de pginas obsoletas despus de la confirmacin de una transaccin. Los datos de la BD quedan fragmentados. En caso de ejecuciones concurrentes, hay que guardar y utilizar informacin en la traza y la recuperacin se complica mucho respecto a las planificaciones serializadas. En conjunto, la tcnica supone un sobrecoste de operaciones que la hace ineficiente en la prctica.
Administracin de Bases de Datos

Algoritmo no deshacer/no rehacer


Los algoritmos especficos con esta tcnica son:
void confirma( transac t) { pagina p; for (p=pagina_actualizada(t); p!=NULL; p=pagina_sig(t,p)) if (esta_sucia(p)) escribe_post_imag_traza_en_disco(p); elimina_de_lista(La,t);
}

void rearranque() { transac t;


for (t = La ; t!= NULL; t = t->sig) aborta(t);

Administracin de Bases de Datos

S-ar putea să vă placă și