Sunteți pe pagina 1din 14

Tolerana la defecte

Petre OGRUAN, aprilie 2014

Introducere
Moduri de a mri sigurana de funcionare (durata / fiabilitatea):
1.
Evitarea erorilor, de exemplu prin alegerea componentelor, testare, proiectare atent, msuri EMC
(ecranare, gardare etc.)
2.
Mascarea erorilor, adic mpiedicarea erorilor s intre n sistemul de prelucrare, exemple, coduri corectoare
i detectoare de erori etc.
3.
Tolerana la defecte este abilitatea unui sistem de a continua s funcioneze dup apariia unei erori.
Reconfigurarea este procesul de eliminare a modulului defect i reintrare n funciune. Reconfigurarea const
n

Detecie erorii

Localizarea erorii

Izolarea erorii astfel nct ea s nu se propage n sistem

Recuperarea funcionalitii.
Noiunea de toleran la defecte a fost introdus de von Neumann n 1952 sub forma unor lucrri publicate apoi n
1956 sub numele Synthesis of Reliable Organisms from Unreliable Components.
Din 1971 se organizeaz n fiecare an Symposium of Fault Tolerant Computing.
Importana toleranei la defecte se manifest la aplicaiile de durat mare (Long Life Applications). De exemplu nava
Voyager coninea o dublur a tuturor modulelor, dublurile intrnd n funciune la o eroare a modulelor
principale.
Tolerana la defecte se realizeaz prin redundan.

Redundan
Tolerana la defecte se realizeaz prin redundan.
Conceptul de redundan nseamn adugarea de hardware, software sau timp n plus fa de ceea ce
este necesar pentru operarea normal. Redundana poate fi:
1.
Hardware
2.
Software
3.
Informaional (coduri de detectare i corectare de erori)
4.
De timp (repetare mesaje, detecie i corecie de erori).
Redundana mrete preul, dimensiunile, greutatea, consumul de energie etc.
Redundana are trei forme:
1.
Redundan pasiv, se mascheaz eroarea prin oprirea efectului ei asupra sistemului. Nu se
solicit nici o aciune din partea sistemului sau operatorului.
2.
Redundan activ, se detecteaz eroarea i se exclude hardware-ul care a produs-o. (sistemul
se reconfigureaz).
3.
Redundana hibrid combin avantajele ambelor metode. Se mascheaz eroarea, apoi se
nlocuiete elementul defect cu un element de rezerv.

Redundana pasiv hardware


Acest tip de redundan se bazeaz pe votarea majoritar. Redundana triplu modular se realizeaz prin
triplarea fiecrui modul.
Schema poate fi implementat
Modul 1
hardware sau software.
Voter
Ieire
Intrare
Modul 2
Implementarea software const
Modul 3
n 3 programe care fac aceleai
calcule i se compar rezultatul.

Fiabilitatea sistemului este limitat de fiabilitatea voter-ului. Prin triplarea lui se mrete fiabilitatea. De
exemplu, un sistem cu redundan triplu modular cu 2 nivele este prezentat n figur. Acest sistem asigur
corectitudinea rspunsului dac un voter sau un modul se defecteaz. Generalizarea redundanei triplu
modular este ce n-modular.

Intrare

Modul 1
Modul 2
Modul 3

Modul 4
Modul 5
Modul 6

Observaii
Observaia 1
n cazul valorilor apropiate dar care nu
coincid (de exemplu ieiri analogice de
la senzori) votarea majoritar se poate
aplica prin excluderea rezultatului eronat
i plasarea rezultatului ntre valorile
apropiate prin selecia valorii de mijloc.
Observaia 2
Punctele n care, dac apare o eroare ea se
propag la ieire se numesc puncte
singulare de eroare (Single Point of
Failure) . n cazul unui voter, voterul
este un punct singular de eroare. Puncte
singulare de eroare sunt i elementele de
execuie, care trebuie s execute o
comand, nu trei comenzi. Un sistem de Intrare
acionare redundant folosit n avioanele
de vntoare este dat n figur. La
funcionare normal curentul motorului
este format din 1/3 Modul 1, 1/3 Modul
2 i 1/3 Modul 3. Dac un modul este
defect ieirea lui este zero, prin feedback
se comand celelalte module s creasc
curentul pentru a compensa modulul
defect.

Valori

Valori acceptate, punctat


este reprezent valoarea de
mijloc

t
Valori respinse

Modul 1
MOTOR

Modul 2
Modul 3

Feedback

Redundana activ hardware


Redundana activ nu mascheaz eroarea, deci metoda se preteaz la sistemele care admit temporar
existena erorilor. Metoda implic reconfigurarea.
1.Redundana activ hardware cu modul de rezerv
Modulul 1 este operaional iar celelalte sunt module de rezerv. Dac se detecteaz o eroare la
funcionarea modulului 1 acesta se deconecteaz i se conecteaz o rezerv. Rezervele pot fi:
1.
Rezerve calde care sunt alimentate tot timpul i funcioneaz n paralel cu modulul de baz, n
acest caz trecerea la rezerv fiind foarte rapid.
2.
Rezerve reci care nu sunt alimentate.
SWITCH
Modul 1
Detecie eroare

Intrare
Modul 2

Detecie eroare

Modul N
Detecie eroare

Ieire

Redundana activ hardware


2.Duplicarea cu comparaie i comutarea modulului de rezerv
Modulele sunt grupate cte 2, la un moment dat fiind funcional o pereche. Dac rezultatele date de 2
module sunt identice modulele sunt pstrate n funciune. Dac apare o diferen ambele module sunt
nlocuite de o alt pereche, indiferent care dintre cele 2 module este defect.

SWITCH
Intrare

Modul 1
Modul 2
Modul 3
Modul 4
Modul N-1
Modul N

Comparator

Ieire

Redundana hardware hibrid


n redundana hibrid eroarea se mascheaz i modulul defect se nlocuiete prin reconfigurare. Se obin
rezultate deosebit de bune dar cu costuri mari.
1.Redundan N-modular cu rezerve
Cnd voterul detecteaz un rspuns eronat, circuitul de identificare detecteaz modulul defect i l
nlocuiete cu un modul de rezerv.
SWITCH
Modul 1
Modul 2
Intrare

Ieire
Voter

Modul N
Rezerva 1
Rezerva 2

Rezerva N

Identificator
rspuns
eronat

Comutare
rezerv

Redundana hardware hibrid


2.Redundan prin autoexcludere
Toate modulele sunt active i sunt
excluse dac voterul detecteaz un
rspuns eronat. n acest caz se
micoreaz numrul de circuite
care voteaz i exist riscul ca s
voteze un numr par de circuite.

3.Arhitectura triplu duplex


Este o combinaie ntre duplicarea cu
comparaie i redundana pasiv
triplu modular. Cnd comparatorul Intrare
detecteaz o diferen, ambele
module sunt scoase din circuitul de
votare.

Modul 1
Voter
Intrare

Ieire

Modul 2
Modul 3
Circuite de validare

Modul 1A
Modul 1B

Comparator

Modul 2A
Modul 2B

Comparator

Modul 3A
Modul 3B

Comparator

Ieire
Voter

Realizri

Serverul Stratus ftServer 6500


System asigur o redundan
triplu modular (Triple Module
Redundancy (TMR).

Sistemul telefonic al Columbiei


este asigurat de Trunking SA
care deine un sistem redundant
de control cu un soft realzat de
Genesis. www.genesisworld
.com/GZ/customers.asp

LSI LSISASx28 este un


circuit de interfa care
conine 28 porturi 3 Gb/s
SAS (Serial Attached
SCSI). Conine un procesor
ARM iar cile de date sunt
redundante (fault tolerant
path)

10/100BASE-TX Fault-Tolerant
Redundant Port Selector este un
switch de reea cu 3 porturi, unul
este de legatur cu reeaua iar
celelalte 2 sunt pentru serverul
fault tolerant. (server + server de
rezerv) Dac legtura pe un port
se pierde se conecteaz automat al
doilea port n mai puin de o
microsecund.
Un set de surse redundante de
1000W asigur alimentarea fault
tolerant a unui sistem. Schema
electric arat modul de detecie
al erorii de alimentare.
www.kepcopower.com/
newshot.htm

Exemple de asigurare a siguranei n


funcionare bazate pe redundan
1.Conectarea a 2 surse prin duplicare cu comparaie
D
220V ca

n funcionare normal sursa 1


alimenteaz circuitul de sarcin, dioda
D fiind blocat (sursele au aceeai
tensiune de ieire). Dac sursa 1 nu mai
are tensiune la ieire, alimentarea este
asigurat de sursa 2 (rezerv cald).

Sursa 2
Rs

Sursa 1

2.Redundana informaional la transmisia USB


Pachetul USB de date ncepe cu o secven de sincronizare de 8 bii la USB 1.1 i 32 de bii la USB 2.0.
Urmeaz un cmp de identificare a pachetului care poate fi de urmtoarele tipuri: date, protocol, special, de
semnalizare. Cmpul de identificare const n 4 bii care indic tipul pachetului i modul de corecie al
erorilor i 4 bii de verificare a corectitudinii recepiei primilor 4 bii (complementul primilor 4 bii).

B0

B1

B2

B3

B0

B1

B2

B3

Cmp de identificare
USB cu redundan
informaional / de timp

Exemple de asigurare a siguranei n


funcionare bazate pe redundan
3.Funcia de eliminare a unui port de reea defect prin verificarea coliziunilor
Hub-ul de reea IMPR Integrated Multiple Port Repeater are i funcia de supraveghere a traficului n
reea i deconectarea portului care plvrgete. O coliziune apare cnd 2 porturi UTP ncearc n
acelai timp s transmit date. Un port UTP este deconectat de IMPR dac:

Exist o coliziune care dureaz 1024 perioade de bit;

Apar 32 de coliziuni succesive


Portul poate fi reconectat dac poate transmite fr cpliziuni un pachet de 512 perioade de bit. Aceast
funcie a hub-ului este asemntoare cu cea a comutatorului de blocuri redundante.

RJ45

RJ45

Transceiver
UTP0
Transceiver
UTP1

Detectarea
coliziunilor i
izolarea canalului

PLL i decodare
Manchester
FIFO

Codare Manchester

Exemple de asigurare a siguranei n


funcionare bazate pe redundan
5.Arhitectura RAID (Redundant Array of Independent Disks)
O arhitectur RAID are 3 proprieti:
1.
RAID este un set de HDD fizice vzute de sistemul de operare ca un singur drive logic
2.
Datele sunt distribuite pe HDD fizice ale ariei de HDD
3.
O parte din capacitatea HDD este folosit pentru stocarea informaiei de detectare a erorilor i eventual de
corectare, care conduce la posibilitatea recuperrii informaiei n cazul defectrii unui HDD.
Clasificare:
RAID 0 nu include redundan, este o metod de transfer n paralel cu mai multe HDD. Este folosit la unele
supercomputere unde nu intereseaz att sigurana ct preul. La RAID 0 informaia este distribuit pe toate
HDD din aria RAID. Dac apar 2 cereri de I/O pentru 2 blocuri diferite, exist o ans mare ca acestea s se
afle pe 2 HDD diferite putnd fi rezolvate n paralel.
Dac accesul se face pentru fiiere
Bloc 1
Bloc 2
Bloc 3
Bloc 4
Bloc 1
mici de 1 bloc, nu exist o
Bloc 5
Bloc 6
Bloc 7
Bloc 8
Bloc 2
mbuntire a vitezei de transfer.
Bloc 10
Bloc 11
Bloc 12
Bloc 9
Bloc 3
Soft de
Dac ns se face pentru fiiere
gestionare
Bloc 4
mari blocurile pot fi citite n paralel
RAID
i se poate constata o mbuntire
Bloc 5
n cazul figurii de maximum 4 ori a
Bloc 6
vitezei de transfer.
4 HDD fizice

Exemple de asigurare a siguranei n


funcionare bazate pe redundan

RAID 1, stocarea datelor este ca la RAID 0 dar este realizat o redundan prin duplicarea datelor pe al
doilea hard disc, identic cu primul. O citire se realizeaz doar de pe un hard disc, deci timpul de
citire va fi acelai ca la RAID 0. Scrierea se face pe ambele HDD, deci timpul de scriere se va dubla.
Recuperarea informaiei este simpl, se citete al doilea HDD. RAID 1 se folosete acolo unde este
nevoie de o mare siguran a datelor i de recuperarea lor imediat n cazul cderii unui HDD,
soluia avnd dezavantajul preului.
RAID 4. Se calculeaz informaia de paritate n cazul unei structuri RAID 0, se organizeaz ca bloc i se
stocheaz pe un HDD suplimentar. La fiecare citire se citete att blocul de date ct i blocul de
paritate care se afl pe alt hard disc. Hard discul de paritate este citit / scris pentru fiecare acces la
oricare HDD din arie.

S-ar putea să vă placă și