Sunteți pe pagina 1din 8

Fiabilitatea sistemelor distribuite

(C1+C2)

1. Noiuni de baz

Termenul de fiabilitate definete capacitatea unui sistem de a-i conserva n timp proprietile
iniiale, de a nu se defecta n condiii de exploatare corespunztoare. Din punct de vedere cantitativ,
fiabilitatea reprezint probabilitatea ca ntr-un interval de timp specificat sistemul s-i pstreze
starea de bun funcionare. Fiabilitatea este o cerin important pentru orice sistem tehnic, dar
pentru unele sisteme de mare importan funcional o fiabilitate nalt este o cerin esenial.
n general, sunt dou posibiliti complementare de cretere a fiabilitii unui sistem complex. O
prim cale este aceea a simplificrii structurii i a folosirii unor componente de calitate superioar.
Practica a artat ns c numai pe aceast cale fiabilitatea unui sistem complex nu poate fi crescut
orict de mult, nici mcar pe intervale scurte de timp. Orict de fiabile ar fi componentele, defecte tot
pot aprea ca urmare a unor perturbaii mai severe pentru regimul normal de funcionare. Aceasta a
condus la o nou abordare a problematicii fiabilitii, bazat pe ideea c ntr-o anumit msur
apariia defectelor trebuie acceptat iar sistemul trebuie s fie capabil s tolereze prezena lor. Ca
urmare, cea de a doua cale de cretere a fiabilitii este implementarea toleranei la defecte (engl.
fault tolerance).
Tolerana la defecte definete capacitatea unui sistem de a-i continua funcionarea corect la
apariia anumitor defecte, fr o intervenie din exterior. Tolerana la defecte se obine ntotdeauna
printr-o suplimentare a prii hardware i/sau software. Pe lng redundana hardware sau software
mai apare i o redundan de date sau o redundan de timp (de exemplu, o structur de discuri
magnetice ntr-o configuraie RAID).
Odat cu scderea preului circuitelor integrate, tolerana la defecte este tot mai mult
implementat n sistemele digitale, ceea ce permite realizarea unor sisteme de nalt fiabilitate.
O alt cerin important pentru un sistem tehnic este mentenabilitatea. O mentenabilitate ridicat
presupune asigurarea prin proiectare a unei testabiliti facile, existena unor instrumente de testare
performante i a unei documentaii de service adecvat, piese de schimb, personal de ntreinere
calificat etc.
Conceptul de disponibilitate reunete aspectele legate de fiabilitate i de mentenabilitate i
exprim probabilitatea ca un sistem s funcioneze corect la un moment dat, indiferent dac anterior
au avut loc defectri i reparri. Astfel, pentru creterea disponibilitii unui echipament se poate
aciona pentru evitarea defectrii, pe de o parte, i reducerea perioadei de remediere n caz de
defectare, pe de alt parte. Dac se accept ipoteza staionaritii, disponibilitatea exprim procentul
perioadelor de bun funcionare. O disponibilitate mare se impune din considerente economice.
La sistemele complexe, de mare rspundere funcional, cele trei concepte sunt nc insuficiente
pentru a caracteriza capacitatea sistemului de a-i ndeplini funciile sale specifice. Pentru aceste
sisteme este important i securitatea (engl. safety) care exprim capacitatea unui sistem de a furniza
numai rezultate corecte sau, altfel spus, de a evita o funcionare defectuoas. Din punct de vedere
cantitativ, securitatea este probabilitatea ca ntr-un interval de timp dat sistemul s nu furnizeze
rezultate greite i s nu genereze comenzi eronate. Pentru orice echipament complex, a crui
defectare nu poate fi exclus, o securitate nalt nu poate fi atins dect printr-o autotestare realizat
n timpul funcionrii normale (engl. on-line testing). Autotestarea poate fi implementat la nivelul
sistemului n ansamblu sau la nivelul modulelor critice din sistem. Ca o remarc, unele elemente de
autotestare se regsesc la toate sistemele de calcul. Dou exemple sunt tipice: folosirea bitului de
paritate la transmisiile seriale i a codurilor de control la memorarea datelor pe discul magnetic.

1
Sigurana n funcionare este un concept larg care reflect fiabilitatea i securitatea unui
echipament de mare importan, dar i capacitatea acestuia de a evita situaiile de avarie care ar putea
aprea n timpul funcionrii, sau de a limita consecinele unei defectri grave. n cazul apariiei unui
defect acesta trebuie detectat n mod automat i suficient de repede pentru ca procesul condus s fie
dirijat ntr-o stare nepericuloas. Ca exemplu, ntr-un sistem de dirijare a traficului feroviar, n cazul
unei defeciuni la sistemul de control lmpile de semnalizare trebuie s arate culoarea roie pentru a
se evita producerea de accidente n trafic. Sigurana n funcionare implic i o capacitate mare de
refacere dup eroare.
Mrimile legate de calitatea dinamic a unui sistem sunt reunite n conceptul de eficien global
(engl. dependability). Pentru a exprima mai riguros aceste mrimi se construiete un model care s
reflecte modul n care poate evolua sistemul n perioada de exploatare. Un astfel de model este
reprezentat sub form de graf n Fig. 1.

Sms

Smp Sfc Smh

Sfe

Fig. 1 Graful strilor pentru modelul eficienei globale.

Semnificaia strilor acestui model este urmtoarea:


S fc Stare de funcionare corect care cuprinde i situaiile n care dei au aprut defecte
sistemul continu s furnizeze rezultate corecte, n sensul c sistemul tolereaz defectele aprute.
S fe Stare de funcionare eronat n care sistemul furnizeaz rezultate greite, dei se crede c
funcioneaz corect. Este o stare periculoas care trebuie pe ct posibil evitat.
S mp Stare de mentenan preventiv. Sistemul este oprit pentru o verificare ampl, cnd se
urmrete detectarea eventualelor defecte latente care ar putea s se manifeste ntr-un regim de
funcionare mai sever. Se verific att partea de hardware ct i cea de software, de obicei n
cadrul unor programe de verificare i ntreinere periodic.
S mh Stare de mentenan corectiv a prii hardware. Remedierea se face prin intervenia
depanatorului sau prin reconfigurare automat.
S ms Stare de mentenan a prii de software. Sunt nlturate anumite erori de programare sau
se verific consecinele defectelor hardware asupra software-ului. Are loc reconstituirea tuturor
programelor i aducerea lor la punctul de ntrerupere care s permit reluarea funcionrii
procesului condus. Reconstituirea se poate face manual sau automat.

Fie St (t ) starea sistemului la momentul t . Pe baza acestui model se definesc urmtoarele funcii:
Fiabilitatea R (t ) este probabilitatea ca sistemul s rmn n stare de bun funcionare n
intervalul [0, t ] . Sau altfel, R (t ) este probabilitatea ca sistemul funcional la momentul 0 s nu se
defecteze pn la momentul t .

2
(
R(t ) = prob St ( ) = S fc , [0, t ) . )
Disponibilitatea D(t ) este probabilitatea ca sistemul s fie n stare de bun funcionare la
momentul t .
(
D (t ) = prob St (t ) = S fc . )
Securitatea S (t ) este probabilitatea ca sistemul s nu furnizeze rspunsuri eronate i s nu
genereze comenzi greite n intervalul [0, t ] .
(
S (t ) = prob St ( ) S fe , [0, t ) .)
Mentenabilitatea hardware M h (t ) este probabilitatea ca restabilirea prii hardware, nceput la
momentul 0, s se termine pn la momentul t .
M h (t ) = 1 prob (St ( ) = S mh , [0, t ) ) .

Mentenabilitatea software M S (t ) se definete n mod similar, i anume

M s (t ) = 1 prob (St ( ) = S ms , [0, t ) ) .

Importana fiecrei mrimi din sfera eficienei globale depinde de tipul sistemului i de condiiile
specifice de exploatare. Astfel, pentru calculatoarele de uz general indicatorii mai folosii sunt
fiabilitatea i mentenabilitatea. Pentru reelele de calculatoare complexe, disponibilitatea exprim cel
mai bine cerinele utilizatorilor. n cazul unor sisteme de mare rspundere funcional, cum ar fi
sistemele informaionale bancare, se impune nainte de toate o securitate deosebit.

2. Exemple
Urmtoarele dou exemple scot n eviden relaia strns dintre aceste mrimi. Primul exemplu
se refer la indicatorul de disponibilitate care are sens numai atunci cnd sistemul este reparabil
i evideniaz relaia dintre fiabilitate i mentenabilitate. Cel de-al doile exemplu se refer la relaia
dintre fiabilitate i securitate.

Ex. 1. Sistem autodiagnosticabil. Relaia fiabilitate-mentenabilitate

Fie un sistem de calcul cu faciliti de diagnosticare automat, integrat ntr-o aplicaie de timp
real. Gradul de acoperire a defectelor (engl. fault coverage) sau probabilitatea detectrii automate a
unui defect aprut n sistem este c . n cazul unei defectri detectate automat, timpul de remediere a
sistemului este 1 timp necesar pentru comanda unui nou modul. Dac defectul nu poate fi detectat
prin sistemul de autodiagnosticare atunci timpul necesar pentru remediere este 2 > 1 , ntruct se
impune diagnosticarea sistemului de o persoan specializat i apoi comanda unui nou modul. Rata
medie a defectrilor la sistemul neredundant este , iar a celui autodiagnosticabil este , > 1 ,
datorit structurii suplimentare pentru autotestare. Se pune problema determinrii valorii
coeficientului pentru care disponibilitatea sistemului autodiagnosticabil ncepe s scad n raport
cu disponibilitatea sistemului neredundant. Pentru un calcul numeric se consider valorile: c = 0,9 ,
1 = 24 h, 2 = 72 h .
Prin adugarea structurii suplimentare de autotestare, complexitatea sistemului crete i, ca
urmare, fiabilitatea scade. Pe de alt parte, facilitatea de diagnosticare automat duce la creterea
mentenabilitii. Cu alte cuvinte, sistemul autodiagnosticabil se defecteaz mai des, dar se repar mai
repede. Disponibilitatea sistemului autodiagnosticabil este mai mare dect cea a sistemului
neredundant dac pierderea n fiabilitate este compensat de ctigul obinut prin creterea
mentenabilitii. S analizm cele dou tendine contradictorii.

3
Sistemul fiind reparabil, perioadele de funcionare alterneaz cu cele de oprire pentru remediere.
Dac perioada medie de funcionare nentrerupt este t f m iar perioada medie de remediere este t rm ,
t fm
atunci disponibilitatea sistemului este dat de ralaia D = 100% . Pentru sistemul
t f m + t rm
1
neredundant, t f m = i trm = 2 . n cazul sistemului redundant, cu faciliti de diagnosticare

automat, tf =
1 , iar trm = c1 + (1 c) 2 .
m

Aadar, pentru sistemul neredundant, disponibilitatea este
t fm 1/ 1
Dsn = = = ,
t f + tr 1/ + 2 1 + 2
m m

iar pentru sistemul redundant,


1
1
Dsr = = .
1
+ c1 + (1 c) 2 1 + c1 + (1 c) 2

Impunnd condiia Dsr Dsn , rezult inegalitatea 1 + c1 + (1 c) 2 1 + 2 , din care se deduce
soluia pentru coeficientul de multiplicare , i anume :
2
.
c 1 + (1 c) 2
72
Cu valorile date, rezult 2,50 . Ceea ce nseamn c att timp ct structura
0,9 24 + 0,1 72
de autodiagnosticare nu depete n complexitate sistemul neredundant cu mai mult de 50%, soluia
propus pentru creterea disponibilitii este viabil.

Ex. 2. Sistem autocontrolabil. Relaia fiabilitate-securitate

Se consider un sistem autocontrolabil cu schema bloc din Fig. 2. Fie c gradul de acoperire a unui
defect n unitatea de baz, sau probabilitatea detectrii automate a unui astfel de defect. Starea
sistemului (Tab. 1) este dat de strile celor dou uniti componente i de valoarea semnalului de
control, Funcionare sau Oprire. Unitatea de baz (U B ) se poate afla n starea de bun
funcionare (BF ) , de defectare detectabil (DD) sau de defectare nedetectabil (DN ) . Unitatea de
control (U C ) se poate afla n starea de bun funcionare (BF ) sau de defectare (D) .

Intrri
Unitate Iesiri
de baz functionale

Unitate Semnal
de control de control

Fig. 2 Circuit autocontrolabil.

4
Tab. 1 Strile sistemului autocontrolabil.

Semnal de Stare U C
control Stare U B
BF D
BF S1 S2
Funcionare DD S3
DN S4 S5
BF S6
Oprire DD S7 S8
DN S9

Strile S3 , S 4 i S5 pot fi apreciate ca periculoase, starea S 2 ca norocoas, iar S6 ca stare de


oprire abuziv. Strile de funcionare corect i de funcionare eronat sunt
S fc = {S1, S 2 } i S fe = {S3 , S 4 , S5 }.

Fie pi (t ) probabilitatea ca sistemul s se afle n starea Si la momentul t , adic


pi (t ) = prob ( St (t ) = Si ), i = 1, 2, K , 9.
Dac RB (t ) i RC (t ) sunt funciile de fiabilitate pentru modulele U B i U C , pe baza lor se pot
scrie urmtoarele relaii cu privire la probabilitile de stare. Pentru simplificarea scrierii se renun
la parametrul t .
p1 = RB RC
p 4 = (1 c)(1 RB ) RC
p 7 = c (1 RB ) RC
p 2 + p 6 = RB (1 RC )
p 3 + p 8 = c (1 RB )(1 RC )
p 5 + p 9 = (1 c)(1 RB )(1 RC )
Totui, probabilitile p2 , p3 i p5 nu se pot disocia de probabilitile p6 , p8 i respectiv, p9 .
Aadar, modelul este prea general i nu permite exprimarea funciei de fiabilitate R (t ) , i de
securitate S (t ) , pe baza fiabilitii elementelor componente, RB (t ) i RC (t ) . Cnd unitatea de
control are o securitate ridicat se spune despre sistem c este autotestabil.
Dac un sistem nu dispune de structuri suplimentare de control, atunci nivelul de securitate al
sistemului este dat de nivelul de fiabilitate. Cnd se urmrete un nivel de securitate mai mare dect
nivelul fiabilitii, se impun structuri de autotestare care afecteaz ns fiabilitatea. Pentru a ilustra
acest aspect se consider un circuit logic autotestabil realizat cu dou circuite identice care
funcioneaz n duplex (Fig. 3).

Circuit 1 Iesire functionala


Intrri
(de baza)
Semnal de
control
Circuit 2
(de control)

Unitate de control

Fig. 3 Circuit logic autotestabil.

5
Acceptnd c probabilitatea de defectare simultan a celor dou module este neglijabil, i c
datorit simplitii fiabilitatea porii sau-exclusiv este aproape 1, rezult c i securitatea circuitului
autotestabil este aproape 1. Dac se consider c cele dou circuite sunt identice, cu fiabilitatea R ,
fiabilitatea circuitului autotestabil este Rca = R 2 Rxor < R. De exemplu, dac R = 0,9 atunci
Rca < 0,81 .

Aadar, fiabilitatea sistemului autotestabil poate fi semnificativ mai mic dect a sistemul
neredundant. n concluzie, dac se urmrete o securitate mai mare, peste nivelul de fiabilitate,
aceasta se obine n dauna fiabilitii. n practic trebuie gsit o soluie de compromis pentru cele
dou mrimi care devin astfel contradictorii.

3. Indicatori de fiabilitate

Din punct de vedere calitativ fiabilitatea definete capacitatea unui sistem de a funciona fr
eroare o perioad dat de timp, n condiii de exploatare corespunztoare. Evenimentul care
marcheaz ncetarea capacitii sistemului de a-i ndeplini funciile sale specifice se numete
defectare. S considerm, aadar, variabila aleatoare X ce exprim timpul de bun funcionare pn
la prima defectare. Pe baza acestei variabile aleatoare se definesc urmtorii indicatori de fiabilitate,
care reflect ntr-o anumit form fiabilitatea sistemelor.
Funcia de fiabilitate R(t ) sau probabilitatea de bun funcionare,
R(t ) = prob ( X > t ) .
Se presupune c la momentul 0 sistemul este funcional. Pentru estimarea experimental a valorii
funciei de fiabilitate R(T ) , pentru o durat T dat ( T se mai numete durata misiunii), se poate
organiza urmtorul experiment statistic. Un lot suficient de mare cu N 0 sisteme identice este
monitorizat n intervalul de timp [0, T ] . S presupunem c din cele N 0 sisteme, N au rmas n
funciune i n s-au defectat. R(T ) se estimeaz cu relaia
N
R (T ) = .
N0

Funcia de nonfiabilitate F (t ) sau probabilitatea de defectare,


F (t ) = prob ( X < t ) = 1 R(t ) .
F (t ) este funcia de repartiie a variabilei aleatoare X . Pentru o perioad de timp T ,
probabilitatea de defectare poate fi estimat cu relaia
n
F (T ) = .
N0
De remarcat c performanele de fiabilitate ale unui sistem depind de durata misiunii T . Pentru a
evidenia acest lucru, n Fig. 4 se prezint funciile de fiabilitate pentru dou sisteme, din care rezult
c pentru intervalul T1 sistemul 1 este mai fiabil dect sistemul 2, iar pentru T2 > T1 , sistemul 2 este
mai fiabil dect sistemul 1.

6
R(t)

1 R1(t)

R2(t)

t
T1 T2

Fig. 4 Compararea fiabilitii a dou sisteme.

Funcia de frecven f (t ) este densitatea de repartiie a variabilei X .


Funcia f (t ) exprim frecvena relativ a defectrilor sau, altfel spus, viteza de scdere n timp a
fiabilitii. n Fig. 5 sunt prezentate forme posibile pentru f (t ) .

f (t)

(3)
(2)
(1)

Fig. 5 Funcii de frecven.

ntre funcia de frecven i funcia F (t ) sau R(t ) exist relaiile:


t t
F (t ) = f ( ) d , iar R(t ) = 1 f ( ) d = f ( ) d .
0 0 t
Pentru estimarea valorii f (T ) se determin numrul de defectri nT n intervalul [T , T + T ] i
se aplic relaia,
n 1 1
f (T ) = T h .
T N 0

Rata sau intensitatea defectrilor z (t ).


f (t )
z (t ) = .
R (t )
nT 1 N 0 nT 1
z (T ) = = h 1.
T N 0 N T N

Pentru foarte multe situaii ntlnite n practic forma grafic a funciei z(t) arat ca n Fig. 6,
cunoscut sub numele de cad de baie.
n aceast figur, zona I reflect perioada de rodaj, zona II corespunde perioadei de exploatare
normal, iar zona III indic perioada n care se face simit uzura fizic.

7
z(t)

I II III

t
t1 t2

Fig. 6 Forma uzual a graficului funciei z (t ).

Se poate arta c ntre z (t ) i R(t ) exist relaia,


t
z ( ) d
R(t ) = e 0 .

f (t ) R (t )
ntr-adevr, z (t ) = = . Prin integrare rezult,
R(t ) R(t )

t t
R( )
z ( ) d = R( )
d (integrand dupa R)
0 0
R (t )
dR R(t )
= R
= Ln R
R(0)
= Ln R(t )
R ( 0)

t
z ( ) d
R(t ) = e 0
.

n zona a II-a de exploatare a unui sistem, repartiia tipic pentru timpul de bun funcionare este
cea exponenial negativ, pentru care f (t ) = e t i R (t ) = e t . Rezult c z (t ) = (o constant),
n concordan cu forma grafic din Fig. 6.

Timpul mediu de bun funcionare MTBF, sau timpul mediu ntre defectri (engl. Mean Time
Between Failures),

MTBF =
tf (t ) dt = tR (t ) dt = tR(t ) + R(t ) dt .
0

0 0 0
ntruct R(t ) tinde la 0 mai repede dect t tinde la , rezult

MTBF = R(t ) dt.
0

Experimental, timpul mediu de bun funcionare se estimeaz cu relaia


N
1 0
MTBF = t f .
N 0 i =1 i

Precizri:
Dac se cunoate unul din indicatorii R(t ) , F (t ) , f (t ) sau z (t ) ceilali se pot deduce din cel
cunoscut.
n practic indicatorii cei mai utilizai sunt R(t ) , z (t ) i MTBF .

S-ar putea să vă placă și