Sunteți pe pagina 1din 356

1.

INTRODUCERE

Cursul se adresează celor puşi în situaţia de a analiza,


prelucra şi interpreta date obţinute pe cale experimentală.

Datele respective pot să provină


- fie din experienţe dirijate asupra unui anumit subiect / proces
de interes,
Timpi de defectare observaţi (unităţi arbitrare) la 50 piese alese aleatoriu pentru testare
122,11 79,88 70,07 84,39 68,43 25,62 152,01 155,97 75,94 102,34
97,42 58,00 92,29 85,24 40,12 83,02 135,81 93,95 116,86 118,67
116,54 98,19 100,62 154,44 83,99 62,03 125,16 72,30 35,18 107,87
91,12 72,43 108,43 78,24 129,22 96,16 121,80 74,57 73,92 73,88
115,90 107,46 84,54 137,51 150,06 98,86 92,85 104,18 115,69 107,72

- fie din măsurători / înregistrări sistematice, efectuate în


timp, asupra unor mărimi ce caracterizează evoluţia
sistemelor fizice, economice, sociale etc.
Debite afluente in lacul Izvorul Muntelui
Anul 1 2 3 4 5 6 7 8 9 10 11 12 Media
----------------------------------------------------------------------------------
1961 16.13 16.79 29.62 52.20 61.80 50.77 26.17 22.77 15.68 13.91 14.27 13.65 27.81
1962 13.70 12.66 27.22 124.5 100.5 74.74 58.08 37.03 24.05 17.11 20.18 13.32 43.58
1963 14.02 18.87 20.35 89.80 70.07 44.64 29.30 21.16 13.48 12.87 15.13 12.75 30.20
1964 10.91 11.95 27.12 70.20 47.85 26.55 57.66 36.05 29.56 42.80 33.82 34.03 35.71
1965 19.67 21.63 42.77 54.76 106.9 92.85 54.67 28.13 19.13 15.01 17.48 20.22 41.10
1966 17.68 31.33 28.68 87.98 61.29 51.76 44.60 46.87 31.24 22.51 27.09 21.60 39.39
1967 15.90 15.59 36.85 95.15 80.37 59.20 52.31 32.26 31.81 15.66 14.31 15.57 38.75
1968 14.54 20.64 40.35 147.6 79.26 35.80 31.85 65.29 57.18 48.00 29.49 16.18 48.85
1969 15.93 12.43 20.92 71.28 88.69 126.6 106.8 46.74 25.93 17.77 23.48 27.22 48.65
1970 19.91 26.73 55.76 161.5 272.1 128.9 61.01 39.91 32.33 30.71 33.50 23.66 73.83
1971 24.96 19.25 29.62 55.83 85.76 66.53 87.02 35.75 34.89 28.52 28.88 25.26 43.52
1972 14.46 16.14 35.55 63.27 55.50 45.47 66.91 74.59 85.95 99.05 62.09 43.24 55.19
1973 38.03 31.41 38.20 73.46 132.1 148.4 109.5 55.11 30.18 31.44 25.10 20.15 61.10
1974 17.65 19.72 39.82 36.22 81.57 139.6 154.6 64.84 41.08 55.16 49.24 34.64 61.18
1975 28.42 19.93 54.95 117.8 103.6 166.9 86.22 53.07 41.45 38.14 27.89 20.47 63.24
1976 18.26 17.35 23.56 118.6 84.09 59.45 50.46 69.80 44.72 41.17 27.37 22.54 48.11
1977 19.62 50.30 56.38 38.81 101.0 93.33 67.87 44.07 44.75 29.04 30.19 21.57 49.74
1978 11.47 11.51 44.72 72.43 131.1 83.53 105.0 43.87 120.3 42.03 18.96 17.58 58.55
1979 26.72 27.46 59.84 105.5 103.5 69.73 60.36 136.2 38.22 21.53 18.68 17.98 57.14
1980 9.58 10.85 22.87 95.11 124.0 124.0 63.86 53.61 26.13 42.25 50.90 28.96 54.35
1981 16.58 21.57 86.48 93.23 192.1 74.81 143.1 73.19 52.38 41.10 43.89 54.36 74.39
1982 45.53 20.88 35.64 104.5 156.7 55.48 107.3 65.62 27.28 19.43 14.01 16.40 55.76
1983 46.10 35.80 23.06 59.97 48.90 59.84 36.15 82.33 24.34 17.15 12.00 11.40 38.09
1984 11.42 10.88 19.87 95.91 192.7 114.8 59.35 36.44 21.48 22.07 17.84 12.85 51.30
1985 14.19 13.54 38.68 131.1 110.9 98.83 80.98 28.61 18.13 13.18 17.58 16.58 48.52
1986 13.78 11.64 36.53 96.58 37.07 39.51 42.37 34.53 16.70 13.02 11.80 6.86 30.03
1987 8.80 10.05 13.34 57.13 77.01 49.00 22.77 20.43 12.55 12.46 15.86 15.65 26.25
1988 14.41 12.86 32.55 133.9 115.1 97.78 65.83 30.96 36.36 17.34 11.27 12.02 48.37
1989 10.41 15.06 40.87 77.59 61.09 48.77 38.15 47.31 73.91 25.17 16.15 30.21 40.39
1990 12.82 17.67 31.79 37.78 42.87 46.34 37.45 16.47 13.80 15.70 36.61 19.40 27.39
1991 17.34 10.45 22.56 28.98 97.16 104.1 124.9 96.11 43.27 33.56 32.46 20.49 52.61
1992 12.26 12.09 28.41 79.84 55.91 104.2 52.42 27.20 22.26 36.83 50.02 17.16 41.55
1993 13.11 9.72 28.46 100.6 128.6 52.72 38.21 40.62 57.09 23.17 14.43 38.79 45.46

9
1994 27.13 18.68 53.00 84.88 70.33 57.26 32.89 16.92 14.22 17.61 12.06 11.35 34.69
1995 12.22 22.62 45.45 98.51 121.5 75.38 54.54 27.41 46.64 22.50 37.95 56.68 51.78
1996 37.91 16.90 15.43 129.7 146.9 47.20 36.81 61.32 103.6 55.42 33.11 34.09 59.87
1997 19.80 19.10 26.69 60.04 141.5 92.35 43.34 58.43 86.95 56.85 32.32 23.88 55.11
1998 17.98 23.50 21.37 96.55 103.6 110.0 92.19 40.64 38.33 65.84 54.47 18.13 56.89
1999 6.88 14.84 56.42 170.5 99.73 55.60 56.94 47.27 39.31 22.11 17.95 20.65 50.68
2000 13.82 20.31 45.27 145.0 48.81 28.76 41.15 26.36 42.27 24.67 15.60 16.64 39.05
----------------------------------------------------------------------------------
Qmin 6.88 9.72 13.34 28.98 37.07 26.55 22.77 16.47 12.55 12.46 11.27 6.86 26.25
Qmed 18.50 18.77 35.93 90.37 100.5 77.54 64.53 47.13 39.47 30.50 26.64 22.60 47.70
Qmax 46.10 50.30 86.48 170.5 272.1 166.9 154.6 136.2 120.3 99.05 62.09 56.68 74.39
----------------------------------------------------------------------------------

Obiectivele vizate s-au concentrat pe următoarele aspecte:

1. Să se treacă în revistă noţiunile teoretice de bază, specifice


capitolelor principale din teoria probabilităţilor şi statistica
matematică;

2. Să se ilustreze aceste noţiuni prin exemple cu rezolvare


integrală, culese din domenii cât mai diverse – nu numai de natură
tehnică, ci inspirate şi de fapte / situaţii din viaţa cotidiană

3. Să se exemplifice maniera de rezolvare a unor probleme de


statistică prin programe de calcul proprii, construite în acord cu
necesităţile şi opţiunile celui care abordează problema şi alcătuieşte
programul.

Referitor la primul obiectiv - s-a evitat încărcarea cu


demonstraţii matematice, limitând expunerea la strictul necesar pentru
înţelegerea noţiunilor teoretice de bază şi utilizarea lor în practică.

Referitor la al doilea obiectiv- sperăm că diversitate de exemple


propuse va face prezentarea mai atractivă, mai apropiată de
preocupările voastre şcolare şi extraşcolare şi va fi un stimulent
pentru a face mai uşor analogii între probleme din domenii diferite.

Al treilea obiectiv - încercarea de a vă încuraja să nu fiţi


neapărat interesaţi de utilizarea unor soft-uri de statistică accesibile
din diverse surse, ci să doriţi să faceţi singuri programe de calcul.

Un obiectiv care nu s-a urmărit a fost aprofundarea sau


canalizarea formulărilor teoretice şi a aplicaţiilor practice către
analiza statistică dedicată unei anumite discipline tehnice.

10
Din cauza multitudinii de aspecte specifice fiecărei discipline –
în contextul abordării statistice – au apărut numeroase lucrări orientate
pe tratarea datelor şi, mai ales, pe valorificarea ulterioară a rezultatelor
modelelor probabiliste dintr-o disciplină sau alta.
Evident, noţiunile şi metodele statistice din proiectarea şi
analiza de fiabilitate şi siguranţă în funcţionare a sistemelor din
ingineria mecanică, diferă destul de mult de cele din ingineria
electronică.
Chiar şi natura problemelor analizate diferă în
- domeniul medical,
- faţă de cele din domeniul ingineresc,
- de cele din domeniul hidrologiei,
- climatologiei,
- ştiinţelor de mediu,
- managementului etc.
Din motivele enumerate, nu voi insista la curs pe
detalierea abordărilor dintr-un anumit domeniu, dar la
aplicaţii veţi primi teme cu un conţinut apropiat specializării
fiecăruia
Atât statistica descriptivă, cât şi statistica deductivă (sau
de inferenţă / raţionament) sunt definite ca un ansamblu de
metode de calcul.
Multe dintre acestea sunt comune celor două categorii. De
exemplu, o metodă poate fi reprezentată de formula de calcul a
unei medii şi
– dacă se foloseşte media unui set de valori pentru a caracteriza
setul respectiv, această operaţie aparţine statisticii descriptive, iar
– dacă aceeaşi medie este utilizată pentru a face supoziţii privind
media unui set mai mare de valori, operaţia aparţine statisticii
deductive.

În termeni statistici observaţie = orice înregistrare a unei


informaţii de natură numerică sau categorială.

11
Setul tuturor observaţiilor posibile asupra informaţiei
considerate, formează o populaţie.

De regulă nu se dispune de întreaga populaţie despre informaţia


monitorizată, ci doar de un subset al ei, numit eşantion.

Când elaborăm predicţii asupra unei populaţii doar cu date


numerice obţinute pe baza unui eşantion, se speră că eşantionul
disponibil este reprezentativ pentru acea populaţie.
Pentru a asigura reprezentativitatea, se apelează la aleatorism
(întâmplare) în selecţia datelor din eşantion.
Caracterul aleatoriu poate fi imprimat
- fie de metoda de selecţie (parametrul observat este o
dimensiune geometrică, măsurată la mii de piese de acelaşi tip
realizate pe o maşină unealtă şi se pune problema alcătuirii unui
eşantion mai redus),
- fie de natura probabilistă a parametrului observat însuşi
(debitul maxim anual înregistrat pe un anumit râu, într-o secţiune de
măsură dată).

Prin urmare, un eşantion aleator / probabilist este alcătuit din


observaţii care, fiecare, are aceeaşi şansă (în cadrul populaţiei) de a
fi selectată sau de a apare în eşantionul respectiv,

iar statistica deductivă include acele metode care, prin


analiza unui eşantion aleator, conduce la predicţii / inferenţe
asupra întregii populaţii.

În Capitolul 2 voi introduce unele noţiuni şi metode


generale de analiză şi descriere statistică a seturilor
(eşantioanelor) de date experimentale. Ele aparţin statisticii
descriptive , dar sunt esenţiale şi pentru dezvoltarea metodelor de
predicţie.

12
Se descriu operaţiunile preliminare de ordonare, clasare şi
reprezentare grafică a datelor, acestea facilitând analiza lor şi
formarea unei viziuni sintetice de natură statistică.
Apoi se vor defini principalele caracteristici descriptive (sau
măsuri statistice) de poziţie, de dispersie şi de formă – care se
pot calcula pe baza setului de date analizat şi se comentează legătura
dintre valorile lor şi alura reprezentărilor grafice.

Capitolul 3 va prezenta noţiuni specifice teoriei


probabilităţilor importante în raţionamentele statistice. Se vor defini
conceptele de
- variabilă aleatoare,
- experiment aleator,
- spaţiu de selecţie,
- eveniment,
- probabilitate,
- probabilitate condiţionată ş.a.
Se enunţă axiomele fundamentale şi se detaliază noţiunile de
- distribuţie de probabilitate,
- funcţie de densitate şi
- funcţie de repartiţie.
În final se descriu principalele caracteristici
- medie,
- varianţă,
- momente,
- coeficienţi adimensionali
deduse pe baza legilor de probabilitate a variabilelor aleatoare şi se
fac unele generalizări la cazul variabilelor aleatoare multiple.

În Capitolul 4 vor fi trecute în revistă legile de probabilitate


cel mai frecvent folosite,
- atât pentru cazul variabilelor aleatoare discrete (binomială,
multinomială, hipergeometrică, binomială negativă,
geometrică, Poisson),
- cât şi pentru cazul variabilelor continue (normală,

13
normală standard, log-normală, hi-pătrat, Student-t,
Fisher-Snedecor, exponenţială, Weibull, gamma, beta, legi
ale valorilor extreme)
majoritatea fiind ilustrate prin diverse aplicaţii.

Capitolul 5 va prezenta elemente de teoria eşantionării, cu


exemple de distribuţii de eşantionare pentru statisticile importante
- medie,
- varianţă,
- momente,
- diferenţă a două medii de eşantion,
în funcţie de
- tipul populaţiei originare şi de
- talia eşantioanelor.

Capitolul 6 va dezvolta primele noţiuni concrete despre


statistica deductivă prezentând unele elemente de teoria
estimaţiei.
Se introduc conceptele de
- estimator şi estimaţie,
- interval de încredere,
- nivel de încredere şi
- prag de semnificaţie.
Se specifică intervalele de încredere pentru
- medie,
- diferenţa mediilor,
- proporţia de succes a distribuţiei binomiale,
- varianţă,
- raportul varianţelor etc.
în diferite ipoteze privind dimensiunea eşantioanelor folosite şi
informaţiile cunoscute despre populaţiile originare.
Capitolul se va încheia cu metodele de estimare utilizate
pentru calculul parametrilor legilor teoretice de probabilitate,
pornind de la datele de eşantion
- verosimilitate maximă,
- momente,
- cele mai mici pătrate etc..

14
Capitolul 7 aprofundează aspecte de statistică deductivă prin
prezentarea elementelor generale privind testarea ipotezelor
statistice - în legătură cu populaţii de variabile aleatoare.
Se defineşte ipoteza statistică şi se clasifică tipurile de teste.
Se vor descrie aspectele de bază ale unui test parametric
incluzând:
- ipoteza nulă şi cea alternativă,
- nivelul de semnificaţie,
- regiunea critică,
- estimatorul de test şi
- calculul valorii lui,
- probabilitatea critică etc.
În continuare se prezintă
- teste de conformitate şi respectiv de omogenitate pentru
- variabile aleatoare continue (medie, varianţă, diferenţa
mediilor) şi pentru
- variabile discrete.
Capitolul se încheie cu unele exemple de teste neparametrice.

În Capitolul 8 vor fi tratate separat principalele teste de


concordanţă (ajustare), având în vedere importanţa lor practică în
inferenţa statistică.
Se dau detalii suficiente şi exemple de utilizare pentru testele
- hi-pătrat şi respectiv
- Kolmogorov-Smirnov,
dar mai sunt prezentate şi alte teste din această categorie (Cramer-von
Mises, Anderson-Darling, Watson, Kuipert).

Capitolul 9 este dedicat analizei variaţiilor (dispersională).


Metodele ANOVA sunt procedee statistice speciale, de tipul
testelor de omogenitate, dar care se aplică în cazul a mai mult decât
două populaţii de variabile aleatoare.
Pentru testarea mediilor se prezintă modul de analiză a
situaţiilor
- cu un factor de influenţă, precum şi a celor

15
- cu doi factori de influenţă, fără sau cu interacţiune între
aceştia.
Pentru testarea varianţelor se descriu şi se ilustrează unele teste
specifice (Hartley, Bartlett, Levene).

Capitolul 10 abordează problema regresiilor şi corelaţiilor.


Sunt prezentate aspectele de calcul implicate de regresia lineară
simplă,
dar şi aspectele de statistică ale analizei de regresie lineară
(cu intervalele de încredere pentru coeficienţii ecuaţiei de regresie şi
pentru valorile variabilei explicate).
În continuare se dau detalii despre
- cazul regresiei lineare multiple, precum şi despre
- regresiile nelineare folosite frecvent în aplicaţii (polinomială,
geometrică, exponeţiale ş.a.)

Un capitol special ar putea fi analiza şi modelarea seriilor


temporale, cu importanţă în
- condensarea datelor experimentale şi
- elaborarea prognozelor pe termen scurt şi mediu

Pentru Aplicaţii veţi putea primi o serie de programe de calcul


(scrise în Turbo Pascal ca fişier sursă).

Ele pot fi folosite în soluţionarea problemelor primite ca teme la


diverse capitole şi ca sursă de inspiraţie pentru a vă elabora propriile
instrumente soft.

Unele servesc la calculul cuantilelor distribuţiilor hi-


pătrat, Student-t şi respectiv Fisher-Snedecor.
Pentru fiecare distribuţie s-au considerat niveluri de semnificaţie
frecvent folosite la calculul intervalelor de încredere sau verificarea
ipotezelor statistice, precum şi numere de grade de libertate din
domeniul de interes, iar programele generează tabele cu valorile
cuantilelor corespunzătoare.

16
Alte exemple:

- Setdate – analizează un set de date experimentale pe care le


ordonează şi clasează după opţiunea utilizatorului şi apoi
calculează caracteristicile descriptive ale setului respectiv;

- Gauss – efectuează calcule de probabilitate pentru


distribuţiile normală şi normală standard;

- Regresie – face analiza de regresie lineară simplă,


determinând coeficienţii ecuaţiei de regresie, intervalele lor
de încredere şi banda de încredere pentru media condiţionată

- Test_Hi2 – efectuează testul hi-pătrat pentru legi teoretice


de tip: normal, log-normal, gamma cu doi parametri sau
Weibull;

- Test_K_S1 – execută testul Kolmogorov-Smirnov, bilateral


sau unilateral, pentru distribuţii: gamma, normală, log-
normală, Weibull sau exponenţială, prelucrând şiruri de date
neclasate;

- Test S_F_H – evaluează cuantilele distribuţiilor hi-pătrat,


Student-t sau Fisher-Snedecor, la nivel de semnificaţie dorit;

- GenerVA - generează numere aleatoare cu diverse legi de


repartiţie, în ideea de a oferi utilizatorului posibilitatea să-şi
construiască eşantioane de date pentru exerciţii proprii.

17
2. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ
Admitem că discuţia se referă la o colecţie de date brute,
(înregistrate asupra parametrului de interes a unui proces oarecare)
formând un eşantion din populaţia tuturor observaţiilor posibile.

Prin simpla inspecţie a lor este imposibil să se detecteze


caracteristici importante şi / sau tendinţe pe care le implică datele
respective.

De aceea este indicat ca setul de date să fie supus unor


operaţiuni preliminare care să uşureze analiza lor şi formarea
unei viziuni sintetice de natură statistică.

Operaţiunile menţionate sunt:


ordonarea,
clasarea şi
reprezentarea grafică a rezultatelor.

Reprezentările grafice ajută să se înţeleagă mai uşor semnificaţia


caracteristicilor descriptive (de poziţie, de dispersie şi de formă) ale
seriei de date şi permit diverse estimări ulterioare.

2.1. Ordonarea datelor de eşantion

Operaţiunea de ordonare a datelor de eşantion se poate face


- în ordinea crescătoare sau
- descrescătoare
a valorilor lor numerice, funcţie de scopul urmărit în analiză.

Dacă se doreşte obţinerea unei distribuţii de frecvenţă, este


avantajoasă ordonarea crescătoare a datelor,
Pentru calculul asigurării empirice este necesară ordonarea lor
descrescătoare.

9
Se numeşte rang - numărul de ordine al unei date
oarecare din şirul ordonat.

Fie talia eşantionului N şi x1 , x 2 ........x N setul iniţial de date din


şir. Valoarea de rang r din şirul ordonat se va nota x[r ] .

Pentru un şir ordonat crescător


x[1] = min (xi ) şi x[N ] = max(xi ) (2.1)
i i
iar dacă ordonarea se face descrescător, atunci
x[1] = max(xi ) şi x[N ] = min(xi ) (2.2)
i i

Cînd două observaţii au valori identice, rangurile lor se


precizează arbitrar fie la rangul mediu (identic pentru ambele), fie la
rangul corespunzător ordinii iniţiale din seria originală.

Prin ordonare apare una dintre caracteristicile descriptive ale


seriei de date şi anume plaja (sau domeniul) în care se plasează
valorile ei.
La ordonare crescătoare, aceasta rezultă cu x[N ] − x[1] , iar pentru
cazul invers cu x[1] − x[N ] .

Există diverşi algoritmi de ordonare (sau sortare) având calităţi


distincte.
Unii se remarcă prin simplitatea de programare, dar implică
multe operaţii dacă N este mare (mai mare decât 200, de exemplu), în
timp ce alţii presupun instrucţiuni mai complexe, dar reduc simţitor
numărul de operaţii (a se vedea Quicksort, Heapsort ş a)

În continuare se indică o procedură Pascal pentru un algoritm de


ordonare simplu şi eficient (dacă talia şirului este de ordinul a N =
200 date) numit algoritm de sortare prin inserţie.

10
Procedure Sortare(n:integer; var x:vect);
{ Procedura de ordonare crecatoare/descrescatoare a datelor}
label 1,2,3,4;
var i,j:integer; xx:real; opt:char;
begin
kaz:=0; {implicit: ordonare crescatoare}
writeln('Implicit - ordoneaza crescator setul de date !');
write('Doresti ordonare descrescatoare (Y/N) ? '); readln(opt);
opt:=Upcase(opt); if opt='Y' then kaz:=1;
i:=2;
1: if i > n then goto 4
else
begin
xx:=x[i]; j:=i-1;
2: if j <= 0 then goto 3;
if kaz = 0 then
begin { ordonare crescatoare }
if x[j] <= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
if kaz = 1 then
begin { ordonare descrescatoare }
if x[j] >= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
3: x[j+1]:=xx; i:=i+1; goto 1;
end;
4: end;

Parametrii de intrare în procedură sunt n = numărul de date în


şir şi respectiv x = vectorul conţinând datele din şirul originar.
La ieşirea din procedură, vectorul x va conţine şirul ordonat
crescător (varianta implicită) sau descrescător (dacă la rulare se
specifică această opţiune).

11
Exemplul 2.1.1
Ştiind că debitele maxime anuale înregistrate pe
Dunăre la postul hidrometric Olteniţa în perioada 1921 – 1962 au avut
valorile din tabelul 2.1.1.a, să se ordoneze crescător şirul de date,
folosind un program de calcul care include o procedură de sortare.
Tabel 2.1.1.a
Debite maxime anuale (mc/s) la Oltenita,pe Dunare,intre 1921 si 1962
7750 11500 11900 13800 8480 13700 8780 9380 9680 8140
10700 14400 9870 8090 10100 9100 14000 9620 9560 15600
14300 15900 7610 14200 11100 7990 11900 10100 7050 8510
10200 10000 12200 10800 13300 13000 10100 12200 8230 9370
9720 13800

Soluţie
S-a utilizat programul Setdate care a generat fişierul de rezultate
având conţinutul din tabelul 2.1.1.b.
Tabel 2.1.1.b
Debite maxime anuale la Oltenita, pe Dunare, intre 1921 si 1962
Datele ordonate crescator:
7050.00 7610.00 7750.00 7990.00 8090.00
8140.00 8230.00 8480.00 8510.00 8780.00
9100.00 9370.00 9380.00 9560.00 9620.00
9680.00 9720.00 9870.00 10000.00 10100.00
10100.00 10100.00 10200.00 10700.00 10800.00
11100.00 11500.00 11900.00 11900.00 12200.00
12200.00 13000.00 13300.00 13700.00 13800.00
13800.00 14000.00 14200.00 14300.00 14400.00
15600.00 15900.00

Exemplul 2.1.2
Să se ordoneze descrescător şirul de debite medii
anuale din tabelul 2.1.2.a, înregistrate la Olteniţa în intervalul 1921-
1962
Tabel 2.1.2.a
Debite medii anuale (mc/s) la Oltenita,pe Dunare, intre 1921 si 1962
4090 6650 6300 6950 5350 7960 5990 5220 5240 5400
6570 5900 5700 5100 5190 6150 8040 6100 5980 8600
8850 7000 4160 7280 5570 4460 4400 6120 4200 4300
5950 5550 5640 5520 7860 6730 5650 6080 5460 6480
5010 6280

12
Soluţie
Se utilizează acelaşi program, dar specificând opţiunea pentru
ordonare descrescătoare şi se obţin rezultatele din tabelul 2.1.2.b
Tabel 2.1.2.b
Debite medii anuale la Oltenita pe Dunare intre 1921 si 1962
Datele ordonate descrescator:
8850.00 8600.00 8040.00 7960.00 7860.00
7280.00 7000.00 6950.00 6730.00 6650.00
6570.00 6480.00 6300.00 6280.00 6150.00
6120.00 6100.00 6080.00 5990.00 5980.00
5950.00 5900.00 5700.00 5650.00 5640.00
5570.00 5550.00 5520.00 5460.00 5400.00
5350.00 5240.00 5220.00 5190.00 5100.00
5010.00 4460.00 4400.00 4300.00 4200.00
4160.00 4090.00

? Problema 2 1 1
Un eşantion stocastic de 50 de clienţi admis reprezentativ pentru
o anumită bancă, a obţinut dobânzile anuale la conturile lor curente în
valută (USD) ca în tabelul 2 1 3. Să se ordoneze crescător şirul de
valori din acest tabel.
Tabel 2.1.3
Dobanzi anuale la conturi curente (in $),
pentru un esantion de 50 clienti
28.43 35.22 36.92 96.44 65.99 55.87 52.77 42.87 39.44 80.01
87.63 21.32 24.92 57.91 61.25 27.83 32.93 64.88 40.96 50.01
38.55 69.47 31.62 59.91 25.14 36.10 63.54 27.92 28.21 45.66
49.23 43.16 87.98 73.97 29.03 38.31 51.17 68.23 52.92 70.18
72.05 58.22 44.15 47.85 33.64 32.95 26.29 30.14 22.81 23.64

13
2.2. Gruparea datelor de eşantion

Operaţiunea vizează gruparea datelor într-un număr de clase


(intervale) distincte, pentru a concentra informaţia brută pe care o
oferă şirul original.
Tabloul conţinând numărul de apariţii a datelor din fiecare clasă
se numeşte distribuţie de frecvenţă,
iar reprezentarea acesteia sub formă grafică se numeşte
histogramă.
2.2.1. Clasarea datelor

La alegerea numărului de clase, K, trebuie ca


- acesta să nu fie prea mic (pierzând astfel multe informaţii
asupra formei distribuţiei),
- dar totuşi suficient de mic pentru a permite o viziune sintetică
asupra datelor analizate.

În funcţie de talia eşantionului, se aleg între 5 şi 15 clase, după


una din relaţiile:
K > 1 + 3,33.log N (2.3)
sau K = int(1,443.ln N ) (2.4)

Notând prin k indicele de clasă (k = l, 2,...,K), apar următoarele


definiţii şi relaţii:

– ecartul (sau amplitudinea) clasei hk ;


– limita inferioară ak ;
– limita superioară bk şi hk = bk − a k ; (2.5)
1
– valoarea centrală ck şi c k = (a k + bk ) (2.6)
2
– frecvenţa absolută (numărul de apariţii) a clasei nk şi evident

14
K
N = ∑ nk (2.7)
k =1
nk
– frecvenţa relativă a clasei f k şi fk = (2.8)
N
– frecvenţa cumulată până la clasa k inclusiv Fk şi
k
Fk = ∑ fj (2.9)
j =1
K
iar FK = ∑ fk =1 (2.10)
k =1

Frecvenţele se exprimă uneori în procente

De regulă se preferă
- gruparea în clase de ecart hk constant şi
- având limitele de clasă alese cu valori convenabile (multiplii
de 2, 5, 10, 100 etc.).

Limita inferioară a1 şi respectiv superioară bK (pentru clasele


extreme) se fixează ţinând seama
- de valorile extreme din şirul ordonat crescător,
- de numărul de clase K şi
- de ecartul hk rezultat.

15
Exemplul 2.2.1
Pentru datele problemei din Exemplul 2.1.2 (şirul de
debite medii anuale înregistrate la postul hidrometric Olteniţa între
1921-1962 ) să se întocmească tabloul distribuţiei de frecvenţă.

Soluţie
Având în vedere (2.3) şi (2.4), deoarece talia acestui şir este N =
42, rezultă numărul recomandat de clase
K > 1 + 3,33 log 42 = 6,405
sau K = int ( 1,443 ln 42 ) = int ( 5,393 ) = 5

Din datele ordonate în tabelul 2.1.2.b se constată plaja pe care se


plasează datele (între 4090 şi 8850 m3 s-1), adică pe o diferenţă de
4760 m3 s-1.
Rotunjind această diferenţă la 4800 m3 s-1, se obţine o valoare
care
- pentru K = 8 (prima recomandare K > 6,405) dă un ecart de
clasare hk =4800/8 = 600 m3 s-1,
- iar pentru K = 6 (între cele două recomandări de mai sus) dă
un ecart hk =4800/6 = 800 m3 s-1

Se alege ca limită inferioară a primei clase a1 = 4050 m3 s-1, şi


astfel rezultă bK = 8850 m3 s-1 (valoarea cea mai mare din şir),
indiferent dacă se ia K = 6 sau K = 8.

Tabelul 2.2.1.a conţine tabloul distribuţiei de frecvenţă efectuat


cu K = 8 clase pe domeniu ,
iar tabelul 2.2.1.b tabloul distribuţiei de frecvenţă pentru K = 6.

16
Tabel 2.2.1.a
3 -1
Clasare în K = 8 clase de ecart h = 600 m s
k ak bk ck nk fk Fk
1 4050 4650 4350 6 0,143 0,143
2 4650 5250 4950 5 0,119 0,262
3 5250 5850 5550 9 0,214 0,476
4 5850 6450 6150 10 0,238 0,714
5 6450 7050 6750 6 0,143 0,857
6 7050 7650 7350 1 0,024 0,881
7 7650 8250 7950 3 0,071 0,952
8 8250 8850 8550 2 0,048 1,000

Tabel 2.2.1.b
3 -1
Clasare în K = 6 clase de ecart h = 800 m s
k ak bk ck nk fk Fk
1 4050 4850 4450 6 0,143 0,143
2 4850 5650 5250 13 0,309 0,452
3 5650 6450 6050 11 0,262 0,714
4 6450 7250 6850 6 0,143 0,857
5 7250 8050 7650 4 0,095 0,952
6 8050 8850 8450 2 0,048 1,000

Ultimele trei coloane din aceste tabele conţin frecvenţele absolute


(numărul de apariţii), frecvenţele relative f k şi respectiv frecvenţele
cumulate Fk , pentru fiecare clasă.

În primul tabel se constată că dacă ecartul de clasare este mai


redus (K mai mare ), pot să apară clase cu număr mic de date în
zona mijlocie a plajei de valori (aici n6 = 1 !).
Din acest punct de vedere, distribuţia de frecvenţă obţinută cu
doar K = 6 clase oferă o viziune mai concludentă asupra datelor.

Totuşi, există situaţii în care se doreşte ( sau este necesară) o


analiză de frecvenţă mai rafinată, cu elementele stabilite mult mai
riguros.
În Exemplul 2.2.2 se descriu paşii unei astfel de proceduri.

17
Exemplul 2.2.2
Să se claseze în 10 clase de ecart egal, cele 50 de
valori ale dobânzilor anuale din tabelul 2.1.3 , problema 2.1.1.

Soluţie
Valorile extreme din şirul de date sunt 96,44 şi respectiv 21,32,
adică o plajă de 75,12 $.
Pentru clasarea în 10 clase, rezultă un ecart pe clasă de
75,12 / 10 = 7,512.
Ecartul folosit nu poate fi mai mic decât această valoare şi
trebuie să aibă acelaşi număr de cifre zecimale ca datele din şir.
Rezultă că ecartul h = 7,52 $ îndeplineşte condiţiile respective.
Limita inferioară a primei clase va fi admisă mai mică decât
valoarea minimă din şir şi având o cifră zecimală semnificativă în
plus faţă de aceasta. În consecinţă a1 = 21,315 $.
Limitele intervalelor de clasare se determină apoi adăugând
ecartul h la a1 pentru a obţine succesiv
b1 = a 2 = a1 + h ; b2 = a 3 = a 2 + h ;............. bk = a k + h
Valorile centrale c k se calculează cu relaţia (2.6).

Prin această schemă de clasare se evită situaţia ca vreo dată


oarecare din şir să aibă valoarea egală cu limita dintre două clase şi
să fie necesară o decizie arbitrară pentru alocarea ei la una dintre
clasele respective.
Cu procedeul de mai sus se obţine tabloul distribuţiei de
frecvenţă din tabelul 2.2.2.
Tabel 2.2.2
Analiza de frecvenţă pentru Problema 2.1.1
k ak bk ck nk fk Fk
1 21,315 28,835 25,08 10 0,200 0,200
2 28,835 36,355 32,60 8 0,160 0,360
3 36,355 43,875 40,12 7 0,140 0,500
4 43,875 51,395 47,64 6 0,120 0,620
5 51,395 58,915 55,16 5 0,100 0,720
6 58,915 66,435 62,68 5 0,100 0,820
7 66,435 73,955 70,20 4 0,080 0,900
8 73,955 81,475 77,72 2 0,040 0,940
9 81,475 88,995 85,24 2 0,040 0,980
10 88,995 96,515 92,76 1 0,020 1,000

18
Desigur că este posibil ca operaţiunea de clasare să se realizeze
şi folosind clase de ecart h variabil.
Spre această opţiune poate conduce reprezentarea grafică
(histograma) a distribuţiei de frecvenţă, dacă alura ei pare neregulată,
cu oscilaţii ale frecvenţelor între clase succesive.
Ilustrarea modului de abordare în acest caz apare în Exemplul
2.2.3.

Procedura Pascal următoare realizează clasarea a n date din


setul de valori incluse în vectorul x (care poate fi şirul iniţial sau şirul
ordonat).
Alţi parametri de intrare în procedură sunt:
- numărul de clase k, de ecart egal h şi respectiv
- limita inferioară a primei clase x min .
Alegerea valorilor lor se face în programul Setdate, pe parcursul
rulării şi înainte de apelarea procedurii de clasare.
Procedure Clasare(n,k:integer; xmn,h:real; x:v1);
{ Procedura de clasare a N date din vectorul X in K clase,
incepand de la Xmn, cu pasul H
Cazul general, cu datele din X in ordinea initiala }
var j,i:integer;
begin
{ Limitele de clase si initializare numar aparitii: }
for j:=1 to k do
begin
a[j]:=xmn+(j-1)*h; b[j]:=a[j]+h; nj[j]:=0;
end;
{ Determina numarul de aparitii pe clase: }
for j:=1 to k do
for i:=1 to n do
if (x[i] > a[j]) and (x[i] <= b[j]) then nj[j]:=nj[j]+1;
{ Calculeaza frecventele relative si frecventele cumulate pe clase: }
for j:=1 to k do
begin
fr[j]:=nj[j]/n;
if j=1 then fc[j]:=fr[j]
else fc[j]:=fc[j-1]+fr[j];
end;
end;

În interiorul procedurii sunt calculate şi transmise programului


principal (ca variabile globale): limitele inferioară şi superioară pe
clase, numărul de apariţii (sau frecvenţa absolută) şi frecvenţa
relativă pe clase, precum şi frecvenţa cumulată până la clasa
curentă inclusiv.

19
2.2.2. Reprezentări grafice

Reprezentarea tabelară a distribuţiei de frecvenţă este utilă


pentru identificarea caracteristicilor unei colecţii mari de date dar,
adesea se preferă evidenţierea acestor caracteristici prin
reprezentări grafice.

Există două categorii importante de grafice şi anume:


- histogramele – realizate prin construirea unor dreptunghiuri
succesive şi
- poligoanele – care se obţin unind puncte succesive prin
segmente de linii drepte.

În cazul histogramelor, pe abcisă se reprezintă plaja de valori


în care se încadrează datele din şir, iar pe ordonată apare fie
frecvenţa absolută (numărul de apariţii) din fiecare clasă, fie
frecvenţa relativă (normalizată sau exprimată în procente).
Ca regulă, suprafaţa dreptunghiului corespunzător fiecărei
clase trebuie să fie proporţională cu efectivul (sau frecvenţa) ei şi
atunci
la clasarea cu h constant, înălţimile dreptunghiurilor din
histogramă vor fi proporţionale cu frecvenţele claselor.

În Fig.2.1 sunt histogramele corespunzătoare datelor din tabelele


2.2.1.a şi 2.2.1.b. Acestea grupează în 8 şi respectiv 6 clase de ecart
constant, valorile debitelor medii anuale înregistrate pe Dunăre, la
Olteniţa între 1921 - 1962.
Fig.2.2 redă histograma datelor din tabelul 2.2.2 privind
distribuţia de frecvenţă a dobânzilor anuale la conturile în USD ,
pentru eşantionul de 50 clienţi ai unei bănci. Frecvenţa relativă s-a
exprimat în %.
Comparând histogramele din Fig. 2.1 şi respectiv 2.2, este
evident că cele două seturi de date au caracteristici diferite. La primul
set apar mai frecvent valori din zona mediană a domeniului, în timp ce
la al doilea set predomină valorile din zona inferioară a plajei de date.

20
12 Număr apariţii Frecvenţă relativă
nk f (% )
k
10 0,25

6
0,125

0
4050 4650 5250 5850 6450 7050 7650 8250 8850

14 Număr apariţii Frecvenţă


Debit mediu anual (
m s relativă
3 -1
)
nk f (% )
k
12

10 0,25

6
0,125

0
4050 4850 5650 6450 7250 8050 8850

Debit mediu anual m s( 3 -1


)
Fig.2.1. Histograma debitelor medii anuale pe Dunăre la Olteniţa (1921 – 1962),
cu 8 şi respective 6 clase pe domeniu

21
Fig. 2.2 – Histograma datelor din tabelul 2.2.2
Număr apariţii Frecvenţă relativă
12
nk f (% )
k
10 20

6
10
4

0
21,315 96,515
Dobândă anuală (USD)

În exemplul următor se ilustrează o manieră de construire a


histogramei cu intervale de ecart variabil.

Exemplul 2.2.3
La postul de urmărire a calităţii apelor evacuate în
emisar de o staţie de tratare s-au prelevat zilnic probe pe parcursul
unei luni şi s-au găsit încărcările de CBO 5 ( în mg l-1) ca în tabelul
2.2.3.a. Să se analizeze distribuţia de frecvenţă şi să se traseze
histograma datelor măsurate.
Tabel 2.2.3.a
Încărcare CBO 5 (mg.l-1) la 30 probe zilnice
Proba nr. CBO 5 Proba nr. CBO 5 Proba nr. CBO 5
1 27,24 11 17,91 21 53,06
2 58,20 12 38,53 22 19,48
3 35,38 13 27,31 23 17,86
4 21,08 14 17,14 24 41,34
5 24,17 15 20,69 25 37,54
6 13,33 16 28,41 26 26,20
7 20,68 17 16,76 27 14,42
8 21,23 18 98,93 28 21,39
9 30,76 19 77,34 29 34,19
10 22,71 20 30,94 30 55,09

22
Soluţie
Din inspecţia datelor se constată că iau valori pe domeniul 13,33
– 98,93 mg l-1.
Alegând, de exemplu, k = 7 clase de ecart egal şi extinzând
plaja între 10 şi 101 mg l-1, ar rezulta
- ecarturi egale de câte 13 mg l-1,
- cu efectivele de 13, 9, 3, 3, 0, 1 şi respectiv 1 apariţii,
deci cu majoritatea datelor plasate între 10 şi 36 mg l-1.

O descriere statistică mai sugestivă rezultă folosind clase de


ecart hk variabil, redus în zona valorilor mici şi mai extins în zona
valorilor mari.

La construirea histogramei, pentru a realiza proporţionalitatea


suprafeţei dreptunghiului cu frecvenţa clasei, pe ordonată se va
reprezenta densitatea de frecvenţă f ' k (sau densitatea de efectiv
n' k ) calculată cu relaţia:
f nk
fk '= k (sau nk ' = ) (2.11)
hk hk

În tabelul 2.2.3.b s-a inclus distribuţia de frecvenţă realizată cu


7 clase de ecart variabil, iar în figura 2.3 s-a reprezentat histograma
corespunzătoare, cu densitatea de efectiv (apariţii) pe ordonată.

Tabel 2.2.3.b
Analiza de frecvenţă cu clase de ecart inegal
k ak bk hk nk n’ k fk f’ k
1 10 15 5 2 0,40 0,067 0,0134
2 15 20 5 5 1,00 0,167 0,0334
3 20 25 5 7 1,40 0,233 0,0466
4 25 30 5 4 0,80 0,133 0,0266
5 30 40 10 6 0,60 0,200 0,0200
6 40 60 20 4 0,20 0,133 0,0067
7 60 100 40 2 0,05 0,067 0,0017

23
Densitate de
1,5 '
apariţie n k

0,5

0
10 20 30 40 50 60 70 80 90 100
Concentraţie CBO5 (mg l )
. -1

Fig.2.3. Histograma cu clase de ecart inegal pentru concentraţia CBO 5 din probe

Alura histogramei reflectă unele caracteristici ale


distribuţiei de frecvenţă.

Se spune că distribuţia este simetrică dacă cele două jumătăţi


ale ei se suprapun la împăturirea în jurul unei axe verticale care
trece prin mijlocul plajei (domeniului) de valori utilizat la clasare.

În caz contrar, distribuţia va fi asimetrică şi anume:


- cu asimetrie pozitivă dacă porţiunea plasată la dreapta clasei
de frecvenţă maximă este substanţial mai extinsă decât cea din
zona valorilor mici şi respectiv
- cu asimetrie negativă dacă histograma are un aspect invers.

Distribuţiile de frecvenţă din Fig.2.2 şi 2.3 par să fie distribuţii


cu asimetrie pozitivă.

Măsuri (parametrii) ale acestei caracteristici de (a)simetrie vor


fi precizate ulterior.

24
Adesea, în practică se constată un tip special de distribuţii
simetrice, numite în formă de clopot.
Când se clasează cu ecart constant, la acest tip se observă că
- înălţimile dreptunghiurilor histogramei se reduc aproximativ
în acelaşi raport, începând de la clasa de frecvenţă maximă,
spre cele două extremităţi ale axei absciselor iar
- variabilitatea datelor este bine reflectată de o regulă empirică,
după care
- circa 68% dintre datele şirului se plasează într-un interval
având lăţimea egală cu dublul abaterii standard în jurul mediei;
- circa 95% din observaţii – într-un interval cu lăţimea de
patru ori abaterea standard şi respectiv
- circa 99,7% din observaţii - într-un interval cu lăţimea de
şase ori abaterea standard în jurul mediei.
Semnificaţia parametrilor menţionaţi (medie, abatere standard)
va fi precizată ulterior.

Cu datele tabelate la analiza de frecvenţă se poate construi şi un


grafic numit poligonul frecvenţelor.

La acesta, pe abscisă se figurează valorile centrale pe clase şi


lor li se asociază frecvenţa absolută (numărul de apariţii) sau
frecvenţa relativă (eventual în %) a claselor respective.

Pentru a obţine un contur închis, la cele două extremităţi ale


abscisei se mai admite câte un punct (plasate la c1 − h şi respectiv
c K + h ), cărora li se asociază frecvenţe nule.

25
40 Frecvenţă
relativă (%)
35

30

25

20

15

10

0
2850 3650 4450 5250 6050 6850 7650 8450 9250 10050

( 3 -1
Debit mediu anual m s )
Fig.2.4. Poligonul frecvenţei procentuale pentru datele de debite medii anuale
din tabelul 2.2.1.b

În Fig.2.4 s-a reprezentat poligonul frecvenţelor procentuale


pentru datele de debite medii anuale pe Dunăre, la Olteniţa, între anii
1921-1962, clasate - conform tabelului 2.2.1.b – în 6 clase de ecart h =
800 m3 s-1.
Pe axa orizontală mai apar punctele c1 − h = 4450–800 = 3650
m3 s-1 şi respectiv c6 + h = 8450 +800 =9250 m3 s-1, ambele având
frecvenţa asociată zero.

26
Fig.2.5. Poligonul frecvenţei procentuale pentru datele de dobânzi anuale
din tabelul 2.2.2
25 Frecvenţă
relativă (%)

20

15

10

0
0 20 40 60 80 100 120
Dobânda anuală (USD)

Fig.2.5 conţine poligonul frecvenţelor pentru datele din tabelul


2.2.2 referitoare la dobânzile anuale încasate de eşantionul de clienţi
pentru conturile curente în valută.
Este uşor de constatat că aici pasul de clasare este h = 7,52 $,
astfel încât punctele extreme pe axa absciselor rezultă la 17,56 şi
respectiv 100,28 $.

O altă reprezentare de tip poligonal este poligonul (sau


ogiva) frecvenţelor cumulate, numit uneori şi grafic de
repartiţie.

Se construieşte figurând punctele de coordonate (bk , Fk ) ,


k = 1,2, ..., K din tabloul distribuţiei de frecvenţă, începând cu punctul
(b0 = a1; F0 = 0) şi trasând segmente de dreaptă între punctele
respective.
Se utilizează pentru a determina numărul (sau proporţia)
observaţiilor care se plasează sub (sau peste) o valoare specificată.

27
Fig. 2.6 Graficul frecvenţelor cumulate pentru datele clasate în tabelul 2.2.1.b

Frecvenţă
100
cumulată Fk (%)

75

50

25

0
4050 4850 5650 6450 7250 8050 8850

(
Debit mediu anual m s
3 -1
)
Ca exemplu, în Fig. 2.6 este redat graficul frecvenţelor
cumulate (în %) corespunzător poligonului frecvenţelor din Fig.2.4
şi datelor de debite medii anuale pe Dunăre clasate în tabelul 2.2.1.b.

Valoarea medie a intervalului de clasare este 6450 m3.s-1 şi –


conform graficului din figură – se poate afirma că în circa 72% dintre
anii de observaţii debitul mediu anual nu va depăşi 6450 m3.s-1, iar
în circa 28% dintre ani va fi mai mare decât valoarea respectivă.

Pe de altă parte, la frecvenţa cumulată de 50% corespunde un


debit mediu anual de circa 5785 m3.s-1, aceasta fiind valoarea sub
care (sau peste care) se vor plasa jumătate din datele observate.

Valoarea variabilei corespunzătoare frecvenţei cumulate de 50%,


ca şi alte valori identificabile cu ajutorul acestui grafic, reprezintă
caracteristici descriptive ale setului de date şi vor fi menţionate în
viitor.

28
2.2.3. Distribuţii de frecvenţă empirice

Când
- datele înregistrate asupra unei mărimi de interes sunt în număr
redus,
- iar analiza anterioară nu poate conduce la concluzii
convingătoare,
se preferă utilizarea unei maniere empirice de analiză statistică.

În varianta empirică, se acceptă că fiecare dată din şirul


ordonat crescător (sau descrescător) corespunde câte unei clase de
valori.
Aceste clase sunt, în general, de amplitudine variabilă, dar
admise cu acelaşi efectiv sau echiprobabile.

Cu şirul de date ordonat crescător şi x[r ] valoarea variabilei de


rang r în şirul respectiv,
există diverse formule propuse pentru a evalua ceea ce se
numeşte frecvenţa empirică (în fapt frecvenţa cumulată)
corespunzătoare valorii x[r ] , care se pot exprima prin relaţia generală:

r −α
Fˆ (x[r ] ) = (2.12)
N + 1 − 2α
unde N este talia şirului, iar α - un coeficient cu valori între 0 şi 0,5.

În tabelul următor sunt sintetizate câteva dintre particularizările


relaţiei (2.12) folosite frecvent pentru calculul frecvenţei empirice.
Formule de calcul a frecvenţei empirice

Denumire Weibull Hazen Gringorten Blom Cunnane Mediană


Coeficient 0 0,5 0,44 0,375 0,40 0,3175
α
Formulă pentru r r − 0,5 r − 0,44 r − 0,375 r − 0,40 r − 0,3175
F̂ (x[r ] ) N +1 N N + 0,12 N + 0,25 N + 0,2 N + 0,365

29
- Pentru o populaţie originară perfect cunoscută, se
recomandă α = 0,3 şi respectiv α = 0,5 dacă parametrii acesteia
nu sunt cunoscuţi.
- Pentru o lege de probabilitate normală a populaţiei originare
se recomandă α = 0,375 ; sau α = 0,44 dacă legea este de tip
exponenţial; sau α = 0 pentru o lege uniformă; sau, în sfârşit,
α = 0,4 ca cel mai bun compromis pentru o formulă neparametrică.
- În şcoala franceză se preferă α = 0,5 ; iar în practica din SUA,
α=0

Spre exemplu, utilizând formula Hazen în cazul datelor de


debite medii anuale pe Dunăre, la Olteniţa, din tabelul 2.1.2.a şi
observând în ordine inversă valorile clasate descrescător din tabelul
2.1.2.b, se obţin frecvenţele empirice din tabelul următor.

Frecvenţe empirice după Hazen, pentru debitele medii anuale pe Dunăre,


la Olteniţa, între 1921 – 1962
Rang (
Qm s 3 −1
) Fˆr (% ) Rang ( )
Q m 3s −1 Fˆr (% )
r r
1 4090 1,17 22 5950 51,19
2 4160 3,57 23 5980 53,57
3 4200 5,95 24 5990 55,95
4 4300 8,33 25 6080 58,33
5 4400 10,71 26 6100 60,71
6 4460 13,10 27 6120 63,10
7 5010 15,48 28 6150 65,48
8 5100 17,86 29 6280 67,86
9 5190 20,24 30 6300 70,24
10 5220 22,62 31 6480 72,62
11 5240 25,00 32 6570 75,00
12 5350 27,38 33 6650 77,38
13 5400 29,76 34 6730 79,76
14 5460 32,14 35 6950 82,14
15 5520 34,52 36 7000 84,52
16 5550 36,90 37 7280 86,90
17 5570 39,29 38 7860 89,28
18 5640 41,67 39 7960 91,66
19 5650 44,05 40 8040 94,05
20 5700 46,43 41 8600 96,43
21 5900 48,81 42 8850 98,81

30
Este de aşteptat ca graficul F̂ ( x ) construit cu datele din acest
tabel, să oscileze în jurul poligonului frecvenţelor cumulate realizat
pe clase de debite şi reprezentat în Fig. 2.6, pentru acelaşi set de
valori.

Distribuţiile empirice de frecvenţă se vor utiliza în capitolele


următoare în cadrul unor metode de estimare a parametrilor
distribuţiilor teoretice de probabilitate care să reflecte setul de
date observate, precum şi la verificarea ipotezelor statistice
referitoare la aceste distribuţii.

? Problema 2 2 1
40 de rugbişti aleşi aleatoriu din echipele de primă divizie au
greutăţile corporale (în kg) din tabelul 2.2.4
Tabel 2.2.4
Greutăţile (în kg) unui lot de 40 rugbişti (R – număr sportiv în lot; G – greutate)
R G R G R G R G
1 97,2 11 102,3 21 85,2 31 100,3
2 103,1 12 97,5 22 93,3 32 98,3
3 86,5 13 110,0 23 106,3 33 102,8
4 91,3 14 88,2 24 102,8 34 102,5
5 101,1 15 92,5 25 96,8 35 92,9
6 109,5 16 96,2 26 95,2 36 107,0
7 111,2 17 107,5 27 114,7 37 101,7
8 90,8 18 104,8 28 97,6 38 104,2
9 98,3 19 98,9 29 98,0 39 100,9
10 99,1 20 95,0 30 108,5 40 105,2
a) Să se ordoneze crescător datele de greutate din tabel;
b) Rotunjind valoarea minimă la primul întreg inferior şi pe cea
maximă la primul întreg superior, să se claseze datele de pe această
plajă în 5 clase de ecart egal;
c) Să se reprezinte histograma şi poligonul frecvenţelor relative
pentru această distribuţie de frecvenţă;
d) Prezintă histograma vreo caracteristică evidentă ?
e) Trasaţi ogiva frecvenţelor cumulate şi estimaţi procentul
sportivilor cu greutatea de cel puţin 100 kg.

31
? Problema 2.2.2
Un lot de 30 studenţi ajunşi la o universitate din Braşov venind
din restul ţării, sunt chestionaţi în legătură cu poziţia geografică a
localităţii de origine faţă de Braşov, după categoriile: NE (nord – est),
SE (sud – est), V (vest), SV (sud – vest) şi respectiv NV (nord – vest).
Răspunsurile au fost următoarele: NV, V, V, NE, NV, SV, SV,
SV, SE, NV, SV, SE, SE, V, SV, NE, N, V, NE, NV, NV, SV, V, SE,
SV, SV, NV, V, SV şi NV.
Construiţi o distribuţie de frecvenţă pentru aceste date
categoriale.

? Problema 2.2.3
Ştiind că 40 de muncitori pe un şantier de construcţii au prestat
în luna anterioară un număr de ore suplimentare plătite - ca în tabelul
2.2.5 Tabel 2.2.5
Număr de ore suplimentare plătite pentru luna
anterioară, la un lot de 40 muncitori
22 12 17 2 4 14 25 19 26 17
6 10 7 7 13 16 17 13 24 22
24 23 19 8 5 9 15 20 18 20
25 18 8 26 24 24 22 21 12 15

a) Să se utilizeze procedura din Exemplul 2.2.2 pentru a construi


o distribuţie de frecvenţă cu 5 clase de ecart egal;
b) Reprezentaţi histograma şi clasificaţi distribuţia din punctul
de vedere al caracteristicii de simetrie;
c) Determinaţi procentul de muncitori care au prestat cel puţin
10 ore suplimentare retribuite.

32
2.3.Caracteristici descriptive ale seturilor de date

Pe lângă descrierea tabelară / grafică prezentată, colecţiile de date


sunt caracterizate şi printr-o serie de valori numerice numite
măsuri statistice (sau caracteristici descriptive).

Dacă o astfel de măsură se referă la o populaţie, ea se numeşte


parametru,
iar dacă se referă la un anumit eşantion (ales aleatoriu dintr-un
număr mare de eşantioane posibile pentru populaţia respectivă) ea se
numeşte statistică (sau estimaţie sau caracteristică
experimentală).

O parte majoră a statisticii deductive este dedicată metodelor


folosite pentru evaluarea valorilor necunoscute ale parametrilor
unei populaţii, pe baza unor statistici de eşantion adecvate.

În continuare se clasifică şi prezintă relaţiile de calcul pentru


măsuri statistice (estimatori) ale unor eşantioane de date observate.

Aceste statistici vor fi notate cu litere latine, în timp ce pentru


parametri caracteristici ai unei populaţii se vor folosi litere greceşti.

Tipuri de caracteristici descriptive

Principalele tipuri de caracteristici descriptive (măsuri statistice)


sunt următoarele:
- Caracteristici de poziţie, acestea fiind măsuri (valori numerice)
în jurul cărora se grupează datele observate. Cele mai semnificative
sunt: media aritmetică, mediana şi moda, dar alături de acestea se
pot defini şi – de exemplu - media ponderată, media armonică,
media pătratică, media geometrică etc.

33
- Caracteristici de dispersie - care sunt măsuri ale gradului de
împrăştiere a datelor observate, în raport cu valoarea centrală.
Printre cele frecvent folosite se numără: plaja (sau domeniul)
observaţiilor, abaterea medie absolută, varianţa şi abaterea
standard, coeficientul de variaţie, intervalele intercuartile ş.a.

- Caracteristici de formă – aflate în legătură cu alura


distribuţiilor de frecvenţă, având măsurile specifice reprezentate de
coeficienţii de asimetrie şi coeficienţii de aplatisare.

Măsuri ale tendinţei (poziţiei) centrale

Media aritmetică (numită prescurtat media) unui set de date


x1 , x 2 ,....., x N se notează cu x şi este dată de
1 N
x = ∑ xi (2.13)
N i =1

Pentru a actualiza valoarea mediei unei serii la care se adaugă o


nouă dată x N +1 , se poate folosi relaţia
x − x ( N ) N ⋅ x ( N ) + x N +1
x ( N + 1) = x ( N ) + N +1 = (2.14)
N +1 N +1
în care prin x (N ) s-a notat media setului de N date şi x ( N + 1) este
media şirului actualizat.

La fel, media şirului din care se elimină ultima valoare x N ,


rezultă cu
N ⋅ x(N ) − xN
x (N − 1) = (2.15)
N −1

Media este utilizată cel mai frecvent ca măsură a poziţiei


centrale.

34
La translatarea originii datelor din şirul iniţial cu valoarea
constantă c, noul şir yi = xi + c , i = 1,2,..., N va avea media
y = x +c,
iar la scalarea datelor sub forma yi = c.xi , i = 1,2,..., N, va
rezulta y = c ⋅ x .

În mod evident, suma abaterilor valorilor din şir în raport cu


media este nulă, adică
N
∑ ( xi − x ) = 0 (2.16)
i =1

Mediana – notată ~
x – este definită ca valoarea faţă de care
jumătate dintre observaţiile seriei de date sunt mai mari şi respectiv
cealaltă jumătate sunt mai mici.
Se mai numeşte şi valoare echiprobabilă sau cuartilă de ordin 2.

Pentru un şir de date ordonate,


- dacă talia şirului N este număr impar, atunci mediana va fi
egală cu data de rang ( N + 1) / 2 , adică
~
x = x  N +1  (2.17.a)
 2 
 
- iar dacă N este număr par, mediana se admite egală cu media
datelor de ranguri N/2şi respectiv N/2+1, adică
~ 1
(
x = x[N 2 ] + x[N 2+1]
2
) (2.17.b)

Dacă s-a reprezentat graficul frecvenţei cumulate pentru setul de


observaţii considerat, atunci mediana corespunde valorii de pe axa
absciselor pentru care frecvenţa cumulată este 0,5 (sau 50%). Din
această cauză se mai foloseşte şi notaţia x0,5 = ~
x.

Din poligonul frecvenţei cumulate în Fig.2.6 pentru debitele medii


anuale pe Dunăre, la Olteniţa, între anii 1921 – 1962, clasate în 6 clase

35
de ecart egal, se constată că mediana (valoarea corespunzătoare la F =
~
50%) este x = 5785 m3.s-1.
Pe de altă parte, observând datele ordonate din tabelul 2.1.2.b
pentru acelaşi set de observaţii, se constată că valorile de rang N/2 =
42/2 =21 şi respectiv 22 sunt 5950 şi 5900 m3.s-1, astfel încât cu relaţia
~
(2.17.b) ar rezulta x =5925 m3.s-1 care diferă destul de mult (circa
2,4%) faţă de mediana obţinută pe baza ogivei frecvenţei cumulate.

Moda – notată x̂
– se defineşte ca fiind valoarea care apare
cel mai frecvent printre datele observate.
Se mai numeşte şi valoare dominantă, valoarea cea mai
probabilă sau valoare modală.

Moda poate să nu fie unică într-un set de date observate sau


chiar poate să nu existe.

Distribuţiile care au o singură valoare modală (cea mai


frecventă) se numesc unimodale.
Dacă însă două valori numerice diferite se regăsesc de acelaşi
număr de ori (cel mai mare) printre observaţiile din set, este vorba
despre o distribuţie bimodală ş.a.m.d.
Când toate datele observate sunt diferite între ele, în mod evident
moda nu poate fi definită.

Dacă setul de observaţii este grupat pe clase, atunci se vorbeşte


de una sau mai multe clase modale.

Pentru clasarea debitelor medii anuale din Exemplul 2.2.1. în 6


clase ca în tabelul 2.2.1.b,
- clasa modală apare în poziţia a doua,
- este unică şi
- se întinde între 4850 şi 5650 m3.s-1.
- valoarea centrală a acestei clase adică c 2 = 5250 m3.s-1 poate
fi acceptată ca modă şi

36
- ea apare în poligonul frecvenţei procentuale din Fig. 2.4. la
abscisa pentru care frecvenţa atinge valoarea maximă.

În cazul datelor clasate în tabelul 2.2.2, prima clasă este clasa


modală a distribuţiei dobânzilor anuale încasate de cei 50 de clienţi ai
băncii pentru conturile lor în USD.

Relaţia între medie, mediană şi modă

Presupunând că
- numărul de date din şir, N, este foarte mare şi că
- a fost posibilă o clasare cu ecart hk foarte mic (astfel încât
poligonul frecvenţelor poate fi aproximat printr-o curbă continuă şi
unimodală)
~
relaţia între x , x şi x̂ depinde de alura distribuţiei de frecvenţă.
Cele trei situaţii tipice sunt reprezentate în figura 2.7

X̂ X~
X

A1 A2

~
X̂ , X , X

A1 A2

37
f

~ X̂
X X

A1 A2

Fig.2.7. Schematizarea relaţiilor între medie, mediană şi modă

Pentru oricare dintre tipurile de distribuţie a), b) sau c) mediana


x este plasată astfel încât verticala prin ~
~ x împarte suprafaţa de
sub graficul de frecvenţă în două părţi de suprafeţe egale (A 1 = A 2 ).
Moda x̂ corespunde abscisei pentru care frecvenţa relativă
înregistrează un maxim.
Cu aceste precizări
– pentru cazul a): x̂ < ~x < x şi se spune că distribuţia are asimetrie
pozitivă;
– pentru cazul b): x̂ = ~
x = x şi se spune că distribuţia este simetrică;
– pentru cazul c): x̂ > ~
x > x şi se spune că distribuţia are asimetrie
negativă.

Măsuri ale dispersiei (variabilităţii)

Plaja (sau domeniul, sau amplitudinea sau întinderea) se


obţine prin ordonarea datelor observate şi este egală cu diferenţa
dintre valorile extreme, adică
plaja = x[1] − x[N ] (2.18)
la ordonarea descrescătoare.

Din cauza fluctuaţiilor de eşantion, aceasta nu este o caracteristică


foarte reprezentativă.

38
Abaterea medie absolută – notată AMA – este definită ca
media diferenţelor absolute dintre fiecare dată a şirului şi media lui,
adică
1 N
AMA = ∑ xi − x (2.19)
N i =1

Varianţa – notată s 2 – este definită ca media pătratelor


diferenţelor dintre fiecare dată a şirului şi media lui, adică
1 N
s = ∑ ( xi − x )
2 2
N i =1
(2.20)

În cazul eşantioanelor de talie N redusă, posibil de extras dintr-o


populaţie densă,
- pentru a evita erorile inerente procedurii de selecţie şi
- pentru a obţine un estimator zis nedeplasat al acestui
parametru,
se foloseşte relaţia
1 N
sˆ =
2 N 2
s = ∑ (xi − x )2 (2.21)
N −1 N − 1 i =1
(se va reveni în capitolele următoare)
.
2
Altă formulă de calcul pentru varianţa s ar putea fi
2
1 N
1  N  1 N 2
s = ∑ xi −
2 2  ∑ xi = ∑ xi − x 2
 (2.22)
N i =1 N  i =1 
2  N i =1

Ca şi la actualizarea mediei prin adăugarea observaţiei x N +1 ,


varianţa seriei extinse se obţine cu relaţia

s (N + 1) =
N  2 [x N +1 − x ( N )]2 
s ( N ) +
2
 (2.23)
N + 1  N +1 

39
iar la eliminarea valorii x N din şir, cu relaţia

s 2 (N − 1) =
N
.s 2 (N ) − N
[ ]2
x − x( N )
(2.24)
N −1 N
unde prin s 2 (N ) şi x (N ) s-au notat varianţa şi media şirului cu N
date observate.

La translatarea originii datelor din şirul iniţial cu valoarea


constantă c, noul şir yi = xi + c va avea aceeaşi varianţă, adică
s 2y = s x2 ,
în schimb la scalarea lor sub forma yi = c.xi varianţa noului
şir va fi s 2y = c 2 .s x2 – deci puternic modificată faţă de varianţa
şirului iniţial.

Abaterea standard (sau abaterea pătratică medie sau


abaterea tip) se notează cu s şi este egală cu rădăcina pătrată din
varianţă, adică
N
∑ (xi − x )2
1
s= (2.25)
N i =1
sau – pentru estimatorul nedeplasat:
1 N
sˆ = ∑ (xi − x )2 (2.26)
N − 1 i =1

Deoarece abaterea standard are aceeaşi dimensiune ca şi


variabila observată, ea este mult mai utilă în practică în raport cu
varianţa şi reprezintă caracteristica de dispersie cea mai sugestivă.

40
Cele două caracteristici fundamentale media (pentru tendinţa
centrală) şi abaterea standard (pentru dispersie) pot fi utilizate
împreună la analiza unui set de observaţii în baza teoremei (sau
inegalităţii) lui Cebâşev.
care ajută la determinarea fracţiei (sau procentajului) de
observaţii care se estimează că s-ar plasa într-un număr specificat
de abateri standard, de fiecare parte în raport cu media.

Sub formă analitică, inegalitatea Cebâşev se scrie


{
P x − x ≤ ω ⋅ s} ≥ 1 − 2 ,
1
ω
ω>0 (2.27)
şi se citeşte: probabilitatea ca diferenţa în modul între valoarea
variabilei observate şi media şirului să fie egală cu cel mult ω
1
abateri standard, este cel puţin egală cu 1 − , unde ω este un real
ω2
pozitiv.

De exemplu, pentru ω = 2, se poate afirma că probabilitatea ca


variabila observată să se plaseze într-un domeniu centrat pe media
 1 
x şi de lungime 2 ω s = 4 s, este de cel puţin 1 −  ⋅ 100 = 75% .
2
 2 
Sau, altfel spus: este de aşteptat ca cel puţin 75% dintre observaţiile
şirului să se plaseze în domeniul de valori ( x − 2 ⋅ s; x + 2 ⋅ s ).

O altă variantă de utilizare conjugată a celor două caracteristici


fundamentale este cea prin intermediul z – scorului.
Fiecărei date din şir îi corespunde un z – scor care măsoară cu
câte abateri standard este plasată valoarea respectivă sub sau peste
media şirului.
Dacă xi > x , observaţia i are un z – scor pozitiv,
iar pentru xi < x , z – scorul respectiv va fi negativ.

41
Notând z i scorul valorii xi din şir, acesta se va calcula cu relaţia:
xi − x
zi = , (2.28)
s
iar rezultatul va fi un număr adimensional.

Această caracteristică permite ca z – scorul să fie folosit pentru


a compara sau ordona observaţii din populaţii diferite şi ale căror
date au unităţi de măsură diferite.

Coeficientul de variaţie – notat cu Cv - este definit ca


raportul dintre abaterea standard şi media şirului, adică
1 N
s 1
Cv = = ∑ (xi − x )2 (2.29)
x x N i =1
Este o caracteristică adimensională şi poate fi utilizat la
comparaţii efectuate asupra unor serii diferite de date.

Intervalele intercuantile

Se numesc cuantile de ordin k – cele k–1 valori care împart


datele seriei în k clase de aceeaşi frecvenţă (clase echiprobabile).

- Cele 99 percentile p1 , p 2 ,....., p99 împart seria în 100 clase de


efectiv N/100
- Cele 9 decile d1 , d 2 ,..., d 9 împart seria în 10 clase de efectiv
N/10
- Cele 3 cuartile q1 , q 2 şi q3 împart seria în 4 clase de efectiv
N/4

De regulă, cuantilelele se estimează pe baza ogivei frecvenţelor


cumulate (cum s-a explicat în legătură cu mediana - care este în fond
cuartila de ordinul doi)

42
Intervalul intercuartile se obţine ca diferenţa q3 − q1 .
şi este o măsură a dispersiei mai puţin sensibilă la fluctuaţiile
de eşantion decât amplitudinea (sau plaja).

Semnificaţia percentilei p70 – de exemplu – reprezintă valoarea


sub care se plasează 70% dintre datele observate.
Decila d 4 este valoarea sub care se plasează 40% dintre datele
şirului,
iar cuartila q1 corespunde valorii sub care se regăsesc 25%
dintre date.
~
Desigur că p30 = d 3 sau p 25 = q1 sau p50 = q 2 = X

Exemplul 2.3.1
La examenul de Statistică Aplicată, un lot de studenţi
au obţinut punctajele (din 100 puncte) incluse în tabelul 2.3.1.a.
Tabel 2.3.1.a
56 42 60 64 85 76 81 40 70 68
66 58 65 46 44 72 70 74 80 80
49 51 55 60 63 58 94 67 73 69
75 70 79 90 42 77 77 50 91 45
62 59 72 87 98 73 54 49 53 70

a) Să se claseze datele în 7 clase de ecart egal;


b) Să se traseze poligonul frecvenţelor cumulate;
c) Ştiind că numărul minim de puncte necesar pentru promovare
este 50, să se estimeze pe baza ogivei procentajul de promovaţi şi
respectiv restanţieri;
d) Să se calculeze media, abaterea standard şi coeficientul de
variaţie a setului de date;
e) Să se estimeze mediana folosind şirul ordonat şi respectiv ogiva
frecvenţelor cumulate precum şi moda pe baza clasei modale;
f) Aflaţi procentul de studenţi cu z – scor pozitiv la acest examen;
g) Estimaţi intervalul intercuartile pe baza graficului frecvenţelor
cumulate.

43
Soluţie
În tabelul 2.3.1.b se găsesc datele problemei ordonate crescător.
Tabel 2.3.1.b
Punctaj obtinut de 50 studenti la examenul de Statistica
Datele ordonate crescator:
40.00 42.00 42.00 44.00 45.00
46.00 49.00 49.00 50.00 51.00
53.00 54.00 55.00 56.00 58.00
58.00 59.00 60.00 60.00 62.00
63.00 64.00 65.00 66.00 67.00
68.00 69.00 70.00 70.00 70.00
71.00 72.00 72.00 73.00 73.00
74.00 75.00 76.00 77.00 77.00
79.00 80.00 80.00 81.00 85.00
87.00 90.00 91.00 94.00 98.00
a) Clasarea punctajelor s-a făcut cu procedura din Exemplul
2.2.2 pentru a evita ambiguitatea atribuirii unei valori din şir egală
cu limita dintre două clase, la una dintre acestea. Se ajunge totuşi la
situaţia nerealistă că limita ultimei clase devine 102,5 puncte,
punctajul maxim posibil fiind 100 puncte.
Dacă s-ar admite plaja cuprinsă între punctajul minim (aici 40) şi
cel maxim posibil (100 în cazul problemei), cu 7 clase pe domeniu ar
rezulta un ecart de 60/7 = 8,5714 puncte, dar care este ,,neprietenos’’
în aplicaţii practice.
Tabel 2.3.1.c
Punctaj obtinut de 50 studenti la examenul de Statistica
Rezultate clasare in 7 clase de ecart= 9.00:
k a(k) b(k) c(k) n(k) f(k) fc(k)
1 39.50 48.50 44.00 6 0.1200 0.1200
2 48.50 57.50 53.00 8 0.1600 0.2800
3 57.50 66.50 62.00 10 0.2000 0.4800
4 66.50 75.50 71.00 13 0.2600 0.7400
5 75.50 84.50 80.00 7 0.1400 0.8800
6 84.50 93.50 89.00 4 0.0800 0.9600
7 93.50 102.50 98.00 2 0.0400 1.0000

44
b) Cu rezultatele din tabelul anterior, în Fig.2.8 s-a trasat
poligonul frecvenţelor cumulate procentuale.

Fig.2.8. Poligonul frecvenţelor cumulate pentru rezultatele la examen


100
Frecvenţă
cumulată (%)
90

80

70

60

50

40 q3
30 ~
X
20
F*
10 q1
0
35 45 55 65 75 85 95 105

Puncte la examen

c) Folosind ogiva din figură, se constată că pentru punctajul de


promovare de 50 puncte corespunde valoarea frecvenţei cumulate
F * = 15% , cu semnificaţia că 15% dintre studenţi au punctaj
inferior (deci sunt restanţieri), iar 85% au promovat.

d) Media setului de valori se calculează cu (2.13) şi este în


acest caz x = 66,2 puncte.
Pentru abaterea standard se admite (2.25) şi rezultă valoarea
s = 14,4 puncte.
Coeficientul de variaţie dat de (2.29) are valoarea C v = 0,217 .

e) Fiind un număr par de date (N = 50), mediana calculată pe


baza şirului ordonat va fi media valorilor de rang 25 şi respectiv 26,
adică
x1 = (x[25] + x[26 ] )
~ 1
2
şi conform datelor din tabelul 2.3.1.b acestea sunt 67, respectiv 68,
astfel că ~x1 = 67,5 puncte.

45
Estimarea medianei pe baza ogivei din Fig.2.8 se obţine ca
abscisă corespunzătoare frecvenţei cumulate de 50%.
Un calcul mai precis decât citirea grafică este interpolarea liniară
între perechile 3 şi 4 de valori (bk , fc k ) din tabelul 2.3.1.c. Procedând
astfel se obţine ~x 2 = 67,19 puncte.
Pentru calculul modei, se constată din tabel că frecvenţa relativă
maximă (26%) apare în clasa a 4-a iar valoarea centrală a acestei
clase, adică c 4 , va fi admisă ca modă - deci xˆ = 71 puncte.

Observând valorile x = 66,2 , ~x1 = 67,5 , xˆ = 71 şi tipurile de


distribuţii din Fig.2.7, se poate afirma că distribuţia punctajelor
obţinute de lotul de studenţi la examen are o asimetrie negativă.

f) Conform definiţiei (2.28), valorile mai mari decât media au


z – scor pozitiv. Din tabelul datelor ordonate 2.3.1.b se constată că 26
valori sunt mai mari decât x = 66,2 puncte.
Procentul de studenţi cu z – scor pozitiv (peste medie) este deci
26
⋅ 100 = 52%
50
g) Cuartilele corespunzătoare frecvenţelor cumulate de 25 şi
respectiv 75% se obţin din graficul ogivei sau prin interpolare
liniară între datele din tabelul 2.3.1.c şi au valorile q1 = 55,81 şi
q3 = 76,14 puncte. Intervalul intercuartile rezultă deci q3 − q1 = 20,33

Exemplul 2.3.2
Ştiind că numărul mediu zilnic de cărţi consultate în
biblioteca facultăţii este de 112, cu o abatere standard de 14 cărţi, să
se folosească inegalitatea lui Cebâşev pentru a afla ce fracţie de timp
a) Se vor consulta între 56 şi 168 cărţi pe zi ?
b) Se vor consulta între 92 şi 132 cărţi pe zi ?
c) Se vor consulta mai puţin decât 42 sau mai mult decât 182
cărţi pe zi ?

46
Soluţie
Pentru rezolvarea problemei, este util să se traseze diagrama din
Fig. 2.9

X − 5s X − 4s X − 3s X − 2s X −s X X +s X + 2s X + 3s X + 4s X + 5s

42 56 70 84 98 112 126 140 154 168 182


ω =1
ω=2
ω=3
ω=4
ω=5
Fig.2.9. Diagrama abaterilor standard în jurul mediei

a) Observând relaţia (2.27) pentru inegalitatea lui Cebâşev, se


constată că intervalul 56-168 corespunde la ω = 4 , astfel încât
probabilitatea ca numărul zilnic de cărţi consultate să se plaseze în
acest interval este de:
 1   1  15
1 − 2  = 1 − 2  = adică circa 93,75%
 ω   4  16

b) Intervalul 92–132 este centrat în jurul mediei x = 112 , la o


distanţă de 132 − 112 = 92 − 112 = 20 adică la de ω = 20 / 14 = 1,4286 ori
abaterea standard s = 14. În consecinţă, probabilitatea ca numărul
zilnic de cărţi consultate să se plaseze între 92 şi 132 este:
 1 
1001 − 2
 = 51%
 1,4286 

c)Deoarece 42 şi respectiv 182 se găsesc la câte ω = 5 abateri


standard faţă de medie, rezultă că probabilitatea de plasare în acest
interval este de 100(1 − 1 / 5 2 ) = 96% , iar probabilitatea de a se consulta
mai puţin decât 42 sau mai mult decât 182 cărţi pe zi va fi de 4%.

Exemplul 2.3.3
S-a constatat statistic faptul că la banda de servire a
cantinei unei universităţi, timpul mediu de aşteptare pentru a se

47
ajunge la mâncare este de 120 secunde, cu o abatere standard de 25
secunde. Admiţând că distribuţia timpilor de aşteptare este în formă
de clopot şi folosind regula empirică menţionată la sfârşitul
paragrafului 2.2.2, să se estimeze:
a) Procentul de studenţi care trebuie să aştepte mai mult de 70
secunde;
b) Procentul de studenţi care trebuie să aştepte între 95 şi 170
secunde;
c) Câţi studenţi dintre 1000 care frecventează cantina respectivă
vor trebui să aştepte mai mult de 170 secunde ?
d) În ce interval de timp se plasează perioada de aşteptare pentru
circa 95% dintre studenţi ?
e) Propuneţi o procedură de estimare a procentului de studenţi
care vor aştepta la bandă cel puţin 160 de secunde ?

Soluţie
Ca şi în exemplul anterior, este util să se realizeze diagrama din
Fig.2.10 (asemănătoare cu fig. 2.9, dar adaptată la problema de faţă).

X − 3s X − 2s X −s X X +s X + 2s X + 3s

45 70 95 120 145 170 195


2,35% 13,5% 34% 34% 13,5% 2,35%

Fig. 2.10 Diagrama procentelor de apariţii în jurul mediei la distanţe multiplu de abaterea
standard, pentru distribuţia în formă de clopot.

Conform regulii empirice, la distribuţia în formă de clopot


circa 68% dintre observaţii se plasează între x − s şi x + s ,
95% între x − 2s şi x + 2 s şi respectiv
99,7% între x − 3s şi x + 3s .

a) Deoarece procentul observaţiilor plasate în afara domeniului


(x - 3s ; x + 3s ) este de 100 – 99,7 = 0,3%, cu probabilităţi egale pentru
ambele extremităţi, rezultă că procentul celor plasaţi sub 45 secunde
de aşteptare sau sub (x - 3s ) , este de 0,15%.
Rezultă că procentul studenţilor care aşteaptă sub 70 de
secunde este de circa 0,15 + 2,35 = 2,5%, iar mai mult de 70 secunde
circa 100 – 2,5 = 97,5%

48
b) Conform diagramei din Fig.2.10, procentul celor care
aşteaptă între 95 şi 170 secunde este de circa 2 × 34 + 13,5 = 81,5% .

c) Deoarece procentul celor cu perioada de aşteptare peste 170


secunde este egal cu al celor având perioada sub 70 secunde adică
2,5%, rezultă că din 1000 studenţi vor aştepta mai mult de 170
secunde circa 1000 × 0,025 = 25 studenţi.

d) Conform diagramei din Fig.2.10 şi regulii empirice, 95%


dintre studenţi vor aştepta la bandă între 70 şi 170 secunde.

e)Cel mai simplu procedeu de estimare ar fi pe baza graficului


frecvenţelor cumulate. E simplu de calculat că frecvenţele cumulate
până la timpii t i trecuţi în tabelul de mai jos sunt următoarele

t i (sec) 45 70 95 120 145 170


fci (%) 0,15 2,5 16 50 84 97,5

Durata de aşteptare de 160 secunde se plasează între valorile


din ultimele două coloane.
Prin interpolare lineară între aceste date se găseşte că la durată
de 160 secunde corespunde frecvenţa cumulată de 92,1%.
În consecinţă, circa 100 − 92,1 = 7,9% dintre studenţi vor
aştepta mai mult de 160 secunde pentru a se servi.

Se definesc în continuare următoarele două tipuri de momente:

49
Momentul de ordin r în raport cu originea – calculat
cu relaţia:
1 N r
M r = ∑ xi (2.30)
N i =1
Prin comparaţie cu (2.13), se constată că x = M 1 , deci media
setului de valori este chiar momentul de ordin unu în raport cu
originea.

Momentul centrat de ordin r – calculat cu formula


1 N
mr = ∑ ( xi − x )r (2.31)
N i =1
2
Prin comparaţie cu (2.20) se constată că s = m2 , deci
varianţa datelor este egală cu momentul centrat de ordin doi.

Ţinând seama de observaţia (2.16), este evident că momentul


centrat de ordin 1 este nul, adică m1 = 0 .

Sunt uşor de verificat şi următoarele relaţii între momentele


centrate şi cele faţă de origine.
m2 = M 2 − M 12
m3 = M 3 − 3M 2 ⋅ M 1 + 2 M 13 (2.32)
m4 = M 4 − 4 M 3 ⋅ M 1 + 6 M 2 M 12 − 3M 14

Prin translaţia tuturor datelor cu valoarea c, noua serie


yi = c + xi , va avea momentele centrate nemodificate adică
mr ( y ) = mr ( x ) ,
iar prin scalare sub forma yi = c ⋅ xi , se obţine mr ( y ) = c mr (x ) .
r

50
Caracteristici de formă

Caracteristica de (a)simetrie a unei distribuţii de


frecvenţă se evaluează prin coeficientul de asimetrie propus de
Fisher:
m3
Cs = (2.33)
s3

Având în vedere relaţiile (2.29) şi (2.31), se mai poate scrie şi


1 N

N i =1
( xi − x )3
Cs = , (2.34)
x 3 ⋅ Cv3

iar dacă se adimensionalizează datele seriei în raport cu media şi se


introduce variabila modul ki = xi / x , i=1, 2,..N, atunci C s devine
N
Cs =
1
3 ∑ (ki − 1)3 (2.35)
N ⋅ C v i =1

Ca în cazul varianţei, dacă talia N a setului de observaţii este


redusă, un estimator nedeplasat pentru coeficientul de asimetrie
1
se obţine înlocuind din (2.35)
N
1 N
prin sau prin .
N −1 ( N − 1) ⋅ ( N − 2)

Dacă C s = 0 (asimetrie nulă), distribuţia este simetrică în jurul


mediei.

O distribuţie de forma celei din Fig. 2.7.a) va avea C s > 0 , iar


una de forma celei din Fig. 2.7.c) va avea C s < 0 .

Altă măsură a asimetriei, propusă


de Pearson, este
coeficientul Pearsonian de asimetrie dat de

51
3 ⋅ (x − ~
x)
a2 = , (2.36)
s

iar Yule propune coeficientul cuartil de simetrie definit prin


q − 2q 2 + q1
a3 = 3 (2.37)
q3 − q1
~
în care evident q 2 = x .

Coeficienţii a2 şi a3 sunt mai puţin sensibili la fluctuaţii de


eşantion.

O altă caracteristică de formă se referă la boltirea (sau


aplatisarea) graficului distribuţiei de frecvenţă.

După Pearson coeficientul de boltire este definit prin


m4
b1 = , (2.38)
s4

iar după Fisher prin relaţia


b2 = b1 − 3 , (2.39)
în care 3 = b1 pentru distribuţia normală (se va detalia în alt capitol).

Pentru aceeaşi caracteristică, Kelly propune un coeficient


calculat pe baza cuartilelor, cu relaţia
q3 − q1
b3 =
2(d 9 − d1 ) (2.40)

unde d1 şi d 9 sunt decilele corespunzătoare.

52
? Problema 2.3.1
Pentru datele de debite maxime anuale înregistrate pe Dunăre, la
Olteniţa, între 1921 – 1962, precizate în tabelul 2.1.1.a, alcătuiţi
tabloul distribuţiei de frecvenţă cu 7 clase de ecart h=1275 m3s-1,
începând de la valoarea minimă a1 = 7000 m3 ⋅ s −1 . Calculaţi măsurile
caracteristice de poziţie, dispersie şi formă (medie, abatere standard,
coeficient de variaţie, mediană, modă, interval intercuartile, coeficient
de asimetrie şi coeficient de boltire).

? Problema 2.3.2
Calculaţi măsurile caracteristice de mai sus pentru setul de
debite medii anuale la acelaşi post şi din aceeaşi perioadă (tabelul
2.1.2.a), clasate ca în tabelul 2.2.1.b.

? Problema 2.3.3
Reluaţi Problema 2.2.1 cu greutăţile celor 40 de rugbişti
prezentate în tabelul 2.2.4 şi calculaţi măsurile caracteristice ca în
cazul anterior, apelând pentru mediană şi cuartile la împărţirea pe 5
clase a datelor din problema menţionată.
a) Ce constataţi referitor la forma distribuţiei reflectată prin valorile
coeficienţilor de asimetrie ?
b) Cum apare moda faţă de medie şi mediană, prin prisma
observaţiei de mai sus ?
c) Dacă aţi raţionat corect la punctul d) al Problemei 2.2.1, aţi
dedus că în acest caz este aplicabilă regula empirică privind
împrăştierea datelor. Folosind media şi abaterea standard calculate şi
respectiv ogiva frecvenţelor cumulate, estimaţi în ce măsură se
verifică regula empirică pentru datele problemei de faţă. Comentaţi.

? Problema 2.3.4
Un alergător pe distanţe scurte a participat la curse de 100 m,
200 m şi 400 m împreună cu alţi competitori. Ştiind că timpii realizaţi
de atlet pe aceste distanţe, timpii medii şi abaterile standard la cursele
respective sunt ca în tabelul următor, să se aprecieze în care cursă a
înregistrat sportivul cea mai bună performanţă relativă

53
Cursă Timp alergător Timp mediu Abatere standard
(sec) (sec) (sec)
100 m 11,1 11,5 0,12
200 m 24,4 24,6 0,35
400 m 47,2 46,8 0,57

? Problema 2.3.5
Încercând să evite reproşurile părinţilor, un student mai ,,silitor,,
a decis ca pentru toate disciplinele din anul întâi să le comunice
punctaje obţinute la activităţile aferente (seminar, laborator, lucrări de
casă, examene finale) cu 25 puncte mai mult.
a) Dacă aceste punctaje (din 100) au fost: 92, 87, 53, 73,
65, 83, 77, 60, 50, 75, 80 şi 62, să se determine media şi abaterea
standard a punctajelor reale obţinute în anul respectiv.
b) Folosind inegalitatea lui Cebâşev şi observând punctajul
minim real, faceţi o estimare aproximativă a numărului de examene
trecute cu cel puţin 50 de puncte şi respectiv al celor restante (prin
rotunjire în favoarea lui !)

54
3. NOŢIUNI DE BAZĂ PRIVIND
PROBABILITĂŢILE
ŞI VARIABILELE ALEATOARE
3.1 Unele definiţii

Subiect (sau individ) = un obiect, proces etc. asupra căruia se


întreprinde studiul.

Variabila = o caracteristică măsurată (observată) a subiectului.

Realizarea (valoarea) = rezultatul măsurătorii (observaţiei)


asupra caracteristicii considerate.

Exemple:

1. Subiect = membru al parlamentului;


Variabile posibile: camera din care face parte, sexul, partidul
din care provine, greutatea corporală, înălţimea etc.;
Realizări posibile: Senat sau Camera Deputaţilor, femeie sau
bărbat, oricare din cale 5 partide parlamentare, orice valori dintr-o
plajă rezonabilă de greutăţi sau înălţimi.

2. Subiect = o pereche de zaruri;


Variabilă = suma punctelor de pe feţele superioare după
aruncare;
Realizare = rezultatul observat asupra variabilei la o aruncare

3. Subiect = un lac de acumulare;


Variabile posibile: nivelul suprafeţei libere, suprafaţa oglinzii
apei, debitul afluent etc.;
Realizări posibile: valorile măsurate la un moment dat ale
variabilelor menţionate.

9
Experiment aleator (sau statistic sau stocastic) =
orice acţiune / operaţiune:
- repetabilă în condiţii similare,
- al cărei rezultat nu se cunoaşte dinainte,
- dar pentru care se cunosc mulţimea rezultatelor posibile.

Variabilă aleatoare (prescurtat V.A.) = o variabilă


căreia nu i se poate anticipa valoarea pe care o va avea într-un
experiment statistic

Spaţiu de selecţie al unui experiment (sau ansamblu


fundamental sau ansamblu de realizări) - notat prin S =
mulţimea tuturor rezultatelor posibile ale experimentului.

Pentru o V.A. zisă discretă, spaţiul de selecţie este lista


finită sau infinită a tuturor valorilor posibile iar S este numerabil.

În cazul V.A. continue - spaţiul de selecţie este nenumerabil


şi se poate vorbi doar de amplitudinea sau intervalul de definiţie
sau intervalul de variaţie a lui S.

Exemple:

1. Pentru variabila discretă sex parlamentar S = {M , F } ;


pentru variabila discretă partid de provenienţă
S = {PSD, PD, PNL, PRM , PC , UDMR, PLD} ;
pentru variabila continuă greutate corporală - se poate
defini un interval plauzibil sub forma S = [25,200] kg.

2. La aruncarea perechii de zaruri, variabila discretă suma


punctelor are S = {2,3,4,5,6,7,8,9,10,11,12} .

10
Pentru simplificare, se rezumă acum discuţia la V.A. discrete.

Eveniment = orice submulţime de rezultate conţinute în


spaţiul de selecţie S.

Dacă evenimentul constă exact dintr-un rezultat el se numeşte


eveniment elementar (sau simplu).

Evenimentul sigur este evenimentul care se realizează


întotdeauna ca rezultat al experienţei şi el se asociază ansamblului
fundamental S.

Evenimentul imposibil nu se poate realiza ca rezultat al


unei experienţe şi se asociază mulţimii vide ∅.

Evenimentele compuse vor fi notate A, B,...,


iar evenimentele elementare prin e1 , e2 ,...

Exemplu: La aruncarea unui zar şi observarea cifrei rezultate, pot


apare evenimentele elementare e1 = {1}, e2 = {2},......, e6 = {6}.

Deoarece evenimentele sunt submulţimi ale lui S,


lor li se pot aplica toate operaţiunile cunoscute din
teoria mulţimilor.

Intersecţia evenimentelor A şi B se notează prin A∩B şi este


evenimentul conţinând toate elementele comune lui A şi B.
{ }
Se poate reprezenta prin regula A ∩ B = x x ∈ A..si..x ∈ B .
Dacă A∩B = ∅, evenimentele A şi B se numesc mutual exclusive
(sau incompatibile) şi ele nu pot apărea (nu se pot realiza) simultan.

11
Reuniunea evenimentelor A şi B se notează prin A∪B şi este
evenimentul care conţine toate elementele aparţinând fie lui A, fie
lui B, fie ambelor.
Se reprezintă prin regula A ∪ B = {x x ∈ A....sau...x ∈ B}.
Altfel spus A∪B se realizează când cel puţin unul dintre A şi B
se realizează.

Complementul evenimentului A în raport cu S se notează A


şi este format din toate elementele lui S care nu aparţin lui A.
Se poate defini prin regula A = {x x ∈ S si x ∉ A}.

Se spune că evenimentul A implică evenimentul B şi se


notează A ⊂ B , situaţia când realizarea evenimentului A implică şi
realizarea evenimentului B.

Evenimentele A şi B sunt echivalente dacă A ⊂ B şi B ⊂ A

Legăturile dintre spaţiul de selecţie şi diferite evenimente se


înţeleg mai comod dacă se apelezează la reprezentarea grafică numită
diagrama Venn în care
-spaţiul de eşantionare este reprezentat printr-un dreptunghi
-care conţine figuri închise (cercuri) corespunzând
evenimentelor de interes.

Se admite că fiecare figură închisă cuprinde toate realizările


unui anumit eveniment.

12
În exemplul din Fig. 3.1., în spaţiul S sunt definite două
evenimente compatibile A şi B,
care prin intersecţia lor generează evenimenul C = A∩B
reprezentat haşurat.
Desigur că eliminând C din contururile evenimentelor A şi
respectiv B, rămân trei evenimente mutual exclusive (incompatibile)
şi anume C, A-C şi B-C.
De pe aceeaşi diagramă se poate constata că evenimentul A∪B
este reprezentat de conturul lui A plus conturul lui B-C (sau B plus
A-C).

C=A∩B

Fig. 3.1. Exemplu de diagramă Venn

Noţiunea de probabilitate

Probabilitatea = măsura numerică a posibilităţii efective


de realizare a unui eveniment dat.

Definiţia clasică este bazată pe noţiunea de frecvenţă:


probabilitatea de realizare a evenimentului A (notată P( A) ) într-un
experiment statistic este egală cu frecvenţa relativă de realizare a lui
A într-un număr tinzând către infinit de experimente echiprobabile
adică

13
n
P( A) = A n→∞ (3.1)
n
cu n A - numărul de realizări ale evenimentului A din numărul n,
foarte mare, de experimente.

Deoarece n A ia valori între 0 şi cel mult n, probabilitatea


P( A) calculată cu (3.1) va lua valori între 0 şi 1.

Aspectul esenţial în rezolvarea problemelor de probabilitate


care implică experimente cu rezultate stocastice = determinarea
numărului de rezultate posibile în S.

Dacă fiecare element (rezultat) din S este reprezentat de un


grup de obiecte (sau componente) cum ar fi
- oameni,
- litere ale alfabetului,
- numere întregi etc,
se poate stabili numărul total de elemente din S folosind metode
din analiza combinatorie.
Ele se deosebesc funcţie de faptul că ordinea componentelor
este sau nu este importantă.

Dacă se poate crea un nou element în S prin simpla rearanjare


a componentelor unui element deja existent în S,
atunci ordinea este importantă şi
fiecare element este numit o permutare de componente.

Numărul permutărilor posibile a n componente este


Pn = n ! (3.2)

Dacă spaţiul de selecţie într-un experiment conţine elemente


formate din grupul de litere a, b şi c, atunci S va avea 3!= 6
elemente şi anume S = {abc; bca; cab; acb; bac; cba}

14
Există şi permutări mai complexe cum ar fi :

- Permutări cu repetiţie a n componente (în care fiecare


componentă se poate repeta până la n ori), iar numărul variantelor
distincte este:
Pn = n n (3.3)

- Permutarea a n componente dintre care n1 sunt egale între


ele, n2 sunt egale între ele, ... nr sunt egale între ele şi unde
n1 + n2 + ... + nr = n . Numărul variantelor posibile este acum:
~ n!
Pn = (3.4)
n1 !n2 !... nr !
Dacă la exemplul de mai sus se ia n1 = 2 , rezultă

= 3 cu variantele S = {aac; aca; caa}.


~ 3!
P3 =
2!1!

Se numesc aranjamente a n obiecte luate câte k,


grupele de câte k obiecte în care acestea diferă prin ordine şi
compoziţie, posibil de format din cele n obiecte.
Numărul variantelor este:
= n(n − 1)...(n − k + 1)
n!
Ank =
(n − k )! (3.5)

Cu cele n = 3 litere a, b, c se pot realiza aranjamente


diferite a câte k = 2 litere
următoarele: S = {ab; ac; bc; ba; ca; cb} .

n
Evident An = Pn (deoarece prin definiţie o != 1 );
Ann−1 = Ann şi Ano = 1

15
Numărul aranjamentelor cu repetiţie a n obiecte luate câte
k este
Ank = n k (3.6)
şi în cazul celor n = 3 litere, luate câte k = 2 cu repetiţie
rezultă 3 2 = 9 variante
adică S = {aa; bb; cc; ab; ba; ac; ca; bc; cb }

Dacă prin rearanjarea componentelor unui element din S


nu se obţine un element considerat diferit,
atunci ordinea componentelor devine neimportantă,
iar ceea ce contează este selecţia (conţinutul) componentelor.

Un nou element al lui S se poate creia prin schimbarea a cel


puţin o componentă dintr-un element existent.

Se numesc combinări a n obiecte luate câte k,


grupele de câte k obiecte în care acestea diferă prin compoziţie,
posibil de format din cele n obiecte.
Numărul variantelor este:
n!
C nk =
k ! (n − k ) ! (3.7)
La exemplul de mai sus, grupele distincte de câte k = 2 litere
2
care se pot forma din cele n = 3 este C3 = 3
şi acestea sunt S = {ab; ac; bc}
În mod evident
Ank n(n − 1)... (n − k + 1)
C nk = = şi
k! k!
C 1n = n; C nn = C n0 = C 00 = 1; C nk = C nn−k .
Se mai notează prescurtat sub forma  k  .
n

16
Numărul combinărilor cu repetiţie a n obiecte luate câte k
este
C nk = C nk+ k −1

În exemplul cu cele n = 3 litere, luate câte k = 2 , cu repetiţie,


rezultă numărul de variante C32 = C 42 = 6
şi acestea sunt S = {aa; bb; cc; ab; ac; bc}

Exemplul 3.1.1
Dacă spaţiul de selecţie într-un experiment statistic
este format din elemente reprezentate, fiecare, de un grup format din
trei litere (a, b, c ) , dar cu posibilitatea de repetiţie a aceleiaşi litere
până la de trei ori într-un grup, să se precizeze conţinutul complet al
lui S.

Soluţie
Este vorba de permutări cu repetiţie a trei obiecte, iar numărul
acestora este dat de relaţia (3.3).
3
Rezultă P3 = 3 = 27 grupuri distincte, astfel încât conţinutul
complet al spaţiului de selecţie va fi:

aaa; bbb; ccc; aab; aba; baa; aac; aca; caa; 


 
S =  abb; bab; bba; cbb; bcb; bbc; cca; cac; acc; 
 ccb; cbc; bcc; abc; acb; bac; bca; cab; cba 
 

17
Exemplul 3.1.2

a) În câte moduri distincte se pot grupa 4 obiecte


dispuse liniar ?
b) Dar dacă dispunerea lor are loc în jurul unui cerc ?
Reprezentaţi grafic modurile de dispunere din acest caz.

Soluţie
a) Fie cele 4 obiecte literele a, b, c, d
La aşezarea lor în linie se pot forma permutări de 4 grupe
distincte adică P4 = 4!= 24 grupe .
Pentru a găsi cele 24 de variante cel mai simplu ar fi:
- Să se păstreze prima literă fixă şi să se permute celelalte 3 în
cele 3 != 6 moduri posibile. Rezultă linia de grupe:
abcd acdb adbc abdc acbd adcb
- Pe coloana fiecărei grupe din prima linie să se aducă în prima
poziţie a doua literă, apoi a treia şi în final a patra, mutând la coadă
pe cea din prima poziţie. Rezultă:
bcda cdba dbca bdca cbda dcba
cdab dbac bcad dcab bdac cbad
dabc bacd cadb cabd dacb badc

b) La aşezarea circulară a celor 4 obiecte,


unul aparţine grupării atât dintr-un sens de parcurgere, cât şi
din cel opus.
Astfel rămân doar 3 obiecte ce pot fi permutate în moduri
distincte, rezultând deci P3 = 3 != 6 variante distincte.
Aşa sunt, de exemplu, cele din prima linie de mai sus şi au
următoarea reprezentare grafică
b c d b c d

a c a d a b a d a b a c

d b c c d b

18
Exemplul 3.1.3
S-a constatat că din 100 de cititori ai presei cotidiene:
35 citesc ziarul Cotidianul (C); 49 citesc Evenimentul zilei (E); 32
citesc ziarul Adevărul (A); dar 11 citesc atât C cât şi E; 9 citesc C şi
A; 13 citesc E şi A, iar 5 le citesc pe toate trei. Alcătuiţi diagrama
Venn pentru datele de mai sus şi indicaţi în fiecare contur închis
format, care este numărul de realizări (aici cititori)

Soluţie

S-au notat evenimentele de a fi cititor al ziarelor Cotidianul,


Evenimentul zilei şi Adevărul prin literele C, E şi A. Din enunţ se
constată că există cititori şi a câte două sau chiar toate cele trei ziare.
Diagrama are în acest caz forma următoare

E
6 30
C
20
5
4 8

15
A

12

Diagrama Venn pentru Exemplul 3.1.3.


Numărul de cititori din fiecare contur închis se află ţinând seama de
datele problemei.
- Toate cele trei ziare: 5
- Cotidianul şi Evenimentul zilei: 11 − 5 = 6
- Cotidianul şi Adevărul: 9 − 5 = 4
- Evenimentul zilei şi Adevărul: 13 − 5 = 8
- Doar Cotidianul: 35 − 5 − 6 − 4 = 20
- Doar Evenimentul zilei: 49 − 5 − 6 − 8 = 30
- Doar Adevărul: 32 − 5 − 4 − 8 = 15

19
Însumând datele de mai sus rezultă că 88 dintre cei 100 cititori
cumpără cel puţin unul dintre cele trei ziare menţionate, în timp ce
restul de 12 preferă alte publicaţii sau niciuna.

Exemplul 3.1.4

a) Care este probabilitatea ca la aruncarea unei perechi de zaruri,


suma cifrelor de pe cele două feţe să fie egală cu 6 ?
b) Dar egală cu 11 ?
c) Care este suma cel mai probabil să apară într-o aruncare
oarecare ?

Soluţie
Numărul total de rezultate posibile este egal cu n = 6 × 6 = 36
(oricare latură a unui zar cu oricare latură a celuilat)
Suma punctelor de pe cele două feţe poate lua doar valorile:
S = {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12}
Dacă se contorizează suma punctelor de pe cele două feţe în cele
36 de variante posibile prezentate în tabelul 3.1.1, se constată că
evenimentele simple din spaţiul S. se realizează în câte un număr de
variante posibile ca în vectorul n A următor
n A = {1; 2; 3 4; 5; 6; 5; 4; 3; 2; 1}
Tabelul 3.1.1
Rezultate posibile la aruncarea a două zaruri
1,1 1,2 1,3 1,4 1,5 1,6
2,1 2,2 2,3 2,4 2,5 2,6
3,1 3,2 3,3 3,4 3,5 3,6
4,1 4,2 4,3 4,4 4,5 4,6
5,1 5,2 5,3 5,4 5,5 5,6
6,1 6,2 6,3 6,4 6,5 6,6

a) Conform definiţiei (3.1), având în vedere valoarea finită a lui


n din acest caz, probabilitatea de realizare a evenimentului ca suma
cifrelor de pe cele două feţe să fie 6 va fi:
n A5
P(e5 = {6}) =
5
⋅ 100 = ⋅ 100 = 13,89%
n 36

20
b) Probabilitatea ca suma cifrelor să rezulte 11 va fi:
n A10
P(e10 = {11}) =
2
⋅ 100 = ⋅ 100 = 5,56%
n 36
c) Deoarece numărul maxim din vectorul n A este 6 şi se
plasează la poziţia a 6-a rezultă că evenimentul simplu cel mai
probabil din S este e6 = {7} , şi are probabilitatea de apariţie
P(e6 ) =
6
⋅ 100 = 16,67%
36
________________________________________________________

Exemplul 3.1.5
Dacă la experimentul statistic din exemplul anterior
se admite ca variabilă observată numărul de pe zarul cel mai mare
sau numărul comun (la dublă), găsiţi probabilitatea ca rezultatul
(realizarea) să fie:
a) număr par (evenimentul compus A);
b) număr mai mare decât 4 (evenimentul compus B);
c) număr par sau mai mare decât 4 (evenimentul A U B );
d) număr par şi mai mare decât 4 (evenimentul A I B ).

Soluţie

a) Ştiind numărul total de variante de aruncare posibile n = 36


şi inspectând datele din tabelul 3.1.1 în acord cu definiţia variabilei
observate aici, se constată că evenimentul A (variabilă număr par) se
produce în 21 dintre variantele de aruncare posibile şi deci
P ( A) =
21
⋅ 100 = 58,33%
36

b) Evenimentul B (variabila cu realizare 〉 4 ) se produce în 20


dintre variantele posibile, deci P(B ) =
20
⋅ 100 = 55,56%
36

21
c) Evenimentul A U B (variabila cu realizare număr par sau
〉 4 ) apare în 30 dintre variante, astfel că

P( A U B ) =
30
⋅ 100 = 83,33%
36

d) Evenimentul A I B are doar 11 realizări posibile şi deci


P( A I B ) =
11
⋅ 100 = 30,56%
36

Exemplul 3.1.6
Estimaţi probabilitatea ca două persoane anumite
dintr-un grup de 10 persoane aşezate aleatoriu în jurul unei mese
rotunde, să se afle pe locuri învecinate.

Soluţie

S-a văzut în Ex. 3.1.2 că la dispunerea circulară a 4 obiecte,


există 3 ! variante de aranjare diferită.
Generalizând, rezultă că n obiecte se pot aşeza circular în
N = Pn−1 = (n − 1) ! variante diferite şi deci numărul total de variante
de aşezare în jurul mesei este N = 9 !
Excluzând cele două persoane anumite din grup, restul de 8
persoane se pot aşeza în permutări de 8 variante diferite adică
P8 = 8 ! (ca la aşezarea lineară, deoarece sunt separate de cele două
speciale).
Cele două persoane anumite pot fi plasate fie una în stânga şi a
doua în dreapta, fie invers (faţă de un sens oarecare ales), în oricare
dintre cele P8 = 8 ! variante de aşezare a celorlanţi.
Rezultă că numărul total de variante posibile cu două persoane
anumite aşezate pe locuri vecine este n = 2 ⋅ P8 = 2 ⋅ 8 !
Probabilitatea evenimentului considerat în problemă va fi deci:
n 2×8 !
P= 100 = 100 = 22,2%
N 9!

22
? ..Problema 3.1.1
Presupunând că nu se dispută nici o partidă, în câte moduri ar
putea să arate clasamentul unei competeţii la care s-au înscris 10
echipe?

? ..Problema 3.1.2
În câte moduri se pot ocupa poziţiile de preşedinte,
vicepreşedinte şi secretar în Biroul Executiv, format din 10 membri, al
unui partid politic ?

? ..Problema 3.1.3
Un grup de 5 copii este alcătuit din 2 gemeni identici şi respectiv
3 tripleţi identici. Câte aranjări diferite în formaţiune de câte 5 se pot
face cu grupul respectiv şi reprezentaţi-le grafic ?

? ..Problema 3.1.4
Ajunsă în faţa unui bancomat, o persoană mai în vârstă constată
că nu-şi mai aduce aminte din codul PIN de 4 cifre decât pe prima şi
faptul că toate cifrele diferă între ele. Care este probabilitatea ca din
primele 5 încercări să reuşească să-şi scoată banii necesari, dacă
tastează corect variante de cod posibile ?

23
3.2. Axiome fundamentale şi probabilităţi
condiţionate
S-a menţionat că probabilitatea unui eveniment A definit pe
spaţiul de selecţie S este:
0 ≤ P ( A) ≤ 1 (3.8)
şi s-a definit evenimentul sigur pentru care:
P(S ) = 1 , (3.9)
cu semnificaţia că la un experiment stocastic se obţine în mod cert
un rezultat oarecare din spaţiul de selecţie S al problemei

În multe situaţii practice se poate calcula probabilitatea unui


eveniment aplicând o serie de reguli asupra probabilităţilor
cunoscute ale altor evenimente.

Fie A şi B două evenimente cu probabilităţile P( A) şi P(B )


cunoscute sau uşor calculabile.

Evenimentul reuniune a celor două, adică A ∪ B are o


probabilitate calculabilă cu regula (sau axioma) aditivităţii,
şi formula:

P ( A U B ) = P ( A) + P (B ) − P ( A ∩ B ) (3.10)

unde P( A ∩ B ) este probabilitatea evenimentului intersecţie a lor

Dacă A şi B sunt mutual exclusive (incompatibile) - deoarece


A ∩ B = φ (evenimentul imposibil, de probabilitate P( A ∩ B ) = 0 ),
din (3.10) rămâne

P ( A U B ) = P ( A) + P (B ) (3.11)

24
Dacă B = A (complementul lui A în raport cu S),
deoarece A ∪ A = S şi A ∩ A = φ , iar P(S ) = 1 - v. (3.9), rezultă că:
()
1 = P ( A) + P A
sau ()
P A = 1 − P ( A) (3.12)

Evident, pentru un grup de evenimente mutual exclusive


A1 , A2 ,..., An , regula aditivităţii se generalizează sub forma:

P( A1 ∪ A2 ∪ ... ∪ An ) = P( A1 ) + P( A2 ) + ... + P( An ) (3.13)

Evenimentele A şi B se numesc independente dacă realizările


lor nu se influenţează.
În caz contrar este vorba de evenimente dependente.
_______________________________________________________

( )
Simbolul P B A defineşte probabilitatea de realizare a lui B
ştiind că evenimentul A deja s-a realizat.
Se numeşte probabilitate condiţionată (impune condiţia ca
A să fi apărut în prealabil) şi se defineşte prin:
P( A ∩ B )
P(B A) = dacă P( A) > 0 (3.14)
P ( A)
unde P( A ∩ B ) şi P( A) sunt calculate în raport cu S.

Dacă se obţine că P(B A) = P(B ) , rezultă că probabilitatea


apariţiei lui B nu este influenţată de realizarea lui A şi cele două
evenimente sunt independente, fiind adevărat şi P(A B ) = P( A) .

Definiţia (3.14) conduce la regula (axioma) multiplicativă

P( A ∩ B ) = P( A) ⋅ P(B A) (3.15)
utilizabilă pentru calculul probabilităţii evenimentului A intersectat
cu B.

25
Deoarece A ∩ B = B ∩ A , în locul lui (3.15) se poate scrie şi
P ( A ∩ B ) = P (B ∩ A) = P (B ) ⋅ P ( A B ) (3.16)

Dacă evenimentele sunt independente, adică P(B A) = P(B ) ,


rezultă:
P ( A ∩ B ) = P ( A) ⋅ P (B ) (3.17)

În multe cazuri practice există o ordine cronologică de apariţie


pe care o implică simbolul A ∩ B (în sensul că evenimentul care
apare primul - aici A- este cel care asigură condiţia ce trebuie
impusă înainte de a calcula orice probabilităţi ulterioare).

Generalizată la trei evenimente A1 , A2 , A3 regula (3.15) se


scrie:
P( A1 ∩ A2 ∩ A3 ) = P( A1 ) ⋅ P(A2 A1 ) ⋅ P( A3 A1 ∩ A2 ) (3.18)

iar dacă evenimentele sunt independente


P( A1 ∩ A2 ∩ A3 ) = P( A1 ) ⋅ P( A2 ) ⋅ P( A3 )
(3.19)
_______________________________________________________

Fie evenimentele B1 , B2 ,..., Bk formând o partiţie a spaţiului S


şi A un alt eveniment oarecare din S.
În acest caz, A poate fi scris ca o reuniune de evenimente
mutual exclusive B1 ∩ A , B2 ∩ A , ..., Bk ∩ A , sub forma:
A = (B1 ∩ A) ∪ (B2 ∩ A) ∪ ... ∪ (Bk ∩ A) (3.20)

Aplicând regula aditivităţii şi folosind (3.14), se ajunge la


teorema probabilităţii totale sau regula de eliminare:
P( A) = P(B1 ) ⋅ P( A B1 ) + P(B2 ) ⋅ P( A B2 ) + ... + P(Bk ) ⋅ P( A Bk ) =
k
= ∑ P(Bi ) ⋅ P( A Bi ) (3.21)
i =1

26
Teorema este utilă în special când trebuie evaluate
probabilităţile condiţionate P(Br A) , pentru r = 1,2,..., k .
Deoarece prin definiţie
P ( Br ∩ A )
P(Br A) =
P ( A)
folosind la numitor probabilitatea totală P( A) dată de (3.21) se obţine:
P ( Br ) ⋅ P ( A Br )
P(Br A) =
k , pentru r = 1,2,..., k (3.22)
∑ P(Bi ) ⋅ P(A Bi )
i =1
relaţie cunoscută sub numele de regula (formula) lui Bayes.

Exemplul 3.2.1
Reluând problema celor 100 cititori de presă din
Exemplul 3.1.3, să se găsească probabilitatea ca o persoană aleasă
aleator din acest grup:
a) Să nu citească nici unul dintre cele 3 ziare;
b) Să citească Cotidianul sau Evenimentul zilei
c) Să citească Adevărul, ştiind că ea citeşte Cotidianul;
d) Să citească Evenimentul zilei şi Adevărul, dar să nu citească
Cotidianul;
e) Să nu citească Cotidianul sau să nu citească Adevărul.

Soluţie
a) Revăzând datele, 88 persoane citesc cel puţin un ziar din cele
trei, iar 12 persoane din 100 citesc alte publicaţii.
Rezultă pentru punctul a) probabilitatea
P(a ) =
12
⋅ 100 = 12%
100
b) Cotidianul şi Evenimentul zilei sunt citite de 35+49=84
persoane, dar dintre ei 11 le citesc pe ambele şi nu pot face parte din
cei 84. Rezultă atunci
84 − 11
P(C ∪ E ) = ⋅ 100 = 73%
100

27
c) Cotidianul este citit de 35 persoane, iar 9 citesc şi Adevărul.
Rezultă probabilitatea condiţionată
P(A C ) =
9
⋅ 100 = 25,71%
35
d) Evenimentul zilei şi Adevărul sunt citite doar de 8 persoane.
Rezultă pentru punctul d) probabilitatea
P(d ) =
8
⋅ 100 = 8%
100
e) Deoarece 9 persoane din 100 citesc Cotidianul şi Adevărul,
probabilitatea de a nu citi Cotidianul sau a nu citi Adevărul va fi
100 − 9
P(e ) = ⋅ 100 = 91%
100
Altă rezolvare
Fie C şi A evenimentele de a nu citi Cotidianul şi respectiv
Adevărul. Având în vedere datele din enunţ
()
PC =
100 − 35 65
100
=
100
şi ()
PA =
100 − 32 68
100
=
100
Din regula aditivităţii se ştie că
( ) () () (
P(e ) = P C ∪ A = P C + P A − P C ∩ A = )
= P (C ) + P (A) − P (C )⋅ P (A C )
Probabilitatea condiţionată a evenimentului A , când se
cunoaşte că C a avut loc se estimează astfel:
- din 100 persoane sunt 65 care nu citesc C
- dintre cei 65 se ştie că 12 nu citesc nimic şi 30 citesc
Evenimentul zilei (restul citind A sau A+E)
( )
Rezultă atunci că P A C =
12 + 30 42
65
=
65
Înlocuind în relaţia de mai sus probabilităţile găsite, se obţine
(
P(e ) = P C ∪ A = )65
+
68

65 42 91
100 100 100 65 100
⋅ =

28
Exemplul 3.2.2

a) Estimaţi probabilitatea ca o mână de 5 cărţi primită din


servire la pocher să conţină cel mult 2 aşi.
b) Merită să-ţi imaginezi că vei avea cărţi de full cu 3 aşi din
prima mână ?

Soluţie
a) Notând cu
A evenimentul că mâna nu conţine nici un as, cu
B evenimentul că include un as şi cu
C evenimentul că s-au nimerit 2 aşi,
evenimentele respective sunt mutual exclusive, iar evenimentul de a
avea cel mult 2 aşi în mână este reprezentat de reuniunea A ∪ B ∪ C .

Cele 52 cărţi pot fi combinate în grupe de câte 5, într-un


număr total de N = C52 moduri distincte.
5

Presupunând evenimentul C şi
separând cei 4 aşi de restul cărţilor,
aceştia se pot extrage în grupe de câte doi în C 42 variante
distincte.
Din restul de 48 cărţi, celelalte 3 cărţi necesare unei mâini se
3
pot grupa în C 48 moduri diferite.
Rezultă că numărul total de variante ale evenimentului C este
nC = C 42 ⋅ C 48
3
, iar probabilitatea evenimentului C este, conform
definiţiei
2 3
nC C 4 ⋅ C 48
P(C ) =
N
=
5 şi rezultă P(C ) = 0,03993
C52
Raţionând în mod similar, numărul de variante posibile ale
1 4
unei mâini cu un singur as este n B = C 4 ⋅ C 48 ,
iar pentru evenimentul A (mână fară nici un as): n A = C 40 ⋅ C 48
5
.
Rezultă probabilităţile:

29
C 40 ⋅ C 48
5
C 14 ⋅ C 48
4
P ( A) = = 0,65884 P (B ) = = 0,29947
5 5
C52 C52
Deoarece în cazul evenimentelor mutual exclusive
P( A ∪ B ∪ .C ) = P( A) + P(B ) + P(C ) ,
rezultă că probabilitatea de a primi o mână cu cel mult 2 aşi este:
P( A ∪ B ∪ .C ) = 0,65884 + 0,29947 + 0,03993 = 0,99824

b)Fără un calcul sofisticat şi ignorând faptul că celelalte 2 cărţi


se potrivesc sau nu, dacă şansa de a avea cel mult 2 aşi în prima
mână este de 99,824%, rezultă că şansa de a avea din servire 3 aşi nu
poate depăşi 0,176%, adică sub 2 la 1000.
Deci, dacă eşti un tip cu profil ezitant, normal sau riscant
ponderat, nu-ţi faci iluzia de a avea 3 cărţi de aceeaşi valoare din
prima! (raţionamentul fiind valabil pentru orice carte!)

Exemplul 3.2.3
Pentru un jucător la 6 din 49 există 12 numere
speciale distincte (vârsta lui, numărul de la pantofi, data zilei de
naştere a copilului, etc.) din care compune variante de joc. Care este
probabilitatea ca la o extragere aleatoare, aceasta să conţină:
a) Două numere speciale pentru jucător ?
b) Dar cinci numere speciale ?

Soluţie
6
La extragerea 6 din 49 există evident N = C 49 variante distincte
echiprobabile.
6 49!
Deoarece C 49 = = 13 983 816 , rezultă că probabilitatea de
6! 43!
extragere a unei anumite variante este de 1 la aproape 14 milioane.
Notând
cu n = 49 numărul de bile din aparat,
cu t = 6 talia extragerii,
cu s = 12 numărul de bile speciale pentru jucător şi
cu d – numărul de bile speciale aflate printre cele t extrase,

30
numărul de variante de extragere a d bile speciale este egal cu
C sd înmulţit cu C n − s , unde d ≤ min (s, t ) ,
t −d

adică
numărul de variante de combinare a celor s speciale în grupe
de câte d dorite,
înmulţit cu numărul de variante de combinare a celor
nespeciale din total (n − s ) , în grupe de câte se acceptă nespeciale
dintre cele extrase (t − d ) .

a) Dacă se doresc d = 2 numere speciale, acestea pot apărea în


2 4 12! 37!
na = C12 ⋅ C37 variante distincte şi na = . = 4 358 970
2!10! 4!33!
Probabilitatea apariţiei a 2 numere speciale va fi
na
P(a ) =
4 358 970
= = 0,312
N 13 983 816

b) Dacă se doresc d = 5 numere speciale, acestea pot apărea în


5 1 12!
nb = C12 ⋅ C37 variante distincte şi b
n = ⋅ 37 = 29 304
5!7!
Probabilitatea apariţiei a 5 numere speciale rezultă
n
P(b ) = b = 0,002
N

Exemplul 3.2.4
Serviciul de control a calităţii a constatat statistic, în
timp, că trei muncitori A, B şi C sunt capabili să realizeze câte 100
piese simple de un anumit tip într-o oră, dar cu câte 1, 2 şi respectiv
4 rebuturi la suta de piese.
Într-o anumită oră de lucru, A a produs 95 piese, B a produs 103
piese şi C doar 92 piese.
Alegând la întâmplare una dintre piesele produse în ora
respectivă şi observând că este defectă, care sunt probabilităţile ca ea
să fie realizată de A, B şi respectiv C ?

31
Soluţie

În ora considerată s-au produs N = 95+103+92=290 piese.

Probabilităţile ca piesa defectă să fie realizată de A, B, C sunt:


P ( A) = P(C ) =
95 92
P (B ) =
103
= 0,328 = 0,355 = 0,317
290 290 290

Totuşi, din statistica anterioară se cunoaşte că muncitorul C are


o rată mai mare de rebuturi.
Notând cu R evenimentul că piesa este rebut, se cunosc
probabilităţile condiţionate de a genera rebuturi de către cei trei sub
forma:
P(R A) = 0,01 P(R B ) = 0,02 P(R C ) = 0,04

Probabilitatea totală a evenimentului R este, conform (3.21):


P(R ) = P( A) ⋅ P(R A) + P(B ) ⋅ P(R B ) + P(C ) ⋅ P(R C ) =
= 0,328 ⋅ 0,01 + 0,355 ⋅ 0,02 + 0,317 ⋅ 0,04 = 0,02306

Folosind regula lui Bayes (3.22),


probabilitatea condiţionată ca muncitorul A să fi produs
rebutul când el s-a realizat este:
P( A) ⋅ P(R A) 0,328 ⋅ 0,01
P(A R ) = = = 0,14
P (R ) 0,02306

0,314 ⋅ 0,04
= 0,31 şi P(C R ) =
0,355 ⋅ 0,02
La fel, P(B R ) = = 0 ,55
0,02306 0,02306

Mai sus P( A) , P(B ) , P(C ) sunt probabilităţile iniţiale, iar


probabilităţile condiţionate de forma P( A R ) se numesc probabilităţi
actualizate (la calculul lor se folosesc informaţii suplimentare)
După probabilităţile iniţiale, cel mai probabil rebutul a fost
produs de B şi cel mai puţin probabil de C.

32
Ţinând seama de randamentele lor anterioare, probabilităţile
actualizate îl indică de departe pe C ca posibil autor (55% şansă) şi
pe A cel mai improbabil (14% şansă).

? ..Problema 3.2.1
Verificaţi regula aditivităţii pe datele problemei din Exemplul
3.1.5 şi aflaţi probabilitatea evenimentului număr par ştiind că este
mai mare decât 4.
? ..Problema 3.2.2
La revenirea din vacantă, 100 de studenţi aleşi aleatoriu din cei
1750 studenţi ai facultăţii, au fost chestionaţi în legătură cu excursiile
în care şi-au petrecut săptămânile de vacanţă. Dintre aceştia 55 au
declarat câte o săptămână pe litoral (L), 30 – câte o săptămână la
munte (M) şi 24 – câte o săptămână în străinătate (S). 17 studenţi au
declarat vacanţe de câte 2 săptămâni şi anume: 6 la munte şi pe litoral;
7 la munte şi în străinătate şi 4 în străinătate şi pe litoral; iar 5 au
petrecut 3 săptămâni, câte una la munte, în străinătate şi pe litoral.
Folosiţi diagrama Venn pentru a afla:
a) Procentul celor care n-au declarat nici o destinaţie de vacanţă;
b) Procentul celor care au fost pe litoral sau la munte;
c) Procentul celor care au fost sau pe litoral sau în străinătate
sau la munte;
d) Procentul celor care au fost în străinătate ştiind că au fost şi
pe litoral;
e) Estimaţi numărul de studenţi din facultate care îndeplinesc
condiţiile de la punctele a) la d);
f) Dacă vacanţa efectivă are 6 săptămâni, ce procent din
perioada de vacanţă au petrecut cei 1750 studenţi în excursii la munte,
pe litoral sau în străinătate ?
? ..Problema 3.2.3
Dintr-un lot de 100 becuri verificate la stand s-au depistat 5
defecte însă din greşeală au plecat toate la împachetat. Ştiind că se
alcătuiesc baxuri având câte 10 becuri ambalate, care este
probabilitatea ca un bax ales aleator să conţină:
a) Un bec defect;
b) 3 becuri defecte;
c) Toate cele 5 becuri defecte ?

33
Distribuţii de variabile aleatoare

Se prezintă aspecte referitoare la descrierea numerică a


realizărilor unui experiment statistic.

Variabila aleatoare este o funcţie definită pe S şi a cărei


valoare este un număr real aflat în legătură (asociat) cu fiecare
element al spaţiului de selecţie S.

Prin litere mari (de exemplu X) se denumesc variabile


aleatoare,
iar literele mici corespunzătoare (aici x) vor fi utilizate pentru
a defini una din valorile variabilei aleatoare.

S-a văzut că o V.A. definită pe un spaţiu de eşantionare discret


(numerabil) este o V.A. discretă,
iar dacă S este continuu (nenumerabil) V.A. este continuă.

În general V.A. discrete reprezintă date numărate


(contorizate), pe când V.A. continue corespund la date măsurate.

S-a constatat că se poate determina probabilitatea ca o V.A


discretă să ia una sau mai multe valori (realizări) din S.

Notând cu xi ( xi ∈ S ) o astfel de valoare şi probabilitatea


asociată valorii xi luate de V.A. X cu p(xi ) = P( X = xi ) ,
tabloul sau formula care listează toate realizările pe care V.A
discretă le poate lua, împreună cu probabilităţile acestor valori se
numeşte distribuţie discretă de probabilitate şi V.A X se
reprezintă simbolic prin
 x x2 ... xn ... 
X :  1 
 p( x1 ) p( x 2 ) ... p( x n ) ... 
(3.23)

34
Când valorile p ( xi ) se definesc prin intermediul unei funcţii,
se utilizează şi noţiunea de lege de probabilitate a V.A X.

Astfel de legi se pot deduce pe baza proprietăţilor


probabilităţilor asociate tipului de experiment statistic efectuat şi a
naturii V.A considerate.

Exemplu
Fie experimentul statistic lansarea unui zar cinstit,
cu spaţiul de selecţie discret S = {1;2;3;4;5;6}.

Dacă V.A este definită ca numărul de lansări necesare pentru


a obţine orice valoare întreagă din intervalul [1;6] , atunci tabloul
asociat acestei V.A discrete este
1 2 3 4 5 6
X :1 1 1 1 1 1
 
6 6 6 6 6 6
şi distribuţia se numeşte uniformă.

Dacă însă V.A este definită ca numărul de lansări necesare


pentru a obţine o anumită cifră (să spunem 5),
spaţiul de selecţie pentru această V.A X este numerabil, dar
infinit, adică S X = {1,2,3,..., k ,...} unde k este ordinul lansării.
Se pune problema calculării probabilităţilor ca din prima
aruncare P( X = 1) , din a doua aruncare P( X = 2) etc. să rezulte
zarul dorit.
Notând cu A evenimentul elementar că zarul aruncat indică 5,
este uşor de sesizat că:
- La prima aruncare, probabilitatea de a rezulta 5 este
p (1) = P( X = 1) =
1
6
iar a evenimentului complementar lui A în raport cu S este
() 1 5
P A = 1− =
6 6

35
- Dacă prima aruncare a fost un eşec şi este nevoie de a doua -
probabilitatea de a rezulta 5 rămâne 1 (aruncările fiind
6
experimente independente),
iar probabilitatea de reuşită acum se obţine aplicând regula
multiplicativă (3.17) asupra probabilităţii curente  1  şi a celei de
6
eşec la anterioara lansare, adică
p(2 ) = P( X = 2 ) =
5 1

6 6
- Cu nereuşită la a doua încercare (de probabilitate P (A) = )
5
6
probabilitatea de succes la a treia va fi
2
5 5 1 5 1
p(3) = P( X = 3) = ⋅ ⋅ =   ⋅
6 6 6 6 6
- Generalizând pentru încercarea k rezultă
k −1
5
p(k ) = P( X = k ) =   ⋅
1
6 6
iar tabloul V.A X definită în acest fel va fi
1 2 3 ... k ... 
 k −1 
X :1 5 52 5
 ... ... 
6 62 63 6k 

Distribuţia de probabilitate de mai sus este un caz particular al


legii de probabilitate numită geometrică, conform căreia, dacă
probabilitatea de realizare a evenimentului A într-un experiment
este q, atunci probabilitatea ca el să se obţină în k experimente
identice şi independente este dată de relaţia:
p(k ) = P( X = k ) = q ⋅ (1 − q )k
− 1

(3.24)

36
Suma probabilităţilor p(xi ) dintr-un tablou ca (3.23) trebuie să
fie egală cu 1, (semnificând că V.A X ia cu certitudine o valoare
oarecare xi din S la realizarea unui experiment statistic dedicat).

Se defineşte funcţia de repartiţie a V.A X şi se notează


( )
FX x * ,
o funcţie luând valori numere reale pe intervalul [0;1] dată de:
( ) (
FX x * = P e ∈ S , X (e ) ≤ x * ) (3.25)
adică prin probabilitatea ca unui eveniment elementar e din S să-i
corespundă pentru V.A X o valoare cel mult egală cu valoarea
specificată x .
*

În general, funcţie şi de natura V.A X,

x* →∞
( )
lim F X x * = 1 şi lim F X x * = 0
x* → − ∞
( ) (3.26)

Pentru două valori x * precizate din S, fie acestea a şi b, este


valabilă relaţia:
FX (b ) − FX (a ) = P(e ∈ S , a < X (e ) ≤ b ) (3.27)
adică probabilitatea ca V.A X să ia valori între a şi b este egală cu
diferenţa valorilor funcţiei de repartiţie, evaluate în b şi respectiv a.

Reprezentarea grafică a distribuţiei de probabilitate discretă se


poate face prin histograma de probabilitate.
Valorile V.A X din S se reprezintă pe abscisă, alocând câte o
unitate de lăţime centrată în jurul fiecărei date din S,
iar probabilităţile asociate se reprezintă pe ordonată,
proporţional cu mărimea lor.
Rezultă un grafic conţinând o succesiune de bastonaşe
dreptunghiulare a căror suprafaţă însumată va fi egală cu 1 (dacă
baza lor se ia unitară, iar înălţimea – ca fracţie din 1).

37
În cazul distribuţiei geometrice (3.24) cu q = 0,4, primele
5 probabilităţi asociate valorilor X = 1; 2; ...; 5 sunt p = 0,4; 0,24;
0,144; 0,0864 şi 0,0518, iar histograma are alura din Fig. 3.2.
p(x )

0,4

0,3

0,2

0,1

x
0 1 2 3 4 5

Fig.3.2. Histogramă de probabilitate pentru legea geometrică (3.24) cu q = 0,4

În cazul V.A continuă definită pe un spaţiu de selecţie


continuu, cu număr infinit de valori, probabilitatea ca o astfel de
V.A să ia exact una din aceste valori este zero.
Din această cauză, o reprezentare tabelară a distribuţiei de
probabilitate este imposibilă.

Totuşi, pentru o V.A continuă, legea de probabilitate a ei se


poate defini printr-o
funcţie numită de densitate de probabilitate notată
f ( x ) şi atunci
P( X ∈ dx ) = f (x )dx (3.28)
redă probabilitatea ca V.A X să ia o valoare din intervalul dx în
jurul lui x de interes.

Această cantitate se numeşte probabilitatea elementară şi


este echivalentă cu probabilitatea p ( x ) pentru o V.A. discretă.

38
Funcţia f (x ) poate avea alura din Fig. 3.3, cu proprietăţile că:
i) suprafaţa dintre graficul ei şi axa absciselor este egală cu 1;
ii) suprafaţa dintre graficul ei, axa absciselor şi verticalele
ridicate prin două puncte x = a şi x = b redă probabilitatea ca
V.A. X să ia valori din acest interval, adică:
b
P(a < X ≤ b ) = ∫ f (x )dx (3.29)
a

f (x )

dx

f ( x )dx

Fig.3.3. Graficul funcţiei de densitate de probabilitate pentru o V.A. continuă

În cazul V.A. discrete, funcţia de repartiţie corespunzătoare


unei valori x specificate se calculează cu:
*

( )
x*
FX x * = ∑ p(x ) (3.30)
−∞

iar pentru V.A. continuă, cu relaţia:

( )
x*
FX x* = ∫ f (x )dx (3.31)
−∞
şi în plus:
( )
f x =
* dFX x * ( ) (3.32)
dx

39
Având în vedere relaţia (3.31), în loc de (3.29) se poate scrie:

P(a < X ≤ b ) = FX (b ) − FX (a ) (3.33)

Funcţia de repartiţie (3.31) are o alură continuă, cu


variaţia între 0 şi 1.

Caracteristici ale variabilei aleatoare

Reamintesc despre notaţii


pentru caracteristicile descriptive ale unui eşantion de date
înregistrate - litere latine.
pentru caracteristicile V.A. definită pe un spaţiu de selecţie S şi
formând o populaţie - litere greceşti,

Dacă aceste caracteristici se estimează doar pe baza unui


eşantion din S - se vor nota cu litere greceşti indexate prin accent
circonflex sau prin asterix ( µ̂ sau µ * de exemplu).

În cazul V.A. X, media numită şi speranţă matematică se


notează cu µ X sau E ( X ) .

Dacă V.A. X este discretă, atunci media rezultă cu:


µ X = ∑ p( xi )xi (3.34)
S
iar pentru V.A. continuă cu
µX = ∫ f (x ).x.dx (3.35)
S
Cu c o constantă, la translatarea şi respectiv scalarea lui X
prin c rezultă
E ( X + c ) = c + µ X şi respectiv E (cX ) = cµ X .

40
Semnificaţia speranţei matematice (sau a valorii aşteptate a
V.A.) = valoare medie a V.A. X rezultată din experimente repetate
indefinit, care generază valori pentru X.

Asemănător, varianţa V.A. X se defineşte în cazul discret


prin:
σ 2X = ∑ p( xi )( xi − µ X )
2
(3.36)
S
şi respectiv, în cazul continuu prin relaţia:
[ ]
σ 2X = E ( X − µ X )2 = ∫ ( x − µ X )2 f ( x )dx (3.37)
S

Pentru o V.A. X, momentul de ordin r în raport cu


originea este:
M Xr = ∑ p( xi )xir sau M Xr = ∫ x r f ( x )dx (3.38)
S S

iar momentul centrat de ordin r:

µ Xr = ∑ p( xi )( xi − µ X )r sau µ Xr = ∫ ( x − µ X ) f ( x )dx
r
(3.39)
S S

În cazul unei V.A. X, pentru simplificare


- media se va nota prin µ
- varianţa prin σ ,
2

- iar momentele prin M r şi µ r .

Se observă că µ = M 1 iar σ = µ 2 , pe când µ1 este 0.


2

Legăturile între momentele centrate şi cele faţă de origine au


aceeaşi formă ca relaţiile (2.32), cu diferenţa că aici se referă la o
populaţie, iar M r se determină folosind (3.38).

41
Coeficienţii de variaţie, asimetrie şi aplatisare ai
V.A. X se definesc prin intermediul momentelor, cu relaţiile:
σ µ3 µ4
µ; şi
σ3 σ4

Considerând o distribuţie discretă de probabilitate pentru


V.A. X de forma simbolică (3.23)
şi admiţând că valorile v( xi ) pentru i = 1,2,K , n,K sunt
valorile unei noi variabile aleatoare discrete v( X ) care
depinde de X, atunci

speranţa matematică (media) ei este dată de:


E [v( X )] = µ v ( X ) = ∑ v( xi ) p( xi ) (3.40)
S
iar varianţa acesteia rezultă cu:
[ ]
σ 2 v( X ) = ∑ v(xi ) − µ v( X ) 2 p(xi ) (3.41)
S

Dacă v( X ) are forma simplă v( X ) = aX + b , cu a şi b


constante (deci scalare însoţită de translatare),
iar µ X şi σ X sunt media şi varianţa V.A. X continuă sau
2

discretă,
atunci se pot utiliza următoarele relaţii de calcul:
µ aX +b = aµ X + b ; µ aX = aµ X

σ 2X +b = σ 2X ; σ 2aX +b = a 2 σ 2X (3.42)

42
Cazul variabilelor aleatoare multiple

Foarte frecvent apar situaţii în care procesul, fenomenul etc.


analizat are o realizare (variabilă aleatoare) a cărei valoare
depinde de mai multe variabile aleatoare.

-------------------------------------------------------------------------------
Exemple

1. valoarea debitului maxim înregistrat la închiderea unui


bazin hidrografic în urma unei ploi este o variabilă aleatoare
care este influenţată de valorile luate de alte variabile
aleatoare cum ar fi: intensitatea ploii, cantitatea de precipitaţii,
starea anterioară de umiditate a solului, temperatura apei ploii (în
legătură cu viteza de infiltraţie) ş.a.m.d.

2. cedarea sau nu a piesei realizată dintr-un anumit material


depinde de
solicitarea la care este supusă la un moment dat, de rezistenţa
materialului la acest tip de solicitare, de gradul de oboseală anterior
solicitării curente ş.a.m.d., toate acestea putând fi admise ca
variabile aleatoare într-un experiment.
---------------------------------------------------------------------------------

Rezumându-ne doar la două V.A. notate X şi Y şi considerând


cazul discret,
se numeşte distribuţie de probabilitate legată (sau
comună) - un tablou sau o formulă care listează
- toate valorile posibile xi şi y j ale variabilelor X şi Y,
- împreună cu probabilităţile asociate f (xi , y j ) .

Aici f (xi , y j ) reprezintă probabilitatea ca X = xi şi simultan


Y = y j , pentru i şi j = 1,2, K , n , unde n este numărul de realizări
discrete ale V.A. care depinde de X şi Y.

43
Dacă se însumează pentru toate valorile lui Y la valori fixe ale
lui X, rezultă distribuţia discretă de probabilitate doar a lui X, cu
valorile notate prin g ( xi ) .
Invers, dacă se însumează pentru toate valorile lui X la valori
fixe ale lui Y, rezultă distribuţia discretă de probabilitate doar a lui
Y, având valorile notate prin h( y j ) .

Cele două funcţii cu valorile g ( xi ) şi h( y j ) se numesc


distribuţii marginale ale lui X şi respectiv Y.
----------------------------------------------------------------------------
( )
Funcţia notată f y x şi definită prin:
f ( x, y )
f (y x) =
g (x ) (3.43)
pentru o valoare fixă a lui x, este o funcţie doar de y şi reprezintă
probabilitatea condiţionată ca Y să ia valoarea y, ştiind că X = x .
Are toate proprietăţile unei distribuţii discrete de probabilitate
dacă X şi Y sunt variabile aleatoare discrete şi se numeşte
distribuţie condiţionată a V.A. Y, fiind cunoscut că X = x

( )
În mod asemănător, funcţia f x y = f ( x, y ) h( y ) este o
funcţie doar de x şi se numeşte distribuţie condiţionată a V.A. X
ştiind că Y = y .

Cele două funcţii sunt definite doar dacă g ( x ) şi respectiv


h( y ) sunt mai mari decât 0.
----------------------------------------------------------------------------------

44
Fie X şi Y două V.A. discrete sau continue şi distribuţia lor
comună f (x, y ) , iar distribuţiile marginale g (x ) şi respectiv h( y ) .

Se spune că V.A. X şi Y sunt statistic independente


dacă şi numai dacă
f ( x, y ) = g (x )h( y ) (3.44)
pentru toate valorile lui X şi Y.

Dacă se poate găsi cel puţin o combinaţie de valori pentru care


f ( x, y ) ≠ g ( x )h( y ) ,
atunci V.A. X şi Y nu sunt independente statistic.

În cazul a două V.A. X şi Y, se numeşte covarianţă şi se


notează prin Cov( X , Y ) sau σ XY expresia:
σ XY = E [( X − µ X )(Y − µ Y )] (3.45)

Pentru un eşantion de câte N perechi de valori xi , yi , ( )


i = 1,2,K , N observate simultan asupra variabilelor X şi Y,
covarianţa este dată de:
1 N
N i =1
( )( 1 N
)
s XY = ∑ xi − x yi − y = ∑ xi yi − x y
N i =1 (3.46)

şi reprezintă o măsură a dependenţei lineare între cele două


variabile X şi Y.

Dacă s XY este nulă (sau cvasinulă), atunci nu există o relaţie de


legătură de tip linear între X şi Y şi se spune că acestea sunt V.A.
linear independente.
Totuşi independenţa lineară nu exclude posibilitatea unui tip
nelinear de relaţie între variabilele respective, chiar dacă s XY are
valori neglijabile.

45
Expresia normalizată a lui s XY se numeşte coeficient de
corelaţie lineară şi este dat de
s
rXY = XY (3.47)
s X sY
adică raportul covarianţei la produsul abaterilor standard ale celor
două variabile observate.

Deoarece rXY ≤ 1 , rezultă că s XY ≤ s X .sY .

Atât s XY cât şi rXY sunt simetrice faţă de ordinea variabilelor


adică (s XY = sYX ) .

Covarianţa nu se modifică la translaţii de forma X+a, Y+b, dar


prin scalări de tipul aX, bY se obţine Cov(aX, bY)=a b s XY .

Coeficientul de corelaţie lineară rămâne invariant atât la


translaţie, cât şi la scalare.

Revenind la cazul populaţiilor de V.A. multiple,


dacă V.A. Z unde Z=aX+bY+c este exprimată ca o combinaţie
lineară a celor două V.A. X şi Y prin intemediul constantelor a, b şi
c,
atunci media şi varianţa lui Z sunt date de relaţiile:
µ Z = a.µ X + b.µY + c
σ 2Z = a 2 .σ 2X + b 2 .σY2 + 2.a.b.σ XY (3.48)

Pentru a = 1, c = 0 şi b = ±1 , adică Z = X ± Y , rezultă


µ Z = µ X ± µ Y ;.σ 2Z = σ 2X + σY2 ± 2.σ XY (3.49)

iar dacă X şi Y sunt linear independente σ XY = 0 şi ultimul termen


din σ Z2 dispare.

46
Dacă V.A. Z este dată de produsul a două V.A. X şi Y adică
Z=XY, media lui Z rezultă
µ Z = µ X .µ Y + σ XY (3.50)

iar dacă X şi Y sunt V.A. independente statistic, atunci varianţa lui


Z este dată de
σ 2Z = σ 2X .σY2 + µ 2X .σY2 + µY2 .σ 2X (3.51)

În cazul unei V.A. care este funcţie mai complicată de alte V.A.,
sub forma generală Z=φ(X,Y,…),
nu se pot găsi relaţii exacte pentru µ Z şi σ 2Z ca mai sus.
Se folosesc diverse metode aproximative:
- linearizarea prin dezvoltare în serie Taylor cu păstrarea
primilor termeni şi prelucrarea lor sau
- metoda Rosenblueth bazată pe discretizarea funcţiilor de
densitate în distribuţii discrete echivalente.

Exemplul 3.3.1
În cadrul unui team-building organizat de o firmă
pentru noii angajaţi, trebuie alcătuit aleator un echipaj de 5 persoane
pentru coborârea cu barca pe un curs de apă, dintr-un lot de 4 bărbaţi
şi 6 femei încă nerepartizaţi. Dacă variabila aleatoare discretă X este
definită prin numărul de bărbaţi din echipaj, să se găsească:
a) Distribuţia de probabilitate a lui X;
b) O relaţie de calcul pentru distribuţia de probabilitate a V.A.
discretă X;
c) Să se reprezinte grafic histograma de probabilitate pentru
distribuţia lui X

47
Solutie
a) V.A. discretă poate lua doar valorile 0; 1; 2; 3; 4, în timp ce
spaţiul de selecţie pentru un echipaj de 5 persoane, posibil de format
5
dintr-un lot de 4+6=10, conţine N = C10 = 252 realizări distincte.
0 5
Există C 4 C 6 = 6 variante distincte de formare a echipajului de
5 persoane doar dintre cele 6 femei. Deci probabilitatea formării
unui echipaj fără bărbaţi este
C 40 C 65 6 3
P( X = 0) = = =
N 252 126
În mod similar, numărul de variante cu un singur bărbat în
1 4 60 30
echipaj este C 4 C 6 = 60 şi P( X = 1) = = .
252 126
C 42 C 63 120 60
Pentru X=2 rezultă P( X = 2) = = = .
N 252 126
C 43C 62 30
Pentru X=3 rezultă P( X = 3) = = .
N 126
3
Pentru X=4 rezultă P( X = 4) = .
126
Distribuţia de probabilitate a V.A. X va fi
xi 0 1 2 3 4
p(x i 3 30 60 30 3
) 126 126 126 126 126

b)În general există C 4x variante de a alege x bărbaţi din 4


şi C 65− x variante de a alege 5-x femei din cele 6
pentru a forma un echipaj de 5 persoane.
x 5− x
Rezultă deci C 4 C 6 variante posibile de a alege x bărbaţi şi
5-x femei pentru echipaj.

48
Atunci formula pentru distribuţia de probabilitate a lui X
va fi
C 4x C 65− x
p( x) = ,
5
C10
cu x= 0, 1, 2, 3, 4 sau - mai detaliat -
480
p( x) =
7(5 − x)!(4 − x)!( x!) 2 , cu x= 0,1,…4.

c) Histograma de probabilitate are valorile


p( xi ) = 0,024; 0,238; 0,476; 0,238 şi 0,024,
centrate pe valorile xi =0, 1, 2, 3, 4 ca în figură.

Se constată că rezultă o distribuţie simetrică a V.A. X.


p(x)
0,5

0,4

0,3

0,2

0,1

x
0
0 1 2 3 5
Histograma de probabilitate pentru Exemplul 3.3.1

49
Exemplul 3.3.2
Ştiind că o V.A. continuă X, poate lua valori pe
intervalul x ∈ [2;6] şi are funcţia de densitate de probabilitate
f ( x ) = 0,075.x − 0,05
a) Să se arate că P(2 < x < 6) = 1 .
b) Să se găsească P(x < 5) .
c) Să se găsească P(3 < x < 5) .
d) Să se găsească P(x = 5) .

Soluţie
a) Graficul funcţiei de densitate f ( x ) pe domeniul lui x este
reprezentat în figura următoare.

f(x)
0,5

0,4

0,3
f(x)

0,2

0,1

x
0
1 2 3 4 5 6

Suprafaţa cuprinsă între graficul lui f ( x ) , axa absciselor şi


verticalele ridicate prin extremităţile intervalului de definiţie x1 = 2
şi respectiv x 2 = 6 este un trapez având aria

Aa =
[ f ( x1 ) + f ( x2 )]( x2 − x1 ) = [ f (2) + f (6)](6 − 2) = (0.1 + 0.4)4 = 1.
2 2 2
Deci într-adevăr probabilitatea ca V.A. X definită prin f ( x ) să
ia orice valoare din x ∈ [2;6] este 100%.

50
b) P(x < 5) corespunde trapezului haşurat spre dreapta, de arie
Ab =
[ f (2) + f (5)](5 − 2) = (0.1 + 0.325) ⋅ 3 = 0.6375
2 2
deci P( x < 5) =63.75%.

c) P(3 < x < 5) corespunde trapezului haşurat dublu, de arie


Ac =
[ f (3) + f (5)](5 − 3) = (0.175 + 0.325) ⋅ 2 = 0.5
2 2
deci P(3 < x < 5) =50%.

d) Deoarece este vorba de o V.A. continuă, P( x = 5) =0.

Exemplul 3.3.3
Într-un recipient sunt amestecate 9 piese
asemănătoare dintre care 4 sunt perfecte (B); 3 au mici defecţiuni
reparabile (R) şi 2 sunt rebuturi (D). Din recipient se extrag 3 piese
fără reinserţie.
Se notează prin X variabila aleatoare reprezentând numărul
de piese defecte (D) extrase şi cu Y variabila aleatoare reprezentând
numărul de piese reparabile (R) extrase.
a) Să se găsească distribuţia de probabilitate comună (legată) a
lui X şi Y.
b) Să se găsească probabilitatea P[( X , Y ) ∈ A] , unde A este o
zonă din spaţiul de selecţie astfel încât {(x, y )! x + y ≤ 2}
c) Să se găsească distribuţiile marginale pentru X şi Y.
d) Să se găsească distribuţia condiţionată f ( y ¦ 2 ) pentru toate
valorile lui y, precum şi P(Y = 1 X = 2 ) .
e) Să se determine dacă V.A. X şi Y sunt statistic independente.
f) Să se găsească media V.A. Z definită prin Z=XY.

51
Soluţie

a) Valorile discrete posibile pentru V.A. X (piese D) la o


extragere de 3 piese sunt x = 0, 1, 2 .
Valorile discrete posibile pentru V.A. Y (piese R) la extragerea
de 3 piese sunt y=0; 1; 2; 3.
Rezultă combinaţiile posibile de valori ( x, y ) următoare
(0,0); (0,1); (0,2); (0,3); (1,0); (1,1); (1,2); (2,0) şi (2,1),
care conţin cel mult 3 piese extrase.
Dacă f (1,2 ) reprezintă probabilitatea de a se extrage o piesă D
şi 2 piese R, atunci
- numărul de variante de a extrage o piesă D din 2 existente este
C 12 = 2
- numărul de variante de a extrage 2 piese R din 3 existente este
C32 = 3
1 2
apărând C 2 C3 = 2 ⋅ 3 = 6 variante distincte de a extrage o piesă D şi
2 piese R.
Numărul total de variante echiprobabile de a extrage 3 piese din
3
recipientul cu 9 este C9 = 84 .

Rezultă că f (1,2) =
6
.
84
Procedând în mod similar pentru a afla probabilităţile celorlalte
combinaţii ( x, y ) posibile, se găsesc datele din matricea
distribuţiei de probabilitate comună prezentată mai jos:
Probabilităţi f (xi , y j )
xi
yj 0 1 2 ∑ pe linii
0 4/84 12/84 4/84 20/84
1 18/84 24/84 3/84 45/84
2 12/84 6/84 - 18/84
3 1/84 - - 1/84
∑ pe 35/84 42/84 7/84 1
coloane

52
Expresia analitică pentru această distribuţie se scrie
y 3−( x + y )
C 2x C 3 C 4
f ( x, y ) = ,
C 93
pentru x=0,1,2; y=0,1,2,3 şi 0 ≤ x + y ≤ 3

în care ultimul termen de la numărător reprezintă numărul de


variante de extragere posibile a (3 − x − y ) piese B din 4, dacă
selecţia conţine x piese D şi y piese R.

b) Se constată că perechile (x, y ) care îndeplinesc condiţia


x + y ≤ 2 sunt (0,0); (0,1); (0,2); (1,0); (1,1) şi (2,0).
Însumând probabilităţile f ( xi , y j ) corespunzătoare conform
tabelului anterior, se obţine
P[( X , Y ) ∈ A] = P( X + Y ≤ 2) =
4 12 4 18 24 12 74
+ + + + + = .
84 84 84 84 84 84 84

c) Distribuţia marginală pentru X, g(X), corespunde ultimei


linii din tabelul anterior şi se obţine însumând valorile f xi , y j , de ( )
pe coloana fiecărui. xi Deci
xi 0 1 2
g(x i ) 35/84 42/84 7/84

La fel, distribuţia marginală pentru Y, h(Y), corespunde


ultimei coloane din tabel şi se obţine însumând pe linii. Deci
yi 0 1 2 3
h(y i ) 20/84 45/84 18/84 1/84

53
d) Din definiţia distribuţiei condiţionate rezultă

f (2, y ) f (2, y )
f ( y 2) = = = 12 ⋅ f (2, y ) pentru y = 0, 1, 2, 3.
g (2 ) 7 84
Se obţine succesiv:
f (0 2 ) = 12 ⋅ f (2,0 ) = 12 ⋅ = ; f (1 2 ) = 12 ⋅ f (2,1) = 12 ⋅
4 4 3 3
= ;
84 7 84 7
iar f (2 2 ) şi f (3 2 ) sunt 0 deoarece f (2 2) = f (3 2) = 0 .
Deci

yj 0 1 2 3
f(y j /2) 4/7 3/7 0 0

Se constată că P(Y = 1 X = 2) = f (1 2) = .
3
7

e) Dacă V.A. X şi Y sunt statistic independente, atunci trebuie


ca f (x, y ) = g ( x) ⋅ h( y ) pentru orice pereche (x, y ) posibilă.

Alegând la întâmplare x = 0 şi y = 0, din datele de mai sus se


constată că:
4 35 20
f (0,0) = ; g ( 0 ) = ; h(0) = .
84 84 84
20 ⋅ 35
Evident, produsul g (0) ⋅ h(0) = diferă de f (0,0)
84
şi deci V. A. nu sunt statistic independente.

f) Media (speranţa matematică) a V.A. discrete Z = X ⋅ Y


se obţine cu relaţia

∑ ∑ xi ⋅ y j ⋅ f (xi , y j )
2 3
E ( XY ) =
i =0 j =0
Cu datele din tabelul problemei, (unele fiind f ( x, y ) = 0 !),
E(X ,Y ) =
44
rezultă
84

54
? ..Problema 3.3.1
O persoană care doreşte să investească la bursă o anumită sumă de
bani pentru un an, are şansa ca dacă investeşte în acţiuni ale
Companiei A să câştige 3.000 RON cu probabilitatea de 40% sau să
piardă 1.000 RON cu probabilitatea de 60%, iar dacă investeşte în
acţiuni de la Compania B - să câştige 10.000 RON cu probabilitatea
de 20% sau să piardă 3.000 cu probabilitatea de 80%. Pentru care
acţiuni este recomandabil să opteze?

? ..Problema 3.3.2
Echipajul de 6 astronauţi al unei navete spaţiale se selectează
aleatoriu dintr-un grup de 5 ingineri, 4 biologi şi 3 fizicieni. Dacă
V.A. X = numărul de ingineri şi Y = numărul de biologi aleşi în
echipaj
a) Să se găsească distribuţia de probabilitate comună a lui X şi Y,
sub formă analitică şi tabelară
b) Dacă se ştie că deja s-a selectat 1 biolog în echipaj, care este
probabilitatea de a avea şi cel puţin 2 ingineri pentru a se putea ocupa
de problemele de pilotaj şi alte activităţi tehnice de la bord?

? ..Problema 3.3.3
Fie V.A. X cu distribuţia de probabilitate
xi 1 2 3 4
p ( xi ) 0,1 0,2 0,3 0,4
a) Să se găsească media funcţiei de variabila aleatoare
v1 ( x ) = (3 x − 1)
2

b) Să se găsească abaterea standard a funcţiei v2 ( x ) = (2 x − 3)


2

? ..Problema 3.3.4
Fie X şi Y două V.A. independente, cu varianţele σ X = 2 şi
2

σ Y2 = 3 . Să se găsească varianţa V.A. Z = −4 X − 3Y − 5 .

55
4. LEGI DE PROBABILITATE FOLOSITE
FRECVENT

4.1. Distribuţii de probabilitate discrete

Unele distribuţii discrete s-au menţionat anterior / au apărut în


exemple, dar se reiau aici mai sistematic şi concentrat, împreună cu
altele frecvent folosite.

4.1.1. Distribuţia uniformă discretă


Dacă o V.A discretă admite pentru toate valorile sale
probabilităţi egale, distribuţia ei se numeşte uniformă discretă.
Se va nota prin u (x; n ) =
1
pentru x = x1 , x 2, ..., x n , unde
n
xi , i = 1,2,...., n sunt cele n valori ale lui S pentru X.
Caz tipic: V.A discretă = cifra ieşită la aruncarea unui zar,
1
pentru care S = {1,2,3,4,5,6}, n = 6 şi – evident - u ( x; n ) = pentru
6
orice xi , i = 1,2,....,6

4.1.2. Distribuţia binomială


Se referă la o clasă de experimente stocastice la care, în fiecare
experiment, se repetă n încercări independente.
Fiecare încercare are două rezultate posibile numite succes şi
eşec şi fie probabilitatea unui succes notată cu p şi admisă
constantă de la încercare la încercare.
Un astfel de experiment se numeşte experiment binomial.

V.A X definită ca numărul de succese în n încercări ale unui


experiment binomial se numeşte V.A binomială şi distribuţia ei
discretă de probabilitate este distribuţia binomială.

9
Valorile acestei distribuţii se vor nota cu b( x ; n, p ) şi sunt date
de
b( x ; n, p ) = C nx ⋅ p x ⋅ q n− x pentru x = 0,1,..., n (4.1)
unde q = 1 − p este probabilitatea de eşec la o încercare.

Spre exemplu, pentru n = 6, p = 0,4 şi q = 0,6, distribuţia


binomială va fi
Xi 0 1 2 3 4 5 6
b( xi ;6; 0,4 ) 0,047 0,187 0,311 0,276 0,138 0,037 0,004

Media distribuţiei binomiale este µ = n ⋅ p , iar varianţa sa


σ 2 = npq = µ ⋅ q
Probabilitatea valorii X = xi se calculează uşor cu formula de
recurenţă
p (n + 1 − xi )
b(xi ; n, p ) = b(xi −1 ; n, p ) ⋅ (4.2)
q xi
Funcţia de repartiţie corespunzătoare valorii X = xi se
obţine cu:

( ) ∑ Cnx
i i
n− x j
F ( X = xi ) = ∑ b x j ; n, p = j xj
p q (4.3)
j =0 j =0

4.1.3. Distribuţia multinomială


Presupune un experiment cu aceleaşi proprietăţi ca şi
experimentul binomial,
exceptând faptul că la fiecare încercare există mai mult decât
două rezultate posibile (acolo succes şi eşec).

Dacă un experiment multinomial poate avea într-o încercare


k rezultate E1 , E 2 ,..., E k ,
cu probabilităţile cunoscute p1 , p 2 ,..., p k ,

10
atunci variabilele aleatoare X 1 , X 2 ,..., X k reprezentând numărul de
apariţii al lui E1 , E 2 ,..., E k se numesc V.A multinomiale şi
distribuţia lor de probabilitate este distribuţia multinomială.

Se va nota cu m( x1 , x 2 ,..., x k ; p1 , p 2 ,..., p k ; n ) şi este dată de:


m( x1 , x 2 ,..., x k ; p1 , p 2 ,..., p k ; n ) =
n! x x x
p1 1 p 2 2 ... p k k (4.4)
x1! x 2 !...x k !
n n
unde trebuie ca ∑ xi = n şi ∑ pi = 1
i =1 i =1
Pentru k = 2 aceasta revine la experimentul binomial.

4.1.4. Distribuţia hipergeometrică


Fie o populaţie de N obiecte dintre care k se admit „speciale”
(sau succese sau bune), iar N − k sunt privite ca „obişnuite” (sau
eşecuri sau rebuturi).

Experimentul de a alege un eşantion aleator de n obiecte fără


reinserţie (care nu se mai pun la loc printre cele N) se numeşte
hipergeometric.

Probabilitatea de a nimeri un obiect special în prima selecţie


k
este iniţial
N,
k −1 k
dar ea devine apoi sau pentru al doilea obiect
N −1 N −1
extras, dacă la prima selecţie a rezultat un succes sau respectiv un
eşec, ş.a.m.d.

Proprietăţile experimentului diferă de cazul binomial sau


multinomial (unde după fiecare încercare obiectul extras revine în
masa de obiecte).

11
Aici interesează V.A discretă X care reprezintă numărul de
succese dintr-o extragere aleatoare de n obiecte.
Ea se numeşte V.A hipergeometrică, iar distribuţia sa de
probabilitate – distribuţie hipergeometrică.

Se va nota cu h( x; N , n, k ) şi este dată de relaţia:


n− x
C kx C N
h( x; N , n, k ) = −k
pentru x = 0,1,2,.., n (4.5)
n
CN

Acest de tip de distribuţie s-a folosit deja Ex. 3.2.2, Ex. 3.2.3, etc.

Media şi varianţa distribuţiei h(x; N , n, k ) sunt


n⋅k  k  N − n  k
µ= şi σ 2
= n   1 −  (4.6)
N  N  N − 1  N 

Observaţia 1. Dacă n este mic în raport cu N, atunci probabilitatea


de a nimeri un succes la prima, a doua, etc. încercare este practic
k
aceeaşi, experimentul poate fi admis de tip binomial, cu p = ,
N
iar experimentul hipergeometric se aproximează prin unul cu
distribuţie binomială de medie şi varianţă:
nk 2  k  k  k 
µ = n⋅ p = ; σ = npq = n 1 −  = µ1 −  (4.7)
N  N  N  N

Observaţia 2. Ca în cazul distribuţiei multinomiale,


dacă populaţia de N obiecte este constituită din k partiţii
A1 , A2 ,..., Ak
având câte a1 elemente în prima, a 2 elemente în a doua,.......,
ak elemente în partiţia k,
iar V.A sunt numerele x1 = numărul de elemente din A1 , ...,
x k = numărul de elemente din partiţia Ak într-un eşantion de n
elemente,

12
k k
în condiţiile ∑ xi = n şi ∑ ai = N ,
i =1 i =1
se defineşte o funcţie de distribuţie multihipergeometrică de
forma:
x x x
C a 1 C a 2 ...C a k
mh(x1 , x 2 ,...x k ; a1 , a 2 ,...a k ; N , n ) = 1 2 k
(4.8)
n
CN

4.1.5. Distribuţia binomială negativă şi


cea geometrică
În experimentul binomial există un număr fixat de încercări.

Fie experimentul cu aceleaşi proprietăţi, exceptând faptul că


încercările se repetă până când apare un număr precizat de succese.
El se numeşte experiment binomial negativ şi aici interesează
V.A X care reprezintă numărul de încercări necesare pentru a
obţine k succese. Această V.A se numeşte binomială negativă.

Deoarece cel puţin k încercări sunt necesare pentru a produce


k succese, valorile V.A X vor fi k , k + 1, k + 2,.....
Distribuţia de probabilitate a lui X se va nota prin b ( x; k , p ) ,
*

este numită distribuţie binomială negativă şi are valorile date de


relaţia:
b * ( x; k , p ) = C xk−−11 p k q x −k , pentru x = k + 1, k + 2,... (4.9)

Observaţie: Un caz special al ei apare pentru k = 1.


Distribuţia b ( x;1, p ) reprezintă distribuţia de probabilitate a
*

numărului de încercări necesare pentru primul succes.


Această distribuţie se numeşte geometrică, se notează
g (x; p ) şi are formula:
g ( x; p ) = pq x −1 , pentru x = 1,2,3,.... (4.10)

13
4.1.6. Distribuţia Poisson
Experimentele referitoare la valorile unei V.A X reprezentând
numărul de realizări ce apar într-un interval de timp dat sau într-o
zonă spaţială dată se numesc experimente Poisson şi au proprietăţile:

i) Numărul mediu de realizări, µ care se produc într-un


interval de timp dat sau o zonă spaţială dată este cunoscut;
ii) Probabilitatea ca un singur rezultat să apară pe un interval
foarte scurt (de timp sau spaţial) este proporţională cu lungimea sau
suprafaţa zonei şi nu depinde de numărul de realizări care apar în
afara intervalului de timp sau a zonei ;
iii) Probabilitatea ca mai mult decât un rezultat să apară într-
un astfel de interval scurt sau zonă redusă, este neglijabilă.

Numărul X de realizări într-un experiment Poisson se


numeşte V.A Poisson şi distribuţia ei de probabilitate – distribuţie
Poisson. Se va nota cu p(x; µ ) şi este dată de relaţia:
µx
p( x; µ ) = e −µ
pentru x = 0,1,2,3,.... (4.11)
x!

Exemple de tipuri de V.A la care se admite că este aplicabilă


distribuţia Poisson sunt:
- numărul de particule emis de o sursă radioactivă într-un timp
dat;
- numărul de erori de editare pe pagina de text;
- numărul de vehicule trecând printr-o poziţie dată într-un
interval dat de timp în trafic normal;
- numărul de apeluri primite la o centrală telefonică într-un
interval de timp, etc.

Probabilitatea valorii X = xi se obţine cu relaţia de recurenţă:


µ
p( xi ; µ ) = p( xi − 1; µ ) (4.12)
xi
şi p(0; µ ) = e −µ .

14
Funcţia de repartiţie corespunzătoare valorii X = xi va fi
dată de relaţia:
x
∑ p(x j ; µ ) = e
i i
µ j
F ( X = xi ) = −µ
∑ x! (4.13)
j =0 j =0 j

Observaţie: Dacă într-un experiment binomial numărul de încercări


n este mare şi probabilitatea de succes p este foarte apropiată de
zero, distribuţia Poisson cu µ = n p poate fi utilizată pentru a
aproxima probabilităţile binomiale.
La fel, dacă p este foarte apropiată de 1, aceeaşi aproximaţie
este posibilă prin schimbarea semnificaţiei succesului şi eşecului şi
modificându-l astfel pe p la o valoare foarte mică.

Exemplul 4.1.1
Un trăgător cu arcul nimereşte o ţintă fixă în 4
încercări din 6. Care este probabilitatea ca într-o serie viitoare de 6
încercări
a) Să lovească ţinta de 2 ori ?
b) Dar de 5 ori ?
c) Care este probabilitatea de a nu avea mai mult de 4 reuşite ?

Soluţie
Acesta poate fi privit ca un experiment binomial cu n = 6
încercări, în care un succes înseamnă atingerea ţintei.
Din seturile anterioare se ştie că probabilitatea succesului la o
4 4 2
încercare este p = , iar a eşecului q = 1 − =
6 6 6
a) Probabilitatea ca în seria de 6 curentă să aibă 2 reuşite este:
2 4
2 4   2 
b(2;6; 4 6 ) = C 6     = 0,082
6 6
b) Probabilitatea a 5 reuşite va fi:
5 1
2
4
b(5;6; 4 6 ) = C 65  
  = 0,263
  6
6

15
c) Probabilitatea a cel mult 4 reuşite pe set, adică P(0 ≤ X ≤ 4)
este egală cu valoarea funcţiei de repartiţie (probabilitate cumulată)
corespunzătoare lui X = 4, adică
4 4 xi 6− xi
x 4 2
F ( X = 4) = ∑ b(xi ;6, 4 6) = ∑ C6 i    
i =0 i =0   6
6
unde xi sunt: 0, 1, 2, 3 şi 4.
După un calcul simplu se găseşte FX ( X = 4) = 0,65 şi deci, cu
probabilitatea de 65%, arcaşul va avea cel mult 4 reuşite.

În mod evident, este posibil să aibă 5 sau 6 reuşite din 6, cu


probabilitatea 1 − F ( X = 4 ) , adică 35% !.

Exemplul 4.1.2
Într-un coş se găsesc bucăţi de pânză roşii, galbene şi
albastre. S-a constatat că la extrageri aleatoare de câte 15 bucăţi au
rezultat în medie câte 5 roşii şi 7 galbene. Care este probabilitatea ca
la o extragere următoare să se obţină pânzele necesare pentru 5
steaguri tricolore ?

Soluţie
Probabilităţile evenimentelor E1 (roşu), E 2 (galben) şi E3
(albastru) sunt:
5 1 7 15 − 5 − 7 3 1
p1 = = ; p2 = ; p3 = = = .
15 3 15 15 15 5
Admiţând un experiment multinomial, probabilitatea ca într-o
extragere de 15 bucăţi să avem câte 5 din fiecare culoare, adică
x1 = 5 , x 2 = 5 , x3 = 5 va fi dată de (4.4), adică:
5 5 5
 1 7 1  15!  1   7   1 
m 5,5,5; , , ;15  =       = 0,022
 3 15 5  5! 5! 5!  3   15   5 
deci circa 2,2%.

16
Exemplul 4.1.3

a) Considerând figuri într-un pachet de 52 cărţi: valeţii,


reginele, regii şi aşii, care este probabilitatea ca o mână de 5 cărţi să
conţină doar figuri ?
b) Folosind teorema lui Cebâşev, să se găsească şi să se
interpreteze intervalul µ ± 2 ⋅ σ pentru cazul de mai sus

Soluţie
a) Este vorba despre o distribuţie hipergeometrică având N =
52, n = 5 şi k = 4 ⋅ 4 = 16 cărţi figuri în pachet.
Conform (4.5) probabilitatea a x = 5 succese (figuri) în mâna
5 0
C16 C36
de 5 cărţi este de h( X = 5;52,5,16 ) = = 0,0017
5
C52

c) Conform (4.6), media distribuţiei este:


n k 5 ⋅ 16
µ= = = 1,5385
N 52
 k  N − n  k  16  52 − 5  16 
iar varianţa σ = n
2
 1 −  = 5  1 −  = 0,9816
 N  N − 1  N  52  52 − 1  52 
Rezultă abaterea standard σ = 0,9907

Intervalul µ ± 2 ⋅ σ este 1,5385 ± 2 ⋅ 0,9907 , adică între -0,4429 şi


3,5199.
Conform teoremei, cel puţin în 75% dintre ocazii, jucătorul va
avea din 5 cărţi, un număr de figuri între -0,44 (raţional 0) şi 3,52
(rotunjit la 4).

Exemplul 4.1.4
Într-un lot de 20000 păpuşi vorbitoare, 2000 au
sistemul de sunet defect. Un magazin de jucării primeşte 20 de păpuşi
din lotul respectiv. Care este probabilitatea ca exact 3 dintre cele 20
să aibă acest defect ?

17
Soluţie
Este vorba de o distribuţie hipergeometrică, cu N = 20000 şi n =
20.
Deoarece n este mult mai mic decât N, se poate aproxima
distribuţia respectivă printr-o distribuţie binomială.

Probabilitatea de a primi o păpuşă defectă (privit aici ca un


2000
succes) este p= = 0,1 .
20000
Cele 20 păpuşi ajunse la magazin pot fi considerate ca n = 20
încercări. Probabilitatea de a avea exact 3 succese (păpuşi defecte)
va fi dată de:
b(x ; n, p ) = C nx ⋅ p x (1 − p )n − x
adică b( X = 3 ;20, 0,1) = C 20
3
⋅ 0,13 ⋅ (1 − 0,1)17 = 0,19

Exemplul 4.1.5
Aflaţi probabilitatea ca acelaşi zar să iasă de trei ori
din 6 aruncări.

Soluţie
În problemă, V.A este numărul de încercări după care apare al
treilea succes. Deci este vorba despre un experiment binomial
negativ, având
x = 6 (numărul de aruncări),
k = 3 (numărul de apariţii a aceluiaşi zar)
şi p = 1 6 probabilitatea apariţiei zarului de interes la o
încercare.
Probabilitatea ca din 6 aruncări să apară de 3 ori acelaşi zar se
obţine cu (4.9), adică: b * ( x; k , p ) = C xk−−11 p k q x −k
unde X = 6 , k = 3 , p = 1 6 şi q = 1 − 1 6 = 5 6
3 3
1 5
Rezultă b (6;3,1
*
6 ) = C52     = 0,027
6 6

18
Exemplul 4.1.6
Numărul mediu anual de accidente rutiere grave pe
dealul Feleacului este de 6. Să se găsească probabilitatea ca într-un
an dat să se producă acolo 8 accidente grave.

Soluţie
În acest experiment Poisson, V.A X este numărul de accidente
produse într-un an dat în zona respectivă, ştiind că media anuală
este µ = 6 .
Conform (4.11) probabilitatea valorii x pentru distribuţia
Poisson este:
µx
p( x; µ ) = e −µ
x!
Aici interesează probabilitatea pentru X = 8 şi µ = 6 , rezultând
8
p(8;6 ) = e −6 6
= 0,103
8!

Exemplul 4.1.7
La o populaţie de 2,5 milioane locuitori, în Bucureşti
sunt rănite anual 250 de persoane pe treceri de pietoni.
Să se găsească probabilitatea ca în anul următor să existe mai
puţin de 8 accidentaţi în aceste condiţii la 100000 de locuitori.

Soluţie
La nivelul oraşului, probabilitatea de accidentare pe trecerea
250
de pietoni a unei persoane este de. p = = 0,0001
2500000
Dacă accidentarea unei persoane este privită ca un „succes”,
la n = 100000 de locuitori,
numărul mediu de accidentaţi anual este
µ = n ⋅ p = 100000 ⋅ 0,0001 = 10 .
V.A X reprezentând numărul de persoane accidentate astfel, este
o V.A binomială cu distribuţia b( x ;100000,0,0001) .

19
Totuşi, s-a menţionat că dacă n este foarte mare şi p apropiat de
0, distribuţia binomială poate fi aproximată satisfăcător printr-o
distribuţie Poisson cu media µ .

Răspunsul la întrebare corespunde probabilităţii cumulate


(funcţiei de repartiţie) pentru valoarea lui X = 7. Deci:
7
µj
P ( X < 8) = F ( X = 7 ) = e −µ
∑ j!
j =0
conform relaţiei (4.13). Se mai poate scrie
 µ  µ  µ  µ  µ  µ     
P ( X < 8) = e −µ
⋅ µ 1 + 1 + 1 + 1 + 1 + 1 +     
 2  3  4  5  6  7     
iar pentru µ = 10 rezultă P( X < 8) = 0,2202 .

? ..Problema 4.1.1
Un şofer a constatat că este prins cu exces de viteză de către
60% dintre filtrele radar prin care trece. Dacă în călătoria din concediu
a trecut prin 10 filtre, care este probabilitatea să fi fost prins cu exces
de viteză
a) exact de 6 ori ?
b) între 4 şi 7 ori inclusiv ?
c) cel puţin de 8 ori ?

? ..Problema 4.1.2
Dintr-o subgrupă de 16 studenţi, 10 sunt băieţi şi restul fete.
Dacă pentru o lucrare de laborator se formează aleatoriu o echipă de 4
studenţi, care este probabilitatea ca echipa să conţină:
a) doar studente ?
b) doar băieţi ?

20
? ..Problema 4.1.3
Între 6000 de flori din aceeaşi specie, un grădinar a observat 900
cu un colorit aparte. După perioada de florescenţă a cules aleatoriu
seminţe de la 3 plante. Care este probabilitatea ca printre seminţe să
existe şi unele de la o floare de culoare deosebită ?

? ..Problema 4.1.4
Probabilitatea ca un student să scrie un program simplu de calcul
fără greşeli este de 0,4. Să se găsească probabilitatea ca el să realizeze
3 programe fără greşeli în nu mai mult de 5 ocazii.

? ..Problema 4.1.5
Pe străzile nereabilitate din Bucureşti se găsesc în medie câte 5
gropi cu diametrul mai mare de 20 cm la 1000 m 2 de şosea. Să se
determine probabilitatea ca pe 1000 m 2 oarecare să se întâlnească
a) 5 astfel de gropi
b) mai mult decât 5 astfel de gropi

? ..Problema 4.1.6
Bazat pe 85 ani de observaţii la o staţie hidrometrică,
probabilitatea apariţiei unui debit mai mare decât Q * este
( )
P Q ≥ Q * = 0,02326 . Admiţând debitele maxime anuale ca evenimente
independente, să se găsească probabilitatea ca în următorii 10 ani
*
a) să apară de 4 ori debite de viitură mai mari sau egale cu Q
b) să nu apară nici o dată un astfel de debit
Comparaţi rezultatele cu cele date de aproximarea prin
distribuţie Poisson.

21
4.2. Distribuţii de probabilitate continue
Se prezintă aspectele referitoare la un număr de distribuţii de
probabilitate continue - dintre cele cu utilizare mai frecventă în
aplicaţiile de analiză statistică a datelor experimentale.

4.2.1. Legea normală (sau legea lui Gauss, sau legea


Laplace – Gauss, sau legea erorilor)

Este cea mai importantă distribuţie de probabilitate care apare


în statistică. Foarte multe seturi de date rezultate din experimente
realiste urmează o astfel de distribuţie.

Reprezentarea grafică a legii normale se numeşte curbă normală


(sau clopotul Gauss).

f(x)
0,3

0,2 inflexiuni

0,1
P (x 1≤X ≤x 2)

x
0
x1 x2 μ-σ x= μ μ+σ
-2 0 2 4 6 8 10 12

Fig.4.1. Graficul distribuţiei normale

Are într-adevăr formă de clopot şi este simetrică în raport cu o


axă verticală ce trece prin media X = µ .
În punctele de abscise X = µ − σ şi X = µ + σ , apar inflexiuni,
după care ramurile coboară, tinzând asimptotic către axa orizontală.
Ordonata maximă apare la X = µ şi deci moda coincide cu
media. Din motive de simetrie, şi mediana (care împarte suprafaţa
de sub grafic în două părţi egale), coincide cu media şi moda

22
Domeniul V.A. cuprinde axa absciselor, deci S = (− ∞; ∞ ) ,
iar valorile funcţiei de densitate pentru X = x se obţin cu :
2
1  x −µ 
−  
f (x ) =
1 2  σ 
e , pentru − ∞ < x < ∞ (4.14)
σ 2π
cu π = 3,14159... şi e = 2,71828...
În (4.14) apar ca parametri atât media µ , cât şi abaterea
standard σ .
În mod prescurtat, distribuţia normală se notează N (µ, σ ) .

Deoarece µ şi σ pot lua o infinitate de valori, există o


infinitate de funcţii de densitate normală.
Media localizează axa centrală a unei astfel de curbe,
iar abaterea standard determină împrăştierea în jurul poziţiei
centrale. Cu cât σ este mai mare, cu atât maximul se reduce, curba
se turteşte (aplatisează) şi se extinde mai mult după axa x.

Multe V.A.din lumea reală au distribuţii de probabilitate ce pot


fi descrise de legea normală, cu condiţia ca µ şi σ să fie cunoscute.
O astfel de V.A. apare ca rezultat al mai multor factori
independenţi, ale căror efecte se cumulează pentru a influenţa
mărimea respectivă.

Funcţia de repartiţie corespunzătoare unei valori X = x * este


dată de:
2
x − 1  x −µ 
( )
*
1
F X = x* = ∫e 2 σ  dx (4.15)
σ 2π −∞
( ) ( )
şi desigur P X ≤ x * = F X = x * , iar F ( X = ∞ ) = 1 .

Probabilitatea ca V.A cu µ şi σ cunoscute să ia valori între


două limite x1 şi x2 (cu x1 < x2 ) este suprafaţa de sub graficul lui
f ( x ) , delimitată de orizontală şi verticalele prin x1 şi x 2 , adică

23
2
x2 − 1  x −µ 
P(x1 < X ≤ x 2 ) = dx = F (x 2 ) − F ( x1 )
1
∫ e 2 σ  (4.16)
σ 2π x
1

Momentul de ordin 1 faţă de origine este evident M 1 = µ , iar


momentele centrate vor fi:
µ 2 = σ 2 ; µ 3 = 0 ; µ 4 = 3σ 4 ,
rezultând că, pentru distribuţia normală,
coeficientul de asimetrie este zero, iar
coeficientul de boltire după Pearson (relaţia 2.38) este constant
şi egal cu 3, sau după Fisher (relaţia 2.39) este egal cu 0.

Dacă X 1 şi X 2 sunt două V.A normal distribuite,


de legi N (µ1 , σ1 ) şi respectiv N (µ 2 , σ 2 ) ,
atunci V.A Y = X 1 + X 2 urmează, de asemenea, o lege normală
N (µ, σ ) , unde µ = µ1 + µ 2 şi σ = σ12 + σ 22 .

Observaţie: Histograma de probabilitate a unei distribuţii


binomiale cu probabilitatea de succes p apropiată de 0,5, este
apropiată de forma în clopot.
Apare rezonabil să se folosească aria de sub o curbă normală
pentru a aproxima probabilităţi binomiale, (chiar dacă este vorba
despre folosirea unei distribuţii continue pentru a aproxima
probabilităţi asociate unei distribuţii discrete).
Distribuţia normală aproximează distribuţia binomială dacă
2
are media şi dispersia µ = n p , respectiv σ = n p q , iar n tinde către
infinit, cu p apropiat de 0,5.
În aplicaţii se acceptă această aproximare şi pentru valori n
relativ reduse, dacă n p şi n q rezultă mai mari decât 5.

24
Formulele (4.14) la (4.16) conţin parametrii µ şi σ , iar
integrala (4.16) nu are primitivă analitică şi atunci orice calcule de
probabilitate presupun evaluări numerice ale lor, efectuate cu un
program de calcul specializat.

Inconvenientul se depăşeşte dacă în locul V.A. X, cu µ şi σ , se


consideră V.A. transformată Z dată de transformarea:
X −µ
Z= (4.17)
σ
care are de asemenea o distribuţie normală, de medie 0 şi abatere
standard 1.

Se numeşte distribuţie normală standard, se notează N (0,1)


şi are funcţia de densitate de probabilitate
z2

f (z ) =
1
e 2 , (4.18)

(expresie fără nici un parametru !).
Alura lui f ( z ) este redată în Fig. 4.2.

0,5 f(z)

0,4

0,3

0,2

0,1

z
z1 z2
0
-4 -3 -2 -1 0 1 2 3 4

Fig.4.2. Distribuţia normală standard N (0,1)

25
În afara intervalului z ∈ (− 3,49; 3,49) cele două ramuri ale curbei
se suprapun practic cu axa absciselor.

Funcţia de repartiţie corespunzătoare unei valori Z = z* se


obţine cu:
2

( )
z* − z
1
F Z = z* =
2 π −∞
∫e 2 dz (4.19)

şi deoarece nu depinde de nici un parametru, este convenabil să fie


tabelată pentru diverse valori z .
*

Aceste tabele sunt utilizate pentru a calcula P( x1 < X ≤ x 2 )


unei V.A de tip N (µ, σ ) deoarece

P(x1 < X ≤ x 2 ) = P(z1 < Z ≤ z 2 ) = F ( z 2 ) − F ( z1 ) (4.20)


x1 − µ x2 − µ
unde z1 = , z2 = ,
σ σ
iar F (z1 ) şi F (z 2 ) se iau din tabelă (direct sau prin
interpolare)

Din motive de simetrie F (z ) + F (− z ) = 1


şi atunci este suficient ca tabela cu F ( z ) să fie construită doar
pentru z > 0 , ştiind că F (z = 0) = 0,5 .

Pentru a evita calculul numeric sau folosirea tabelelor, se pot


obţine evaluări satisfăcătoare ale funcţiei de repartiţie cu ajutorul
unor relaţii de aproximare cum ar fi:
( ) ( )( )
F z * = 1 − f z * a1t + a 2 t 2 + a3t 3 + ε( z ) , pentru z * ≥ 0 (4.21)
1
şi unde: t = a = 0,4361836 ; a 2 = −0,1201676 ;
* ; 1
1 + 0,33267 ⋅ z
a3 = 0,9372980 , cu ε( z ) < 10 −5

26
sau
( ) ( )( )
F z * = 1 − f z * b1t + b2 t 2 + b3t 3 + b4 t 4 + b5t 5 + ε( z ) ,
pentru z ≥ 0 (4.22)
*

1
şi unde t = ; b1 = 0,31938153 ; b2 = −0,356563782 ;
1 + 0,2316419 ⋅ z *
b3 = 1,781477937 ; b4 = −1,821255978 ; b5 = 1,330274429 , cu ε(z ) < 7,5 ⋅ 10 −8

Dacă interesează cuantila z q pentru care funcţia de repartiţie


ia valoarea specificată F (z q ) = q , se pot folosi relaţiile aproximative:
a0 + a1t
zq = t − + ε(q ) , pentru 0 ≤ q ≤ 0,5 (4.23)
2
1 + b1t + b2 t
 1 
şi unde t = ln   ; a0 = 2,30753 ; a1 = 0,27061 ;
 (1 − q )2 

cu ε(q ) < 3 ⋅ 10
−3
b1 = 0,99229 ; b2 = 0,04481 ,
sau
c0 + c1t + c 2 t 2
zq = t − + ε(q ) , pentru 0 ≤ q ≤ 0,5 (4.24)
1 + d1t + d 2 t 2 + d 3t 3
 1 
şi unde t = ln   ; c0 = 2,515517 ; c1 = 0,802853 ; c 2 = 0,010328
 (1 − q ) 
2

d1 = 1,432788 ; d 2 = 0,189269 ; d 3 = 0,001308 , cu ε(q ) < 4,5 ⋅ 10


−4

Exemplul 4.2.1
S-a constatat că timpul de aşteptare pentru a fi servit
la un fast-food este o variabilă aproximativ normal distribuită de
medie µ = 4,6 minute şi abatere standard σ = 1,3 minute. Dacă timpul
de aşteptare poate fi măsurat cu orice precizie dorită, să se găsească
probabilitatea ca un consumator să aibă de aşteptat:
a) mai mult de 6 minute;
b) între 3 şi 5 minute;
c) mai puţin de 2 minute.

27
Soluţie
Considerând N (4,6;1,3) cu graficul funcţiei de densitate de
probabilitate de mai jos, răspunsurile corespund suprafeţelor
haşurate şi marcate prin literele corespunzătoare.
f(x)
0,4

b)

0,2

a)

c)
x
0
μ= 4,6
0 1 2 3 4 5 6 7 8 9 10

a) Variabila normală standard se calculează cu (4.17) adică:


X −µ 6 − 4,6
Z= . Pentru x = 6 rezultă Z = = 1,0769
σ 1,3
Probabilitatea ca X > 6 va fi
P( X > 6 ) = P(Z > 1,0769 ) = 1 − P(Z < 1,0769 ) .
P(Z < 1,0769 ) este egală cu valoarea funcţiei de repartiţie a
distribuţiei N (0,1) la argumentul z = 1,0769 , şi se poate obţine din
*

tabelele funcţiei Laplace sau cu un program de calcul care


transpune una dintre relaţiile de aproximare (4.21) sau (4.22).
Funcţia RepNO1(z: real):real de mai jos calculează F (z * ) cu
relaţia (4.22) pentru argumentul z * .
Function RepN01(z:real):real;
{ Caculeaza functia de repartitie pentru v.a. Z cu legea N(0,1),
la un z specificat cu aproximatia Hastings }
var b0,b1,b2,b3,b4,b5,t,zc,fzc:real;
begin
b0:=0.2316419; b1:=0.31938153; b2:=-0.356563782;
b3:=1.781477937; b4:=-1.821255978; b5:=1.330274429;
if abs(z) <= 0.00001 then repn01:=0.5
else
begin
if z < 0 then zc:=-z
else zc:=z;
t:=1.0/(1+b0*zc); fzc:=DensN01(zc);
repn01:=1-fzc*t*(b1+t*(b2+t*(b3+t*(b4+t*b5))));
if z < 0 then repn01:=1-repn01;
end;
end;

28
Este inclusă în programul Gauss dedicat calculelor pentru
distribuţii normale.
Cu acesta se obţine că F (1,0769) = 0,8592 , astfel încât
P( X > 6 ) = 1 − 0,8592 = 0,1408

b) Pentru x1 = 3 şi x2 = 5 corespund valorile variabilei normale


standard z1 = −1,2308 şi respectiv z 2 = 0,3077 .
Atunci
P(3 < X < 5) = P(− 1,2308 < Z < 0,3077 ) = F (0,3077 ) − F (− 1,2308)
Cu programul menţionat se obţine F (0,3077 ) = 0,6208 şi
respectiv F (− 1,2308) = 0,1092 , astfel încât
P(3 < X < 5) = 0,6208 − 0,1092 = 0,5116

2 − 4,6
c) La x = 2 corespunde z = = −2 ,
1,3
iar P( X < 2) = P(Z < −2) = F (− 2) pentru care programul indică
valoarea F (− 2 ) = 0,0228

Exemplul 4.2.2
O maşină unealtă reglată corect produce piese cu
diametrul mediu de 25 mm şi având pentru această caracteristică
dimensională o distribuţie normală N (µ, σ ) .
Totuşi, la fabricarea unui lot de 100 piese s-a constatat că 9
dintre acestea au diametrul mai mic de 22 mm şi 6 piese îl au mai
mare decât 28 mm.
a) Să se găsească cu ce medie µ şi abatere standard σ a lucrat
maşina lotul respectiv;
b) Să se găsească probabilitatea ca o piesă oarecare dintre
acestea să aibă diametrul cuprins în intervalul 24,5 – 25,5 mm

29
Soluţie
Notând cu X V.A. N (µ, σ ) reprezentată de diametrul unei piese
realizate, se ştie că:
P( X < 22 ) =
9
şi respectiv P( X > 28) =
6
100 100
X −µ
a) Dacă se introduce variabila normală standard Z = şi
σ
22 − µ 28 − µ
se notează z1 = şi respectiv 2 z = , rezultă că
σ σ
P( X < 22 ) = P(Z < z1 ) = F ( z1 ) = 0,09 şi respectiv
P( X > 28) = P(Z > z 2 ) = 1 − P(Z < z 2 ) = 1 − F ( z 2 ) = 0,06
unde F ( z ) este valoarea funcţiei de repartiţie pentru variabila
N (0,1) , la argumentul z . Este necesar să se găsească cuantilele z1
şi z 2 pentru care F ( z1 ) =0,09 şi F (z 2 ) = 0,94 .
Se pot folosi tabele sau un program de calcul.
Funcţia CuantNO1 (q:real):real de mai jos calculează cuantila
z corespunzătoare unei valori F (z ) = q specificate, folosind metoda
bisecţiei.
Function CuantN01(q:real):real;
{ Calculeaza cuantila Zq a repartitiei N(0,1) pentru care
F(Zq) = q, folosind aproximatia Hastings pentru F(z) si
metoda bisectiei intre z = -4 si 0 }
var qc,zs,fs,zd,fd,zm,fm:real;
begin
if q = 0.5 then cuantn01:=0.0
else
begin
if q < 0.5 then qc:=q
else qc:=1-q;
zs:=-4.0; fs:=qc-RepN01(zs);
zd:=0.0; fd:=qc-RepN01(zd);
repeat
zm:=0.5*(zs+zd); fm:=qc-RepN01(zm);
if fs*fm <= 0 then
begin
zd:=zm; fd:=fm;
end
else
begin
zs:=zm; fs:=fm;
end;
until abs(fm) <= 0.00001;
cuantn01:=zm;
if q > 0.5 then cuantn01:=-cuantn01;
end;
end;

30
Rulând programul Gauss pentru µ = 1 şi σ = 0 , se găseşte că:
la F ( z1 ) =0,09 corespunde z1 = -1,3407,
iar la F ( z 2 ) = 0,94 corespunde z 2 = 1,5548.
22 − µ 28 − µ
Deoarece z1 = = −1,3407 şi respectiv z 2 = = 1,5548 ,
σ σ
se obţin parametrii µ = 24,7782 mm şi respectiv σ = 2,0722 mm.

b) Având µ şi σ găsiţi mai sus pentru lotul de piese din


problemă şi notând
24,5 − 24,7782 25,5 − 24,7782
z1 = = −0,1343 şi z 2 = = 0,3483
2,0722 2,0722
rezultă că

P(24,5 < X < 25,5) = P(− 0,1343 < Z < 0,3483) = F (0,3483) − F (− 0,1343)

unde valorile F (z ) se găsesc cu funcţia RepNO1(z:real)


Programul indică F (0,3483) = 0,6362 şi F (− 0,1343) = 0,4466
astfel încât P(24,5 < X < 25,5) = 0,6362 − 0,4466 = 0,1896

Exemplul 4.2.3
Optzeci de procente dintre pasagerii rutelor aeriene
declară că sunt neliniştiţi la aterizări. Să se găsească probabilitatea
ca dintre 100 de pasageri ai unui zbor:
a) să fie neliniştiţi la aterizare între 78 şi 85 inclusiv;
b) să fie neliniştiţi exact 80 pasageri.

Soluţie
Este vorba de un experiment binomial în care o încercare
corespunde unui pasager oarecare, iar starea de nelinişte
corespunde unui succes.
Numărul de încercări independente este n = 100 pasageri iar
probabilitatea de succes la fiecare încercare este p = 0,8 .
Media şi varianţa distribuţiei sunt µ = n p = 100 ⋅ 0,8 = 80
şi respectiv σ 2 = n p q = 100 ⋅ 0,8 ⋅ 0,2 = 16 , cu abaterea standard σ = 4 .

31
Cu n = 100 , atât n p = 80 , cât şi n q = 20 sunt mai mari decât 5 şi
deci distribuţia binomială discretă poate fi aproximată prin
distribuţia normală continuă N (80,4) .

a) Se urmăreşte aproximarea suprafeţelor dreptunghiurilor


histogramei de probabilitate a distribuţiei binomiale care sunt
centrate pe x = 78 , x = 79 ,..., x = 85 .
Primul dreptunghi cu baza unitară începe la x1 = 77,5 , iar
ultimul se termină la x2 = 85,5 .
Suprafaţa de sub graficul N (80,4 ) cuprinsă între aceste limite
va aproxima suprafeţele dreptunghiurilor histogramei distribuţiei
binomiale.

Trecând la variabila normală standard se obţin valorile


77,5 − 80 85,5 − 80
z1 = = −0,625 şi z 2 = = 1,375
4 4
şi atunci
P(77,5 < X < 85,5) = P(− 0,625 < Z < 1,375) = F (1,375) − F (− 0,625) =
= 0,9154 − 0,2660 = 0,6494

85

Deci ∑ b(xi ;100, 0,8) ≅ 0,6494


xi =78

b) Aria dreptunghiului centrat pe x = 80 se va aproxima cu


aria de sub curba N (80,4) delimitată de x1 = 79,5 şi respectiv
x 2 = 80,5 .
79,5 − 80
Rezultă z1 = = −0,125 şi z 2 = 0,125 , astfel că
4
P(79,5 < X < 80,5) = P(− 0,125 < Z < 0,125) = F (0,125) − F (− 0,125) =
= 0,5497 − 0,4503 = 0,0995

32
Pentru a evalua precizia aproximaţiei, formula (4.1) adică
b( x ; n, p ) = C nx ⋅ p x ⋅ q n− x ,
unde n = 100 ; p = 0,8 ; q = 0,2 , va da pentru x = 80 :
b(80 ;100; 0,8) = C100
80
⋅ 0,880 ⋅ 0,2 20 = 0,0993
0,0995 − 0,0993
Rezultă o diferenţă de circa ⋅ 100 ≅ 0,2% deci
0,0993
într-adevăr o aproximaţie foarte bună obţinută cu legea normală.

4.2.2. Legea log-normală (sau legea Galton, sau legea


Gibrat, sau legea efectului proporţional)

Această lege este definită pe intervalul pozitiv al axei (x ≥ 0) , şi


reflectă faptul că logaritmul variabilei Y = X − c urmează o lege
normală.
În general, poate avea trei parametri şi se va nota LN (a, b, c ) ,
iar când c = 0 , devine lege de doi parametri şi se va nota LN (a, b ) .
Parametri se numesc şi reprezintă:
a – parametru de poziţie = µY , cu Y = ln( X − c ) ;
b – parametru de formă = σY ;
c – limita inferioară a distribuţiei, în sensul că X ≥ c .

Funcţia de densitate de probabilitate este:



1
[ln ( x −c )−a ]2
f (x ) =
1 2
e 2b
b( x − c ) 2π
(4.25)
iar caracteristicile descriptive pentru V.A X au forma:
b2
a+  e b 2 − 1e 2a + b 2
M1 = µ = c + e 2 ; µ =
2   (4.26)
 
coeficientul de variaţie C = µ 2 = θ = eb − 1
2
v
M1

33
3
coeficientul de asimetrie C s = 3θ + θ

Alura funcţiei de densitate log-normală apare în Fig. 4.3 pentru


cazul particular b = 1 ; c = 0 şi câteva valori ale lui a.
f(x)

0,6

04
a=0

0,2 a=1
a=2

0 2 4 6 8 10
12

Fig.4.3. Distribuţii log-normale pentru diverse valori a ( b = 1 , c = 0 )

Legea LN se obţine ca lege a produsului unui număr mare de


V.A. independente (de aici se mai numeşte şi legea efectului
proporţional).

Este utilizată în multe domenii ale ingineriei, iar în hidrologie


poate reprezenta – de ex. – distribuţia debitelor maxime anuale,
curbele intensitate – durată ale precipitaţiilor ş.a.m.d.

Dacă o V.A. X urmează o lege LN, atunci orice funcţie de V.A.


având forma Y = aX b are, de asemenea, o lege log-normală.

Dacă două V.A. independente X 1 şi X 2 au legi LN1 (a1 ,b1 ) şi


respectiv LN2 (a 2 ,b2 ) , atunci V.A. X 3 = X 1 + X 2 va urma o lege
 2 2
LN3  a1 + a 2 , b1 + b2  .
 

34
( )
Cuantila corespunzătoare unei valori q = F x q specificate a
funcţiei de repartiţie se obţine sub forma:
xq = e
(a+bzq ) + c
(4.27)
cu z q cuantila variabilei normale standard pentru q specificat
găsită din tabele sau cu relaţiile aproximative (4.23) – (4.24).

Exemplul 4.2.4
Prelucrând un şir de debite maxime anuale
înregistrate pe Olt în amonte de zona amenajată, s-a găsit că:
media lor are valoarea Q = 450 m 3s −1 ,
3 −1
abaterea standard este s = 225 m s ,
iar coeficientul de asimetrie C s a rezultat C s = 1,52 ,
datele variind între Qmin = 110 m 3s −1 şi Qmax = 1220 m 3s −1 .
Presupunând că debitul maxim anual este o variabilă aleatoare
distribuită log-normal
a) Să se determine ecuaţia funcţiei de densitate de
probabilitate;
b) Să se calculeze media, varianţa şi momentul centrat de ordin
3 pentru distribuţia respectivă;
c) Să se calculeze şi reprezinte grafic funcţiile de densitate şi de
repartiţie;
d) Să se determine valorile cuartilelor Q0,25 şi Q0,75 , între care
se va plasa debitul maxim anual cu probabilitatea de 50%;
e) Ce valori ale debitului maxim anual nu sunt şi respectiv sunt
depăşite cu probabilitatea de 5%?

35
Soluţie
a) Admiţând pentru populaţie că parametri sunt egali cu
statisticile de eşantion şi observând (4.26), se constată că:
µ2 s 225
Cv = = =θ= = 0,5
M1 Q 450
şi atunci C s = 3θ + θ 3 = 3 ⋅ 0,5 + 0,53 = 1,625 , (o valoare apropiată de
C s = 1,52 găsită pe baza şirului de date înregistrate).
În concluzie, apare justificat să se accepte că distribuţia log-
normală este adecvată aici.

2
b
Deoarece C v = e − 1 , se obţine succesiv
2
( ) (
C v2 + 1 = e b , b 2 = ln C v2 + 1 şi respectiv b = ln 0,5 2 + 1 = 0,47238 .)
Din relaţiile (4.26) mai rezultă:
µ 2 = s 2 =  e b − 1e 2a +b = C v2 e 2a +b
2 2 2

 
s2 2 a +b 2  s2 
şi apoi =e , 2a + b = ln
2 
C v2 C2 
 v 
1   s 2   1   225 2  
 2
deci a = 2 ln 2  − b , adică a = 2 ln 2  − 0,47238  = 5,99768
2
  C v     0,5  
Folosind a şi b găsite mai sus, se verifică uşor că parametrul c
rezultă c=0.
Expresia analitică a funcţiei de densitate devine
− 2, 24072(ln x −5,99768 )2
f (x ) =
0,844537
exp
x

b) Calculele s-au făcut cu programul Lognormala care dă


1200
∫ x f (x ).dx = 435,21 m
3 -1
- pentru medie: µ = s
0
1200
∫ (x − µ ) f (x ).dx = 40064,32 m s
2 6 -2
- pentru varianţă: µ 2 =
0

36
1200
∫ (x − µ ) f (x ).dx = 8 551797,7 m s
3 9 -3
- pentru momentul µ 3 =
0
c) Funcţiile de densitate şi repartiţie sunt afişate de program la
pas de afişare ∆Q = 50 m s , iar integrarea numerică se face la pas
3 -1

δQ = 1 m 3s -1 .
Pentru variaţia cu debitul maxim a densităţii f şi a repartiţiei de
probabilitate au rezultat următoarele date şi grafice:
(
Qmax m 3s −1 ) f (% ) F (% ) (
Qmax m 3s −1 ) f (% ) F (% )
50 0,00 0,00 650 0,08 84,49
100 0,01 0,16 700 0,06 87,93
150 0,06 1,83 750 0,05 90,62
200 0,14 6,94 800 0,04 92,71
250 0,20 15,67 850 0,03 94,32
300 0,23 26,69 900 0,02 95,58
350 0,23 38,37 950 0,02 96,55
400 0,21 49,48 1000 0,01 97,30
450 0,18 59,34 1050 0,01 97,88
500 0,15 67,70 1100 0,01 98,33
550 0,12 74,57 1150 0,01 98,69
600 0,10 80,10 1200 0,00 98,96

f(%)

0,2

0,15

0,1

0,05

Qmax (m 3s -1 )
0
0 200 400 600 800 1000 1200

Reprezentarea grafică a funcţiei de densitate de probabilitate

37
100 F(%)

50

Qmax (m 3s -1 )
0
0 200 400 600 800 1000 1200

Reprezentarea grafică a funcţiei de repartiţie

d) Programul găseşte cuartilele Qmax pentru care F (Q ) = 0,25


şi respectiv 0,75, ca având valorile 292,7 m 3s −1 şi respectiv 553,5
m 3s −1 , între acestea plasându-se debitul maxim anual în circa 50%
dintre ani.

f) Valoarea debitului maxim anual care nu se depăşeşte în 5%


dintre ani este egală cu cuantila pentru care F (Q0,05 ) = 0,05 şi rezultă
Q0,05 = 185,1 m 3s -1 , iar valoarea care se depăşeşte în 5% dintre ani
este cuantila pentru care F (Q0,95 ) = 0,95 şi rezultă Q0,95 = 875,4 m s .
3 -1

38
4.2.3. Legea hi – pătrat cu ν grade de libertate
V.A. X formată ca sumă a ν variabile aleatoare normale
standard zi , ridicate la pătrat, adică
ν
X = ∑ Z i2
i =1
are o lege de densitate de probabilitate numită hi – pătrat cu ν grade
2
de libertate, notată prin χ ν şi definită de relaţia:
ν  x
 −1 −
x 2  ⋅ e 2
f (x ) =
ν , ν > 0; 0≤ x <∞ (4.28)
ν
2 2 ⋅ Γ 
2
ν
unde Γ este funcţia gamma de parametru α = , dată de integrala:
2

Γ(α ) = ∫ t α −1 ⋅ e −t dt (4.29)
0
Se observă că f ( x ) din (4.28) depinde de un singur parametru
şi anume ν , numărul de grade de libertate. Alura graficului funcţiei
de densitate pentru legea hi – pătrat apare în Fig. 4.4, pentru câteva
valori ale lui ν .
f(x)

0,6

0,4
ν =1

0,2
ν =3
ν =6

0 2 4 6 8 10
12
Fig.4.4. Distribuţia hi – pătrat pentru diverse valori ν

39
Caracteristicile descriptive ale legii χ ν2 sunt date de relaţiile:
M 1 = µ = ν ; µ 2 = 2ν ; µ 3 = 8ν ; µ 4 = 48ν
moda = ν − 2 , pentru ν > 2

Se utilizează în special în testele statistice de concordanţă (sau


ajustare), prin care se verifică măsura în care o serie de date
experimentale se ajustează la o lege teoretică oarecare.

2
Dacă X 1 şi X 2 sunt două variabile independente de legi χ ν1 şi
2
respectiv χ ν 2 , atunci V.A. Y = X 1 + X 2 urmează o lege χ (ν1 + ν 2 ) .
2

Observaţii
2
Dacă ν creşte indefinit, distribuţia χ tinde către distribuţia
( )
normală N ν, 2ν , cu o convergenţă relativ lentă.

Pentru ν → ∞ şi dacă V.A. X are o lege χ ν ,


2

atunci V.A. Y = 2 X tinde rapid spre legea normala N 2ν − 1,1 . ( )


Aproximarea prin legea normală devine deci justificată pentru
ν > 30 şi folosind relaţiile:

z = 2 x − 2ν − 1 sau x=
(z + 2ν − 1 )2
2
unde z este variabila normală standard.

Pentru calculul funcţiei de repartiţie corespunzătoare unei


valori X = x date, adică:
*

( )
x*
F x* = ∫ f (x )dx
0
cu f (x ) de forma (4.28), se pot utiliza două metode practice.
Prima se bazează pe o dezvoltare în serie a lui F (x ) .

40
Cea de-a doua este aplicabilă pentru ν ≥ 8 şi furnizează valori
F ( x ) între 0,0001 şi 0,9999 la o precizie mai bună de 10 −4 , cu
relaţiile:
( )
- dacă x * = ν − 1 , atunci F x = Φ (t1 )
*

1 0,08
+
t1 = − 3 ν
unde
2ν − 2
*
( )
- dacă x * ≠ ν − 1 , atunci F x = Φ (t 2 ) (4.30)
 
a (ν − 1) ln ν −* 1  + x* − (ν − 1)
 x  * 2 0,08
unde t 2 = şi a = x − ν + −
x * − (ν − 1) 3 ν

iar Φ (t ) este funcţia de repartiţie a legii normale standard, pentru


argumentul t.

4.2.4. Legea Student (sau legea t, sau legea Student – t)


cu ν grade de libertate
O V.A. X definită pe domeniul (− ∞, ∞ ) prin raportul între o
V.A. normal distribuită standard, Z şi radical din V.A. Y ν , cu Y de
2 Z
tip χ ν , adică X = , are funcţia de densitate de probabilitate:
Y ν
1 + ν  1
( )
Γ   2  2 ν +1

2  
f (x ) = 
x 
1+
ν ν  (4.31)
πν Γ  
2
şi se notează prescurtat t ν .

41
Alura graficului funcţiei de densitate t ν este redată în Fig. 4.5
pentru câteva valori ν .
Se observă că este o distribuţie simetrică de medie M 1 = µ = 0 ,
ν
având µ 2 = (pentru ν > 2 ) şi cu µ 3 = 0 .
ν−2
De asemenea, pentru ν → ∞ , legea tν tinde către legea N (0,1) ,
aproximaţia fiind complet acceptabilă dacă ν > 30 .

0,5
f(x)

0,4

ν →∞
0,3

ν =1
0,2

0,1

x
0
-6 -4 -2 0 2 4 6

Fig.4.5. Distribuţia Student pentru diferite valori ale lui ν

2
Ca şi χ ν , legea t ν are aplicaţii în efectuarea testelor statistice,
la determinarea intervalelor de încredere, ş.a.m.d.

Dacă ν este mare, funcţia de repartiţie corespunzătoare lui


X = x * se poate obţine cu:
 2
8ν + 1  x* 
( )
F x * = Φ (t ) , unde t = 8ν − 3 ν ln1 + ν 
  (4.32)
 
şi Φ(t ) - funcţia de repartiţie a lui N (0,1) de parametru t.
−4
Când ν > 10 , precizia relaţiei (4.32) este de ordinul lui 10 .

42
( )
Cuantila xq pentru care q = F x q se aproximează cu relaţia:
 z q + 1 5 z q4 + 16 z q2 + 3 3 z q6 + 19 z q4 + 17 z q2 − 15 
x q = z q 1 + + +  (4.33)
 4ν 96 ν 2
384 ν 3 
 

în care z q este cuantila q a legii N (0,1) .


Aproximaţia (4.33) este precisă până la trei cifre semnificative dacă
ν > 15 şi q < 0,999 .

4.2.5. Legea Fisher – Snedecor (sau legea F)

Se notează cu F (ν1 , ν 2 ) , unde ν1 şi ν 2 sunt parametri (grade


de libertate) şi este legea de probabilitate a V.A. X definită pe
Y1 ν1
=
Y2 ν 2 unde 1 şi 2 sunt
domeniul pozitiv al axei, prin raportul: X Y Y

2
două V.A. independente, de legi χ ν1 şi respectiv χ ν 2 .
2

Are densitatea de repartiţie:


 ν + ν2  ν1 ν ν +ν
Γ 1  1 −1 − 1 2
f (x ) = 
2   ν1  2 x 2 1 + ν1 x  2
 ν1   ν 2   ν 2   ν  (4.34)
Γ  Γ  2 

 2   2 
ν2
cu media 1 M = µ = şi momentul centrat de ordin doi
ν2 − 2
2ν 22 (ν1 + ν 2 − 2 )
µ2 = , pentru ν 2 > 2 (media) şi
ν1 (ν 2 − 2 )2 (ν 2 − 4 )
respectiv pentru ν 2 > 4 (varianţa).

43
Indiferent de valorile lui ν1 şi ν 2 , graficele distribuţiei
F (ν1 , ν 2 ) au asimetrie pozitivă (vezi Fig. 4.6).

f (x )

0,8 F(10,50)

0,6
F(10,4)
0,4

0,2
x
0
0 2 4 6 8

Fig.4.6.Distribuţia Fisher – Snedecor cu ν1 =10 şi ν 2 =50 şi 4

Când ν1 şi ν 2 tind către infinit, µ tinde către 1 şi varianţa


către 0.

Dacă X este V.A. de lege F (ν1 , ν 2 ) , atunci V.A. 1 X va avea o


lege F (ν 2 , ν1 ) .

Dacă ν1 = 1 , atunci F (1, ν 2 ) = t ν2 , deci variabila Fisher –


2

Snedecor cu ν1 = 1 şi ν 2 grade de libertate este identică cu pătratul


unei variabile Student cu ν 2 grade de libertate.

Distribuţia F (ν1 , ∞ ) este identică cu distribuţia variabilei hi –


pătrat cu ν1 grade de libertate, împărţită la ν1 .

Cea mai importantă utilizare a distribuţiei F este în testele de


omogenitate a varianţei şi în inferenţa statistică.

44
Funcţia de repartiţie a distribuţiei F (ν1 , ν 2 ) este tabelată
pentru diverse valori x şi respectiv grade de libertate ν1 şi ν 2 .
*

Utilizarea acestor tabele este destul de greoaie şi cere interpolare


armonică între grade de libertate vecine.
−4
O aproximaţie satisfăcătoare, de ordinul lui 10 ca precizie se
obţine dacă ν1 sau ν 2 > 12 , cu relaţia:
 1
  S  T  2 
+   +  p 
 
1 qg p pg
*
( )
F x = Φ d



n 
1 
 n  


  n +  pq  (4.35)
   6 
 
 
ν2 −1 ν1 − 1 ν1 + ν 2 − 2 ν2
în care: S = ;T= ; n= ; p= ;
2 2 2 ν1 x * + ν 2
1  1  q p q − 0,5 
q = 1− p ; d=S+ − p n +  + 0,04 − + 
6  3 ν
 2 ν1 ν1 + ν 2

1 − y 2 + 2 y ln y
iar funcţia g ( y ) = pentru x > 0 şi p ≠ 1
(1 − y )
*
2

cu g (0 ) = 1 şi g (1) = 0 , Φ (t ) fiind funcţia de repartiţie a lui N (0,1)


la parametrul t.

4.2.6. Legea exponenţială


O V.A. X având funcţia de densitate de probabilitate
 − x−a
1 e b pentru x ≥ a, b > 0
 b
f (x ) = 
 0 (4.36)
in rest


se notează prescurtat E (a, b ) .

45
Depinde de parametrul a (de poziţie sau limită inferioară) şi
respectiv parametrul b (de dispersie sau de scară).

Are media M 1 = µ = a + b şi varianţa µ 2 = σ = b .


2 2

Coeficientul de asimetrie (Fisher) este egal cu 2, coeficientul de


boltire (Pearson) este egal cu 9, iar moda se înregistrează la x = a .

În Fig. 4.7 este reprezentată funcţia f(x) pentru legea E(0,1).


f(x)

1,2

0,8

0,4

0 2 4 6 8

Fig.4.7. Legea exponenţială de parametri a = 0 şi b = 1

Valoarea funcţiei de repartiţie pentru X = x * se obţine simplu:


x* − a
( )
F x* = 1 − e

b (4.37)
x−a
Cu variabila redusă v = , inversa funcţiei de repartiţie se
b
scrie:
x−a
= v = − ln[1 − F ( x )]
b
( )
astfel încât cuantila xq pentru care q = F xq rezultă direct cu:
x q = a + b v q , unde v q = − ln[1 − q ] (4.38)
Se utilizează, printre altele, în modelarea timpilor de defectare
a utilajelor, a timpilor de aşteptare în cozi, etc.

46
Exemplul 4.2.5
O substanţă chimică sub formă lichidă adusă la
temperatura de 150 0 C , trece în faza gazoasă printr-o reacţie de
ordinul întâi, cu o constantă a vitezei de reacţie k = 3,5 ⋅ 10 −4 1 s (sau
1,26 1/h). Prin aceasta se înţelege faptul că numărul de molecule,
N (t ) , de substanţă lichidă rămase la momentul t după începerea
reacţiei este dat de:
N (t ) = N (0 ) e − kt
unde N (0 ) este numărul de molecule în faza lichidă la t = 0.
Descreşterea numărului de molecule în faza lichidă, − dN (t ) , în
intervalul (t , t + dt ) va fi atunci − dN (t ) = N (0) ke − kt dt
Dar − dN (t ) este numărul de molecule din totalul iniţial care
supravieţuiesc pentru un timp T şi nu mai mult, cu t < T ≤ t + dt .
Deci, probabilitatea ca una din moleculele originale în faza
lichidă să supravieţuiască până la acest moment este:
dN (t )
P(t < T ≤ t + dt ) = − = ke − kt dt
N (0 )
Conform definiţiei probabilităţii elementare pentru o V.A.
continuă, rezultă că funcţia de densitate de probabilitate a duratei de
supravieţuire a moleculelor în faza lichidă este:
f (t ) = ke
− kt
1
adică o lege exponenţială ca (4.36), de parametri a = 0 şi b = , deci
k
 1
E  0,  .
 k

47
În figură se redă variaţia mărimii y = f (t ) h −1 în funcţie de t h .
y = f (t ) / h −1

1,2

1,0

0,8

0,6

0,4

0,2
t/h

0 0,5 1 1,5 2 2,5 3 3,5

Durata medie de supravieţuire în faza lichidă este


1
=
1h
(= 2857 s ) .
k 1,26
De asemenea, 50% dintre molecule dispar din lichid în
= 0,55 h (= 1980 s ) ,
ln 2
t1 2 =
k
aceasta fiind cuantila pentru care F (t ) = 0,5 aşa cum se poate
verifica cu (4.37) sau (4.38).
Pe durata medie de supravieţuire, mai puţin de jumătate dintre
molecule rămân în fază lichidă (mai precis 1 e ≅ 0,368 ), în timp ce
restul de 1 − 1 e = 0,632 din numărul iniţial s-au transformat în gaz.

48
Un caz mai general este legea Weibull pentru care V.A. X are
funcţia de densitate de probabilitate.
 x
a
 a a −1 − b 
f (x ) =  a x e pentru x ≥ 0, a > 0, b > 0
(4.39)
b
0 în rest
şi se va nota prescurtat W (a, b ) .
Depinde de parametru de formă a şi de parametrul de scară b.

Se utilizează frecvent în teoria fiabilităţii, având o expresie


analitică pentru funcţia de repartiţie corespunzătoare unei valori
X = x * specificate, şi anume:
a
 x* 
− 
( )  b 
F x =1− e  
*
(4.40)

Dacă V.A. X este timpul, atunci, conform noţiunilor din


( )
*
fiabilitate, F x reprezintă
probabilitatea de defectare a componentei unui sistem fizic
*
înainte de momentul x de la darea în exploatare,
iar complementul funcţiei de repartiţie, adică:
( )
R x* = 1 − F x* ( ) (4.41)
reprezintă probabilitatea de funcţionare fără defect (fiabilitatea)
până la momentul x* .

Evident, f ( x ) dat de (4.39) este în acest caz funcţia densităţii


de defectare (sau rata de defectare),
iar funcţia:
f (x )
h( x ) =
R(x ) (4.42)
se numeşte funcţia hazard (sau viteză instantanee de defectare sau
rată de mortalitate dacă f ( x ) este asimilată unei funcţii de vârstă).

49
4.2.8. Legea Gamma cu doi parametri
Se notează G (a, b ) , are densitatea de repartiţie
 a b x b −1e − ax
 pentru x ≥ 0, a > 0, b > 0
 Γ(b )
f (x ) =  (4.43)
 0 in rest


şi reflectă o V.A. care este suma a n variabile independente de tip
exponenţial, fiecare având aceeaşi medie.

Adesea parametrul b este număr întreg şi se numeşte număr de


grade de libertate a V.A. X.
Raportul Γ(b + 1) Γ(b ) = b , astfel că Γ(b + 2) Γ(b ) = (b + 1)b etc, iar
dacă b este întreg, atunci Γ(b ) = (b − 1)!
Se constată că distribuţia G (a,1) este identică cu distribuţia
exponenţială de parametru 1 b = a şi începând de la 0, adică
E (0, a )

Media şi varianţa distribuţiei Gamma sunt


M 1 = µ = b a şi respectiv µ 2 = σ 2 = b a 2 .

Legătura între distribuţiile Gamma şi Poisson se face admiţând o


V.A. Z cu distribuţie G (1, m ) unde m este număr întreg. Se poate
arăta că:

m−1 − z
∫z e dz
P(Z > c ) = c = P(K < m − 1)
(m − 1)! (4.44)
unde K este valoarea funcţiei de repartiţie a distribuţiei Poisson de
medie µ = c pentru x = m − 1 , adică, conform relaţiei (4.12):
m−1 j
K = F ( X = m − 1) = e −c c
∑ j! (4.45)
j =0

50
S-ar ajunge la acest rezultat considerând un proces în care
evenimentele apar în medie cu viteza de 1 pe secundă.
În acest caz, Z secunde ar reprezenta timpul de aşteptare până
la apariţia evenimentului cu numărul m.
Probabilitatea ca acest timp de aşteptare să fie mai mare decât
c secunde este chiar probabilitatea ca nu mai mult de m-1
evenimente să fi apărut în intervalul de timp dintre 0 şi c secunde.

Acum, dacă Y este de tip G (a, m ) , atunci variabila Z = aY este


distribuită ca G (1, m ) , rezultat valabil şi dacă m nu este întreg.
În consecinţă: P(Y > c ) = P(Z > a c )
care este dată de relaţia (4.45), înlocuind c prin ac.

Exemplul 4.2.6
La un ghişeu de bilete RATB, o persoană este a
cincea din coadă. Timpul ei de aşteptare este suma timpilor de servire
a celor patru persoane din faţă. Timpii de servire sunt variabile
independente, distribuite exponenţial, cu media 20 secunde.
Care este probabilitatea ca persoana în cauză să aştepte mai mult
de 90 s ?

Soluţie
Notând cu T durata de servire în secunde, se ştie că aceasta are
1
distribuţia de forma ae − at , cu media µ = = 20 .
a

Astfel, dacă timpul de aşteptare este W secunde, W este suma a


4 variabile independente de tip exponenţial, fiecare de parametru
a = 1 / 20 şi urmează o distribuţie Gamma G ,4  .
1
20  
Probabilitatea P(W > 90) se obţine înlocuind c = 90 / 20 = 4,5 în
relaţia (4.44) şi apoi folosind (4.45), adică
− 4,5  4,5 2 4,5 3 
P(W > 90 ) = e 1 + 4,5 +
 +  = 0,3423
 2 6 

51
4.2.8. Legea Beta cu doi parametri

Se notează cu B(a, b ) şi are densitatea de repartiţie


x a −1 (1 − x )b −1
f (x ) = , pentru 0 ≤ x ≤ 1 , cu a, b > 0 (4.46)
β(a, b )
în care
1
Γ(a )Γ(b)
β(a, b ) = ∫ x a −1 (1 − x )b −1 dx =
Γ(a + b ) (4.47)
0
este funcţia beta de doi parametri a şi b, exprimată cu ajutorul
funcţiei Γ .

În acest caz V.A. X este mărginită la domeniul [0,1] .

Dacă a > 0 şi b > 1 , moda are valoarea (a − 1)(a + b − 2 ) .


Când a > 2 , curba atinge axa x în origine.
Dacă 1 < a < 2 , graficul curbei este tangent la axa ordonatelor
în origine,
iar dacă 0 < a < 1 graficul tinde asimptotic către axa
ordonatelor.

Proprietăţi asemănătoare apar la extremitatea x = 1 , dar legate


de valorile parametrului b
.
Pentru a şi b subunitari, distribuţia se transformă într-o
distribuţie uniformă.

a
Media distribuţiei (4.46) este µ = , iar varianţa ei
a+b
µ2 =
ab
(a + b + 1) .
(a + b )2

52
Există numeroase situaţii practice în care o caracteristică
admisă ca V.A. poate avea o funcţie de densitate de probabilitate
reprezentată bine de distribuţia Beta.
Spre exemplu, în domeniul resurselor de apă:
- nivelul într-un lac de acumulare nu poate să se plaseze decât
între două limite fizice
- sau nivelul pânzei freatice într-un acvifer freatic poate varia
doar între suprafaţa solului şi respectiv primul strat de rocă
impermeabilă de sub suprafaţă.

Evident, notând cu X max şi respectiv X min cele două limite


fizice extreme,
X − X min
variabila x =
( X max − X min ) va lua valori din domeniul
[0,1]
şi poate fi modelată printr-o distribuţie de tipul (4.46).

Sub o altă formă şi anume:


x a −1 (1 + x )−(a +b )
f (x ) = , pentru x ≥ 0
β(a, b ) (4.48)
distribuţia Beta este definită pe domeniul pozitiv al V.A. X.

4.2.9. Legi ale valorilor extreme

Fie o V.A. X reprezentată printr-un eşantion de N valori


discrete sau o serie continuă de lungime T.
Acest eşantion se poate diviza în n subserii de dimensiuni
egale, având fiecare câte m componente, astfel încât N = n ⋅ m sau
T = n⋅m .
Din fiecare subserie se poate alege / defini câte o mărime,
corespunzând unei anumite proprietăţi a subseriilor respective.

53
Mărimea aleasă / definită reprezintă o nouă V.A., notată cu Y,
iar cele n valori Y obţinute din cele n subserii, formează un eşantion
(sau o populaţie) pentru această variabilă aleatoare.

Ca mărime reprezentativă de interes pentru subserii poate fi


privită, de exemplu:
- valoarea cea mai mare din fiecare subserie;
- valoarea cea mai mică din fiecare subserie;
- valoarea cumulată pe câte un număr de date, cea mai mare
sau respectiv cea mai mică din fiecare subserie, etc.

În hidrologie, dacă subseriile sunt compuse din câte 365 de


date de debite medii zilnice înregistrate,
atunci alegând cea mai mare valoare din fiecare an de
înregistrări, se obţine şirul debitelor maxime anuale ca V.A. Y.
Selectând cea mai mică valoare din cele 365 ale fiecărui an, va
rezulta şirul debitelor minime anuale ca V.A. Y.
Alte mărimi de interes în analiza şi managementul resurselor
de apă sunt şi volumele minime (sau maxime) de apă scurse printr-o
secţiune într-un interval de durată precizată (7 zile, 10 zile, o lună
etc.) şi desigur că pentru fiecare subserie anuală se pot obţine
valorile respective care corespund la V.A. Y.

S-a constatat că distribuţia valorilor extreme Y, este


independentă de distribuţia variabilelor aleatoare originale X şi
tinde asimptotic către o funcţie limită, în principiu de tip dublu
exponenţial.

Deoarece distribuţiile valorilor extreme prezintă interes practic,


se vor prezenta în continuare doar elementele referitoare la acestea.

1. Funcţia de distribuţie a valorilor maxime, sub forma


funcţiei de repartiţie se scrie:
− e − α ( x −β )
F (x ) = e (4.49)
cunoscută şi ca legea Gumbel. Aici β este un parametru de poziţie,
iar α - un parametru de scară.

54
Cu variabila redusă y = α(x − β) , relaţia (4.49) devine:
−y
F ( x ) = e −e (4.50)

Expresia funcţiei de densitate de probabilitate se obţine prin


derivarea lui F (x ) în raport cu x, adică:
−α ( X −β )−e − α ( X −β ) − y −e − y
f (x ) = α e sau f ( x ) = αe (4.51)

Când x sau y tinde către + ∞ sau − ∞ , F ( x ) tinde către 0


sau respectiv 1, astfel încât funcţiile (4.51) sunt nemărginite, având
ca asimptotă axa x.

Dacă media µ şi abaterea standard σ ale V.A. X sunt


specificate, parametrii α şi β au expresiile:
1,281
α= β = µ − 0,45 σ = moda
σ ; (4.52)

De asemenea, dacă x0,25 şi x 0,75 sunt cuartilele pentru care


F ( x ) ia valorile 0,25 şi respectiv 0,75, atunci α se poate obţine cu:
1
α
(
= 0,6359 x0,75 − x0,25 ) (4.53)

Pentru valori F ( x ) ≥ 0,99 (sau y ≥ 4,6 ), relaţia (4.49) se


poate aproxima satisfăcător prin funcţia Φ (x ) = e , iar relaţia
−y

(4.50) - prin funcţia F ( x ) = 1 − Φ ( x ) .

Probabilitatea totală de depăşire a valorii x0 , adică P( X > x0 )


va fi:
P ( X > x0 ) = 1 − F ( x0 ) (4.54)
iar pentru o probabilitate de depăşire specificată, P, se obţine din
(4.50)
y P = − ln[− ln(1 − P )] şi respectiv x P = β + y P α

55
2. Funcţia de distribuţie a valorilor minime, sub forma
funcţiei de repartiţie, se scrie:
α
 x−γ 
− 
F (x ) = e  β − γ
,

(4.55)
are cei trei parametri α , β şi γ şi poate fi aplicată dacă: x ≥ γ ;
γ ≥ 0 ; α > 0 şi β > γ
Prin derivare se obţine funcţia de densitate
α
 x−γ 
α −1 −  
α x−γ β − γ 
f (x ) =   e 
β − γ  β − γ  (4.56)
α
x−γ
Cu variabila y =   , rezultă:
 β − γ 
α −1
α
F (x ) = e − y şi f (x ) = − y α e− y (4.57)
β−γ

Din (4.56) se observă că dacă ( x − γ ) tinde către 0 sau ∞,


f ( x ) tinde către 0.

Din (4.55) rezultă că pentru x = γ (cea mai mică valoare


posibilă a lui x), F (x ) = 1 , iar pentru x → ∞ , F (x ) → 0 , astfel încât
F ( x ) dă probabilitatea ca X ≥ x .

Parametrul γ dă limita inferioară a domeniului lui x, β este


parametru de poziţie, iar α - parametru de scară.

Dacă x = β , rezultă F (x ) = e −1 = 0,368 , deci valorile x ≥ β au


probabilitatea de 0,368.

56
Relaţiile între parametrii α , β şi γ şi respectiv media, abaterea
standard şi coeficientul de asimetrie (µ, σ, C s ) sunt următoarele:
 2  1   1  
3
 3 
C s = Γ1 +  − 3Γ1 + Γ1 +  + 2 Γ1 +  [B(α )]3
  α   α   α    α  
1

 2   1   2
2

B(α ) = Γ1 +  − Γ1 +   (4.58)
  α    α  
  1 
β = µ + σA(α ) ; γ = β − σ B(α ) A(α ) = 1 − Γ1 +  B(α )
  α 

La un eşantion cu valoare numerică precizată a coeficientului


de asimetrie, prin rezolvarea ecuaţiei provenită din prima relaţie
(4.58) se găseşte o estimare a lui α .
Apoi celelalte relaţii permit evaluarea parametrilor β şi γ .
Dacă α = 1, rezultă simplu că β = µ şi γ = µ − σ , iar relaţiile
(4.55) – (4.56) devin mult mai simple.

? ..Problema 4.2.1
Într-o holdă de porumb plantele au înălţimea medie de 183 cm,
cu o abatere standard de 8,5 cm. Dacă înălţimea lor este o variabilă
aleatoare normal distribuită, să se găsească
a) procentul de plante mai înalte de 2 m;
b) procentul de plante mai scunde decât 170 cm;
c) înălţimea sub care se plasează 95% din holdă.

? ..Problema 4.2.2
Bateriile auto produse de Rombat au o durată de viaţă normal
distribuită, cu media 46 luni şi abaterea standard 5,8 luni.
a) Dacă fabrica garantează funcţionarea pentru 3 ani, ce procent
din produse va trebui să înlocuiască în perioada de garanţie ?
b) Ce procent din produse va funcţiona între termenul de
garanţie şi durata medie de viaţă ?
c) Ce procent din produse va funcţiona mai mult de 4 ani ?

57
? ..Problema 4.2.3
În urma examenului la Prelucrarea statistică a datelor
experimentale s-a constatat o repartiţie normală a punctajelor obţinute,
cu media 70 (din 100 puncte) şi abaterea standard de 10,6 puncte.
Rezultatele s-au clasificat în 5 categorii şi anume: A – cele mai slabe
5%, B – 20% mediocre, C – 50% medii, D – 20% bune şi E – 5%
foarte bune. Să se afle:
a) punctajul maxim pentru categoria A;
b) între ce punctaje s-au plasat rezultatele medii;
c) punctajul minim al rezultatelor foarte bune.

? ..Problema 4.2.4
Timpii de ecluzare la o ecluză de pe un canal navigabil sunt
aproximativ normal distribuiţi, cu o medie de 17,3 minute şi abaterea
standard 4,2 minute. Să se găsească probabilitatea de a realiza
ecluzarea în mai mult de 19,7 minute, dacă la măsurarea timpului
acesta se rotunjeşte la zecimea de minut cea mai apropiată.

? ..Problema 4.2.5
Distribuţia variabilei aleatoare cu funcţia de densitate de
probabilitate
a−x
e b
f (x ) =
a−x  2

 
b1 + e b 
 
 
se numeşte distribuţie logistică, este definită pentru − ∞ < x < ∞ şi
are media µ = a şi varianţa σ 2 = (b.π)2 / 3 . Admiţând µ = 10 şi
σ = 3 , să se compare probabilitatea ca µ − σ ≤ X ≤ µ + σ în cazul
acestei distribuţii şi respectiv pentru distribuţia normală cu aceiaşi
parametri.

58
5. ELEMENTE DE TEORIA EŞANTIONĂRII
(SELECŢIEI)

Statistica studiază caracteristicile populaţiilor de V.A..


dar de regulă, o populaţie oarecare are un număr de realizări
posibile foarte mare sau chiar infinit, iar manipularea lor este
imposibilă sau nepractică.

Aceasta obligă la limitarea studiului asupra unor eşantioane


(sau selecţii) de talie redusă din populaţia respectivă.

Dacă – de ex.- V.A. sunt variabile de natură hidrologică sau


meteoclimatică, este evident că populaţiile infinite corespunzătoare
lor nu există la dispoziţia analistului,
ci el dispune doar de eşantioane de date observate, culese de la
începerea măsurătorilor asupra acestor V.A.

Analizele bazate pe eşantioane conduc la concluzii corecte în


legătură cu populaţia din care provin doar dacă aceasta este
omogenă (realizări neafectate de schimbarea condiţiilor de
observare sau de factori suplimentari de influenţă apăruţi la un
moment dat) şi
staţionară (insensibilă la modificarea originii timpului).

În plus, metoda de eşantionare trebuie să asigure caracterul


aleator (echiprobabilitate de selecţie a oricărui element din
populaţie) şi
independent (alegerea unui element să nu influenţeze
probabilitatea de selecţie a elementelor următoare).

9
5.1. Noţiunea de distribuţie de eşantionare
Fie o V.A. având o populaţie originară de realizări posibile şi
pentru care nu se cunosc dinainte
- nici caracteristicile descriptive (media µ , varianţa σ , etc.) şi
2

- nici legea de distribuţie pe care o urmează.

Din populaţia respectivă se poate extrage (printr-o metodă având


caracteristicile de mai sus) un număr oarecare k de eşantioane de
aceeaşi talie, n.
Pentru oricare dintre eşantioane se poate calcula o caracteristică
descriptivă (sau o „statistică”) de interes (de exemplu media
xi , i = 1,2,...k ) cu formula cunoscută.
Evident că, funcţie de componenţa fiecărui eşantion extras,
valorile statisticilor de eşantion vor diferi, de regulă, unele de altele
(adică x i ≠ x j , i, j ∈ k ) şi deci
valoarea statisticii respective pentru fiecare eşantion (aici
media) poate fi privită ca realizare a unei V.A. (notată – în cazul
mediei prin X ).

Ca orice V.A., aceasta va urma o lege de distribuţie care, în


exemplul dat, se va numi distribuţie de eşantionare a mediei X .

Studiul distribuţiilor de eşantionare se poate realiza


- analitic (prin metodele statisticii matematice) sau
- experimental (prin simulări Monte Carlo).

Pentru o populaţie finită a unei V.A., dacă


- se definesc toate eşantioanele posibile de o anumită talie n,
- se calculează statistica de interes pentru fiecare eşantion şi
- se construieşte apoi distribuţia frecvenţei relative a valorilor
acestor statistici,
se obţine distribuţia de eşantionare teoretică.

10
În majoritatea situaţiilor însă, se apelează doar la un subset din
totalitatea eşantioanelor posibile,
iar distribuţia frecvenţei relative a valorilor statisticii găsită pe
baza acestui subset se va numi distribuţie de eşantionare
experimentală.

Exemplul 5.1.1
Fie o V.A. discretă cu populaţia definită pe spaţiul de
eşantionare S = {0,2,4,6,8}. Să se formeze, cu reinserţie, cele 25 de
eşantioane posibile a câte 2 componente şi
a) Să se construiască distribuţia de eşantionare a mediei X ;
b) Să se reprezinte graficul histogramei de probabilitate pentru
distribuţia lui X ;
c) Să se compare media populaţiei, µ , cu media distribuţiei lui
X, µX .
Soluţie
a) Cele 25 eşantioane de câte 2 componente posibil de format
din S (cu reinserţie după extragerea oricărei componente) sunt trecute
în tabelul 5.1.1, împreună cu media fiecărui eşantion.
Tabel 5.1.1
Setul eşantioanelor posibile şi mediile lor
Eşant. X Eşant. X Eşant. X Eşant. X Eşant. X
0,0 0 0,2 1 0,4 2 0,6 3 0,8 4
2,0 1 2,2 2 2,4 3 2,6 4 2,8 5
4,0 2 4,2 3 4,4 4 4,6 5 4,8 6
6,0 3 6,2 4 6,4 5 6,6 6 6,8 7
8,0 4 8,2 5 8,4 6 8,6 7 8,8 8
Se constată că spaţiul de eşantionare pentru V.A. X conţine, în
acest caz, valorile {0,1,2,3,4,5,6,7,8} care apar de 1,2,3,4,5,4,3,2 şi
respectiv 1 ori dintr-un total de 25 date.
Rezultă tabloul distribuţiei de frecvenţă relativă pentru X sub
forma:
Tabel 5.1.2
Distribuţia de frecvenţă pentru X
x 0 1 2 3 4 5 6 7 8
()
f x 1 2 3 4 5 4 3 2 1
25 25 25 25 25 25 25 25 25

11
b) Graficul histogramei de probabilitate pentru distribuţia lui
X transpune datele din tabelul 5.1.2 sub forma de mai jos.
0.25 ()
f x

0.2

0.15

0.1

0.05

x
0
0 1 2 3 4 5 6 7 8

c) Cele 5 observaţii ale populaţiei originare sunt valori ale V.A.


f (x ) =
1
X, având distribuţia de probabilitate , pentru x = 0,2,4,6,8
5
Media V.A. X se obţine cu relaţia (3.29), adică
µ = E (x ) = 0 ⋅ + 2 ⋅ + 4 ⋅ + 6 ⋅ + 8 ⋅ = 4
1 1 1 1 1
5 5 5 5 5

Cu aceeaşi relaţie, dar pentru V.A. X şi datele din tabelul 5.1.2


rezultă:

1 2 3 4 5 4 3 2 1
µX = 0⋅ + 1 ⋅ + 2 ⋅ + 3 ⋅ + 4. + 5 ⋅ + 6 ⋅ + 7 ⋅ + 8 ⋅ =4
25 25 25 25 25 25 25 25 25

Se constată că µ = µ X , adică media populaţiei originare este


egală cu media distribuţiei de eşantionare a mediilor de eşantion.
În plus, alura histogramei de frecvenţă este simetrică şi pare
apropiată de forma în clopot.

12
Notând generic prin t o statistică (sau caracteristică descriptivă)
oarecare (ca media, varianţa, etc.) a unui eşantion ,
- cel mai adesea nu interesează informaţii despre ea în sine, ci
- se urmăreşte estimarea, pe baza ei, a parametrului care îi
corespunde (notat generic prin θ ) pentru populaţia originară şi care
este în fapt necunoscut apriori.

Sub acest aspect, cunoaşterea distribuţiei de eşantionare a V.A


T este foarte importantă, permiţând să se răspundă la chestiuni
practice din capitolele următoare, ca de exemplu:
- cum se poate estima cea mai potrivită valoare pentru
parametrul θ̂ al populaţiei, pe baza valorii lui t de eşantion;
- ce încredere se poate acorda valorii θ̂ obţinută ca mai sus, pe
baza intervalului de confidenţă (sau încredere);

- cum se verifică, prin teste statistice, adecvarea valorilor


estimate pentru θ̂ şi intervalul lui de încredere, în raport cu o lege
de distribuţie admisă pentru V.A de interes.

5.2. Exemple de distribuţii de eşantionare pentru


diverse statistici
5.2.1. Distribuţia de eşantionare a mediei

Se poate demonstra analitic în ce mod depinde distribuţia de


eşantionare teoretică de dimensiunile populaţiei şi a eşantionului,
precum şi de procedura de eşantionare.

S-a văzut în Ex. 5.1.1 că dacă se admit extrageri cu reinserţie şi


se formează toate eşantioanele posibile de talie n, dintr-o populaţie
finită de N componente, având media µ X şi abaterea standard σ X ,
atunci media distribuţiei de eşantionare a mediei X a rezultat
egală cu media populaţiei originare:
µX = µX (5.1)

13
Cu datele aceluiaşi exemplu, este uşor de verificat că varianţa
populaţiei de 5 valori rezultă:
[ ] = ∑ (x − 4)
5
= E (x − µ X ) 2 2 1
σ 2X i ⋅ = 8,
i =1
5
iar varianţa distribuţiei de eşantionare a mediei va fi
( ) ( )( 8 σ 2X
)
25
 2
 ∑
2
σ2 = E x −µX = f xi xi − 4 = 4 = = ,
X  2 n
i =1
unde n = 2 reprezintă talia eşantioanelor formate din populaţia
originară.

Într-adevăr, relaţia dintre abaterea standard a populaţiei şi cea


a distribuţiei de eşantionare a mediei X se poate demonstra că este:
σ
σX = X (5.2)
n

Variabila
x −µX
z=
σX (5.3)
n
corespunde unei V.A. normale standard Z şi deci
distribuţia de eşantionare a mediei X urmează o lege
(
normală N µ X , σ X n . )
Afirmaţia este valabilă pentru orice populaţie finită (indiferent
de legea ei de probabilitate), dacă n ≥ 30 .

Când n < 30 , afirmaţia rămâne corectă doar dacă populaţia din


care se realizează eşantionarea nu este prea diferită de o populaţie
normală.

În particular, dacă populaţia originară este unimodală şi


simetrică, pentru n > 10 se respectă cele de mai sus,

14
iar pentru populaţie normală – talia eşantionului, n, nu are
importanţă.

Dacă la eşantionare nu se reintroduc (fără reinserţie)


elementele deja extrase în populaţie, dar n ≥ 30 şi N ≥ 2 n ,
atunci distribuţia de eşantionare a mediei X va fi aproximativ
normală, cu media µ X = µ X şi abaterea standard dată de relaţia:
σX N −n
σX = (5.4)
n N −1
N −n
în care se numeşte factor de corecţie pentru populaţie finită.
N −1

Pentru N mari în comparaţie cu dimensiunea eşantionului n,


acest factor tinde către 1, iar relaţia (5.4) devine identică cu (5.2).

Rezultatele anterioare derivă din teorema limită centrală cu


următorul enunţ literar:
orice sumă de n V.A. independente X i având aceeaşi
distribuţie comună, este ea însăşi o V.A. normală, dacă n
tinde spre infinit şi X i sunt de acelaşi ordin de mărime.

2
Dacă varianţa populaţiei σ nu este cunoscută, dar talia
eşantioanelor n ≥ 30 ,
2
o bună estimare a lui σ se obţine prin varianţele de eşantion
s2 ,
iar variabila
(X − µ X ) (s / n )
va avea o distribuţie încă apropiată de legea normală standard.

15
Pentru n < 30 , raportul
(X − µ X ) (s / n )
nu mai dă valori ale unei distribuţii standard normale,
ci valorile unei statistici T a cărei distribuţie se numeşte
distribuţie t sau distribuţie Student-t. Valorile lui T sunt date de:
x −µX
t= (5.5)
s/ n
cu s varianţa de eşantion.

S-a văzut că distribuţia t are de asemenea formă de clopot în


jurul mediei zero - ca şi distribuţia lui Z.
În schimb, varianţa lui T este mai mare decât 1 (atât X , cât şi
s 2 variază de la eşantion la eşantion şi depind de talia n).

Fiecare distribuţie t are asociat un număr de grade de libertate


notat cu ν şi ν = n − 1 , existând câte o distribuţie t diferită pentru
fiecare n diferit.

Pe măsură ce n creşte, curbele distribuţiei t devin tot mai


apropiate de graficul distribuţiei normale standard.

5.2.2. Distribuţia de eşantionare a varianţei


Dacă se notează prin
1 n
S = ∑ Xi − X
2
n i =1
( )2
V.A. ce defineşte varianţa în raport cu media de eşantion, atunci se
demonstrează teoretic faptul că
media varianţei S 2 este:
n −1 2
µS2 = σX (5.6)
n
2
unde σ X este varianţa populaţiei.

16
2
La fel, pentru varianţa lui S rezultă:
µ4 − σ4 µ 4 − 2σ 4 µ 4 − 3σ 4
σ2 2 = −2 + (5.7)
2
S n n n3
unde µ 4 şi σ 4 sunt momentul centrat de ordin 4 şi respectiv pătratul
varianţei populaţiei lui X.

Dacă talia n este destul de mare, ultimii doi termeni devin


neglijabili şi se poate scrie aproximativ:
2 µ4 − σ4
σ 2 ≅ (5.8)
S n

Dacă populaţia originară este normală (caz în care


µ 4 = 3σ 4 ), din (5.7) rămâne:
2(n − 1) 4
σ2 2 = σX (5.9)
S 2
n
2
sau σ 2 2 ≅ σ 4X pentru n suficient de mare.
S n

Legea distribuţiei de eşantionare a varianţei tinde spre o


lege normală, oricare ar fi forma distribuţiei pentru populaţia
originară. (totuşi, convergenţa este foarte lentă şi apare pentru n
superior lui 100).

Dacă însă populaţia originară este normală, atunci variabila


n S 2 σ 2X
urmează o distribuţie χ cu n − 1 grade de libertate.
2

17
5.2.3. Distribuţia de eşantionare a momentelor
centrate

Dacă se notează prin


- µ k momentul centrat de ordin k al populaţiei originare şi
prin
- M k momentul centrat de eşantion,
media şi varianţa de eşantion a variabilei M k sunt date de
relaţiile:
1
µ M k = µ k + 0  (5.10)
n

σ 2M =
1
( )  1 
µ 2k − 2kµ k −1µ k +1 − µ 2k + k 2 µ 2 µ 2k −1 + 0 
k n  n3 
cu ultimii termeni - erori de aproximare, neglijabili pentru n ≥ 30 .

2 4
Deoarece µ1 = 0 prin definiţie şi µ 2 = σ ,
dacă se admite k = 2 în (5.10) rezultă pentru varianţa lui S 2 :
µ4 − σ4
σ2 2 ≅
S n
adică relaţia (5.8) de mai sus.

Legile de distribuţie a variabilelor M k tind asimptotic către


distribuţia normală.

Se pot prezenta elemente asemănătoare şi pentru alte


statistici (coeficient de variaţie, coeficient de asimetrie, coeficient
de corelaţie, covarianţă, etc.) de eşantionare.

18
De exemplu, pentru coeficientul de variaţie de eşantion,
media şi varianţa lui sunt date de:

µ C v = Cv =
σ 2
σC =
( )
µ 2 µ 4 − σ 4 − 4µσ 2 µ 3 + 4σ 3
µ şi (5.11)
v 4nµ 4 σ 2

unde µ , σ , µ 3 şi µ 4 sunt media, varianţa şi momentele centrate


2
de ordin 3 şi 4 ale populaţiei originare.

În cazul distribuţiei normale trunchiată la X = 0 şi pentru C v


redus,
varianţa lui Cv de eşantionare este dată aproximativ de:
2
σC =
v
C v2
2n
(
1 + 2C v2 ) (5.12)
cu C v - coeficientul de variaţie al populaţiei.

5.2.4. Alte distribuţii de eşantionare

Fie – de exemplu statistica


(X 1 − X 2 ),
unde X 1 şi X 2 sunt mediile a două eşantioane selectate
independent din două populaţii distincte

Extrăgând eşantioane independente de talii n1 şi n2 din două


populaţii mari sau infinite, discrete sau continue,
având mediile µ1 şi µ 2 şi varianţele σ1 şi respectiv σ 2 ,
2 2

atunci distribuţia de eşantionare a diferenţei mediilor, X 1 − X 2 , va fi


aproximativ normal distribuită, cu media şi abaterea standard
date de relaţiile:

19
σ12 σ 22
µ X − X = µ1 − µ 2 ; σ X 1 − X 2 = + (5.13)
1 2 n1 n2

Mărimea

z=
(x1 − x 2 ) − (µ1 − µ 2 )
σ12 σ 22 (5.14)
+
n1 n2
va furniza valori ale variabilei Z, cu distribuţie normală standard.

Dacă n1 şi n2 sunt ambele ≥ 30, aproximaţia distribuţiei lui


X 1 − X 2 printr-una normală este foarte bună, indiferent de legile
celor două populaţii originare
şi rămâne rezonabil de bună chiar şi pentru valori n1 , n2 <
30 - dacă populaţiile originare nu sunt foarte îndepărtate de unele
cu legi normale de distribuţie.

Aspectele despre distribuţia V.A. (X 1 − X 2 ) se pot generaliza


asupra unor variabile care nu sunt neapărat medii.

Spre exemplu,

- dacă V.A. X şi Y sunt independente şi normal distribuite,


- cu mediile µ X şi µY şi varianţele σ 2X şi σY2 ,

atunci distribuţia diferenţei ( X − Y ) este de asemenea normală,


de medie µ X −Y = µ X − µY şi varianţă σ 2X −Y = σ 2X + σY2 .

Se observă că varianţa diferenţei a două V.A. independente este


egală cu suma varianţelor celor două variabile aleatoare.

20
Există şi alte proceduri de eşantionare decât cea având
caracteristicile de aleatoare şi independentă.

De exemplu,
- în Eşantionarea sistematică se alege pentru eşantion fiecare al
k-lea element dintr-o populaţie, începând de la un punct de start
definit aleator din primele k elemente.

- în Eşantionarea aleatoare stratificată se aleg eşantioane


aleatoare independente din subpopulaţii mutual exclusive (sau
straturi) ale populaţiei originare.
Dacă se împarte o populaţie de talie N în k straturi de
dimensiuni N1 , N 2 ,..., N k şi se aleg eşantioane de talii n1 , n2 ,..., nk
din cele k straturi,
această procedură foloseşte o alocare proporţională în sensul că:
N 
ni =  i  ⋅ n pentru i = 1,2,..., k (5.15)
 N 
unde n este dimensiunea totală a eşantionului aleator stratificat.

Eşantionarea „cluster” selectează un eşantion conţinând toate


sau o selecţie aleatoare, dintre elementele unor „clusters” (grupări,
mănunchiuri) care – şi ele - sunt alese aleator din populaţia originară.

Procedurile menţionate furnizează informaţii la fel de


valoroase asupra populaţiei originare, uneori chiar la costuri mai
scăzute sau când natura experimentului nu permite eşantionarea
aleatoare independentă.

Atunci când condiţiile din viaţa reală nu permit observarea a


foarte multor realizări posibile din populaţia unei V.A. de interes,
pentru a studia distribuţiile de eşantionare a diferitelor statistici,
devine profitabil să se genereze sintetic date aparţinând acelei
populaţii.
Programul GenerVA permite astfel de generări pentru o serie
de legi de probabilitate utilizate frecvent..

21
Exemplul 5.2.1
Din evidenţele Ministerului Sănătăţii, greutăţile
copiilor la naştere urmează o distribuţie aproximativ normală de
medie 3 kg şi abatere standard 0,4 kg. Să se găsească:
a) Probabilitatea ca un eşantion aleator format din 25 nou
născuţi să aibă greutatea medie mai mare de 3,15 kg, dacă se
rotunjeşte cântărirea la a doua cifră după virgulă (zeci de grame);
b) Probabilitatea ca media de greutate a eşantionului să fie sub
2,9 kg;
c) Media şi varianţa distribuţiei de eşantionare a varianţei
greutăţii nou născuţilor din eşantion;
2
d) Valorile cuartilelor S 0,25 şi S 0,75 , între care se plasează
2

50% dintre valorile distribuţiei de eşantionare a varianţei:

Soluţie
a) Selecţia se face dintr-o populaţie foarte mare şi aproximativ
normal distribuită.
În consecinţă şi media de eşantion X va fi distribuită
aproximativ normal, cu media µ X = 3 kg şi abaterea standard
σX 0,4
σX = = = 0,08 kg .
n 25
Rotunjind greutatea la zeci de grame, interesează valoarea
variabilei normale standard Z care corespunde la x = 3,155 kg , adică
X − µ X 3,155 − 3
z= = = 1,94
σX 0,08
Probabilitatea care interesează va fi atunci:
( )
P X > 3,155 = P(Z > 1,94 ) = 1 − P(Z < 1,94 ) = 1 − 0,9738 = 0,0262 ,
adică circa 2,62%

b) Interesează valoarea mediei x ≤ 2,895 kg , pentru care Z ia


valoarea
2,895 − 3
z= = −1,31
0,08

22
şi ( )
P X < 2,895 = P(Z < −1,31) = 0,0951 ,
adică circa 9,51%

c) Conform (5.6), media varianţei distribuţiei de eşantionare a


varianţei rezultă:
n −1 2 25 − 1
µS 2 = σX = ⋅ 0,4 2 = 0,1536
n 25
iar varianţa distribuţiei se obţine cu (5.9):
2(n − 1) 4
σ2 2 = σ X = 0,002 şi atunci σ S 2 = 0,047
S 2
n

d) Conform afirmaţiei că dacă populaţia originară este


normală,
nS 2
atunci variabila Y = are o distribuţie χ 2 cu n-1 grade de
σ 2X
libertate,
rezultă că trebuie găsite cuartilele y1 şi y 2 pentru care
F ( y1 ) = 0,25 şi respectiv F ( y 2 ) = 0,75 ale distribuţiei χ 2 cu
ν = 25 − 1 = 24 grade de libertate.

Cu programul Test_S_F_H şi opţiunea H la rulare, pentru


ν = 24 şi nivel de semnificaţie 0,25, se găsesc valorile y1 = 19,037 şi
respectiv y 2 = 28,241 pentru variabila χ (ν = 24) , la care F ( y1 ) = 0,25
2

şi respectiv F ( y 2 ) = 0,75 .
Rezultă valorile varianţelor de eşantion a varianţei
σ 2X 0,4 2
S12 = y1 = 19,037 ⋅ = 0,1218 şi respectiv S 22 = 0,1808 .
n 25
( 2
În consecinţă P 0,1218 < S < 0,1808 = 0,5 )
Reamintind că µ S 2 = 0,1536 , şi σ S 2 = 0,0447 ,
( ) ( )
rezultă că intervalul µ S 2 − σ S 2 ÷ µ S 2 + σ S 2 , adică intervalul
(0,1089; 0,1983) va conţine evident mai mult de 50% dintre valorile
V.A. S 2 .

23
Exemplul 5.2.2
Se speră că un echipament computerizat de ambalare
a cafelei în pungi vidate va realiza pungi cu o greutate medie de 500
g. La un control aleator pe 16 astfel de pungi s-a găsit o greutate
medie de 491,9 g, cu o abatere standard pe lot de 12 g.
a) Este de aşteptat ca echipamentul să producă pungi cu
greutatea medie dorită de 500 g, dacă se acceptă că distribuţia
greutăţii pungilor realizate este normală ?
b) Cât ar trebui să fie greutatea medie a unui lot aleator de 16
pungi, cu abaterea standard pe lot de 12 g, pentru a putea presupune
că 90% dintre pungile produse vor avea greutatea medie dorită de
500 g ?

Soluţie
a) Este vorba despre o populaţie normală cu varianţă
necunoscută şi valoare dorită a mediei de 500 g.
Lotul aleator de n = 16 pungi controlate are greutatea medie de
eşantion x = 491,9 g şi abaterea standard s = 12 g.
Conform relaţiei (5.5), statistica T având valoarea
x − µ X 491,9 − 500
t= = = −2,7
s n 12 16
are o lege de distribuţie Student-t cu ν = 16 − 1 = 15 grade de libertate.
Probabilitatea ca T să ia valori mai mici decât -2,7 se găseşte cu
programul LegiVAC şi este P(T < −2,7 ) = 0,0082

Cu alte cuvinte, pe baza informaţiilor găsite cu eşantionul de


16 pungi, dacă media populaţiei ar fi cea dorită (500 g), variabila T
ar lua valoarea -2,7 în mai puţin de 1% dintre situaţii.
Dimpotrivă, dacă media populaţiei ar fi mai mică decât 500,
valoarea t găsită ar fi mai mare şi P(T < t ) ar creşte.
În concluzie nu este de aşteptat ca echipamentul să producă
pungi cu greutatea medie de 500 g, ci cu o greutate medie mai mică.

24
b) Pentru a putea presupune că 90% dintre pungi vor avea
greutatea medie de 500 g ar fi trebuit ca media de eşantion x q să fie
astfel încât variabila T să aibă:
( ) ( )
P T < t q = F t q = 0,9
Cu programul Test_S_F_H şi opţiunea S la rulare, pentru
nivelul de semnificaţie 0,1 se găseşte cuantila distribuţiei Student cu
ν = 15 grade de libertate pentru care F (t q ) = 0,9 ca fiind t q = 1,341 .
s 12
Rezultă x q = µ X + tq = 500 + 1,341 = 504,02 g
n 16
În concluzie, dacă greutatea medie a pungilor din eşantion ar fi
fost x = 504,02 g şi abaterea standard pe lot de s = 12 g, s-ar fi putut
sconta ca 90% dintre pungile produse de echipament să aibă
greutatea medie de 500 g.

Exemplul 5.2.3
Suma notelor obţinute de studentele unei universităţi
la examenele din primii 4 ani are o medie de 336 şi o varianţă de 36
puncte. Studenţii aceleiaşi universităţi şi la aceleaşi examene au
înregistrat o medie a sumei notelor de 300 puncte cu o varianţă de 50
puncte. Distribuţiile sumei notelor pentru ambele categorii sunt
aproximativ normale.
Să se găsească probabilitatea ca suma medie a unui eşantion
aleator de 18 studente să depăşească cu peste 41 puncte suma medie
a unui eşantion aleator de 25 studenţi.

Soluţie
Notând cu X 1 şi X 2 V.A. reprezentând media de eşantionare
pentru studente şi respectiv studenţi, conform relaţiilor (5.13):
- media diferenţelor mediilor de eşantionare este
µ X 1 − X 2 = µ1 − µ 2 = 336 − 300 = 36
- varianţa acestei diferenţe este
2 σ12 σ 22 36 50
σ = + = + =4
X1−X 2 n1 n2 18 25

25
z=
(x1 − x 2 ) − (µ1 − µ 2 )
Valoarea
σ12 σ 22
+
n1 n2
corespunde unei V.A. Z cu distribuţie normală standard.
Dacă media eşantionului de studente depăşeşte pe cea a
eşantionului de studenţi cu 41 puncte, adică x1 − x 2 = 41 ,
valoarea variabilei Z corespunzătoare va fi:
41 − 36
z= = 2,5 şi atunci
2
( )
P X 1 − X 2 > 41 = P(Z > 2,5) = 1 − P(Z < 2,5) = 1 − 0,9938 = 0,0062
adică o probabilitate de sub 1%.

Exemplul 5.2.4
Conform evidenţei oficiale, dintre cei 50000 locuitori
cu drept de vot ai unui oraş, 6000 nu au urmat şcoala sau au făcut
doar şcoala primară, 18000 au absolvit gimnaziul, 17000 au
terminat liceul şi respectiv 9000 au studii superioare. Dacă se doreşte
realizarea unui eşantion de 1000 persoane în vederea sondării
opţiunilor la un referendum, dar ţinând seama de nivelul studiilor,
câte persoane din fiecare categorie trebuie alese prin eşantionare
aleatoare stratificată pentru ca lotul rezultat să fie reprezentativ ?

Soluţie
Conform (5.15), în care n = 1000 talia eşantionului, N = 50 000
– numărul persoanelor cu drept de vot şi N i = numărul total de
persoane din fiecare categorie:
- dintre cei N1 = 6000 locuitori cu cel mult şcoala primară se vor
alege aleator
 6000 
n1 =   ⋅ 1000 = 120 persoane
 50000 
- dintre cei N 2 = 18000 absolvenţi de gimnaziu se vor alege
aleator n2 = 360 persoane

26
- dintre cei N 3 = 17000 absolvenţi de liceu se vor alege n3 = 340
persoane
- dintre cei N 4 = 9000 locuitori cu studii superioare se vor alege
aleator n4 = 180 persoane

? Problema 5.2.1
Din populaţia S = {1,2,2,3,3,4} se efectuează eşantioane aleatoare
de câte 2 componente, fără reinserţie.
a) Presupunând că toate cele 30 de eşantioane posibile sunt
echiprobabile, să se construiască distribuţia de eşantionare a mediei X
b) Să se reprezinte histograma de probabilitate a distribuţiei lui
X
σ N −n
c) Să se verifice că µ X = µ şi σ X =
n N −1

? Problema 5.2.2
O populaţie mare sau infinită are abaterea standard de 72. Ce
talie de eşantioane este necesară astfel ca eroarea standard a mediei să
fie
a) 24; b) 9; c) 6 ?

? Problema 5.2.3
Timpul consumat de 1000 persoane pentru a completa un
formular simplu este aproximativ normal distribuit, cu media 29,3
secunde şi abaterea standard de 8,6 secunde. Dacă se alcătuiesc 400 de
eşantioane aleatoare de câte 25 persoane, din această populaţie, să se
găsească:
a) Media şi abaterea standard a mediei X ;
b) Numărul de medii de eşantion care cad între 25,1 şi 30,6
secunde;
c) Numărul de medii de eşantion mai mari de 31,7 secunde.
Se admite că timpii se rotunjesc la zecimi de secundă.

27
6. ELEMENTE DE TEORIA ESTIMAŢIEI

Statistica deductivă (sau de inferenţă) = modele prin


care se obţin generalizări asupra populaţiilor statistice.

În maniera clasică acestea se bazează strict pe


informaţii deduse prin prelucrarea eşantioanelor extrase din
populaţii

Maniera Bayesiană utilizează cunoştinţe subiective


dobândite anterior asupra distribuţiilor de probabilităţi a
parametrilor necunoscuţi, împreună cu observaţii rezultate din
eşantioane de date.

Inferenţa statistică include două domenii mari:


- estimaţia şi respectiv
- testarea ipotezelor

Domeniul estimaţiei presupune


- estimarea valorii unui parametru folosind o statistică
adecvată
- şi, apoi, utilizarea cunoştinţelor despre distribuţia de
eşantionare a statisticii respective (v. capitolul anterior)
- pentru a stabili gradul de precizie al estimării.

Aceste aspecte se tratează în capitolul de faţă.


6.1. Noţiuni introductive privind estimaţia

Estimatorul (sau funcţia de decizie) unui parametru


necunoscut, θ , al unei populaţii şi care se va nota prin θ̂ ,
este o funcţie de cele n valori observate ale datelor unui
eşantion destinat să servească la estimarea lui θ .
De obicei, estimatorul este reprezentat de o formulă de
calcul sau un algoritm.

Estimaţia θˆ este valoarea numerică luată de


estimatorul θ̂ în acord cu formula (algoritmul) şi valorile
celor n date de eşantion.

Valoarea adevărată a lui θ pentru o populaţie oarecare


este unică dar necunoscută,
pe când fiecare eşantion extras din populaţie va furniza
câte o valoare θˆ - diferită de cele ale altor eşantioane
(fluctuaţia de eşantionare).
Alegerea estimatorului θ̂ trebuie să respecte:
- criteriul de universalitate şi
- condiţia de optimalitate.

Prima cerinţă impune ca, în medie, valoarea


necunoscută a parametrului θ să fie estimată fără eroare sau
fără deplasare (nedeplasată), adică este necesar ca:
()
µ θ̂ = E θ̂ = θ ,
(media distribuţiei de eşantionare a estimatorului θ̂ trebuie să
fie egală cu θ ).
()
Se numeşte deplasare diferenţa E θ̂ − θ , iar pentru o
estimare θˆ pe baza eşantionului j de date, diferenţa θˆ − θ
j j
reprezintă eroarea de eşantionare.
A doua condiţie - se numeşte estimator optimal acela
care, dintre mai mulţi estimatori posibili ai lui θ , va face ca
( )
E  θ̂ - θ  = minim

2

(minimizează eroarea pătratică medie dintre valoarea θ
reală şi estimările θ̂ ).
Eroarea pătratică medie este suma pătratului deplasării
şi varianţei estimaţiei.
Condiţia de optimalitate implică alegerea estimatorului
care conduce la varianţa minimă a estimaţiei.

Ca metode de estimare a unui anumit parametru se vor


prezenta
- metode bazate pe studiul analitic al distribuţiilor de
eşantionare, precum şi
- o serie de metode specifice (metoda verosimilităţii
maxime, metoda celor mai mici pătrate etc.).

Altă diferenţiere se poate face între


- metodele zise parametrice (presupun cunoaşterea legii
de distribuţie a V.A. X pentru populaţia de interes) şi
- cele neparametrice (nu presupun nici o informaţie
asupra distribuţiei lui X).
Prima categorie necesită anumite ipoteze ajutătoare
pentru analiză, în timp ce ultima renunţă la astfel de ipoteze.
6.2. Intervale de încredere

Pe baza unui eşantion de talie n, se calculează , de


exemplu, media x - o realizare posibilă a V.A. X.
Estimatorul mediei populaţiei se adoptă de forma µ̂ = x ,
( )
(nedeplasat deoarece s-a văzut că E X = µ şi optimal dacă
populaţia originară este apropiată de una normală).
Estimaţia mediei obţinută astfel este de tip parametric
deoarece presupune ceva despre populaţia originară.

Dar nu există motive pentru a crede că şi cel mai eficient


estimator va produce o estimaţie punctuală (pe baza unui
eşantion dat) care să fie exact egală cu parametrul de interes
al populaţiei.

Adesea este preferabil să se determine un interval în care


să se spere că se găseşte valoarea parametrului respectiv.
O estimare de interval a parametrului unei populaţii
este un interval de forma
θˆ1 < θ < θˆ2 ,
în care θˆ şi θˆ depind de valoarea statisticii θ̂ pentru un
1 2

anumit eşantion şi de distribuţia de eşantionare a lui θ̂ .

Evident că eşantioane diferite vor genera valori diferite


ale estimatorului şi deci valori diferite pentru θˆ1 şi θˆ2 .
Aceste capete de interval sunt valori ale unor V.A. θ̂1 şi
θ̂ 2 ,
iar din distribuţia de eşantionare a lui θ̂ trebuie găsite
valorile θˆ1 şi θˆ2 astfel încât
( )
P θ̂1 < θ < θ̂ 2 = 1 − α pentru 0 < α < 1 . (6.1)
Aceasta corespunde la probabilitatea (1 − α ) de alegere a
unui eşantion aleator care va produce intervalul conţinându-l
pe θ .

Intervalul θ̂1 < θ < θ̂ 2 calculat pe baza eşantionului ales se


numeşte interval de (1 − α ) ⋅ 100% încredere.

Fracţia (1 − α ) se numeşte coeficient (sau nivel) de


încredere,
α este pragul de semnificaţie,
iar capetele de interval θ̂1 şi θ̂ 2 sunt limitele inferioară
şi superioară de încredere.

Cu cât intervalul de încredere este mai larg ( α mai mic),


cu atât există mai multă încredere că intervalul respectiv
conţine parametrul necunoscut θ .

6.3. Intervalul de încredere pentru medie

Deja s-a văzut că estimatorul punctual pentru media


populaţiei µ este dat de statistica X şi deci
estimaţia punctuală a lui µ va fi valoarea mediei de
eşantion x .

În Cap.5 s-a menţionat că distribuţia de eşantionare a


V.A. X este aproximativ normală, cu media µ X = µ şi
2 2
varianţa σ X = σ n .
Cu schimbarea la variabilă normală standard (sau
redusă), se poate scrie că:
µ̂ = µ X + σ X ⋅ z (6.2)
unde z este variabila normală standard N (0,1) .
Fie z α şi respectiv z1− α = − z α valorile variabilei reduse
2 2 2
pentru care suprafeţele de sub graficul distribuţiei N (0,1)
α
aflate la stânga şi respectiv dreapta, sunt egale cu câte .
2
Atunci, suprafaţa de sub grafic cuprinsă între cele două
valori, va fi egală cu nivelul de încredere (1 − α ) şi deci:
 
P zα < Z < z α  = 1− α

 1− 
 2 2 
f(z)

1−α

α α
2 2
z

zα 2 0 z1−α 2

Fig.6.1 Definirea intervalului de încredere

Prin intermediul (6.2), celor două valori z le corespund


valorile µ̂1 şi respectiv µ̂ 2 ,
iar probabilitatea ca media populaţiei, µ să fie cuprinsă
între acestea este de asemenea (1 − α ) , adică:
P(µˆ 1 < µ < µˆ 2 ) = 1 − α

Pentru simplificare şi ţinând seama de simetria faţă de 0 a


distribuţiei lui Z, se va nota zc = z α şi atunci
1−
2
limitele intervalului de încredere pentru medie se scriu
µ X ± zc ⋅ σ X .
În concluzie,
2
- dacă se cunoaşte varianţa populaţiei σ , şi
- s-a calculat estimaţia punctuală x pe baza unui
eşantion dat, de talie n,
- se poate construi intervalul de încredere al mediei µ
sub forma:
 σ σ 
P x − z c < µ < x + zc  = 1 − α (6.3)
 n n 
unde z c este cuantila z1− α a distribuţiei normale standard.
2

Afirmaţia este valabilă şi dacă nu se cunoaşte media


distribuţiei lui X , adică µ X (care s-a arătat că este identică cu
µ ).
Într-adevăr, dacă valoarea x calculată pe baza unui
σ
eşantion, se află la o distanţă mai mică decât c z faţă de
n
µ , cu o probabilitate de (1 − α ) ,
atunci se poate spune şi invers, că valoarea adevărată şi
σ
necunoscută a lui µ se află la o distanţă inferioară lui c
z
n
faţă de x , cu aceeaşi probabilitate (1 − α ) .

S-a menţionat anterior că,


- indiferent de distribuţia populaţiei originare,
- dacă talia eşantioanelor este n ≥ 30 ,
- concluziile privind distribuţia de eşantionare a mediei
X sunt aceleaşi şi deci
- relaţia (6.3) pentru intervalul de încredere a mediei este
valabilă.
Dacă se lucrează cu eşantioane de talie mai mică,
selectate din populaţii cu distribuţii nenormale, intervalul de
încredere dat de relaţia (6.3) poate să fie incorect.

Intervalul de încredere fiind centrat pe media de eşantion


x , dacă µ este şi ea valoarea centrală a intervalului, atunci x
estimează pe µ fără eroare. (ceea ce nu se întâmplă adesea sau
nu poate fi verificat).

Se găseşte uşor că x şi µ diferă cu cel mult o cantitate ε


specificată şi la nivel de încredere (1 − α ) ales, dacă talia
eşantionului este:
2
 z σ
n= c  (6.4)
 ε 

Toate precizările anterioare sunt valabile dacă se


cunoaşte varianţa populaţiei σ 2 !!!

2
Când varianţa populaţiei σ nu este cunoscută şi
nu se dispune de eşantioane cu talia n ≥ 30 .
s-a văzut că raportul
x−µ
t=
s n
reprezintă valoarea unei V.A. cu distribuţie Student-t şi
ν = n − 1 grade de libertate.
Aici x şi s sunt media şi abaterea standard a eşantionului
cu n < 30 dintr-o populaţie aproximativ normală.
Distribuţia Student este simetrică în raport cu 0 şi tinde
către distribuţia normală standard când ν → ∞ .
Notând cu t c = t1− α cuantila distribuţiei t cu ν = n − 1
2
α
grade de libertate, pentru care F (t c ) = 1 − ,
2
intervalul de încredere pentru medie se scrie acum:
s s
x − tc < µ < x + tc (6.5)
n n

Dacă estimarea varianţei populaţiei se face cu inversa lui


(5.6) aplicată unui eşantion, atunci rezultă
n 2
σˆ 2 = s (6.6)
n −1
şi utilizând σ̂
în locul lui s în (6.5), se poate scrie
s s
x − tc < µ < x + tc (6.7)
n −1 n −1
(un interval de încredere puţin mai larg decât cel dat de (6.5)).

Estimatorul σ̂ dat de (6.6) este un estimator nedeplasat


pentru abaterea standard a populaţiei, calculat pe baza
abaterii standard de eşantion, s.

Exemplul 6.3.1
Un eşantion aleator format din 64 membri ai
sindicatului Alma Mater are media de vârstă 39,3 ani şi
abaterea standard a vârstelor de 4,8 ani.
a) Să se estimeze media şi abaterea standard ale
populaţiei de sindicalişti;
b) Să se determine intervalul de încredere a mediei
pentru pragul de semnificaţie α = 5% ;
c) Ce talie ar trebui să aibă eşantionul pentru a fi 98%
siguri că estimarea mediei µ nu se face cu o eroare mai mare
de jumătate de an ?
Soluţie
a) Estimarea punctuală a mediei populaţiei este egală cu
valoarea de eşantion a statisticii X , adică µˆ = x = 39,3 ani.
Deoarece n = 64 este destul de mare, estimaţia varianţei
populaţiei, σ̂ 2 , se poate lua identică cu varianţa de eşantion
adică σˆ = s şi respectiv σˆ = s = 4,8 ani.
2 2

Folosind (6.6) rezultă totuşi σˆ = s n 64


= 4,8 ≅ 4,84
n −1 63
ani, o diferenţă de doar 0,83% - (se justifică prima afirmaţie).

b) Deoarece α = 0,05 , rezultă z c = z1− 0,05 = z 0,975 , iar


2
cuantila respectivă este z c = 1,96 .
Intervalul de încredere de 95% pentru media µ rezultă:
4,8 4,8
39,3 − 1,96 < µ < 39,3 + 1,96
64 64
sau (38,12 < µ < 40,48) ani - rotunjit la a doua zecimală.

c) În acest caz 1 − α = 0,98, astfel încât α = 0,02 şi


z c = z 0,99 care se găseşte că este z c = 2,33 .
Cu (6.4) şi folosind aceeaşi estimaţie pentru σ , deoarece
2
 2,33 ⋅ 4,8 
ε = 0,5 ani rezultă: n=  = 500,33
 0,5 
Deci, ar fi sigur în proporţie de 98% că media x a unui
eşantion de 500 persoane din populaţia membrilor sindicatului
respectiv, nu diferă de media populaţiei µ cu mai mult de o
jumătate de an.
Exemplul 6.3.2
O selecţie aleatoare de 15 pepeni verzi produşi
la o bostănărie a condus la o greutate medie de 3,95 kg, cu o
abatere standard de 0,62 kg. Să se găsească intervalul de
încredere 95% pentru greutatea medie a întregii producţii dacă
se admite o distribuţie aproximativ normală a greutăţii
pepenilor.

Soluţie
Talia eşantionului n = 15 fiind redusă, o estimare mai
corectă a abaterii standard a populaţiei se obţine cu (6.6), adică
n 15
σˆ = s = 0,62 = 0,642 kg ,
n −1 14
diferită cu aproape 7% faţă de s = 0,62 kg.
În acest caz (n < 30 ) este indicată utilizarea valorii t c a
variabilei de lege Student-t cu ν = 15 − 1 = 14 grade de
libertate.
Având în vedere că 1 − α = 0,95 şi deci α = 0,05 , cuantila
t c = t α = t 0,975 a variabilei t cu ν = 14 grade de libertate, se
1−
2
găseşte a fi t c = 2,145 (cu programul LegiVAC sau programul
Test_S_F_H şi opţiunea S).
Rezultă intervalul de încredere 95% pentru greutatea
medie cu (6.7), sub forma:
s s
x − tc < µ < x + tc ,
n −1 n −1
0,62 0,62
adică 3,95 − 2,145 < µ < 3,95 + 2,145
14 14
şi anume (3,595 < µ < 4,305) kg
Dacă s-ar fi utilizat variabila normală standard în locul
variabilei t, ar fi rezultat intervalul de încredere 95% sub forma:
0,62 0,62
3,95 − 1,96 < µ < 3,95 + 1,96
15 15
adică (3,636 < µ < 4,264) kg, mai redus cu circa 11,55%.
? ..Problema 6.3.1
O companie care foloseşte forţă de muncă din zona
limitrofă a constatat că, pentru un eşantion aleator de 16
muncitori, distanţa medie a domiciliului faţă de uzină este 19,2
km, cu o abatere standard de 3,1 km. Admiţând că distanţele
locuinţelor tuturor angajaţilor sunt aproximativ normal
distribuite, să se găsească intervalul de încredere 95% pentru
distanţa medie ce trebuie parcursă ca să se ajungă la serviciu.

? ..Problema 6.3.2
Pe un eşantion aleator de 64 cumpărători s-a observat un
timp mediu de aşteptare la casele unui mare magazin alimentar
de 4,5 minute, cu o abatere standard de 2,1 minute
a) Construiţi intervalul de încredere 95% pentru timpul
mediu de aşteptare al tuturor cumpărătorilor din acest magazin
b) Care este eroarea posibilă de apreciere a mediei
populaţiei, dacă se foloseşte media de eşantion ?
c) Ce talie trebuie să aibă eşantionul analizat pentru a avea
99% încredere că media de eşantion nu diferă cu mai mult de
0,5 minute faţă de media reală ?
6.4. Alţi estimatori şi intervalele lor de
încredere
6.4.1. Diferenţa mediilor

Pentru două populaţii cu mediile µ1 şi µ 2 şi varianţele


σ12 , respectiv σ 22 , un estimator punctual al diferenţei dintre
µ1 şi µ 2 este dat de statistica X 1 − X 2 .
Alegând două eşantioane aleatoare independente, câte unul
din fiecare populaţie şi având dimensiunile n1 , respectiv n2 , se
poate calcula diferenţa mediilor de eşantion x1 − x 2 .

Dacă eşantioanele se selectează din populaţii normale


sau dacă n1 şi n2 sunt mai mari decât 30,
se poate stabili un interval de încredere pentru µ1 − µ 2
folosind distribuţia de eşantionare a V.A. X 1 − X 2 .
2
Când σ1 şi σ 2 sunt cunoscute, intervalul de încredere
2

(1 − α ) ⋅ 100% pentru diferenţa mediilor rezultă sub forma:


( )
x1 − x 2 − z c
σ12 σ 22
+
n1 n2
( )
< µ1 − µ 2 < x1 − x 2 + z c
σ12 σ 22
+
n1 n2
(6.8)

unde x1 şi x 2 sunt mediile celor două eşantioane de talii n1 şi


n2 , iar z c = z α , ca mai sus
1−
2
.
Dacă x1 şi x 2 sunt mediile unor eşantioane de dimensiuni
mai mici, selectate din populaţii aproximativ normale cu
varianţe necunoscute, dar egale, atunci intervalul de încredere
(1 − α ) ⋅ 100% pentru µ1 − µ 2 este dat de:
(x1 − x 2 ) − tc s p 1
+
1
n1 n2
( )
< µ1 − µ 2 < x1 − x 2 + t c s p
1
+
1
n1 n2
(6.9)

unde s p este o estimare ponderată a abaterii standard a


populaţiei V.A. X 1 − X 2 , de forma:
n1s12 + n2 s 22
sp = (6.10)
n1 + n2 − 2
2 2
cu s1 şi s 2 varianţele celor două eşantioane.
Prin t c s-a notat valoarea cuantilei t1− α a distribuţiei
2
Student-t cu ν = n1 + n2 − 2 grade de libertate.

Dacă varianţele populaţiilor sunt considerabil diferite,


relaţiile rămân corecte pentru populaţii normale, cu condiţia
ca n1 = n2 .

2
În (6.10) se pot înlocui termenii de forma ns prin
(n − 1)σˆ 2 , unde σ̂ 2 este o estimare nedeplasată a varianţei .

2 2
Dacă x1 , s1 , x 2 şi s 2 sunt mediile şi varianţele a
două eşantioane independente de dimensiuni n1 şi n2 reduse,
provenind din populaţii aproximativ normale şi având varianţe
necunoscute şi inegale, intervalul de încredere (1 − α ) ⋅ 100%
pentru µ1 − µ 2 este dat de:

(x1 − x 2 ) − tc s12 s2
( )
+ 2 < µ1 − µ 2 < x1 − x 2 + t c
n1 − 1 n2 − 1
s12 s2
+ 2
n1 − 1 n2 − 1
(6.11)

unde t c este cuantila t1− α a distribuţiei Student-t cu


2
2
 s12 s 2 
 + 2 
 n1 − 1 n2 − 1 
ν=  
s14 s 24 (6.12)
+
(n1 − 1) (n2 − 1)3
3

grade de libertare.

O situaţie de interes apare în legătură cu estimarea


diferenţei mediilor a două populaţii, când eşantioanele nu sunt
independente, iar varianţele celor două populaţii nu sunt
obligatoriu egale.
În acest caz, dimensiunile eşantioanelor vor fi identice şi
- se generează un nou eşantion,
- construind diferenţele d i = x1i − x2 i , i = 1,2,..., n ale
perechilor de date din cele două eşantioane de talie n .
Acestea sunt realizări ale unei V.A. D , admisă normală,
cu media µ D şi varianţă necunoscută σ 2D - care se
aproximează prin s d2 (varianţa valorilor de eşantion
d1 , d 2 ,..., d n .).
Estimaţia punctuală a diferenţei µ1 − µ 2 = µ D este dată
de d - media de eşantion a valorilor d i , iar intervalul de
încredere (1 − α ) ⋅ 100% pentru µ D = µ1 − µ 2 se scrie:
s s
d − tc d < µ D < d + tc d (6.13)
n n
cu t c - cuantila t1− α a distribuţiei Student-t cu ν = n − 1 grade de
2
libertate.
6.4.2. Proporţia p a distribuţiei binomiale

Un estimator punctual pentru proporţia p de succese


X
într-un experiment binomial, este statistica Pˆ = , unde X
n
reprezintă numărul de succese în n încercări şi atunci
x
proporţia de eşantion ˆ
p = va fi estimaţia punctuală a
n
parametrului p.

Dacă valoarea p (necunoscută) nu este foarte apropiată


de 0 sau 1,
atunci se poate stabili un interval de încredere pentru p,
ţinând seama de distribuţia de eşantionare a statisticii P̂ care
este aproximativ normal distribuită, cu media µ Pˆ = p
2 pq
şi varianţa σ Pˆ = .
n
Deci, dacă p̂ este proporţia de succese într-un eşantion de
talie n şi qˆ = 1 − pˆ , un interval de încredere (1 − α ) ⋅ 100%
aproximativ pentru parametrul binomial p va fi:
pˆ qˆ pˆ qˆ
pˆ − z c < p < pˆ + z c (6.14)
n n
cu z c - cuantila z1− α a distribuţiei normale standard.
2

Metoda de definire a intervalului lui p rămâne valabilă şi


când distribuţia binomială se foloseşte pentru a aproxima
distribuţia hipergeometrică (când talia eşantionului n este
relativ mică în comparaţie cu talia populaţiei N)
.
Notând cu ε diferenţa între p adevărat şi p̂ de eşantion,
- pentru a avea (1 − α ) ⋅ 100% încredere că diferenţa între
cele două valori nu depăşeşte o eroare ε impusă,
- trebuie ca talia eşantionului să fie:
z c2 pˆ qˆ
n= (6.15)
ε2
În (6.15) se va folosi valoarea p̂ calculată pe baza unui
eşantion şi dacă n ≥ 30 , ea reprezintă o estimaţie preliminară.
Se poate avea în vedere şi faptul că, în orice situaţie,
z c2
pˆ qˆ ≤ 0,25 atunci rezultând mai direct n = 2 .

Dacă interesează diferenţa între doi parametri binomiali


p1 şi p 2 şi
- se dispune de două eşantioane independente de talii n1
şi n2 ,
x1 x
- cu estimările punctuale ˆ
p 1 = şi respectiv pˆ 2 = 2 ,
n1 n2
- ştiind că statistica Pˆ − Pˆ este aproximativ normal
1 2
distribuită cu media µ P − P = p1 − p 2 şi varianţa
1 2
pq p q
σ2 = 1 1+ 2 2 ,
P1 − P 2 n1 n2
- se obţine intervalul de încredere (1 − α ) ⋅ 100% pentru
diferenţa p1 − p2 sub forma:
pˆ 1qˆ1 pˆ 2 qˆ 2 pˆ 1qˆ1 pˆ 2 qˆ 2
( pˆ1 − pˆ 2 ) − z c + < p1 − p 2 < ( pˆ 1 − pˆ 2 ) + z c +
n1 n2 n1 n2
(6.16)
cu z c - cuantila z1− α a distribuţiei normale standard.
2
6.4.3. Varianţa

Pentru un eşantion de talie n, extras dintr-o populaţie


2
normală cu varianţa σ , se utilizează varianţa de eşantion
s 2 ca estimaţie punctuală a lui σ 2 .

ns 2
Folosind statistica H = (sau cu estimarea nedeplasată
σ2
(n − 1)σˆ 2
),
σ2
aceasta urmează o distribuţie χ cu ν = n (sau
2

respectiv n − 1 ) grade de libertate.

2
Valorile lui χ nu pot fi negative, iar graficul ei este
asimetric, asimetria reducându-se pe măsură ce creşte ν .

Notând prin h α şi respectiv h1− α cuantilele repartiţiei


2 2
α
χ 2 corespunzătoare valorilor funcţiei de repartiţie F (h ) = şi
2
α
respectiv F (h ) = 1 − ,
2
atunci intervalul de încredere (1 − α ) ⋅ 100% pentru
varianţa populaţiei se scrie:
ns 2 2 ns 2
<σ <
h α hα (6.17)
1−
2 2
unde distribuţia χ 2 are ν = n grade de libertate.
Cu estimatorul nedeplasat (n − 1)σˆ în locul lui ns în
2 2

relaţia (6.17), cuantilele de la numitor se vor calcula pentru


distribuţia χ 2 având ν = n − 1 .

Intervalul de încredere pentru abaterea standard σ


rezultă extrăgând rădăcina pătrată din expresiile limitelor de
interval din (6.17).

Dacă media populaţiei normale originare, µ , este


cunoscută, atunci varianţa de eşantion s 2 se calculează
folosind µ , iar
dacă µ nu se cunoaşte - s 2 se calculează cu media de
eşantion x .

6.4.4. Raportul varianţelor

O estimaţie punctuală a raportului varianţelor a două


2 2
populaţii, σ1 σ 2 se obţine prin raportul varianţelor celor
două eşantioane independente, de talii n1 şi n2 , extrase din
populaţii normale, adică prin:
n  n 
R = 1 s12  2 s 22  (6.18)
n1 − 1  n2 − 1 
ˆ 12 σˆ 22 dacă se folosesc estimatori nedeplasaţi)
(sau prin σ

Statistica definită prin


R
F= (6.19)
σ12 σ 22
are o distribuţie de eşantionare de tip Fisher-Snedecor cu
ν1 = n1 − 1 şi respectiv ν 2 = n2 − 1 grade de libertate.
2
Ca şi χ , distribuţia F este definită pe domeniul pozitiv
al V.A..

Notând cu f α şi respectiv f1− α cuantilele pentru care


2 2
funcţia de repartiţie cu ν1 şi ν 2 grade de libertate ia valorile
α α
şi 1 − , atunci
2 2
 
P f α < F < f α  = 1− α

 1− 
 2 2 
iar intervalul de încredere (1 − α ) ⋅ 100% pentru variabila F se
scrie:
R
fα < < f α
σ12 σ 22 1−
2 2
astfel încât pentru raportul varianţelor rezultă
R σ12 R
< <
f α σ2 fα (6.20)
1− 2
2 2
unde R este dat de (6.18) sau R = σˆ 12 σˆ 22 .

Deoarece
α (ν1 , ν 2 ) =
1
f
1− f α (ν 2 , ν1 ) ,
2
2
relaţia (6.20) se mai poate scrie:
σ12
f α (ν 2 , ν1 ) R <
R
<
σ 22 f α (ν1 , ν 2 ) (6.21)
2
2
unde s-au explicitat condiţiile de calcul a cuantilelor f α prin
2
specificarea ordinii gradelor de libertate.
Exemplul 6.4.1
Un hipermarket achiziţionează un anumit
produs agricol (cartofi, lămâi, etc.) de la doi furnizori şi îşi pune
problema dacă să renunţe sau nu la unul dintre ei. Criteriul de
decizie s-a bazat pe diferenţa dintre mediile populaţiilor de
produse oferite şi respectiv diferenţa a două medii de eşantion,
de talie egală, selectate aleator şi independent din cele două
populaţii. Dacă la un nivel de încredere de 96% această
diferenţă va depăşi 1,80g, se va alege furnizorul cu cea mai bună
medie a populaţiei. În caz contrar, se vor păstra ambii furnizori.
Populaţiile produselor se admit cu distribuţii aproximativ
normale.
Pentru a adopta decizia, s-au ales două eşantioane de câte
50 produse din cele oferite de furnizori. În eşantionul primului,
a rezultat o greutate medie pe produs de 81,4 g, cu abaterea
standard de 4,6 g, iar pentru cel de-al doilea, greutatea medie a
fost 84,5 g şi abaterea standard 4 g.
a) Ce decizie consideraţi că s-a adoptat ?
b) Care ar trebui să fie decizia, la nivel de încredere de
95%, dacă s-ar dispune de eşantioane a câte 15 produse, având
aceleaşi medii şi varianţe de eşantion ca mai sus, dar admiţând
populaţiile cu aceleaşi varianţe ?

Soluţie
a) Estimaţia punctuală pentru diferenţa mediilor
populaţiilor, µ1 − µ 2 se face prin diferenţa mediilor de eşantion
adică x1 − x 2 = 81,4 − 84,5 = −3,1 g .
Deoarece n1 = n2 = 50 , (talie mare) se pot aproxima
varianţele populaţiilor prin varianţele eşantioanelor, adică
σ1 = s1 = 4,6 g şi respectiv σ 2 = s 2 = 4 g .
Conform (6.8), intervalul de încredere 96% pentru
diferenţa mediilor populaţiilor este:
(x1 − x 2 ) − ∆ < µ1 − µ 2 < (x1 − x 2 ) + ∆
σ12 σ 22 4,6 2 4 2
unde ∆ = zc + = zc + = 0,862 z c ,
n1 n2 50 50
iar z c este cuantila z1− 0,04 = z 0,98 a distribuţiei normale standard
2
care se găseşte a fi z c = 2,055 .
În consecinţă ∆ = 0,862 ⋅ 2,055 = 1,77 g
Deoarece diferenţa dintre (µ1 − µ 2 ) şi (x1 − x 2 ) este
(µ1 − µ 2 ) − (x1 − x 2 ) < ∆ = 1,77 g
la nivel de încredere 96%, iar limita stabilită a fost de 1,80 g,
având intervalul de încredere corespunzător în jurul lui
( )
x1 − x 2 cu o extindere mai mică decât 1,80 g, se va putea
decide să nu se renunţe la nici un furnizor.

b) Acum n1 = n2 = 15 (talie mică), admiţând varianţele


de eşantion nedeplasate adică σˆ 1 = 4,6 şi σˆ 2 = 4 , în calculul
abaterii standard combinate (6.10) se va utiliza relaţia:
(n1 − 1)σˆ 12 + (n2 − 1)σˆ 22 14 ⋅ 4,6 2 + 14 ⋅ 4 2
sp = = = 4,31
n1 + n2 − 2 28
iar intervalul de încredere 95% va fi
(x1 − x 2 ) − ∆ < µ1 − µ 2 < (x1 − x 2 ) + ∆
1 1 1 1
unde ∆ = t c ⋅ s p + = t c ⋅ 4,31 + = 1,574 ⋅ t c
n1 n2 15 15
Aici t c este cuantila t1− 0,05 = t 0,975 a distribuţiei Student-t
2
cu ν = n1 + n2 − 2 = 28 grade de libertate, care are valoarea
t c = 2,048 .
Rezultă ∆ = 1,574 ⋅ 2,048 = 3,224
În acest caz (µ1 − µ 2 ) − (x1 − x 2 ) < ∆ = 3,224 g ,
deci mai mult decât diferenţa limită impusă la cel mult 1,80 g
şi este preferabil să se renunţe la unul dintre furnizori.
Intervalele de încredere 96% (ca la punctul a)) pentru
mediile populaţiilor de produse a celor doi furnizori sunt:
σ1 σ1
x1 − z c < µ1 < x1 + z c ,
n n
adică (80,063 < µ1 < 82,737 ) g şi respectiv (83,338 < µ 2 < 85,662) g ,
fiind clar că al doilea furnizor oferă produse cu o greutate
medie pe populaţie mai mare decât primul.

Exemplul 6.4.2
Pentru a studia efectul plimbărilor pe jos asupra
pierderii în greutate la un grup de 10 angajaţi sedentari, li s-a
prescris acestora un anumit program de mişcare pe următoarele
6 luni. Greutăţile (în kg) înainte şi după terminarea programului
au fost ca în tabelul următor.
Persoana 1 2 3 4 5 6 7 8 9 10
Ginit. 95 81 76 96 82 87 71 93 77 110
Gfinal 89 78 77 93 80 86 72 93 74 105
Să se găsească intervalul de încredere 98% pentru
diferenţa reală între greutăţile medii dinainte şi de după
program.

Soluţie
Fie µ1 şi µ 2 greutăţile medii iniţială şi respectiv finală.
Cele 10 perechi de valori reprezintă eşantioane
dependente (aceleaşi persoane au fost cântărite înainte şi după
experiment).
Estimaţia punctuală a diferenţei mediilor de greutate se
obţine cu µ1 − µ 2 = µ D şi este d = 86,8 − 84,7 = 2,1 kg .
Având în vedere diferenţele d i = (6,3,−1,3,2,1,−1,0,3,5)
obţinute cu datele din tabel, se poate calcula varianţa
diferenţelor de eşantion cu relaţia:
2
n  n 
n∑ d i − ∑ di 
2 
  10 ⋅ 95 − 212
2 i =1  i =1 
sd = = = 5,656
n(n − 1) 10 ⋅ 9
astfel încât s d = 5,656 = 2,378 .
Conform (6.13), t c = t1− α = t1− 0,02 = t 0,99 este cuantila
2 2
distribuţiei Student-t cu ν = 10 − 1 = 9 grade de libertate şi se
găseşte a fi t c = 2,821 pentru α = 0,02 .
Rezultă intervalul de încredere 98% pentru reducerea
medie de greutate sub forma:
s s
d − tc d < µ D < d + tc d
n n
2,378 2,378
adică 2,1 − 2,821 < µ D < 2,1 + 2,821 ,
10 10
deci (− 0,02 < µ D < 4,22 ) kg

Exemplul 6.4.3
Dintr-un lot de 500 posibili cumpărători ai unui
autoturism nou, 280 s-au exprimat că-şi vor lua o maşină nouă
având consum redus de combustibil, iar restul au optat pentru
alte calităţi.
a) Să se găsească intervalul de încredere 96% pentru
proporţia reală a celor ce-şi vor cumpăra o maşină cu consum
redus;
b) Cât de mare ar trebui să fie lotul interogat dacă se
urmăreşte încredere 99% pentru ca eroarea la estimarea lui p
să fie de cel mult 0,05 ?

Soluţie
a) Este un experiment binomial cu estimaţia punctuală a
şansei de succes pˆ = 280 / 500 = 0,56 , astfel încât qˆ = 1 − pˆ = 0,44 .
Conform (6.14), intervalul de încredere pentru p este:
pˆ qˆ pˆ qˆ
pˆ − z c < p < pˆ + z c
n n
unde z c = z1− α = z1− 0,04 = z 0,98 este cuantila distribuţiei normale
2 2
standard pentru α = 0,04 şi se găseşte că z c = 2,055 .
Rezultă
0,56 ⋅ 0,44 0,56 ⋅ 0,44
0,56 − 2,055 < p < 0,56 + 2,055
500 500
adică 0,514 < p < 0,606

b) Se admite estimarea preliminară a lui pˆ = 0,56 , făcută


pe lotul de 500 persoane ca fiind valabilă.
La nivel de încredere 99% corespunde α = 0,01 şi
respectiv trebuie calculată cuantila z c = z 0,995 care este
z c = 2,575 .
Cu (6.15) rezultă dimensiunea lotului necesar de
interogat:
z c2 pˆ qˆ 2,575 2 ⋅ 0,56 ⋅ 0,44
n= = = 654
2 2
ε 0,05
Presupunând valoarea lui p̂ neconcludentă, dar ştiind
că pˆ qˆ ≤ 0,25 , ar rezulta:
2,575 2 ⋅ 0,25
n= = 663 ,
0,05 2
caz în care încrederea ar depăşi 99% că eroarea la evaluarea
lui p este cel mult 0,05.

Exemplul 6.4.4
Pentru a compara variabilitatea pieselor de
acelaşi tip produse de două maşini unelte, s-a ales un eşantion
de 16 piese realizate de prima maşină şi s-a constatat o abatere
standard a diametrelor de 2,86 μm, în timp ce la un eşantion de
25 piese făcute pe a doua maşină, abaterea standard a fost de
1,94 μm. Să se găsească:
a) Intervalele de încredere 90% pentru varianţele
populaţiilor de piese realizate pe cele două maşini, admise
populaţii normale;
b) Intervalul de încredere 90% pentru raportul
varianţelor şi respectiv raportul abaterilor standard al celor
două populaţii.
Soluţie
ˆ 2 = 1,94 μm
a) Admiţând că σˆ 1 = 2,86 μm şi respectiv σ
sunt estimaţii nedeplasate ale abaterilor standard pentru cele
două eşantioane, în locul relaţiei (6.17) se va folosi pentru
intervalul de încredere al varianţei formula:
(n − 1)σˆ 2 < σ 2 < (n − 1)σˆ 2
h α hα
1−
2 2

La prima maşină n1 = 16 ; σˆ 12 = 8,18 iar este cuantila
2
distribuţiei χ 2 cu ν = n − 1 = 15 grade de libertate pentru care
 
F  h α  = 0,05 . Cu programul LegiVAC sau Test_S_F_H se
 
 2
găseşte h0,05 = 7,26 şi respectiv h0,95 = 24,996 , astfel încât
intervalul de încredere pentru σ 12 va fi:
15 ⋅ 8,18 15 ⋅ 8,18
< σ12 < ,
24,996 7,26
adică (4,909 < σ12 < 16,901), iar pentru abaterea standard
(2,216 < σ1 < 4,111) µ m
2
La a doua maşină n2 = 25 ; σˆ 2 = 3,764 iar h α este
2
cuantila distribuţiei χ cu ν = n − 1 = 24 grade de libertate
2

 
 
pentru care  h α  = 0,05 .
F
 2
Se găseşte h0,05 = 13,848 şi h0,95 = 36,415 , iar intervalele
2
de încredere pentru σ 2 şi respectiv σ 2 sunt:
24 ⋅ 3,764 24 ⋅ 3,764
< σ 22 < ,
36,415 13,848
( )
adică 2,481 < σ 2 < 6,523 şi respectiv (1,575 < σ 2 < 2,554) μm
2
b) Raportul varianţelor de eşantioane este
σˆ 2 8,18
R= 1 = = 2,173
2
σˆ 2 3,764
În (6.20), f α este cuantila distribuţiei Fisher cu n1 − 1 = 15
2
şi respectiv n2 − 1 = 24 grade de libertate pentru care funcţia de
α
repartiţie este egală cu , aici 0,05.
2
Cu programul Test_S_F_H şi opţiunea F la rulare se
găseşte f 0,05 = 0,437 şi respectiv f 0,95 = 2,108 .
Rezultă intervalul de încredere 90% pentru raportul
varianţelor:
R σ12 R
< <
f 0,95 σ 22 f 0,05
adică
2,173 σ12 2,173
< <
2,108 σ 22 0,437
 σ12 
sau   1,031 < < 4,973  , iar pentru raportul abaterilor standard
σ22 
 
 σ 
1,015 < 1 < 2,23 
 σ2 

? ..Problema 6.4.1
La un test specific de inteligenţă, 8 studenţi aleşi aleatoriu
au avut un indice IQ mediu de 121 puncte, cu o varianţă de 7, în
timp ce la un lot aleator de 12 liceeni s-a constatat un IQ mediu
de 112, cu o varianţă de 16 puncte. Admiţând că ambele
populaţii sunt aproximativ normale, să se găsească intervalul de
încredere 99% pentru diferenţa între mediile indicilor IQ reali, la
cele două populaţii.
? ..Problema 6.4.2
Considerând că valoarea 3,1 km a abaterii standard din
Problema 6.3.1 este o estimaţie nedeplasată, să se construiască
intervalul de încredere 95% pentru varianţa σ 2 a populaţiei
distanţelor faţă de uzină.

? ..Problema 6.4.3
Bricostore se aprovizionează cu şuruburi de un anumit tip
de la doi furnizori. Pentru a stabili dacă există diferenţe
semnificative între numărul mediu de şuruburi pe cutie livrate
de către aceştia, s-au ales aleator 10 cutii provenind de la primul
furnizor şi 9 de la al doilea. În primul caz s-a găsit un număr
mediu de şuruburi pe cutie de x1 = 35,3 bucăţi, cu o abatere
standard s1 = 2,4 , iar în al doilea caz a rezultat x2 = 31,7 şi
s 2 = 3,4 . Admiţând populaţiile normale
a) Să se găsească intervalul de încredere 98% pentru
µ1 − µ 2 dacă se presupun varianţe egale
b) Să se construiască intervalul de încredere 90% pentru
σ1 / σ 2

? ..Problema 6.4.4
a) Dintr-un eşantion aleator de 300 posesori de autoturism,
210 declară că au maşină cu instalaţie de aer condiţionat. Să se
găsească intervalul de încredere 98% pentru proporţia
posesorilor de maşini cu aer condiţionat.
b) Ce eroare posibilă există la acest nivel de încredere,
dacă se estimează proporţia respectivă la 0,7 ?

? ..Problema 6.4.5
Petrom afirmă că 60% dintre staţiile sale oferă şi alte
facilităţi, în afara vânzării carburanţilor. Câte staţii trebuie
verificate aleator pentru a fi cel puţin 90% convinşi că nu se face
o eroare mai mare de 0,01 acceptând afirmaţia respectivă ?
6.5. Metode de estimare

Elementele prezentate anterior privind estimatorii şi


estimaţiile unor parametri ai populaţiilor de V.A. s-au bazat în
principal pe
distribuţiile de eşantionare a mărimilor (medie, varianţă,
diferenţa mediilor a două populaţii, etc.) şi pe
ipoteze asupra legii populaţiei originare.

Pentru a avea informaţii despre distribuţiile de


eşantionare este necesar
- să se dispună de numeroase date asupra realizărilor
posibile ale V.A. şi
- să se construiască numeroase eşantioane aleatoare din
acestea.
În majoritatea situaţiilor acest lucru este imposibil sau
prea costisitor, fiind necesare alte metode de estimare.

6.5.1. Metoda verosimilităţii maxime

Este una dintre cele mai frecvent folosite metode de


estimare a parametrilor a,b,... ai unei legi de probabilitate de
forma generală f (x; a, b,K ) ,
pornind de la observaţiile unui eşantion de n valori xi
care sunt realizări ale V.A. X
şi pentru care se urmăreşte particularizarea expresiei lui
f (x; a, b, K ) .

Se numeşte funcţie de verosimilitate şi se notează prin


L produsul:
n
L = ∏ f ( xi ; a, b, K ) (6.22)
i =1
care reprezintă densitatea de repartiţie comună a variabilelor
de selecţie şi se pune întrebarea
care valori ale parametrilor aˆ , bˆ, K maximizează funcţia
de verosimilitate L ??? (în sensul că cele mai bune estimări
pentru aˆ , bˆ,K vor fi acelea care provoacă apariţia sau
realizarea eşantionului observat, cu cea mai mare
probabilitate).

Multe legi de probabilitate conţin în expresia lor


exponenţiale, şi atunci este avantajos ca în locul lui L să se
folosească logaritm din L, considerând că atunci când L
devine maxim şi ln L îşi atinge maximul.
Se poate deci scrie, în locul relaţiei (6.22), relaţia:
n
ln L = ∑ ln[ f ( xi ; a, b, K )] (6.23)
i =1

Condiţiile de extremum pentru ln L în raport cu


parametrii căutaţi a, b,... constau în anularea derivatelor
parţiale în raport cu aceşti parametri, adică:
 ∂ (ln L )
 ∂a = 0
 ∂ (ln L )
 =0
 ∂b (6.24)
L L L L

ecuaţii care permit obţinerea estimărilor pentru aˆ , bˆ, K

Se poate demonstra că estimatorii de verosimilitate


maximă posedă varianţă minimă respectând una dintre
cerinţele fundamentale menţionate la începutul capitolului.

În continuare se dau câteva exemple de aplicare a


metodei verosimilităţii maxime.
1. Fie legea de distribuţie normală
2
1  x −µ 
−  
f (x; µ, σ ) =
1
e 2 σ 
σ 2π
şi un eşantion dintr-o populaţie admisă
xi , i = 1,2, K , n
normală, de medie µ şi abatere standard σ necunoscute.
În baza definiţiei (6.22) rezultă:
n n − ( xi −µˆ )
2

( −
L = 2πs 2 2 ) ∏
e 2s
2

i =1
şi prin logaritmarea (6.23) se obţine:

( )
n (x − µ )
) 2
n
ln L = − ln 2πs − ∑
2 i
2 2
i =1 2 s
Cu prima condiţie de extrem adică:
∂ (ln L ) 1 n 1  n 
= ∑ ( x i − µ
ˆ ) =
 ∑ x i − nµˆ =0
 ,
∂µˆ 2
s i =1 2
s  i =1 
1 n
rezultă evident µˆ = ∑ xi = x
n i =1
deci estimatorul de verosimilitate maximă pentru media
populaţiei este media de eşantion.

2
Privind varianţa s ca al doilea parametru şi dezvoltând
ln L sub forma:
1 n
ln L = − ln(2π) − ln s − (xi − µˆ )2 ,
n n
2 2
2
2 ∑
2 s i =1
2
prin derivare în raport cu s şi egalare cu zero se obţine
∂ (ln L ) 1 n
=−
n
+ ∑ ( xi − µˆ )2 = 0
∂s 2 2 s 2 2 s 4 i =1
1 n
sau −n+
2 ∑ ( xi − µˆ )2 = 0
s i =1
de unde s =
1 n
2

n i =1
( x i − µˆ )2
=
1 n

n i =1
x i − x
2
(
, (un estimator )
deplasat al varianţei populaţiei).
2 ns 2
S-a văzut că σˆ = este o estimaţie nedeplasată.
n −1

2. Pentru legea log-normală de parametri a şi b cu


funcţia de densitate:

(ln x −a )2
f ( x; a, b ) =
1 2b 2
, e
xb 2π
procedând ca mai sus, se găsesc estimatorii de verosimilitate
maximă:
1 n 1 n
aˆ = ∑ ln xi şi b = ∑ (ln xi − aˆ )2
ˆ
n i =1 n i =1

3. Fie legea binomială de parametru n – cunoscut şi


proporţie p necunoscută
b( x ; n, p ) = C nx ⋅ p x ⋅ (1 − p )n− x
şi m realizări xi , i = 1,2,K , m cunoscute ale unei populaţii de
V.A. admisă cu această distribuţie.
Funcţia de verosimilitate este
m
L = ∏ C n i ⋅ pˆ xi ⋅ (1 − pˆ )n− xi
x

i =1
şi logaritm din ea care se poate scrie:
m m m m
ln L = ∑ ln C n i ⋅ pˆ xi ⋅ (1 − pˆ )n− xi  = ∑ lnC n i + ln pˆ ∑ xi + ln (1 − pˆ )∑ (n − xi )
x x
 
i =1 i =1 i =1 i =1

Derivând în raport cu p̂ şi egalând cu zero rezultă:


∂ (ln L ) 1 m 1 m
∂p
= ∑ xi −
pˆ i =1
∑ (n − xi ) = 0
1 − pˆ i =1
m  m 
sau (1 − pˆ )∑ xi − pˆ  nm − ∑ xi  = 0

i =1  i =1 
m
∑ xi
x
de unde pˆ = i =1 = ,
mn n
care este estimatorul de verosimilitate maximă

4. În cazul legii Poisson, de parametru µ necunoscut:


µx
p( x; µ ) = e −µ
x!
şi n realizări xi , i = 1,2,K , n cunoscute ale unei populaţii de
V.A. presupusă cu această distribuţie, se obţine succesiv:
n ˆ xi
− µˆ µ
L = ∏e
i =1
xi !
n  − µˆ µˆ xi  n
ln L = ∑ ln e  = ∑ [− µˆ + xi ln µˆ − ln( xi !)] =
i =1 
xi !  i =1
n n
= −nµˆ + ln µˆ ∑ xi − ∑ ln( xi !)
i =1 i =1
n
∂ (ln L ) 1 n 1
∂µˆ
= −n + ∑ xi = 0 şi µˆ =
µˆ i =1 n i =1
xi = x ∑
6.5.2. Metoda momentelor

Dacă funcţia de densitate de probabilitate a populaţiei


depinde de r parametri θ , adică:
f (x; θ1 , θ 2 , K , θ r )
şi se dispune de un eşantion de n valori xi , i = 1,2, K , n
provenite din acea populaţie,
primele r momente teoretice ale lui f furnizează r relaţii
în care apar cei r estimatori θˆ pentru parametri respectivi.

Egalând cu valorile momentelor corespunzătoare găsite


pe baza datelor de eşantion, rezultă r ecuaţii cu necunoscutele
θˆ 1 , θˆ 2 , K , θˆ r .

Prin rezolvarea acestor ecuaţii, se determină estimaţiile


θˆ ale parametrilor θ căutaţi.

6.5.3.Metoda celor mai mici pătrate

În principiu, operează nu cu funcţia de densitate de


probabilitate, ci cu funcţia de repartiţie a legii de
probabilitate, deci cu:
x
F ( x; θ1 , θ 2 , K , θ r ) = ∫ f (u; θ1 , θ 2 ,K , θ r )du
−∞

Având un eşantion xi , i = 1,2,K , n selectat din populaţia


pentru care se presupune că f este legea de probabilitate,
- estimatorii parametrilor θˆ se obţin din condiţia ca
suma pătratelor diferenţelor dintre F (xi ; θ1 , θ 2 , K , θ r ) şi
valorile de eşantion ale funcţiilor de repartiţie Fi (xi ) să fie
minimă, adică:

[( ) ] 2
n

min S = ∑ F xi ; θˆ 1 , θˆ 2 , K , θˆ r − Fi ( xi )  (6.26)
 i =1 
Derivatele parţiale ale lui S în raport cu fiecare
parametru θˆ , egalate cu zero, adică:
 ∂S
 ∂θˆ = 0
 1
...............
 ∂S (6.27)
 =0
 ∂θˆ r
generează un sistem de r ecuaţii cu necunoscutele
θˆ 1 , θˆ 2 , K , θˆ r , care – prin rezolvare – furnizează valorile
estimatorilor respectivi.

6.5.4. Metoda Bayes

În metodele anterioare de estimare, informaţia provine


din eşantioane aleatoare şi ele interpretează probabilităţile ca
frecvenţe relative care sunt privite ca probabilităţi obiective.

Fie însă cazul că există informaţii suplimentare asupra


unui parametru θ pentru care se doreşte o estimaţie,
de exemplu se cunoaşte distribuţia lui de probabilitate
(numită distribuţie anterioară), cu media anterioară µ 0 şi
2
varianţa anterioară σ 0 .
Probabilităţile asociate cu ea sunt numite probabilităţi
subiective.
Metodele Bayesiene folosesc
- elementele cunoscute despre distribuţia anterioară
- împreună cu informaţiile furnizate de eşantion
pentru a calcula distribuţia posterioară a parametrului θ ,
(adesea media distribuţiei posterioare fiind admisă ca
estimaţie punctuală a lui θ ).

Spre exemplu,
- în cazul parametrului µ al unei populaţii normale,
2
- cu varianţa σ cunoscută,
- dacă x este media unui eşantion de talie n şi
- se cunoaşte distribuţia anterioară a populaţiei mediei,
admisă normală de medie µ 0 şi varianţă σ 02 ,
atunci distribuţia posterioară a populaţiei mediei va fi
normală, cu media µ1 şi varianţa σ12 date de
n xσ 02 + µ 0 σ 2 σ 02 σ 2
µ1 = ; σ12 = (6.28)
nσ 02 + σ 2 nσ 02 + σ 2

(relaţiile folosibile şi când se lucrează cu eşantioane aleatoare


având n ≥ 30 , alese din populaţii nenormale şi când distribuţia
anterioară a mediei este aproximativ normală).

Dacă varianţa populaţiei σ 2 este necunoscută, ea se


poate înlocui prin varianţa de eşantion s , pentru n ≥ 30 .
2

Media posterioară µ1 va fi acum folosită ca estimaţie


punctuală a mediei populaţiei şi se poate construi un interval
Bayesian de încredere (1 − α ) ⋅ 100% pentru µ de forma:
µ1 − z c σ1 < µ < µ1 + z c σ1 (6.29)
centrat pe µ1 şi unde z c = z1− α este cuantila distribuţiei
2
normale standard pentru care funcţia de repartiţie ia valoarea
α
1− .
2

Metodele respective pot fi cuplate cu o abordare care


presupune definirea unei funcţii de pierdere (sau penalizare),
( )
notată L θ̂,θ şi care penalizează alegerea incorectă a
estimatorului θ̂ utilizat pentru estimaţia parametrului θ.
De regulă ( )
L θ̂,θ = θ̂ - θ sau ( ) 2
θ̂ - θ .

Funcţia de risc pentru decizia de a alege estimatorul θ̂


este definită ca speranţa matematică a funcţiei de pierdere, se
( )
notează R θ̂,θ şi deci
R (θ̂,θ ) = E [L(θ̂,θ )] (6.30)
cu expectaţia evaluată în raport de θ̂ .
Metoda folosită pentru a alege între doi estimatori
posibili este metoda minimax şi va fi preferat θ̂ pentru care
riscul este minim.

Exemplul 6.5.1
Durata de execuţie a unui reper simplu este
aproximativ normal distribuită, cu abaterea standard de 25
secunde. Din experienţa anterioară se cunoaşte că timpul
mediu de execuţie, µ , este o variabilă aleatoare cu distribuţie
normală, având media µ 0 = 82 sec şi abaterea standard
σ 0 = 5 sec .
Dacă pentru un eşantion aleator de 25 repere s-a
determinat un timp mediu de execuţie x = 80 sec , să se găsească
intervalul Bayesian de încredere 99% pentru media populaţiei
µ a duratelor de execuţie.
Soluţie
Conform (6.28), distribuţia posterioară a populaţiei
timpilor medii de execuţie va avea media µ1 şi varianţa σ12 :
n xσ 02 + µ 0 σ 2 25 ⋅ 80 ⋅ 5 2 + 82 ⋅ 25 2
µ1 = = = 81sec
nσ 02 + σ 2 25 ⋅ 5 2 + 25 2
σ 02 σ 2 5 2 ⋅ 25 2
σ12 = = = 12,5
nσ 02 + σ 2 2
25 ⋅ 5 + 25 2

şi σ1 = 3,536 sec .
Cuantila z c = z 0,01 = z 0,995
1−
se găseşte z c = 2,575
2
iar intervalul de încredere 99% după Bayes, se obţine cu
(6.29), adică:
81 − 2,575 ⋅ 3,536 < µ < 81 + 2,575 ⋅ 3,536
sau (71,895 < µ < 90,105) sec .

Exemplul 6.5.2
Fie şirul de debite maxime anuale înregistrate
la un post hidrometric pe pârâul P, într-un interval de 40 ani, ca
în tabelul următor.
Debite maxime anuale m 3s −1 ( )
An Qmax An Qmax An Qmax An Qmax
1 4,39 11 7,01 21 5,52 31 2,54
2 5,34 12 11,79 22 6,80 32 15,63
3 9,52 13 2,22 23 8,04 33 22,42
4 24,94 14 4,58 24 7,04 34 16,06
5 6,05 15 17,11 25 16,05 35 16,10
6 4,55 16 6,16 26 4,47 36 8,84
7 7,32 17 9,78 27 5,66 37 12,41
8 2,39 18 7,76 28 9,25 38 13,46
9 4,34 19 15,01 29 12,68 39 7,92
10 7,81 20 7,10 30 5,09 40 15,19
a) Să se folosească metoda verosimilităţii maxime pentru
a afla estimaţiile parametrilor a şi b ai funcţiei Gamma de
forma:
a b x b−1e − ax
f (x ) =
Γ(b ) ,
care se admite că redă distribuţia acestei variabile hidrologice;
b) Să se traseze graficul funcţiei de densitate Gamma cu
parametri găsiţi mai sus;
c) Să se claseze datele problemei în clase de ecart egal
pe domeniul [0 − X max ] şi să se afle frecvenţele absolute de
eşantion şi respectiv cele teoretice, pe clase;
d) Să se compare mediile şi abaterile standard de
eşantion cu cele teoretice.

Soluţie
a) Logaritmul natural al funcţiei de verosimilitate va fi:
( ) n
[( n
)] { ( )
ln L x; a, b = ∑ ln f x ; a, b = ∑ bˆ ln aˆ + bˆ − 1 ln x − aˆx − ln Γ bˆ
ˆ ˆ
i =1
ˆ ˆ
i
i =1
i i [ ( )]}
unde n = 40 este numărul de date din eşantion.
Condiţiile de maxim pentru ln L au forma:
∂ ln L n  ˆ
b 
= ∑  − xi  = 0
∂aˆ i =1
aˆ 
∂ ln L n 

= ∑ ln aˆ + ln xi −
∂ ln Γ bˆ [ ( )] = 0
∂bˆ i =1 
 ∂bˆ 
Din prima ecuaţie rezultă
n
bˆ ˆ
n = ∑ xi sau b = x (a)
aˆ i =1 aˆ
A doua ecuaţie se poate scrie succesiv:
n  bˆ
∑  x ln + ln x i −
[ ( )] = 0
∂ ln Γ bˆ
i =1  ∂bˆ 
n
n ln b − n ln x + ∑ ln xi − n
ˆ ∂ ln Γ bˆ [ ( )]
=0
i =1 ∂bˆ
()
F bˆ = ln bˆ −
[ ( )]
∂ ln Γ bˆ
−c = 0 (b)
∂bˆ
1 n
unde s-a notat c = ln x − ∑ ln xi .
n i =1

Ecuaţia (b) nu poate fi rezolvată analitic pentru a afla


valoarea adecvată a lui b̂ .
Derivata logaritmului funcţiei Γ în raport cu parametrul
se numeşte funcţia digamma.

Pentru funcţia ln[Γ(α )] există o formulă de aproximare


cu rezultate bune pe toată plaja de valori α şi anume:
ln[Γ(α )] = (α − 0,5) ln (α + 4,5) − (α + 4,5) + ln 2π + ln[g (α )]

6 cj
unde g (α ) = 1 + ∑ α + j − 1 , iar coeficienţii c j , j = 1,2,K ,6 sunt
j =1
precizaţi.

Ecuaţia (b) se rezolvă numeric prin metoda bisecţiei, iar


în cadrul rezolvării derivata respectivă se evaluează numeric
după schema:
[ ( )] [ (
∂ ln Γ bˆ

)] [ ( )]
ln Γ bˆ + 0,01 − ln Γ bˆ − 0,01
∂bˆ 0,02
Acest aspect şi restul problemei se rezolvă cu programul
Likelihood.
S-au obţinut valorile bˆ = 3,25 şi apoi din (a) rezultă
aˆ = 0,345 .
b)Graficul funcţiei de densitate Gamma cu parametrii
aˆ = 0,345 şi bˆ = 3,25 se calculează în program la pas
dx = x max n = 24,94 40 = 0,62 şi are reprezentarea din figură

f(x)
0,1

0,075

0,05

0,025

x
0 5 10 15 20 25

c) Numărul de clase recomandat este N = 1+ 3,33 log(n ) ,


rotunjit la întregul următor. Aici rezultă N = 7 clase.
Pasul de clasare s-a luat ∆x = x max N = 24,94 7 = 3,56
şi s-a contorizat numărul de apariţii de date în fiecare clasă.

Pentru a afla frecvenţa absolută teoretică pe clasă s-a


admis procedeul aproximativ următor:
k k
- Fie xinf şi xsup limitele intervalului clasei k;
- Fie S k = ∑ f (xi ) suma valorilor funcţiei de densitate
[ ]
teoretică f (x; a, b ) pentru valorile xi ∈ xinf ; xsup ;
k k

- Atunci probabilitatea teoretică pentru ca V.A. să ia valori


din domeniul lui X aparţinând clasei k este aproximativ
Pk = S k dx , iar frecvenţa absolută teoretică pentru clasa k va fi
nPk .
S-au obţinut limitele de clase şi frecvenţele absolute de
eşantion, respectiv teoretice – ca în tabelul următor.
Clasa k
xinf k
xsup n eşantion n teoretic
1 0 3,56 3 3,46
2 3,56 7,13 15 12,15
3 7,13 10,69 9 11,45
4 10,69 14,25 4 6,11
5 14,25 17,81 7 3,93
6 17,81 21,38 0 1,75
7 21,38 24,94 2 0,72
Histogramele distribuţiei de eşantion şi respectiv de
probabilitate teoretică sunt reprezentate în figură.
număr 15 număr
20 apariţii apariţii

15
10

10

5
5

x x
0 0

a) b)
Histogramele frecvenţei absolute a) – de eşantion; b) – teoretică

d) Valorile calculate ale mediei şi abaterii standard de


eşantion sunt:
x = 9,41 m 3s -1 ; s = 5,34 m 3s -1
Media şi abaterea standard teoretice se obţin cu relaţiile:
b b
µ= = 9,41 m 3s -1 ; σ = = 5,22 m 3s -1
a a
Se constată că mediile de eşantion şi teoretică sunt egale,
iar abaterile standard au valori apropiate.
Exemplul 6.5.3
Pentru a monitoriza fiabilitatea unui produs
electronic de folosinţă continuă, serviciul de control al calităţii
din fabrica producătoare a selectat aleator un eşantion de 50
piese pe care le-a testat până în momentul defectării. Admiţând
unităţi arbitrare pentru timpul de defectare (zile, săptămâni etc)
şi datele observate înregistrate din tabelul următor, să se
folosească metoda celor mai mici pătrate pentru a estima
parametrii a şi b ai unei legi Weibull, considerată că reflectă
funcţia de densitate a timpilor de defectare, în cazul acestui
produs.
Timpi de defectare observaţi (unităţi arbitrare)

122,11 79,88 70,07 84,39 68,43 25,62 152,01 155,97 75,94 102,34
97,42 58,00 92,29 85,24 40,12 83,02 135,81 93,95 116,86 118,67
116,54 98,19 100,62 154,44 83,99 62,03 125,16 72,30 35,18 107,87
91,12 72,43 108,43 78,24 129,22 96,16 121,80 74,57 73,92 73,88
115,90 107,46 84,54 137,51 150,06 98,86 92,85 104,18 115,69 107,72

Soluţie
Funcţia de repartiţie a distribuţiei Weibull are o expresie
analitică precizată şi anume:
a
x
− 
F (x ) = 1 − e  b  (a)
iar în Cap. 2 s-a recomandat, printre altele, formula:
( )
Fˆ x[r ] =
r − 0,3
N + 0,4
(b)

pentru calculul funcţiei de repartiţie empirică, la valoarea x[r ]


de rang r din şirul de N date observate, ordonate crescător.
Prelucrând relaţia (a), se poate scrie succesiv:
a
x
− 
1 − F (x ) = e b ;
a
x
 
1 − F (x ) =
1 1
= e b 
 x ; 1 − F (x )
a
 
e b 
Prin dublă logaritmare a ultimei relaţii rezultă:
a
 1   x
ln  = 
1 − F ( x )  b
şi apoi ln ln  1  = a(ln x − ln b ) = − a ln b + a ln x (c)
 1 − F (x ) 
  
Notând
  1 
y = ln ln   ; z = ln x ;
 1 − F (x )
c0 = −a ln b ; c1 = a ,
relaţia (c) capătă forma lineară y = c0 + c1 z .

În metoda celor mai mici pătrate, estimaţiile coeficienţilor


ĉ 0 şi ĉ1 se obţin din condiţia de minimizare a sumei:
 N 2
 
min S = ∑ ( yˆ i − cˆ0 − cˆ1 z i )  ,
 i =1 
unde
ŷi se calculează folosind valoarea de eşantion, adică
i − 0,3
pentru Fˆ ( xi ) = (relaţia (b)),
N + 0,4
iar termenii cu semnul (–) corespund expresiei teoretice a
lui yi .
Din condiţiile de minim
 ∂S N


= − 2 ∑ ( yˆ i − cˆ0 − cˆ1 zi ) = 0
 0cˆ i =1
 N
 ∂S
 ∂cˆ = −2 ∑ zi ( yˆ i − cˆ0 − cˆ1 zi ) = 0
 1 i =1
rezultă sistemul de ecuaţii:
u 0 cˆ0 + u1cˆ1 = v0

u1cˆ0 + u 2 cˆ1 = v1
cu soluţia c0 = ∆ 0 ∆ şi c1 = ∆1 ∆ , unde s-a notat:
N N
u0 = N ; u1 = ∑ z i ; u 2 = ∑ z i2 ;
i =1 i =1
N N
v0 = ∑ yˆ i ; v1 = ∑ yˆ i z i ;
i =1 i =1
∆ = u 0 u 2 − u12 ; ∆ 0 = u 2 v0 − u1v1 şi ∆1 = u 0 v1 − u1v0

După aflarea valorilor ĉ 0 şi ĉ1 , estimaţiile parametrilor


â şi b̂ ai legii Weibull se obţin văzând notaţiile de mai sus,
adică:

− 0
aˆ = cˆ1 şi bˆ = e aˆ
Calculele s-au efectuat cu programul Mcmmp şi s-a găsit:
aˆ = 3,348 şi bˆ = 108,55
7. TESTAREA IPOTEZELOR STATISTICE
7.1. Ipoteza statistică şi tipuri de teste

Ipoteza statistică = o aserţiune / presupunere care


poate să fie sau nu adevărată şi care se referă la una sau mai
multe populaţii de V.A.

Procedurile de stabilire a setului de reguli care să


conducă la acceptarea sau respingerea ipotezelor statistice
acoperă aria inferenţei statistice numită testarea ipotezelor.

Adevărul sau falsitatea ipotezelor statistice se poate


stabili cert doar dacă s-ar analiza întreaga populaţie.

De regulă se dispune doar de eşantioane statistice şi


testarea ipotezelor are ca obiectiv
verificarea - pornind de la unul sau mai multe
eşantioane – a corectitudinii unei ipoteze făcute în legătură cu
una sau mai multe populaţii.

Dacă evidenţa rezultată din datele de eşantion este


inconsistentă cu ipoteza, aceasta va fi respinsă, iar în caz
contrar – acceptată.
Acceptarea unei ipoteze este mai degrabă
- rezultatul unei evidenţe insuficiente a motivelor de
respingere şi
- acceptarea nu implică în mod necesar că ipoteza este şi
corectă.

Deci, respingerea apare ca urmare a concluziei că


ipoteza este falsă,
în timp ce acceptarea se datorează lipsei de evidenţă
consistentă că ea ar putea fi falsă.
Nu este vorba de a alege o anumită ipoteză ca fiind cea
bună, dintre mai multe ipoteze.
Totuşi, nu este imposibil ca mai multe ipoteze diferite să
poată fi admise ca acceptabile, pe baza unui eşantion de date

Ipoteza care se verifică se numeşte – prin definiţie –


ipoteza nulă şi se notează H 0 .
Trebuie aleasă cu grijă, deoarece testarea ei nu permite să
se concluzioneze că o altă ipoteză ar trebui reţinută.
Definirea lui H 0 se face vizând ca – dacă se acceptă –să
se simplifice rezolvarea ulterioară a problemei.
Există şi cazuri când H 0 se alege doar cu intenţia de a
putea fi respinsă cât mai convingător şi astfel eliminată dintre
cele posibile.

Respingerea ipotezei H 0 conduce implicit la acceptarea


unei ipoteze alternative, notată H 1 şi complementară lui
H0 .
Totuşi, acceptarea lui H 1 trebuie făcută cu precauţiune,
funcţie de cum este definită ea în mod concret.
Spre exemplu,
Dacă ipoteza nulă H 0 = a este respinsă, iar ipoteza
alternativă este
- H 1 = b - situaţia corespunde unui test simplu, pe când pentru
- H 1 ≠ a , H 1 < a , H 1 > a - e vorba despre un test multiplu
(sau compus), în care nu pot exista simultan ambele variante
H 1 < a şi H1 > a .
La clasificarea testelor după domeniul de utilizare a
lor apar:

1. Teste de conformitate – Vizează compararea unei


caracteristici de eşantion, cu o valoare de referinţă,
pentru a verifica situaţia că aceeaşi caracteristică – dar
pentru populaţie – poate fi admisă egală cu valoarea de
referinţă.
Dacă x* este valoarea de referinţă şi H 0 : µ = x
*

*
(media necunoscută a unei populaţii este egală cu x ), testul
va folosi media de eşantion x ca estimaţie µ̂ pentru media
populaţiei.

2. Teste de omogenitate – Vizează compararea


caracteristicilor necunoscute a două sau mai multor populaţii,
folosind valorile de eşantion ale acestor caracteristici.
Spre exemplu:
ipoteza H 0 : µ1 = µ 2 (egalitatea mediilor a două
populaţii)
se bazează pe utilizarea mediilor x1 = µ̂1 şi x 2 = µ̂ 2
obţinute cu două eşantioane din acele populaţii.

Dacă testul se face pentru mai multe caracteristici şi H 0


se acceptă pentru fiecare dintre ele, se poate ajunge la
concluzia că
- populaţiile sunt identice sau, altfel spus,
- cele două eşantioane sunt omogene şi provin dintr-o
aceeaşi populaţie originară.
3. Teste de ajustare (sau de concordanţă) –
Verifică dacă un anumit eşantion de date poate fi admis
ca provenind dintr-o anumită populaţie originară.

(La o astfel de concluzie s-ar putea ajunge repetând - cu


succes - teste de conformitate asupra diverselor caracteristici
ca media, abaterea standard, coeficientul de asimetrie etc.),
dar există teste specifice dedicate anume acestui
aspect (subiect pentru capitolul următor).

4. Teste de independenţă – Vizează verificarea


situaţiei că două V.A. X şi Y pot fi considerate independente
din punct de vedere statistic.

În afara celor patru tipuri de mai sus există şi alte teste


mai mult sau mai puţin specifice anumitor arii de aplicaţii
(teste de normalitate, de monotonie, etc.).

Altă clasificare.
În cazul testelor parametrice –
- este necesar ca populaţia originară să fie cunoscută ca
formă (tip de lege de probabilitate) şi
- se pune problema verificării ipotezei privind unul sau
mai mulţi parametri, pentru care, de asemenea, se cunosc
formele distribuţiilor de eşantionare.

Testele neparametrice sunt aplicabile indiferent de


forma populaţiei originare.
7.2. Aspectele de bază ale unui test
parametric
Fie un test parametric referitor la parametrul θ al unei
populaţii.

Etape implicate de procedura de testare:


1. Stabilirea ipotezei nule, de ex. H 0 : θ = θ 0 (cu θ 0 o
valoare de referinţă - test de conformitate)
2. Alegerea unui ipoteze alternative adecvate dintre cele
posibil de formulat, de ex. H 1 : θ < θ 0 sau θ > θ 0 sau θ ≠ θ 0
3. Alegerea nivelului de semnificaţie α
4. Definirea unei statistici adecvate (estimator) pentru test şi
stabilirea regiunii critice folosind distribuţia de eşantionare a
statisticii respective
5. Calculul valorii statisticii de test pe baza datelor de
eşantion
6. Decizia:
- se respinge H 0 dacă valoarea statisticii de test
cade în regiunea critică şi
- se acceptă H 0 în caz contrar.

Noţiuni noi:

Nivel de semnificaţie

La efectuarea testului asupra unei ipoteze,


- situaţia reală nu este cunoscută (altfel nu ar mai fi
nevoie de testare!)
- astfel încât H 0 poate să fie ori adevărată, ori falsă,
- existând un risc ca H 0 să fie respinsă deşi ea este
adevărată.
Probabilitatea acestei situaţii (respingerea lui H 0 când
ea este adevărată) notată α se numeşte nivel de semnificaţie a
testului,
iar eroarea comisă se numeşte eroare de tip I.

Complementul lui α,adică 1 − α , reprezintă


probabilitatea acceptării lui H 0 când ea este adevărată
(probabilitatea de a nu comite o eroare de tip I).

Dacă în realitate H 0 este falsă ( H 1 - adevărată) şi se


acceptă H 0 pe baza testului,
- se comite o eroare de tip II, iar
- riscul apariţiei unei astfel de situaţii se notează cu β .

Complementul lui β , adică 1 − β , se numeşte puterea


testului şi reprezintă probabilitatea de acceptare a lui H 1 când
ea este adevărată (sau de respingere a lui H 0 , când ea este
falsă).

Pentru situaţiile de probabilităţi (1 − α ) şi respectiv


(1 − β) menţionate, decizia testului este corectă,
iar pentru situaţiile de probabilităţi α şi β , decizia
testului este eronată, de tip I sau respectiv II.

Se subliniză că nu este posibil să se adopte o decizie care


să implice ambele tipuri de erori.
Tabloul variantelor descrise mai sus arată sub forma:
Tabel 7.1
Decizia adoptată
H 0 acceptată H 0 respinsă
H 0 adevărată Decizie corectă Eroare tip I
Situaţia (1 − α ) (α)
reală H 0 falsă Eroare tip II Decizie corectă
(β ) (1 − β)
Nivelul de semnificaţie α este singura mărime aflată
sub controlul analistului,
în sensul că poate fi ales / impus la valoarea dorită.

În practică se adoptă valori α de ordinul 0,05 (clasic);


0,01 sau 0,001.

Dacă se respinge H 0 la α = 0,05 - se consideră că testul


este statistic semnificativ,
- pentru α = 0,01 este foarte semnificativ şi
- pentru α = 0,001 - înalt semnificativ.

Pe de altă parte,
- dacă se respinge H 0 există riscul de eroare α ,
- dar nu se poate preciza probabilitatea (1 − β) că s-a
procedat corect (estimarea riscului β fiind greu de realizat).

Erorile de tip I şi respectiv II sunt legate între ele.


Creşterea probabilităţii uneia, duce la reducerea probabilităţii
celeilalte şi invers.

Mărirea taliei n a eşantionului folosit în test, conduce la


reducerea riscurilor α şi β .

Dacă H 0 este falsă, β devine maxim atunci când


valoarea adevărată a parametrului θ este foarte apropiată de
valoarea presupusă în ipoteză.
Cu cât creşte diferenţa între cele două valori, cu atât β
se micşorează.
Statistica (estimatorul) testului

În multe teste parametrice se vorbeşte despre o diferenţă.


Spre exemplu:
- la un test de conformitate pentru parametrul θ , în raport
cu valoarea de referinţă θ 0 , apare diferenţa εˆ = θˆ − θ 0 cu θ̂ o
estimaţie de eşantion a lui θ ;
- la un test de omogenitate, apare diferenţa εˆ = θˆ 1 − θˆ 2 ,
unde θ̂1 şi θ̂ 2 sunt două estimaţii ale parametrului, făcute pe
baza a două eşantioane din populaţii diferite.

S-a văzut anterior că distribuţiile de eşantionare


- a diferenţei între media populaţiei şi cea de eşantion
- sau între diferenţa mediilor a două populaţii şi diferenţa
mediilor de eşantion
sunt de formă cunoscută, în multe situaţii - de tip normal.

Dacă statistica (estimatorul) ales pentru test este o


astfel de diferenţă ε̂ şi
ipoteza nulă se defineşte prin H 0 : ε = 0 , atunci

- când ε̂ este suficient de mic ( εˆ ≅ 0 ), se acceptă


H0 : ε = 0
- când ε̂ este sensibil mai mare decât 0, se respinge
H0 : ε = 0
Regiunea critică

Fie cazul menţionat al distribuţiei de eşantionare


normală pentru o V.A. E de tip diferenţă, cu alura din fig. 7.1.

zona de regiune de acceptare zona de


respingere respingere

1-α

α1 ε̂ α2 E
- 4 - 2

e1 e=0 0

e2
2 4

Fig.7.1. Distribuţia de eşantionare a diferenţei, sub H 0

Decizia testului se bazează pe probabilitatea de realizare


a diferenţei observate e = εˆ , considerând că ipoteza H 0 este
adevărată.
Probabilitatea ca diferenţa observată e = εˆ (cu ε̂ -
estimatorul lui ε pe baza eşantionului de date) să cadă în
intervalul (regiunea) e1 ÷ e2 se consideră egală (prin
convenţie) cu 1 − α .
Această regiune (interval) constituie regiunea de
acceptare a lui H 0 implicând plasarea lui ε̂ între limitele e1
şi e2 adică e1 < ε < e2 .

Dacă diferenţa observată ε̂ cade într-una din zonele


marcate prin α1 şi α 2 - care alcătuiesc regiunea critică
(sau de respingere),
atunci H 0 se respinge, cu riscul α = α1 + α 2 de a comite
o eroare de tip I (sau cu probabilitatea α ca H 0 să fie totuşi
adevărată).

Pentru estimatorul de tip diferenţă, dacă H 0 se respinge


la α = 0,05 se spune că diferenţa observată este
semnificativă (mare);
la α = 0,01 - diferenţa observată este foarte semnificativă
(foarte mare) şi respectiv
pentru α = 0,001 - ea poate fi considerată exagerată.

Poziţionarea regiunii critice pe graficul distribuţiei de


eşantionare depinde
- de natura estimatorului de test şi
- de modul cum se definesc ipotezele H 0 şi H 1 .

Cazul din fig. 7.1 corespunde unui test zis bilateral în care:
- ipoteza nulă este H 0 : θ = θ 0
- nu se cunoaşte semnul diferenţei între θ̂ observat şi θ 0
- se acceptă ca importante atât situaţia când θˆ > θ 0 , cât şi
cea cu θˆ < θ 0 ,
- iar ipoteza alternativă este H 1 : θ ≠ θ 0
α
La acest test se alege, de regulă α1 = α 2 = şi regiunea
2
critică este alcătuită din cele două zone de la extremităţile
distribuţiei de eşantionare a diferenţei.
Dimpotrivă, dacă interesează doar una dintre diferenţe
(pozitivă sau negativă), adică
a) H 0 : θ = θ 0 ; H 1 : θ > θ 0 sau
b) H 0 : θ = θ 0 ; H 1 : θ < θ 0 ,
atunci e vorba despre un test unilateral, iar regiunea critică se
află în întregime la extremitatea din dreapta sau respectiv
stânga distribuţiei de eşantionare, ca în fig. 7.2.

regiune de acceptare regiune


critică

1-α

α E
- 4 - 2

e=0
0

e2
2 4

Fig.7.2. Regiunea critică la un test unilateral

Poziţionarea regiunii critice se stabileşte după ce s-a


definit H 1 şi deci, în funcţie de concluzia care trebuie
desprinsă dacă H 0 este respinsă.

În testarea ipotezelor la care statistica de test θ̂ este


discretă, regiunea critică se alege arbitrar şi i se determină
apoi dimensiunea.
Dacă α rezultă prea mare, el se poate reduce micşorând
regiunea critică şi – pentru a compensa creşterea lui β -
devine necesar să se mărească talia eşantionului.
Probabilitatea critică

În afara manierei tradiţionale (alegerea nivelului de


semnificaţie α înainte de efectuarea calculelor implicate de
testare),
este uneori avantajos să se procedeze invers.

Se efectuează calculele şi se găseşte probabilitatea critică


α c , care corespunde exact valorii experimentale a diferenţei
constatate.
Pe baza acestei informaţii, analistul adoptă decizia după
următoarea schemă:
- dacă doreşte să respingă H 0 , îşi asumă riscul α c de a
greşi sau
- la nivelul de semnificaţie α c , nu consideră diferenţa e
constatată ca fiind semnificativă şi acceptă H 0

7.3. Teste de conformitate şi omogenitate


pentru V.A. continue
Statisticile folosite anterior la construirea intervalelor de
încredere pentru µ , µ1 − µ 2 , µ D , σ şi σ12 σ 22
2

se utilizează şi ca statistici de test pentru verificarea


ipotezelor statistice iar
mărimile notate acolo cu
± z α , ± t α , hα şi h α ; f α şi f α
1− 1−
2 2 2 2 2 2
sunt valorile critice pentru testele bilaterale la nivel de
semnificaţie α precizat.

În plus, presupunerile făcute acolo cu referire la


folosirea unei anumite statistici rămân valabile şi aici.
Mai precis, trebuie ca eşantioanele utilizate să provină
din populaţii aproximativ normale sau, în caz contrar, să aibă
talia n ≥ 30 .

7.3.1. Teste de conformitate a mediei şi varianţei


Testele referitoare la medie se bazează pe distribuţia de
eşantionare a diferenţei între media de eşantion x şi valoarea
de referinţă (presupusă) pentru media populaţiei µ 0 .

Condiţiile de aplicare admit că distribuţia V.A. X este


aproximativ normală, ceea ce are loc dacă:
i) distribuţia populaţiei V.A. X este normală sau
ii) distribuţia lui X este unimodală, simetrică şi talia
eşantionului n > 10 sau
iii) talia eşantionului n ≥ 30 , indiferent de distribuţia
populaţiei.

Dacă abaterea standard a populaţiei, σ , este cunoscută


şi n > 30 , statistica testelor este o variabilă normală standard,
iar pentru σ necunoscut şi n < 30 , statistica este o
variabilă Student-t cu ν = n − 1 grade de libertate, construită
cu abaterea standard de eşantion.
Variantele de teste pentru conformitatea mediei sunt
Tabel 7.2
Sinteză teste conformitate medie
Valoarea Condiţie Condiţie
H0 H1 estimatorului de acceptare respingere Observaţii
test H0
µ < µ0
zobs =
x − µ0 z obs > z α zobs < zα z = variabilă
µ = µ0 normală
µ > µ0 σ n z obs < z1−α z obs > z1−α standard
µ ≠ µ0 σ -cunoscut z obs < z z obs > z
α α
1− 1−
2 2
µ < µ0 x − µ0 t obs > t α t obs < t α t = variabilă t
µ = µ0 t obs = cu ν = n − 1
µ > µ0 s n −1 t obs < t1−α t obs > t1−α
grade de
µ ≠ µ0 σ -necunoscut t obs < t α t obs > t α libertate
s – de eşantion 1−
2
1−
2
Testele referitoare la varianţă
- sunt relevante dacă distribuţia populaţiei este apropiată
de cea normală şi
- se bazează pe distribuţia de eşantionare a diferenţei
s 2 − σ 02 , prin compararea raportului varianţelor.

Statistica testelor este o variabilă χ cu ν = n − 1 grade


2

de libertate.
Variantele de teste pentru conformitatea varianţei sunt
prezentate în tabelul 7.3.
Tabel 7.3
Sinteză teste conformitate varianţă
Valoarea Condiţie Condiţie
H0 H1 estimatorului acceptare H 0 respingere Observaţii
de test
σ 2 < σ 02 hobs > hα hobs < hα h = variabilă
σ =
2
σ 02 ns 2
hobs < h1−α hobs > h1−α χ 2 cu
σ >
2
σ 02 hobs = ν = n −1
σ2 ≠ σ 02 σ0 2 hα < hobs < h α hobs < h α grade de
1−
2 2 2 libertate
sau
hobs > h α
1−
2

7.3.2. Teste de omogenitate a mediei şi varianţei


Testele de omogenitate referitoare la medie se bazează pe
distribuţia de eşantionare a diferenţei între mediile de
eşantioane provenite din două populaţii.

Condiţiile de aplicare presupun ca distribuţiile de


eşantionare a mediilor X 1 şi X 2 să fie aproximativ normale,
ceea ce are loc dacă:
i) distribuţiile populaţiilor X 1 şi X 2 sunt normale sau ii)
distribuţiile lui X 1 şi X 2 sunt unimodale, simetrice şi taliile
eşantioanelor n1 , n2 > 10 sau iii) taliile eşantioanelor n1 , n2 >
30, indiferent de distribuţiile populaţiilor
Dacă abaterile standard ale celor două populaţii sunt
cunoscute şi egale între ele ( σ1 = σ 2 - cunoscut), estimatorul
testului este o variabilă normală standard.
Dacă σ1 = σ 2 sau σ1 ≠ σ 2 , dar sunt necunoscute, statistica
de test este o variabilă Student-t cu număr de grade de
libertate precizat după caz.
Sinteza testelor apare în tabelul 7.4. şi acestea corespund
cazului d 0 = 0 .
În caseta din dreapta pe ultima linie s-a notat
2
 s12 s 22 
 + 
 n −1 n −1
ν* =  4 
1 2
4
s1 s2
+
(n1 − 1) (n2 − 1)3
3

Tabel 7.4
Sinteză teste pentru diferenţa mediilor
Valoarea Condiţie Condiţie
H0 H1 estimatorului de acceptare respingere Observaţii
test H0
µ1 − µ 2 < d 0
z obs =
(x 1 )
− x2 − d0 z obs > z α z obs < z α z = variabilă
normală
µ1 − µ 2 = d 0 z obs < z1−α z obs > z1−α
σ12 σ 22 standard;
µ1 − µ 2 > d 0 +
n1 n2 z obs > z α σ12 = σ 22 -
1−
z obs < z α 2 cunoscute
1−
µ1 − µ 2 ≠ d 0 2

µ1 − µ 2 < d 0
t obs =
(x 1 )
− x2 − d0 t obs > t α t obs < t α t = variabilă
µ1 − µ 2 = d 0 t obs < t1−α t obs > t1−α
t cu
1 1 ν = (n1 + n2
µ1 − µ 2 > d 0 sp +
n1 n2 t obs < t t obs > t
1−
α
1−
α − 2)
2 2
µ1 − µ 2 ≠ d 0 grade de
n1 s12 + n2 s 22 libertate
sp = σ12 = σ 22 -
n1 + n2 − 2
necunoscute
µ1 − µ 2 = d 0 µ1 − µ 2 < d 0
t obs =
(x 1 )
− x2 − d0 t obs > t α t obs < t α t = variabilă
t cu ν
*
s12 s2 t obs < t1−α t obs > t1−α
µ1 − µ 2 > d 0 + 2 grade de
n1 − 1 n2 − 1 t obs < t α t obs > t α libertate
1− 1−
2 2
σ12 ≠ σ 22 -
µ1 − µ 2 ≠ d 0
necunoscute
Pentru d 0 ≠ 0 în relaţiile de mai sus, testele verifică
ipoteze statistice referitoare la o valoare de referinţă
(presupusă) d 0 între mediile a două populaţii şi nu se
mai pot numi teste de omogenitate, ci mai degrabă teste de
conformitate în raport cu d0 .

Testele de omogenitate a varianţei pentru două populaţii


de variabile aleatoare se bazează pe analiza varianţei, prin
intermediul raportului varianţelor.
Dacă populaţiile X 1 şi X 2 sunt normale, estimatorul de
test este o variabilă Fisher-Snedecor cu ν1 = n1 − 1 şi
ν 2 = n2 − 1 grade de libertate.
Testele sunt rezumate în tabelul 7.5.
Tabel 7.5
Sinteză teste omogenitate varianţe
Valoarea Condiţie Condiţie
H0 H1 estimatorului acceptare H 0 respingere Observaţii
de test
σ12 < σ 22 f obs > f α f obs < f α f = variabilă
σ12 = σ 22 σ12 > σ 22
n1 2
s1 f obs < f1−α f obs > f1−α
Fisher-
Snedecor cu
n1 − 1 f α < f obs < f α f obs < f α
f obs = ν1 = n1 − 1
n2 2 1−
σ12 ≠ σ 22 s2 2 2 2 şi
n2 − 1 sau ν 2 = n2 − 1
f obs > f α grade de
1−
2 libertate

Observaţie

Tot în categoria testelor de conformitate se include şi


testul privitor la diferenţa mediei a două populaţii care
nu sunt independente,
efectuat pe baza diferenţelor componentelor a două
eşantioane de talii egale cu n, diferenţe având varianţa de
2
eşantion s d .
Ipoteza nulă H 0 : µ1 − µ 2 = µ D = d 0 suportă cele trei
ipoteze alternative ca mai sus, adică:
a) H 1 : µ D < d 0 sau
b) H1 : µ D > d 0 sau
c) H 1 : µ D ≠ d 0 .

Estimatorul de test este o variabilă Student-t cu ν = n − 1


d − d0
grade de libertate şi valoarea dată de t obs = ,
sd n
unde d este media de eşantion a diferenţelor d i = x1i − x2i ,
i = 1,2,K , n .

În cazul a) H 0 se acceptă dacă t obs > t α şi se respinge


altfel;
în cazul b) H 0 se acceptă dacă t obs < t1− α şi se respinge
altfel;
iar pentru cazul c) H 0 se acceptă dacă t α < t obs < t1− α şi
2 2
se respinge dacă t obs < t α sau t obs > t1− α .
2 2

Dacă se pune problema testării egalităţii a mai mult


decât două medii simultan (sau a mai mult decât două varianţe
simultan), aceasta necesită o tehnică diferită, numită analiza
variaţiei (ANOVA) - prezentată într-un capitol separat.
Exemplul 7.3.1
Dintr-o populaţie normală, având abaterea
standard σ = 5 , se extrag eşantioane aleatoare de talie n = 36
pentru a verifica ipoteze statistice în legătură cu media ei,
considerând regiunea critică x c > 51,2 .
Să se găsească probabilităţile de a concluziona că media
populaţiei este µ > 50 , când ea este de fapt:
a) µ = 50 ; b) µ = 49
Să se găsească probabilităţile unei erori de tip II
considerând H 0 : µ = 50 şi alternativele adevărate H 1 :
c) µ = 52 ; d) µ = 53

Soluţie
Pentru punctele a) şi b) problema se admite ca un test
compus, cu ipoteza nulă H 0 : µ ≤ µ 0 , unde µ 0 = 50 , şi
alternativa H 1 : µ > µ 0 .
Populaţia X are distribuţia de tip N (µ, σ ) , iar V.A. X are
(
distribuţia de eşantionare de tip N µ, σ n (deoarece n = 36 - )
mai mare ca 30).
X − µ0
Statistica de test Z= are
σ n
în cazul a) – când µ X = 50 - o distribuţie normală standard
N (0,1) ,
iar limita regiunii critice x c = 51,2 corespunde la
x − µ0 51,2 − 50
zc = = = 1,44 şi deci
σ n 5 36
regiunea critică în variabila Z este pentru Z > z c .
Probabilitatea ca Z > z c este dată de suprafaţa haşurată
din figură, se notează cu α şi reprezintă probabilitatea de a
respinge ipoteza µ X = µ 0 = 50 când ea este adevărată, deci
α = P(Z > 1,44) = 1 − P(Z < 1,44) = 1 − 0,9251 = 0,0749
f(z)

α'
z

η
0 1 2 3 4 5

0 zC

Fig.7.3. Ilustrarea modificării lui α cu η (sau µ ) pentru H 0 : µ ≤ µ 0

În cazul b) care presupune µ X < µ 0 ,


statistica de test are o distribuţie normală N (η,1) , cu
media η < 0 , şi graficul ca în figură.
Suprafaţa delimitată de curbă pentru Z > z c se reduce
acum şi deci probabilitatea de a respinge ipoteza
µ X < µ 0 = 50 când ea este adevărată, devine < α .
Dacă µ X = 49 ,
49 − 50
abscisa η în raport cu Z = 0 este η = = −1,20 ,
0,833
iar poziţia abscisei critice z c faţă de axa de simetrie a
curbei N (η,1) este la
z c' = z c − η = 1,44 + 1,2 = 2,64
'
(
'
Notând α = P Z > z c , )
rezultă ( )
α ' = 1 − P Z < z c' = 1 − 0,9959 = 0,0041

Deci, dacă media distribuţiei de eşantionare a lui X este


µ X = µ 0 = 50 , circa 7,5% dintre toate eşantioanele de talie
n = 36 ar putea conduce la respingerea ipotezei că media
populaţiei este ≤ µ 0 ,
iar dacă distribuţia de eşantionare a lui X are µ X = 49 ,
doar circa 0,4% dintre toate eşantioanele cu n = 36 ar putea
conduce la respingerea aceleiaşi ipoteze, ea fiind adevărată.

Concluzie
probabilitatea de a respinge ipoteza nulă H 0 : µ ≤ µ 0 , ea
fiind adevărată
(faţă de ipoteza alternativă H 1 : µ > µ 0 ),
se micşorează pe măsură ce µ scade.
Această probabilitate atinge valoarea maximă α , atunci
când µ = µ 0 .

Fie P(I ) probabilitatea comiterii unei erori de tip I şi


constatarea că y = P(I ) este o funcţie de µ în ipoteza H 0 :
µ ≤ µ0 .
Alura variaţiei lui y în funcţie de µ este redată mai jos şi
se observă că y = α la µ = µ 0 .

µ
0

Fig.7.4. Graficul y = P(I ) ca funcţie de µ pentru H 0 : µ ≤ µ 0


În cazul c)
eroarea de tip II constă în a accepta H 0 când ea este
falsă, cu probabilitatea β = P(II ) .
Fie deci H 0 : µ = µ 0 = 50 şi H 1 : µ > µ 0
cu H 1 adevărată.
În Fig. 7.5 sunt reprezentate graficele funcţiei de densitate
X − µ0
a variabilei Z = în cele două ipoteze:
σ n
H 0 - când este o variabilă N (0,1) pentru µ X = µ 0 = 50 şi

H 1 - când este o variabilă N (η,1) pentru µ X > µ 0 .

f (z )

H c) H d)
1
H 1
0

β
z
' η η
'
0 β
Fig.7.5. Ilustrarea modificării lui β sub H 0 şi pentru două H 1

Folosind acelaşi criteriu ca mai sus, se acceptă H 0 dacă


z < zc , unde z c este astfel încât P(Z ≥ z c sub H o ) = α .
Cu H 1 adevărată, apar valori ale lui z la stânga lui z c în
proporţie egală cu suprafaţa haşurată de sub graficul
distribuţiei corespunzătoare lui H 1 .
Suprafaţa - notată cu β - dă probabilitatea de a accepta
H 0 (deci că media populaţiei este µ = µ 0 = 50 ) când ea nu
este adevărată.
Pentru cazul c)
X − 52
variabila redusă N (0,1) este dată de Z =
'
,
0,833
astfel încât valorii critice x c = 51,8
' 51,8 − 52
îi corespunde z c = = −0,24 ,
0,833
iar ( ) ( )
β = P Z ' < z c' = P Z ' < −0,24 = 0,4052 .
În cazul d) cu H0 : µ = µ 0 = 50 şi
ipoteza alternativă adevărată H 1 : µ > µ 0 ; adică µ = µ X = 53 ,
53 − 50
valoarea lui η devine η' = = 3,60 .
0,833
Graficul corespunzător lui H 1 va fi mai îndepărtat spre
dreapta faţă de graficul corespunzător lui H 0 ,
iar valoarea z c va determina o suprafaţă haşurată β mai
'

redusă decât la punctul c).


Variabila redusă de tip N (0,1) este dată acum de
X − 53
Z '' = ,
0,833
astfel încât valorii critice x c = 51,8 îi corespunde
51,8 − 53
z c'' = = −1,44 ,
0,833
iar ( ) ( )
β ' = P Z ' ' < z c' ' = P Z ' ' < −1,44 = 0,0749.
Se constată că
pentru H 1 : µ = 52 adevărată, probabilitatea de a accepta
H 0 : µ = 50 care este falsă, a fost β = 0,4052 ,
iar pentru H 1 : µ = 53 adevărată, probabilitatea erorii de
tip II a scăzut la doar 0,0749.
Probabilitatea erorii de tip II se reduce pe măsură ce
µ creşte faţă de µ 0 = 50 , sau invers:
β creşte pe măsură ce µ adevărat se apropie de µ 0 = 50
şi atinge un maxim care este egal cu 1 − α când µ = µ 0 = 50 .

Diferenţa 1 − β se numeşte puterea testului şi s-a văzut


că valoarea lui β este o funcţie de µ .
Funcţia puterii testului, Π (µ ) = 1 − β , variază de la
Π (µ ) = α (pentru β max = 1 − α , când µ = µ 0 )
şi tinde către Π (µ ) = 1 pe măsură ce µ creşte faţă de µ 0 ,
iar β → 0 .
Ea se poate reprezenta pe un grafic comun împreună cu .
y = P (I )
Notând y = P (respingere a lui H 0 ), variaţia ei în raport
cu µ sub ipotezele H 0 : µ ≤ µ 0 , H 1 : µ > µ 0 este cea redată în
Fig. 7.6.
y

y = P(I ) y = 1 − P (II )

µ0

Fig.7.6. Variaţia lui y = P (respingere a lui H 0 ) ca funcţie de µ


pentru H 0 : µ ≤ µ 0 , H 1 : µ > µ 0
La stânga lui µ = µ 0 , ordonata reprezintă probabilitatea
erorii de tip I, iar la dreapta lui µ = µ 0 , ordonata reprezintă
puterea testului (sau 1 – probabilitatea erorii de tip II).
Pentru H 0 : µ = µ 0 porţiunea din stânga dispare.
Deoarece Π (µ ) reprezintă probabilitatea de a respinge
H 0 când ea este falsă, este de dorit ca Π (µ ) pentru un µ dat
să fie cât mai mare posibil. (aspect care depinde de alegerea
unei statistici de test eficiente).
Mai mult, este de dorit ca Π (µ ) > α pentru orice µ sub
H 1 , aceasta însemnând că există o probabilitate mai mare de
a respinge pe H 0 când este falsă, decât probabilitatea de a o
respinge când ea este adevărată.
Dacă se îndeplineşte această condiţie, testul se numeşte
nedeplasat.

Exemplul 7.3.2
Conform datelor de la Agenţia de Protecţie a
Consumatorului, preţul orei de manoperă la reparaţiile auto are o
medie de 28 lei cu o abatere standard de 3,25 lei. Să se testeze
ipoteza că µ = 28 lei , faţă de alternativa µ ≠ 28 lei , la un nivel
de semnificaţie α = 0,05 , pe baza unui eşantion de 36 ateliere
la care s-a constatat un preţ mediu de 30 lei.

Soluţie
Condiţiile testului sunt:
H 0 : µ = µ 0 = 28 ; H 1 : µ ≠ µ 0 ; α = 0,05 ; n = 36 (> 30)
X − µ0
Este utilizabilă statistica Z = ,
σ n
în condiţiile unui test bilateral
cu regiunea critică Z < z α şi Z > z1− α ,
2 2
unde z α este cuantila z 0,025 a distribuţiei N (0,1) pentru care
2

F (z ) = 0,025 şi z1− α este cuantila z 0,975 . Se găsesc valorile -1,96


2
şi respectiv 1,96.
Pe baza eşantionului cu x = 30 , rezultă valoarea statisticii
30 − 28
z obs = = 3,69
3,25 36
Deoarece z obs > z1− α , adică 3,69 > 1,96, ipoteza H 0
2
trebuie respinsă şi preţul mediu al orei de manoperă nu este 28
lei, ci pare mai mare.
Exemplul 7.3.3
Un eşantion aleator de 16 voleibalişti din prima
divizie arată o medie de înălţime de 2 metri, cu o abatere
standard de 5,13 cm. Admiţând că înălţimile jucătorilor din
prima divizie sunt aproximativ normal distribuite, să se testeze
ipoteza nulă că µ = 1,98 m faţă de H1 : µ > 1,98 m , la un nivel
de semnificaţie α = 0,01 .

Soluţie
Deoarece talia eşantionului n = 16 este < 30 şi σ
populaţiei este necunoscută,
estimatorul de test va fi o variabilă Student-t de forma:
X − µ0
T= , cu ν = n − 1 grade de libertate.
s n −1
Condiţiile testului sunt:
H0 : µ = µ 0 = 1,98 m ; H1 : µ > µ 0 ; α = 0,01 ; n = 16 (< 30)
iar condiţia de acceptare a lui H 0 : t obs < t1− α ,
unde t1− α este cuantila t 0,99 a distribuţiei Student cu ν = 15
grade de libertate, pentru care F (t ) = 0,99 .
Aceasta are valoarea t 0,99 = 2,602 , obţinută cu programul
Test_S_F_H sau din tabele.
Cu datele de eşantion x = 2 m şi s = 5,13 cm , se obţine
200 − 198
t obs = = 1,51
5,13 15
Deoarece t obs = 1,51 < t 0,99 = 2,602 ,
se acceptă H 0 : µ = 1,98 m , concluzionând că informaţiile de
eşantion nu indică o medie a tuturor jucătorilor din prima
divizie mai mare de 1,98 m, la nivel de semnificaţie 0,01.

Exemplul 7.3.4
Fie următoarea variantă a problemei din
Exemplul 6.4.1:
Pentru a compara produsele de acelaşi tip oferite de către
doi furnizori, se aleg două eşantioane egale de câte n = 15
produse de la fiecare dintre furnizori. La primul eşantion a
rezultat greutatea medie pe produs de 81,4 g, cu o abatere
standard de 4,44 g, iar la al doilea – o medie de 84,5 g, cu
abaterea standard 3,86 g.
Să se testeze ipoteza că greutăţile medii ale tuturor
produselor livrate de cei doi furnizori sunt egale, la nivel de
semnificaţie α = 0,05 şi presupunând că populaţiile sunt
aproximativ normale, cu aceeaşi varianţă.

Soluţie
Deoarece talia eşantioanelor este redusă, cu n1 = n2 = 15
iar populaţiile se admit normale şi cu varianţe egale dar
necunoscute,
2
se va folosi statistica de test T cu varianţa combinată S p ,
de forma:
T=
(x 1 )
− x2 − d0 n1s12 + n2 s 22
sp =
1 1 ; n1 + n2 − 2
sp +
n1 n2
Condiţiile testului sunt următoarele:
H0 : µ1 = µ 2 sau µ1 − µ 2 = 0 , cu d 0 = 0 ;
H 1 : µ1 ≠ µ 2 sau µ1 − µ 2 ≠ 0 ; α = 0,05 ;
iar condiţia de acceptare a lui H 0 : t obs < t1− α ,
2
unde t α = t 0,975 este cuantila distribuţiei Student-t cu
1−
2
ν = n1 + n2 − 2 = 28 grade de libertate, pentru care F (t ) = 0,975 .
Se găseşte t 0,975 = 2,048 .
Cu datele problemei:
x1 = 81,4 ; x 2 = 84,5 ; s1 = 4,44 ; s 2 = 3,86 şi n1 = n2 = 15 se obţine:

15 ⋅ 4,44 2 + 15 ⋅ 3,86 2
sp = = 4,306
15 + 15 − 2
81,4 − 84,5
t obs = = −1,972
1 1
4,306 +
15 15
Deoarece t obs = 1,972 < t 0,975 = 2,048 ,
se acceptă H 0 concluzionând că, pe baza informaţiilor
disponibile pentru acest test, nu există diferenţe între
greutăţile medii ale produselor celor doi furnizori, la nivel de
semnificaţie α = 0,05 .

Exemplul 7.3.5
Un eşantion aleator de talie n1 = 22 are media
datelor x1 =10,25 şi varianţa s12 = 7,38 . Un al doilea eşantion
cu n2 = 20 prezintă o medie de x 2 = 12,15 şi o varianţă s 22 = 6,61 .
La un nivel de încredere α = 0,02 , se poate afirma că cele
două eşantioane provin dintr-o aceeaşi populaţie ? (adică sunt
omogene şi diferenţele dintre caracteristicile lor se datorează
erorilor de eşantionare ?)
Soluţie
Pentru a putea decide dacă cele două populaţii originare
sunt identice
trebuie verificată ipoteza H 0 : µ1 = µ 2
cu alternativa H 1 : µ ≠ µ 0
pentru cazul n1 , n2 < 30 şi σ1 , σ 2 - necunoscute.
2 2

Deoarece nu se cunoaşte nimic despre varianţele celor


două populaţii, este necesar să se verifice mai întâi
ipoteza H 0 : σ1 = σ 22 cu alternativa H 1 : σ1 ≠ σ 2 .
2 2 2

Estimatorul de test este în acest caz o variabilă Fisher-


Snedecor, cu ν1 = n1 − 1 = 21 şi respectiv ν 2 = n2 − 1 = 19 grade de
libertate, iar condiţia de acceptare a lui H 0 se scrie:
f α < f obs < f α
1−
2 2
n1 2
s1
n1 − 1
unde valoarea estimatorului este f obs = n2 2 ,
s2
n2 − 1

iar f α este cuantila f 0,01 a distribuţiei F (21,19) şi f1− α este


2 2
cuantila f 0,99 a aceleiaşi distribuţii.
Cu programul Test_S_F_H sau din tabele, la valoarea
adecvată pentru α , se găsesc valorile: f 0,01 = 0,344 ; f 0,99 = 2,982
şi apoi
22  20 
f obs = ⋅ 7,38  ⋅ 6,61 = 1,111
21  19 
Deoarece f 0,01 (= 0,344) < f obs (= 1,111) < f 0,99 (= 2,982) ,
se acceptă egalitatea varianţelor σ12 = σ 22 , la nivel de
semnificaţie α = 0,02 .
Trecând la verificarea egalităţii mediilor,
deoarece σ1 = σ 22 dar necunoscute,
2

se utilizează estimatorul T construit cu varianţa


combinată S p .
2

Ipoteza H 0 : µ1 = µ 2 , faţă de H 1 : µ1 ≠ µ 2 se acceptă dacă


valoarea estimatorului de test în modul < t1− α ,
2

unde t α = t 0,99 este cuantila repartiţiei Student-t cu


1−
2
ν = n1 + n2 − 2 = 40 grade de libertate, pentru care F (t ) = 0,99 .
Valoarea observată a estimatorului este dată de relaţia:
x1 − x 2
t obs =
1 1 ,
sp +
n1 n2
n1s12 + n2 s 22 22 ⋅ 7,38 + 20 ⋅ 6,61
cu sp = = = 2,714
n1 + n2 − 2 22 + 20 − 2
10,25 − 12,15
Rezultă t obs = = −2,266
1 1
2,714 +
22 20
Pentru cuantila t 0,99 a repartiţiei t cu 40 grade de libertate
se găseşte valoarea t 0,99 = 2,423 .
Deoarece t obs = 2,266 < t 0,99 = 2,423 ipoteza egalităţii
mediilor µ1 = µ 2 se acceptă.
Concluzie - la nivel de semnificaţie α = 0,02 , se poate
afirma că cele două eşantioane provin din aceeaşi populaţie
( µ1 = µ 2 şi σ1 = σ 2 ), diferenţele valorilor caracteristicilor de
2 2

eşantion fiind erori de eşantionare.


? Problema 7.3.1
Fie o populaţie normală având abaterea standard σ = 10 .
Pentru a testa ipoteza nulă că media ei este µ = 93 faţă de
alternativa H1 : µ < 93 se foloseşte un eşantion aleator de talie
n = 16 , iar regiunea critică se defineşte ca fiind plasată la
X < xcritic = 90,2 .
a) Găsiţi probabilitatea de a comite o eroare de tip I
b) Să se determine valorile β (probabilităţile de a comite
erori de tip II) în alternativele că µ = 91 şi respectiv µ = 90 .
Reprezentaţi grafic situaţiile.

? Problema 7.3.2
O agenţie de pariuri sportive declară că vârsta medie a
jucătorilor este de 48 ani, cu o abatere standard de 4,3 ani.
Pentru a verifica această afirmaţie s-au înregistrat vârstele unui
eşantion aleator de 49 jucători şi s-a decis că dacă vârsta lor
medie, x , se plasează în intervalul 47 ≤ x ≤ 49 , să se accepte
ipoteza H 0 : µ = µ 0 = 48 , iar în caz contrar să se concluzioneze
că H1 : µ ≠ µ 0 .
a) Să se afle α în aceste condiţii
b) Să se evalueze β pentru alternativele adevărate µ = 46
şi respectiv µ = 50 .

? Problema 7.3.3
La o staţie meteorologică din zona montană s-au constatat
valori ale precipitaţiilor anuale care par să fie normal distribuite,
cu o medie de 1400 mm pe an şi o abatere standard de 110 mm.
La un nivel de semificaţie α = 0,04 , să se verifice
H 0 : µ = µ 0 = 1400 mm faţă de H1 : µ ≠ µ 0 , dacă un eşantion de
36 valori anuale a avut o medie x = 1432,6 mm / an
? Problema 7.3.4
În bazinul cu exemplare de vânzare al păstrăvăriei de la
Sâmbăta de Sus, un eşantion aleator de 100 peşti a avut
lungimea medie de 37,8 cm, cu o abatere standard de 5,2 cm. Să
se testeze ipoteza H 0 : µ = µ 0 = 35 cm , faţă de alternativa
H1 : µ > µ 0 , la nivel de semnificaţie 0,05.

? Problema 7.3.5
Postul TV Etno pretinde că transmite cel puţin 21 ore pe zi
programe cu specific etnografic. Este afirmaţia corectă, la nivel
de semnificaţie 0,01, dacă din 60 de zile monitorizate aleatoriu
s-a constatat că postul transmite astfel de programe în medie
20,4 ore pe zi, cu abatere standard de 1,8 ore ?

? Problema 7.3.6
O alergătoare de 400 m doreşte să-şi îmbunătăţească
performanţa şi crede că timpii scoşi de ea pe distanţa respectivă
au o abatere standard mai mică decât 1,3 secunde. Sunteţi de
acord cu atleta, la nivel de semnificaţie 0,05, dacă în 15 curse
alese întâmplător dintre ultimele la care a participat, s-a
constatat o abatere standard de 1,01 secunde ?

? Problema 7.3.7
Un eşantion aleator de talie n1 = 36 extras dintr-o
populaţie normală cu varianţa σ12 = 72 , are media x1 = 222 . Un al
doilea eşantion de talie n2 = 49 , dintr-o altă populaţie normală
cu varianţa σ 22 = 98 , are o medie x2 = 231 . Să se testeze
H 0 : µ1 = µ 2 faţă de alternativa H1 : µ1 ≠ µ 2 , la nivel de
semnificaţie 0,03.
? Problema 7.3.8
În cadrul unui studiu medical se urmăreşte, printre altele,
analiza variabilităţii greutăţii corporale la fete şi respectiv băieţi
din aceiaşi categorie de vârstă. Distribuţiile greutăţilor se admit
normale, atât la fete cât şi la băieţi. La un eşantion aleator de 25
fete s-a constatat o abatere standard de 7,8 kg, iar la un eşantion
aleator de 16 băieţi – o abatere standard de 4,5 kg. Se poate
afirma, la nivel de semnificaţie 0,01, că variabilitatea greutăţii
este mai mare în cazul fetelor ?

7.4. Teste pentru V.A. discrete

Fie problema testării ipotezei că proporţia de succese într-


un experiment binomial este egală cu o valoare oarecare, p0 ,
specificată.
Statistica de test pe care se bazează decizia este variabila
aleatoare binomială X reprezentând numărul de succese în n
încercări.
Pentru a testa ipotezele:
H 0 : p = p0 ; H 1 : p < p0 ,
regiunea critică de dimensiune α este dată de relaţia:
x ≤ k α' , unde k α' este cel mai mare întreg pentru care

( )
k α'
P X ≤ k α' când p = p0 = ∑ b(x; n, p0 ) ≤ α
x =0
Similar, pentru a testa ipotezele:
H 0 : p = p 0 ; H 1 : p > p0 ,
regiunea critică de dimensiune α este dată de relaţia:
x ≥ kα , unde k α este cel mai mic întreg pentru care
n
P( X ≥ k α când p = p0 ) = ∑ b(x; n, p0 ) ≤ α
x = kα
În final, pentru a testa ipotezele:
H 0 : p = p0 ; H1 : p≠ p ,
0
regiunea critică de dimensiune α este dată de
'
x ≤ kα şi x ≥ kα .
2 2

Deoarece X este o V.A. discretă, dimensiunea acestor


regiuni critice va fi cu ceva mai mică decât α , dar cât mai
apropiată de α şi fără să-l depăşească.

Paşii testării ipotezei nule despre o proporţie, în raport cu


diverse ipoteze alternative, folosind probabilităţi binomiale
sunt următorii:
1. Se formulează ipoteza nulă H 0 că p = p0 ;
2. Se alege o ipoteză alternativă H 1 dintre cele posibile:
p< p
0
sau p > p0 sau p ≠ p0 ;
3. Se alege nivelul de semnificaţie α ;
4. Se determină regiunea critică
x ≤ k α' pentru H 1 : p < p0
x ≥ k α pentru H 1 : p > p0
'
x ≤ kα şi x ≥ k α pentru H 1 : p ≠ p0
2 2
5. Se găseşte x, numărul de succese;
6. Decizia: respinge H 0 dacă x cade în regiunea critică;
acceptă H 0 în caz contrar.

Dacă n are valori mari, se admite o procedură de


aproximare.
Când valoarea presupusă pentru p0 este foarte apropiată
de 0 sau de 1, se poate folosi distribuţia Poisson de medie
µ = np .
0
Pentru valori p0 îndepărtate de 0 sau de 1, aproximarea
se poate face printr-o curbă normală de medie µ = np0 şi
varianţă σ = np0 q0 . În acest caz, decizia se bazează pe valoarea
2

variabilei normale standard Z obţinută cu relaţia:


x − np0
z=
np0 q0

Primii trei paşi ai procedurii de testare sunt ca mai sus,


iar restul apar sub forma:
4. Se determină regiunea critică
z < zα pentru H 1 : p < p0
z > z1− α pentru H 1 : p > p0
z < zα şi z ≥ z1− α pentru H 1 : p ≠ p0
2 2
5. Se calculează x pentru un eşantion de talie n şi apoi se
obţine valoarea corespunzătoare z cu relaţia precizată;
6. Decizia: respinge H 0 dacă z cade în regiunea critică şi
respectiv se acceptă în caz contrar.

Dacă se testează ipoteza egalităţii a două proporţii, pe


baza unor eşantioane de talie mare, se parcurg paşii următori:
1. Se defineşte ipoteza nulă H 0 că p1 = p 2 ;
2. Se alege ipoteza alternativă adecvată dintre variantele
p1 < p 2 sau p1 > p 2 sau p1 ≠ p 2 ;
3. Se alege nivelul de semnificaţie α ;
4. Se determină regiunea critică:
z < z α pentru H 1 : p1 < p 2
z > z1− α pentru H 1 : p1 > p 2
z < z α şi z ≥ z α pentru H : p ≠ p
1− 1 1 2
2 2
x1 x2 x1 + x 2
5. Se calculează pˆ 1 = ˆ
p = pˆ =
n1 , n2 ,
2
n1 + n2
şi se găseşte apoi
pˆ 1 − pˆ 2
z=
1 1 
pˆ qˆ  + 
 n1 n2 
6. Decizia: se respinge H 0 dacă z cade în regiunea
critică şi se acceptă în caz contrar.

Exemplul 7.4.1
Se estimează că 80% dintre locuinţele unui
cartier sunt racordate la televiziunea prin cablu şi se consideră
că această ipoteză este corectă dacă dintr-un eşantion de 20
locuinţe alese aleator, se vor găsi între 15 şi 18 care sunt
racordate.
a) Să se evalueze probabilitatea comiterii unei erori de
tip I, pentru ipoteza alternativă p ≠ 0,8 şi să se comenteze;
b) Să se evalueze probabilitatea unei erori de tip II în
alternativele p = 0,7 şi respectiv p = 0,9 şi să se comenteze.

Soluţie
a) Eroarea de tip I apare dacă 14 sau mai puţine locuinţe
sau respectiv dacă 19 sau mai multe locuinţe ar fi racordate,
în ipoteza că H 0 : p = p0 = 0,8 şi
cu alternativa H 1 : p ≠ p0 .
Deci
α = P (respingere H 0 când este adevărată )
= P( X ≤ 14 sau X ≥ 19 dacă p = 0,8) =
14  18 
= ∑ b(x;20;0,8) + 1 − ∑ b( x;20;0,8)
x =0  x = 0 
Cu programul binomial se găseşte că
valoarea funcţiei de repartiţie pentru X = 14 este
0,1958,
iar pentru X = 18 este 0,9308.
Rezultă:
α = 0,1958 + (1 − 0,9308) = 0,265
Cu procedura de decizie de a accepta H 0 dacă
15 ≤ X ≤ 18 rezultă că
în 26,5% din timp s-ar accepta H 1 : p ≠ 0,8 , deşi în
realitate p = 0,8 .

Această valoare mare pentru α s-ar putea reduce prin


micşorarea regiunii critice.
Spre exemplu, dacă H 0 : p = 0,8 se consideră valabilă
pentru 13 ≤ X ≤ 18 , rezultă
α = 0,0321 + (1 − 0,9308) = 0,101 .

b) Eroarea de tip II apare când se acceptă H 0 , ea fiind


falsă.
Pentru p = 0,7 se obţine:
β = P (acceptare H 0 când ea este falsă)
= P(15 ≤ X ≤ 18 pentru p = 0,7 ) =
18 14
= ∑ b(x;20;0,7) − ∑ b(x;20;0,7)
x =0 x=0
Valorile funcţiei de repartiţie în acest caz, pentru X = 18 şi
respectiv X = 14 sunt 0,9924 şi 0,5836 rezultând β = 0,409 .
În cazul p = 0,9 rezultă:
18 14
β= ∑ b(x;20;0,9) − ∑ b(x;20;0,9) = 0,6083 − 0,0113 = 0,597
x =0 x =0
Pentru p = 0,7 din realitate, se va accepta greşit în circa
41% din cazuri că p = 0,8 , iar
dacă p = 0,9 în realitate, în aproape 60% din ocazii se
va accepta greşit că p = 0,8 .
Valorile mari găsite pentru β sunt justificate prin faptul
că p = 0,7 şi p = 0,9 sunt apropiate de valoarea 0,8 admisă
prin ipoteza H 0 .

Exemplul 7.4.2

a) Să se refacă problema din exemplul anterior, admiţând


o selecţie de 100 locuinţe şi regiunea de acceptare pentru H 0 :
p = 0,8 definită prin 72 ≤ x ≤ 88 locuinţe găsite racordate.
b) Să se compare rezultatele cu cele găsite prin
aproximarea distribuţiei binomiale cu o distribuţie normală.

Soluţie
a) Folosind programul binomial, se găseşte:
α = P( X ≤ 71 sau X ≥ 89 când p = 0,8) =
71  88 
∑ b ( x;100;0,8 ) +  1 − ∑ b ( x;100;0,8 )=
x =0  x = 0 
= 0,0200 + (1 − 0,9874) = 0,0326

β1 = P(72 ≤ X ≤ 88 pentru p = 0,7 ) =


88 71
∑ b(x;100;0,7) − ∑ b(x;100;0,7) =
x =0 x =0
= 1,0000 − 0,6232 = 0,3768

β 2 = P(72 ≤ X ≤ 88 pentru p = 0,9 ) =


88 71
∑ b(x;100;0,9) − ∑ b(x;100;0,9) =
x =0 x =0
= 0,2970 − 0 = 0,2970
b) La aproximarea printr-o distribuţie normală, în
ipoteza H 0 : p = 0,8 ,
distribuţia va avea media µ = np = 100 ⋅ 0,8 = 80
şi varianţa σ 2 = npq = 100 ⋅ 0,8 ⋅ 0,2 = 16 .
Considerând X = 72 de lăţime unitară între 71,5 şi 72,5 şi
respectiv X = 88 între 87,5 şi 88,5, la aproximarea prin
distribuţia normală probabilitatea erorii de tip I va fi:
α = P( X ≤ 71,5 sau X ≥ 88,5 când p = 0,8)
X − µ X − 80
Cu variabila normală standard Z= =
σ 4
rezultă
 71,5 − 80 88,5 − 80 
α = P Z ≤ sau Z ≥  = P(Z ≤ −2,125 sau Z ≥ 2,125 ) =
 4 4 

= P(Z ≤ −2,125) + [1 − P(Z < 2,125)] = 0,0168 + (1 − 0,9832) = 0,0336

Comparând cu α = 0,0326 găsit la punctul a) se observă


o eroare de circa 3%.

Dacă p = 0,7 , rezultă µ = 70 şi σ 2 = 100 ⋅ 0,7 ⋅ 0,3 = 21 ,


iar coeficientul β va fi:
β1 = P(71,5 < X < 88,5 pentru p = 0,7 )
X − 70
Variabila normală standard este Z = , astfel că
21
β1 = P(0,3273 < Z < 4,037 ) = 1 − 0,6283 = 0,3717
Dacă p = 0,9 , rezultă µ = 90 şi σ 2 = 100 ⋅ 0,9 ⋅ 0,1 = 9 .
X − 90
Cu variabila Z = se obţine:
3
β 2 = P(71,5 < X < 88,5 când p = 0,9) = P(− 6,167 < Z < −0,5) = 0,3085 − 0 = 0,3085
La a) s-a găsit β1 = 0,3768 iar aici β1 = 0,3717 şi respectiv
β 2 = 0,297 iar aici β 2 = 0,3085 cu erori de 1,35% şi respectiv
3,87%.
Concluzie - aproximarea distribuţiei binomiale prin
distribuţia normală continuă dă rezultate cu erori reduse dacă
n este suficient de mare.

Exemplul 7.4.3
Secretariatul facultăţii afirmă că cel puţin 40%
dintre studenţii cu o restanţă ajung de obicei să mai adauge
una într-o sesiune curentă. Se poate admite această ipoteză, la
nivel de semnificaţie α = 0,05 , dacă dintr-un eşantion aleator
de 20 studenţi s-a constatat la sfârşitul sesiunii că 6 au câte
două restanţe?

Soluţie
Ipoteza nulă se defineşte prin H 0 că p = p0 = 0,4 ,
cu alternativa că H 1 : p < p0 şi prag de semnificaţie α = 0,05 .
Considerând ca „succes” = terminarea sesiunii cu două
restanţe, la proporţia p dintre cei care deja aveau una,
experimentul binomial de talie n = 20 , are regiunea critică dată
de:

( )
k α'
P X ≤ k α' când p = p0 = 0,4 = ∑ b(x;20;0,4) ≤ α ,
x =0
'
unde k α este cel mai mare întreg pentru care se realizează
condiţia de mai sus.
Cu programul binomial se găseşte pentru α = 0,05 că
regiunea critică este x ≤ k α' = 3 .
Deoarece în eşantion s-au găsit 6 studenţi cu două restanţe,
'
adică mai mult decât k α = 3 , ipoteza H 0 se acceptă, rezultând
concluzia că nu există suficientă evidenţă pentru a contrazice
afirmaţia secretariatului.
Exemplul 7.4.4
O societate de asigurări este interesată de
legătura dintre vârsta conducătorilor auto şi proporţia celor
care produc accidente rutiere cu despăgubiri. În acest sens s-a
selectat un eşantion aleator de 100 şoferi până în 25 ani, la
care s-au constatat 48 de accidente, şi respectiv un eşantion de
150 şoferi peste 25 ani, care au fost implicaţi în 63 de
accidente. La nivel de semnificaţie de 0,05, există o diferenţă
între proporţiile adevărate ale celor două categorii ?

Soluţie
Eşantioanele sunt de talie mare ( n1 = 100 şi n2 = 150 ) şi
atunci estimatorul de test se admite o variabilă normală
standard.
Se defineşte ipoteza nulă H 0 : p1 = p 2 ,
cu alternativa H 1 : p1 ≠ p 2 ,
caz în care regiunea critică va fi dată de z < z α şi z ≥ z1− α .
2 2
Valoarea estimatorului se calculează cu relaţia:
pˆ 1 − pˆ 2
z=
1 1 ,
pˆ qˆ  + 
 n1 n2 
în care p̂1 şi p̂ 2 sunt estimările de eşantion, adică
48 63
pˆ 1 = = 0,48 şi respectiv pˆ 2 = = 0,42
100 150
Prin p̂ s-a notat o proporţie ponderată:
48 + 63
pˆ = = 0,444 , iar qˆ = 1 − pˆ = 0,556
100 + 150
0,48 − 0,42
Rezultă z = = 0,9354
 1 1 
0,444 ⋅ 0,556 + 
 100 150 
Pentru nivel de semnificaţie α = 0,05 , cuantilele z 0,025 şi
z 0,975 au valorile -1,96 şi respectiv 1,96.
Deoarece z = 0,9354 este cuprins între cele două cuantile
(adică în regiunea de acceptare), se acceptă H 0 şi concluzia că
proporţiile celor implicaţi în accidente sunt egale pentru
ambele categorii de vârstă.

? Problema 7.4.1
Dintr-un lot aleator de 250 studenţi integralişti, s-a
constatat că 182 se mulţumesc cu note de trecere mici, în locul
notelor care le-ar asigura bursă. Să se verifice ipoteza că
proporţia acestora este p = 0,8 , faţă de alternativa că p < 0,8 , la
nivel de semnificaţie 0,05.
? Problema 7.4.2
Dintr-un eşantion aleator de 500 telespectatori, 125 declară
că urmăresc talk-show-urile de după ora 22. Există suficientă
evidenţă pentru a concluziona că mai mult de 20% dintre
telespectatori urmăresc emisiunile respective, la nivel de
semnificaţie 0,04 ?

? Problema 7.4.3
Managerii de la Cora şi Carrefour susţin că nu există
diferenţe între preferinţele cumpărătorilor faţă de unul sau altul
dintre magazine, la gama produselor electronice. Sunteţi de
acord cu această afirmaţie, la nivel de semnificaţie 0,05, dacă
dintr-un eşantion aleator de 400 cumpărători 182 au declarat că
preferă Cora, în timp ce dintr-un alt eşantion de 250, 96 s-au
pronunţat în favoarea Carrefour ?

? Problema 7.4.4
Într-un studiu efectuat la o universitate mare s-a urmărit,
printre altele, să se stabilească dacă proporţia studentelor care
urmează şi un masterat este mai mare decât proporţia studenţilor
care procedează similar. Există suficientă evidenţă pentru
aceasta, la nivel de semnificaţie 0,01, dacă 110 din 200 studente
şi respectiv 38 din 100 studenţi aleşi aleatoriu, au continuat la
master ?

7.5. Teste neparametrice pentru valorile


centrale
Există diverse teste pentru poziţia centrală (de ex. –
media) sau diferenţa valorilor centrale a două eşantioane, în
condiţiile în care nu se cunoaşte nimic despre distribuţia de
probabilitate a datelor.

Se prezintă două astfel de teste şi anume testul de semn şi


testul Wilcoxon (sau Mann – Whithey), pentru a ilustra
diferenţa de principiu faţă de concepţia testelor parametrice.

7.5.1. Testul de semn


Are aplicaţii în analiza statistică a datelor experimentale,
ca de exemplu pentru:
- detectarea tendinţei într-o serie cronologică;
- verificarea caracterului aleator al datelor;
- compararea datelor corespondente din două eşantioane
de talie egală, etc.

În continuare, admitem că
se compară perechile corespondente de valori X şi Y din
două eşantioane egale şi
se notează în câte situaţii X este mai mare decât Y (sau
diferenţele X i − Yi au semn pozitiv – de aici şi denumirea
testului!).

În ipoteza nulă, acest număr notat prin variabila K, are o


distribuţie binomială b(k ; n, p = 0,5) , unde n este talia
eşantioanelor.
Deci se pot defini: H 0 : p = p0 = 0,5
cu alternativele posibile H 1 : p < p0 sau p > p0 sau p ≠ p0 .
Desfăşurarea testului urmează paşii descrişi anterior
pentru proporţia repartiţiei binomiale,
cu observaţia că expresia funcţiei de repartiţie are acum
un aspect particular deoarece p = q = 1 2 şi deci
k k
F (k ) =
1
∑ C nj p j q n − j = ∑ C nj
j =0 2n j =0
Dacă talia eşantioanelor este mare, s-a văzut că se poate
utiliza aproximarea prin distribuţia normală de medie
µ k = n / 2 şi abatere standard σ k = n 4 ,
n 1
K− −
2 2
Z=
folosind variabila normală standard n şi unde
2
s-a introdus corecţia de continuitate prin termenul -1/2 de la
numărător.

Exemplul 7.5.1
Pentru fiecare dintre 10 perechi de gemeni s-a
administrat, în mod aleatoriu, unuia dintre ei o pastilă de
dormit tip A şi celuilalt o pastilă de tip B. La 8 dintre cele 10
perechi s-a observat că pastila de tip A a produs durate mai
lungi ale somnului. Care este nivelul de semnificaţie, în raport
cu ipoteza nulă că cele două tipuri de pastile sunt la fel de
eficiente ?

Soluţie
Eficienţa egală corespunde la H 0 : p = p0 = 0,5
cu alternativa considerată că H 1 : p ≠ 0,5 (nu sunt la fel de
eficiente).
Este un test bilateral, la care regiunea critică este definită
prin:
α = P(K ≤ 2 şi K ≥ 8 pentru p = 0,5) = P(K < 3 şi K > 7 pentru p = 0,5) =

2  7 
= ∑ b(k ;10;0,5) + 1 − ∑ b(k ;10;0,5) = 0,0537 + (1 − 0,9443) = 0,1094
k =0  k = 0 
unde valorile funcţiilor de repartiţie se obţin cu programul
binomial.
Deoarece probabilitatea unei erori de tip I a rezultat
α = 0,1094 , adică o valoare mare faţă de cele folosite curent în
testarea ipotezelor (α = 0,05 ÷ 0,01) , nu se va respinge ipoteza
H 0 , concluzionând că cele două tipuri de pastile sunt la fel de
eficiente.

Exemplul 7.5.2
Se suspectează că moneda folosită de un
amator de pariuri este trucată pentru a rezulta în mai multe
aruncări cap decât pajură. La un experiment de 100 aruncări a
ieşit cap de 61 de ori. Este justificată suspiciunea la un nivel
de încredere α = 0,02 ?

Soluţie
Definind ipoteza nulă H 0 : p = 0,5 şi ipoteza alternativă
H 1 : p > 0,5 (proporţie mai mare de a rezulta cap), regiunea
critică apare pentru
α c = P(K ≥ 61 când p = 0,5) = 1 − P(K < 61 când p = 0,5)
Deoarece numărul de aruncări n = 100 este mare, se poate
aproxima distribuţia binomială prin distribuţia normală de
medie µ k = 100 / 2 = 50 şi abatere standard σ k = 100 / 4 = 5 .
Variabila normală standard va avea valoarea:
61 − 50 − 0,5
z= = 2,1
5
astfel că α c = 1 − P(z < 2,1) = 1 − 0,9821 = 0,0179 < α = 0,02
Deoarece α c a rezultat inferior nivelului de încredere
specificat prin enunţ, ipoteza nulă H 0 : p = 0,5 nu se respinge
şi trebuie acceptat că moneda nu este trucată.

7.5.2. Testul Wilcoxon


Se utilizează pentru a afla dacă există diferenţă
semnificativă între valorile centrale a două eşantioane:
X, de talie n1 şi respectiv Y, de talie n2 .

Este oarecum echivalent cu testarea diferenţei dintre


două medii de eşantion, dar se realizează fără a presupune
ceva despre distribuţia din care provin eşantioanele.

Procedura de testare constă din


- amestecarea datelor celor două eşantioane într-unul
singur, urmată de
- etichetarea datelor prin „X” sau „Y” şi
- aflarea rangului fiecăruia în eşantionul global, ordonat
crescător.

Sub ipoteza nulă H 0 că nu există diferenţe între valorile


centrale pentru variabilele X şi Y,
cele n1 ranguri ale datelor din X în eşantionul global de
talie n1 + n2 ,
pot fi privite ca extrageri aleatoare din lista primilor
n1 + n2 întregi.

Se defineşte statistica de test W – ca suma rangurilor


datelor din eşantionul X în eşantionul global.

Se poate demonstra că o statistică echivalentă lui


W (numită statistică Wilcoxon), este
cea propusă de Mann şi Whitney, notată prin U şi egală
cu suma, pentru fiecare X, a numărului de valori Y pe care le
depăşeşte, însumarea făcându-se pentru valorile lui X.
În fapt, U = W − n1 (n1 + 1) 2 , dar utilizarea statisticii U în
calcule este mult mai comodă.

Sub H 0 : θ = 0 , cu H 1 : θ > 0 (sau θ < 0 sau θ ≠ 0 ),


n1n2
media distribuţiei lui U este U µ = , iar varianţa sa
2
2 n n (n + 1)
σU = 1 2 , unde n = n1 + n2 ,
12
în timp ce distribuţia lui W are aceeaşi varianţă, dar
n1 (n + 1)
media µW = .
2

Dacă n1 şi n2 sunt mari (practic n1 , n2 >8), aceste


distribuţii se pot aproxima prin distribuţia normală.

În acest caz şi pentru alternativa H 1 : θ > 0 (adică media


lui Y părând să fie mai mare decât media lui X),
se respinge H 0 pentru o valoare a estimatorului
1 nn
U+ − 1 2
Z= 2 2
n1n2 (n + 1)
12
mai redusă decât z1−α sau, altfel spus,
dacă probabilitatea erorii de tip I este mai mare decât
probabilitatea critică α c = φ(z c ) , unde φ este valoarea
funcţiei de repartiţie normală standard pentru z c observat.

Dacă apar valori egale în eşantionul global (de acelaşi


rang), se adaugă 1 2 pentru fiecare valoare Y egală cu o valoare
X - la calculul lui U.
Când prin această operaţie rezultă o valoare U care nu este
număr întreg, se renunţă la corecţia de continuitate de 1 2 din
expresia lui Z.

Exemplul 7.5.3
După examenul la o anumită disciplină,
punctajele (din 100 puncte) obţinute de două eşantioane
aleatoare formate din 14 studente şi respectiv 10 studenţi sunt
cele din tabelul următor.
Număr 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Studente 39 34 61 70 43 71 50 76 56 65 83 68 79 73
Studenţi 60 31 45 39 52 51 35 56 54 58
Să se examineze dacă aceste date ilustrează cu evidenţă
semnificativă faptul că, printre studenţii şi studentele
reprezentate de aceste eşantioane, studentele par mai bune la
disciplina respectivă.

Soluţie
Notând cu eticheta F – studentele şi cu B – studenţii şi
ordonând crescător eşantionul global de n1 + n2 = 24 date, se
obţin rangurile punctajelor ca în tabelul de mai jos.
Rang 1 2 3 4 5 6 7 8 9 10 11
F 34 39 43 50 56
B 31 35 39 45 51 52 54 56

Rang 12 13 14 15 16 17 18 19 20 21 22
F 61 65 68 70 71 73 76 79 83
B 58 60

Se aleg valorile B ca serie X şi se adună cele 10


contribuţii la U.
Băiatul cu 31 puncte are punctajul minim şi contribuie
astfel cu 0 la U;
cel cu 35 puncte este superior cu 1 faţă de fete şi deci
contribuie cu 1 la U;
următorul are punctaj superior unei fete şi este egal cu o
altă fată deci - contribuie cu 1+1/2 la U, ş.a.m.d.
1 1
Rezultă U = 0 + 1 + 1 + 3 + 4 + 4 + 4 + 4 + 5 + 5 = 32
2 2
Ca test, problema s-a pus sub forma: H0 : µB = µF
cu alternativa H1 : µ B < µ F ,
unde µ F şi µ B sunt mediile pentru studente şi respectiv
studenţi.

Deoarece n1 , n2 >8, sub H 0 , U este aproximativ normal


n1n2 n n (n + 1)
distribuită cu media µU = şi varianţa σU2 = 1 2 ,
2 12
unde la seria X corespunde n1 = 10 , iar n2 = 14 şi n = 24 .

Valoarea critică a estimatorului de test în variabila


normală standard este:
1 n1n2
U+ −
zc = 2 2 = 32 + 0,5 − 70 = − 37,5 = −2,196
n1n2 (n + 1) 10 ⋅14 ⋅ 25 17,078
12 12
iar probabilitatea critică α c este:
α c = P(U ≤ 32 ) = P(Z ≤ z c ) = P(Z ≤ −2,196 ) = 0,014

Rezultă că pentru orice nivel de semnificaţie mai mare


decât circa 1,4%, se va respinge H 0 : µ B = µ F , concluzionând
că există evidenţă semnificativă privind superioritatea
studentelor la acest examen.
8. TESTE DE CONCORDANŢĂ (SAU DE
AJUSTARE)
Prezentate separat din cauza importanţei lor practice
pentru inferenţa statistică pe baza eşantioanelor de date
înregistrate

În principiu, ele testează măsura în care un set de date


observate este reprezentat satisfăcător de o anumită distribuţie
teoretică de probabilitate,
prin compararea frecvenţelor de apariţie înregistrate, cu
cele rezultate din legea teoretică încercată.

8.1. Testul hi-pătrat


Se poate aplica atât V.A. continue, cât şi discrete, fiind
adecvat în următoarele situaţii:

- Când ipoteza nulă precizează complet legea teoretică de


probabilitate şi se compară frecvenţele cumulate observate cu
cele date de modelul teoretic (utilizare ca test de conformitate);

- Când ipoteza nulă precizează doar forma legii teoretice


în timp ce estimările parametrilor ei trebuie obţinute separat,
atât pentru executarea testului, cât şi pentru utilizarea
ulterioară a distribuţiei, dacă H 0 este acceptată (test de
ajustare sau de concordanţă).

În ambele situaţii,
- ipoteza H 0 presupune că datele observate provin dintr-
o populaţie cu funcţia de repartiţie F ( x; θ) , unde F este
cunoscută şi θ (poate fi şi un vector de parametri) este
cunoscut precis sau doar ca estimaţie.
- ipoteza alternativă H 1 constă în afirmaţia că F ( x; θ)
nu este funcţia de repartiţie a V.A. observate, care poate fi
oricare altă lege de distribuţie - deci o alternativă foarte
generală.

Dezavantajul lui major – pentru a fi edificator este


necesar ca talia N a eşantionului de date observate să fie
suficient de mare.

Principiul testului se bazează pe comparaţia, pentru o


clasă dată de valori, a numărului de apariţii observate, n j , cu
numărul de apariţii corespunzător funcţiei teoretice testate,
*
pentru clasa respectivă, notat n j (Fig. 8.1).

n j număr apariţii observate

n*j număr apariţii teoretic


pentru

f(x) testată

x
aj bj

Fig.8.1. Ideea de principiu a testului hi-pătrat

În cadrul lui se verifică dacă suma pătratelor


*
diferenţelor dintre n j şi n j rămâne în limite
rezonabile, de ordinul de mărime al fluctuaţiilor de
eşantionare plauzibile.
Pentru N suficient de mare, estimatorul de test notat prin
2
χ obs şi dat de relaţia:
(
K n − n* )
2


2 j j
χ obs = (8.1)
j =1 n*j

este o V.A. de lege χ cu ν grade de libertate, K fiind


2

numărul de clase utilizate în testare.

Numărul gradelor de libertate, ν , depinde de tipul testului


- Dacă valorile parametrilor θ1 , θ 2 ,K , θ p ai legii
teoretice F (x; θ) sunt cunoscute cu precizie (test de
conformitate), atunci ν = K − 1 .
- Dacă se folosesc estimări θ̂i ale parametrilor (test de
concordanţă), atunci ν = K − p − 1 , cu p – numărul de parametri.

Puterea testului este maximă dacă numerele de apariţie


teoretice, n j sunt egale pentru toate clasele şi, în plus, n j ≥ 5 .
* *

Ipoteza nulă H 0 se acceptă la un nivel de semnificaţie


α precizat, dacă
2
χ obs ≤ χ12− α (ν ) (8.2)
deci
dacă valoarea calculată a estimatorului este cel mult
egală cu cuantila distribuţiei χ 2 cu ν grade de libertate,
pentru care F (χ 2 ) = 1 − α .
Paşii concreţi ai procedurii de testare sunt următorii:
N
1. Se determină numărul de clase K = int   ;
5
2. Se defineşte ecartul claselor echiprobabile (de acelaşi
1
efectiv) prin ∆F j = ;
K
3. Rezultă numărul teoretic de apariţii pe clasă (constant)
N
cu relaţia n j = N∆F j =
* 2
. În acest caz, expresia lui χ obs se
K
modifică de la forma (8.1) la
K K 2
2
χ obs = ∑n j − N , (8.3)
N j =1

4. Se găsesc limitele claselor a j şi b j , funcţie de


domeniul pe care se întind datele de eşantion. De ex. - b j ,
pentru j = 1,2,K , K − 1 , vor fi cuantilele x j pentru care
( )
F x j = j∆F j . Evident că bK = x max , iar a1 = x min şi a j = b j −1 ,
cu x min şi x max valorile extreme din setul de date observate;
5. Se determină numărul de apariţii observate, n j în fiecare
clasă şi se calculează χ obs
2
cu relaţia (8.3);
6. Se determină numărul de grade de libertate ν , funcţie de
tipul testului;
7. Se calculează cuantila χ1− α (ν ) pentru nivelul de
2

semnificaţie α ales sau se calculează probabilitatea critică


( ) - egală cu riscul de a greşi prin respingerea
2
α c = 1 − F χ obs
ipotezei nule H 0 .

Programul Test_hi2 efectueză testul de concordanţă


pentru legi teoretice cu doi parametri – de forma generală
f (x; a, b ) - şi anume: legea normală N (µ, σ ) , legea log-
normală LN (a, b ) , legea Gamma G (a, b ) şi legea Weibull
W (a, b ) .
Testul hi-pătrat se poate aplica şi folosind clase de ecart
egal după X , în locul claselor echiprobabile ca frecvenţă. În
programul Test_hi2 nu se prevede această variantă (găsirea
2
valorii numerice a lui χ obs dat de (8.1) fiind mai complicată).

Procedura de testare hi-pătrat se poate folosi şi


pentru a testa ipoteza independenţei a două variabile
aleatoare.
- Se construieşte o tabelă cu r linii şi c coloane - tabela de
contingenţă ( sau tabelă r x c) pentru Ai , i = 1,2,K , r şi
respectiv B j , j = 1,2,K , c caracteristici (sau variabile de
clasificare).
- În celula (i, j ) apare frecvenţa observată f ij ca indivizii
extraşi aleatoriu din populaţia considerată să prezinte
caracteristicile Ai şi B j .
- Suma pe oricare linie Ai reprezintă frecvenţa observată
a tuturor indivizilor cu această caracteristică şi oricare dintre
c
caracteristicile Bj , j = 1,2,K , c . Fie ni = ∑ f ij suma
j =1
respectivă.
- Suma pe oricare coloană B j , reprezintă frecvenţa
observată a tuturor indivizilor cu această caracteristică şi
r
oricare dintre caracteristicile Ai , i = 1,2,K , r . Fie m j = ∑ f ij
j =1
suma respectivă.

Valorile ni , i = 1,2,K , r şi respectiv m j , j = 1,2,K , c se


r c
numesc frecvenţe marginale şi evident ∑ ni = ∑ m j = T este
i =1 j =1
talia eşantionului analizat.
În ipoteza nulă H 0 a independenţei variabilelor de
clasificare, frecvenţa teoretică pentru celula (i, j ) se obţine cu:
* ni m j
f ij = (8.4)
T
Evident, sumele pe linii şi respectiv coloane, ale
frecvenţelor teoretice, trebuie să fie egale cu frecvenţele
marginale corespunzătoare.

Statistica de test în acest caz are forma:

2
χ obs =∑∑
r c ( fij − fij* )2
(8.5)
i =1 j =1 f ij*

şi urmează o distribuţie χ cu ν = (r − 1)(c − 1) grade de libertate.


2

Dacă pentru nivelul de semnificaţie α ales, cuantila


distribuţiei χ (ν ) la care F (χ 2 ) = 1 − α , este χ12− α (ν ) > χ obs
2 2
,
ipoteza independenţei variabilelor de clasificare se respinge.

Testul hi-pătrat de independenţă este aplicabil şi la


verificarea ipotezei că k populaţii binomiale au acelaşi
parametru p (procent de succes).
Se testează deci:
H 0 : p1 = p 2 = K = pk
faţă de ipoteza alternativă că proporţiile p nu sunt toate egale.
(lucru echivalent cu a testa că numărul de succese / eşecuri
este independent de eşantionul ales).

Pentru efectuarea testului


- se aleg eşantioane aleatoare independente de talii
n1 , n2 ,K , nk din cele k populaţii şi se aranjează datele ca
frecvenţe observate într-un tabel de contingenţă 2 x k.
- iar paşii următori sunt identici cu cei de mai sus, în
acest caz distribuţia χ a estimatorului având ν = k − 1 grade
2

de libertate.
2
Deoarece valorile calculate χ obs sunt discrete, distribuţia
χ 2 doar aproximează distribuţia acestei V.A. discrete. Totuşi,
aproximarea este adecvată dacă ν > 1 .

Pentru un tabel de contingenţă 2 x 2, unde numărul


gradelor de libertate este 1, se aplică o corecţie de continuitate
sub forma:
2
 f − f * − 0,5 
(corectat ) = ∑∑  
ij ij
2
χ obs (8.6)
f ij*
necesară doar dacă f ij* ∈ (5 ÷ 10) , (pentru valori mai mari ea
neinfluenţând sensibil rezultatele).

Exemplul 8.1.1
Pentru datele problemei din Exemplul 6.5.2,
referitoare la debitele maxime anuale înregistrate la un post
hidrometric pe pârâul P, s-a presupus că acestea sunt redate de o
distribuţie Gamma cu doi parametri şi s-au găsit estimările
acestora cu metoda verosimilităţii maxime la valorile
aˆ = 0,345 şi bˆ = 3,25 .
a) Să se verifice prin testul χ 2 , la nivel de semnificaţie
α = 0,05 , dacă distribuţia Gamma cu parametrii â şi b̂
menţionaţi, redă setul de date observate şi să se afle riscul de
respingere a ipotezei nule, ea fiind adevărată;
b) Să se repete testul χ , la acelaşi nivel de semnificaţie şi
2

calculând riscul de respingere, dacă se admite pentru


distribuţia teoretică o lege normală, respectiv log-normală cu
doi parametri;
c) Să se compare şi comenteze rezultatele.
Soluţie
a) Toate calculele se efectuează cu programul Test_hi2
Conform procedeului descris, testarea se face cu
N  40 
K = int   = int   = 8 clase echiprobabile,
5  5 
1 1
de probabilitate totală fiecare egală cu ∆F j = = = 0,125 şi
K 8
N 40
având numărul teoretic de apariţii n j = = = 5.
*
K 8
2
Estimatorul χ obs
are o distribuţie χ 2 cu ν = K − 1 − p = 8 − 1 − 2 = 5 grade de
libertate,
şi cuantila pentru F (χ 2 ) = 1 − α = 0,95 egală cu χ12− α (ν ) = 11,0705

La rulare, datele se citesc dintr-un fişier de date.


Apoi se solicită indicarea legii teoretice dorite şi - tastând
G pentru funcţia Gamma în continuare se vor introduce
valorile numerice ale estimaţiilor â şi b̂ pentru parametrii ei.
După specificarea nivelului de semnificaţie α dorit,
restul calculelor sunt efectuate automat de program, care
afişează:
2
- valoarea estimatorului de test χ obs = 8,81 ;
- valoarea cuantilei χ12− α (ν ) = 11,0705
- riscul asumat la respingerea lui H 0 = 11,73% şi
- faptul că ipoteza H 0 se acceptă la nivelul de semnificaţie
dorit (deoarece χ obs < χ1− α (ν ) !)
2 2

b) La verificarea concordanţei legii normale N (µ, σ ) cu


setul de date, trebuie să se cunoască estimaţiile de eşantion
pentru medie şi abatere standard.
Cu datele problemei, rezultă:

µˆ = x =
1 N

N i =1
xi = 9,41 m 3s −1 şi σˆ =
1 N

N i =1
(
xi − )
x
2
= 5,34 m 3s −1

Rulând cu specificaţia N pentru legea dorită şi valorile


de mai sus pentru µ̂ şi σ̂ , la acelaşi α = 0,05 , se anunţă:
2
- χ obs = 9,20 ; χ12− α (ν ) = 11,0705 ;
- riscul la respingerea lui H 0 = 10,14%
şi faptul că H 0 : f (x ) = N (µˆ = 9,41; σˆ = 5,34) se acceptă.

Pentru legea log-normală LN (a, b ) , estimaţiile


parametrilor a şi b vor fi date de relaţiile:
1 N 1 N
aˆ = ∑ ln xi = 2,08 bˆ = ∑ (ln xi − aˆ )2 = 0,582
N i =1 N i =1
Rulând cu opţiunea L şi valorile parametrilor, rezultatele
afişate sunt următoarele:
χ12− α (ν ) = 11,0705 ;
2
- χ obs = 6,00 ;
- riscul la respingerea lui H 0 = 30,62%
( )
şi faptul că H 0 : f (x ) = LN aˆ = 2,08; bˆ = 0,582 se acceptă.

c) Din comparaţia rezultatelor se constată că toate cele


trei distribuţii teoretice se ajustează la setul de date observate,
la nivel de semnificaţie α = 0,05 .
Dacă se are în vedere riscul asumat la respingerea lui
H 0 (ea fiind adevărată), acesta este maxim pentru legea
LN (2,08;0,582) şi cel mai mic pentru legea N (9,41;5,34) .
Concluzie - se poate afirma că legea log-normală cu
parametrii estimaţi aˆ = 2,08 şi bˆ = 0,582 este cel mai bine
ajustată la setul de date observate (se greşeşte cel mai mult
dacă H 0 este respinsă), urmată de legea G(0,345;3,25) şi
respectiv N (9,41;5,34) .
Exemplul 8.1.2
Pentru datele problemei din Exemplul 6.5.3,
referitoare la timpii de defectare (în unităţi arbitrare) a unui
produs electronic, găsiţi pe un eşantion de 50 piese, s-a presupus
că aceştia sunt redaţi de o distribuţie Weibull şi s-au găsit
estimaţiile parametrilor aˆ = 3,348 şi bˆ = 108,55 , folosind metoda
celor mai mici pătrate.
a) Să se verifice prin testul χ , la nivel de semnificaţie
2

( )
α = 0,05 , dacă distribuţia W aˆ , bˆ redă setul de date observate şi
să se afle riscul de respingere a ipotezei, H 0 ea fiind
adevărată;
b) Să se repete testul pentru cazul distribuţiei normale,
ştiind că estimaţiile de eşantion pentru medie şi abaterea
standard sunt µˆ = 96,98 şi σˆ = 29,18 ;
c) Folosind legea teoretică cea mai potrivită, să se găsească
probabilitatea de funcţionare a produsului fără defect pe
durata a 120 unităţi de timp şi rata de defectare la acel
moment.

Soluţie
a) Cu programul Test_hi2 şi opţiunea W, introducând
estimările aˆ = 3,348 şi bˆ = 108,55 şi α = 0,05 pentru nivelul de
semnificaţie, acesta a indicat:
2
- χ obs = 5,20 ; χ12− α (ν ) = 14,068 ;
( )
- riscul luat prin respingerea lui H 0 : W aˆ , bˆ egal cu
63,56%.

Numărul de date fiind N=50, s-a lucrat cu K = 50 / 5 = 10


clase echiprobabile, iar numărul de grade de libertate pentru
variabila χ 2 a fost ν = 10 − 1 − 2 = 7 .
b) Repetând rularea cu opţiunea N şi valorile menţionate
pentru µ̂ şi σ̂ s-a obţinut:
2
- χ obs = 1,20 ; χ12− α (ν ) = 14,068 ;
- riscul luat prin respingerea lui H 0 : N (µˆ , σˆ ) egal cu
99,09%.

Este clar că distribuţia normală cu parametrii µˆ = 96,98


şi σˆ = 29,18 , reflectă mult mai fidel datele observate, existând
riscul de a greşi de peste 99% dacă se respinge ipoteza că ea
este adevărată.

În tabelul următor sunt indicate numerele de apariţii, pe


clase, ale datelor observate, în cele două testări.
Clasa j 1 2 3 4 5 6 7 8 9 10
n j (W) 3 3 8 6 5 6 4 7 4 4
n j (N) 4 5 6 5 5 6 4 5 4 6
Se observă că faţă de numărul teoretic (constant) de
apariţii pe clasă, n j = 5 , în cazul testării legii normale 4 clase
*

conţin n j = n j = 5 , iar celelalte clase au n j = n*j ± 1 , deci 4 sau 6


*

apariţii.

c) Este deci justificat să se utilizeze legea normală


N (96,98;29,18) pentru evaluarea fiabilităţii R(x ) = 1 − F (x ) şi a
ratei de defectare h(x ) = f (x ) R(x ) , la momentul X = x * = 120
unităţi de timp.
Cu programul Gauss se găsesc valorile
- f (x * = 120) = 0,010 şi F (x * = 120) = 0,7849
(
rezultând R x = 120 = 0,2151
*
)
şi respectiv h(x * = 120) = 0,01 / 0,2151 = 0,0465
În concluzie, circa 21,5% dintre piesele de tipul respectiv
vor funcţiona fără defectări cel puţin 120 unităţi de timp.
Exemplul 8.1.3
Despre valorile medii ale variabilelor
aleatoare de natură hidrologică, meteorologică etc., se afirmă
că urmează legi de distribuţie normale.
Să se verifice această ipoteză în legătură cu debitele
medii anuale înregistrate pe Dunăre, la Orşova, în intervalul
1840 – 1999. Datele respective, cu debitele în m 3s −1 sunt
incluse în tabelul 8.1.3.
Se va accepta nivelul de semnificaţie 5%.
Tabel 8.1.3.
Debite medii anuale pe Dunare (mc/s), la Orsova, intre 1840-1999
----------------------------------------------------------------------
4991 5084 4731 5903 6076 7011 5967 6181 5069 4791
6491 6400 5774 7104 4626 6131 4606 4265 4480 5019
6396 4764 4214 3343 5278 4522 3697 5799 5080 4574
6368 6379 4889 4573 4313 4810 6787 5861 6475 7068
5437 6721 4927 5756 4892 4830 4962 4666 5843 5504
4386 4628 5409 4991 3975 6213 5896 6601 4397 4814
6056 5143 5527 5063 4793 5347 5510 5717 4118 4721
6766 4605 6544 5956 6329 8059 6480 5443 4140 7050
5598 3688 5996 5555 6130 5012 7228 5328 4622 4586
4916 5716 5202 5153 4715 4803 5649 7442 5412 5459
7383 7906 6045 3809 6684 5114 4193 4130 5537 3975
4147 5383 5107 4760 4973 7156 5912 5116 5630 4893
5697 4383 5629 4845 4827 7212 6709 5995 5154 5236
7820 4338 5099 4478 6377 6047 5205 6066 5955 6382
6895 6495 5549 4581 4998 5235 5183 5725 5239 4844
3779 4837 4686 4289 4881 5626 5936 5398 5467 6389
----------------------------------------------------------------------

Soluţie
Pentru cele 160 valori de debite medii anuale s-a găsit
3 −1
media multianuală µˆ = 5435,34 m s şi abaterea standard
σˆ = 928,77 m 3s −1 .
Folosind aceste estimaţii în programul Test_hi2,
2
- valoarea estimatorului χ obs a rezultat 25,20, iar
- valoarea cuantilei distribuţiei χ cu ν = 160 / 5 − 2 − 1 = 29
2

grade de libertate la care F (χ 2 ) = 1 − α pentru α = 0,05 a


rezultat 42,558.
Riscul luat dacă se respinge ipoteza distribuţiei normale
este de 66,78%, deci suficient de mare pentru a putea accepta
că debitele medii anuale din tabel sunt normal distribuite.
Cele mai mari abateri de la n j = 5 (număr teoretic de
*

apariţii pe clasă) s-au constatat între 4812,8 – 4901,2 m 3s −1 , cu


10 date observate şi respectiv între 6378,7 – 6509,9 m 3s −1 , cu 9
date observate.
-----------------------------------------------------------------------------

Exemplul 8.1.4
Pentru un eşantion aleator de 1000 persoane s-a
alcătuit tabelul de contingenţă de mai jos, după variabilele de
clasificare sex şi emisiuni TV preferate.
Emisiuni TV
Sex Divertisment Stiri Sportive
Bărbaţi 102 190 308
Femei 148 160 92
Să se testeze ipoteza că sexul şi preferinţele pentru
emisiuni TV sunt variabile independente, la nivel de
semnificaţie α = 0,05 .

Soluţie
Se extinde tabelul de date cu frecvenţele marginale şi se
completează fiecare celulă adăugând între paranteze
frecvenţele teoretice calculate cu relaţia (8.4).
Emisiuni TV
Sex Divertisment Ştiri Sportive Sume ni
Bărbaţi 102 (150) 190(210) 308 (240) 600
Femei 148 (100) 160 (140) 92 (160) 400
Sume m j 250 350 400 Total
T=1000

Ipoteza H 0 : că variabilele sex şi preferinţă emisiune TV


sunt independente, cu alternativa H 1 : variabilele sunt
dependente se verifică la nivel de semnificaţie α = 0,05 .
Regiunea critică pentru estimatorul de test este dată de
cuantila distribuţiei χ cu ν = (2 − 1)(3 − 1) = 2 grade de libertate,
2

2
( )
pentru care F χ = 1 − α = 0,95 şi care este χ 0,95 (2 ) = 5,991 .
2
Valoarea observată a estimatorului se obţine cu relaţia
(8.5) şi este
χ 2
=
(102 − 150)2 (190 − 210)2 (308 − 240)2 (148 − 100)2 (160 − 140)2
+ + + + +
obs
150 210 240 100 140

+
(92 − 160)2 = 91,33
160

2
Deoarece χ obs = 91,33 > χ 02,95 (2 ) = 5,991 ,
ipoteza H 0 se respinge, concluzionând că variabilele sex şi
preferinţă pentru emisiuni TV sunt dependente (ceea ce era de
aşteptat!).

Exemplul 8.1.5
Un eşantion de 800 votanţi este selectat
aleatoriu pentru a determina dacă proporţiile votanţilor din
zonele urbană, preorăşenească şi rurală care sunt în favoarea
votului uninominal la referendum sunt aceleaşi.
Rezultatele sondajului sunt cele din tabelul următor:
Zona Urbană Preorăşenească Rurală
Vot
Pentru 165 125 102
Contra 155 120 133
Se va folosi nivelul de semnificaţie α = 0,01 pentru
efectuarea testului.

Soluţie
Fie p1 , p 2 şi p3 proporţiile de votanţi pentru din
zonele urbană, preorăşenească şi rurală. Atunci:
- ipoteza nulă H 0 este p1 = p 2 = p3 ;
- ipoteza alternativă H 1 : p1 , p2 şi p3 nu sunt toate egale;
- regiunea critică: χ obs
2
> χ12−α (ν = 3 − 1) şi pentru α = 0,01
cu ν = 2 , cuantila χ 0,99 (ν ) = 9,210 .
2
Tabelul de contingenţă extins şi completat cu frecvenţele
teoretice este următorul:
Zona Urbană Preorăşenească Rurală Sume ni
Vot
Pentru 165 (157) 125 (120) 102 (115) 392
Contra 155 (163) 120 (125) 133 (120) 408
Sume m j 320 245 235 Total
T=800
Frecvenţele teoretice se calculează ca anterior cu (8.4).
n1m1 392 ⋅ 320
De exemplu: f11* = = = 156,8 rotunjit 157 la cel mai
T 800
apropiat întreg;
n2 m3 408 ⋅ 235
f 23* = = = 119,85 rotunjit la 120, etc.
T 800
Valoarea estimatorului de test va fi:
2
χ obs =
(165 − 157 )2 (125 − 120)2 (102 − 115)2 (155 − 163)2 (120 − 125)2
+ + + + +
157 120 115 163 125

+
(133 − 120)2 = 4,087
120

Deoarece χ obs = 4,087 < χ 0,99 (2) = 9,21


2 2

ipoteza H 0 că proporţiile votanţilor pentru votul


uninominal sunt aceleaşi în toate cele trei zone, se acceptă la
nivel de semnificaţie α = 0,01 .

În exemplul anterior s-a văzut că χ 0,95 (2) = 5,991 .


2

Se poate afirma atunci că şi la nivel de semnificaţie


α = 0,05 ipoteza H 0 (egalitatea proporţiilor de votanţi pentru)
este acceptată.
Cu alte cuvinte, ipoteza H 0 poate fi acceptată atât cu risc
de 1% cât şi de 5% de a greşi prin respingerea ei.
? Problema 8.1.1
Un lot de 100 studenţi aleşi aleatoriu, au fost chestionaţi la
sfârşitul anului universitar în legătură cu numărul de zile cât au
absentat de la cursuri şi cu faptul că sunt sau nu integralişti. A
rezultat următorul tabel de date.
Număr zile 0 – 10 10 – 20 20 – 30
absente
Integralişti 22 14 4
Restanţieri 12 18 30
Să se testeze ipoteza că cele două variabile de clasificare
(număr zile absente şi promovarea tuturor examenelor) sunt
variabile independente, la un nivel de semnificaţie α = 0,05 .

? ..Problema 8.1.2
Salariile de bază ale unui eşantion de 100 de mineri din
bazinul Olteniei s-au clasat în 8 clase de ecart egal cu ∆S = 75
RON, rezultând frecvenţele absolute pe clase din tabelul
următor.
Clasă (RON) 660-735 735-810 810-885 885-960 960-1035
Număr apariţii 1 1 12 24 20
nj

1035-1110 1110-1185 1185-1260


24 14 4
a) Să se verifice prin testul χ 2 efectuat pe clase de ecart egal,
la prag de semnificaţie α = 0,05 , că salariul de bază este o
variabilă aleatoare normal distribuită, cu media µ = 1000 RON şi
abaterea standard σ = 120 RON cunoscute.
b) Presupunând că parametrii sunt estimaţi pe baza datelor de
eşantion la valorile x = 1002,8 şi s = 107,12 RON, să se afle
rezultatul testului în această variantă.

? ..Problema 8.1.3
Direcţia Penitenciarelor întreprinde un studiu pentru a
determina dacă proporţiile condamnaţilor de etnie română,
rromă sau alta, aflaţi în arest pe cauze civile şi respectiv penale,
sunt aceleaşi. S-a ales aleatoriu un eşantion de 500 fişe de
deţinuţi şi s-au constatat datele din tabelul următor. Se va folosi
nivelul de semnificaţie α = 0,01 pentru a verifica dacă
proporţiile sunt aceleaşi.
Etnie Româna Rromă Alta
Cauză
Civilă 270 52 58
Penală 80 28 12

8.2. Testul Kolmogorov – Smirnov


Conceput ca un test de conformitate prin care se
verifică ipoteza nulă că distribuţia observată de frecvenţă
F̂ (x[r ] ) poate fi acceptată sau nu ca identică cu o distribuţie
teoretică specificată F ( x ) ,
dar se poate folosi şi ca test de concordanţă, prin
ajustarea statisticii de test definită în prima variantă.

Referitor la utilizarea ca test de conformitate,

- fie şirul de N date ordonate crescător şi


F̂ (x[r ] ) - valoarea frecvenţei cumulate empirice pentru
data de rang r, calculată (după autori) cu relaţia simplă:
( )
Fˆ x[r ] =
r
N
(8.7)
Fiecărei date x[r ] din şir îi corespunde o frecvenţă
cumulată teoretică F (x[r ] ) , în acord cu legea F ( x ) testată
pentru conformitate.
Se definesc atunci statisticile de test:
r
( )

d + = Max  − F x[r ] 
r N 
, cu r = 1,2, K , N
şi (8.8)

( )
d − = Max  F x[r ] −
r − 1

r  N 
(pentru cazul testelor unilaterale Fˆ (x ) > F (x ) sau respectiv
Fˆ ( x ) < F ( x ) ) şi respectiv
{
d = Max d + ; d − } (8.9)
pentru testul bilateral practicat în general Fˆ (x ) ≠ F ( x ) ( )
Valoarea critică a statisticii d, în funcţie de nivelul de
semnificaţie α dorit şi de talia şirului observat, N, se găseşte
tabelată şi / sau exprimată prin formule ca – de ex. - pentru
N > 10 :
k (α )
d cr =
0,11 (8.10)
N + 0,12 +
N
în care coeficientul k (α ) are valorile din tabelul 8.1.
Tabel 8.1
Coeficientul k (α ) pentru calculul valorii critice a statisticii
testului Kolmogorov – Smirnov
α 0,20 0,15 0,10 0,05 0,01 0,001
k (α ) 1,073 1,138 1,224 1,358 1,628 1,949

Dacă N > 35 , în locul lui (8.10) se poate folosi relaţia


k (α )
asimptotică cr
d = .
N

La utilizarea ca test de concordanţă,


statistica d cr trebuie modificată pentru a ţine seama de
reducerea numărului de grade de libertate (prin folosirea unor
estimări ale valorilor parametrilor lui F (x ) ) dar corecţiile sunt
precizate doar pentru un număr limitat de distribuţii teoretice.

Spre exemplu, în cazul legii normale d cr se calculează


cu relaţia:
k (α )
d cr =
0,85 , (8.11)
N − 0,01 +
N
iar pentru legea exponenţială cu relaţia:

k (α ) 0,2
d cr = +
0,5 N , (8.12)
N + 0,26 +
N
coeficienţii k (α ) având valorile din tabelul 8.2.
Tabel 8.2
Coeficienţii k (α ) pentru d cr la testul Kolmogorov – Smirnov
de ajustare (legea normală şi exponenţială)
α 0,15 0,10 0,05 0,025 0,01
k (α ) pentru 0,775 0,819 0,895 0,955 1,035
(8.11)
k (α ) pentru 0,926 0,990 1,094 1,190 1,308
(8.12)

În tabelul 8.3 apar valori ale estimatorului critic d cr ,


obţinute pentru cazul ajustării unei legi Gumbel (a valorilor
extreme), cu frecvenţa empirică evaluată prin relaţia:
( )
Fˆ x[r ] =
r − 0,3
N + 0,4
.
Tabel 8.3
Valoarea critică a statisticii de test Kolmogorov – Smirnov pentru
legea valorilor extreme (Gumbel)
α
0,20 0,10 0,05 0,01
N
8 0,21 0,25 0,28 0,33
10 0,19 0,23 0,25 0,30
12 0,18 0,21 0,23 0,28
14 0,17 0,19 0,22 0,26
16 0,16 0,18 0,20 0,25
18 0,15 0,17 0,19 0,23
20 0,14 0,17 0,19 0,22
25 0,13 0,15 0,17 0,20
30 0,12 0,14 0,15 0,18
35 0,11 0,13 0,14 0,17
40 0,10 0,12 0,13 0,16
45 0,10 0,11 0,13 0,15
50 0,09 0,11 0,12 0,15
60 0,09 0,10 0,11 0,13
80 0,08 0,09 0,10 0,12
≥ 100 0,70 0,80 0,90 1,10
N N N N
Revenind la cazul utilizării ca test de conformitate,
se poate demonstra că V.A. N d , unde d este statistica
(8.9),
converge în repartiţie către V.A. Y, care are funcţia de
repartiţie:
 ∞ 2 2 
FY ( y ) = 1 − 2 ∑ (− 1)n −1 e − 2n y  (8.13)
 n =1 
Deoarece nivelul de semnificaţie α , în raport cu
variabila Y este: α = 1 − FY ( yα ) , unde y α este cuantila y pentru
care 1 − FY ( yα ) dă chiar α ,
se observă din relaţia (8.13) că se poate scrie şi
y α2
∞  
α = 2 ∑ (− 1)n −1  1 
(8.14)
 2n 2 
n =1 e 

relaţie care face legătura între nivelul de încredere α şi


cuantila yα a repartiţiei către care converge V.A. N d .

Considerând doar primii trei termeni din suma respectivă,


adică:
y α2 y α2 y α2
 1   1   1 
( )y − (3,355 ⋅10 − 4 )y + (1,523 ⋅10 −8 )y
2 2 2
= 1,353 ⋅ 10 −1
α α α
S =   −   +  
18 
 e2   e8   e 

2
se observă că cel de-al treilea devine neglijabil pentru y α ≥ 1 .

În concluzie, se poate găsi cu o bună aproximaţie


cuantila y α corespunzătoare unui α precizat, prin
rezolvarea ecuaţiei oarecare:
z z z
 1  α  1  α  1  α α
f (z α ) =   −   +   − = 0 (8.15)
 e2   e8   e18  2

unde s-a notat z α = y α şi deci yα = z α .


2
Rezolvarea se face cu metoda tangentei şi relaţia
iterativă:
(z α )n = (z α )v −
[
f ( z α )v ]
[
f ' ( z α )v ] (8.16)

df (z α )
, iar indicii n şi v se referă la valorile
'
în care f este dz
α
nouă şi respectiv veche.
Dacă se notează a = e −2 , b = e −6 şi c = e −16 , relaţia de
iteraţie devine:
(
 z z z α
a 1− b + c − 2  )
(z α )n = (z α )v +  z
( z z 
 2a 1 − 4b + 9c  ) (8.17)
  (z α )
v

şi ea se aplică începând cu o aproximaţie iniţială (z α )v de


ordinul lui 1,5 – până la realizarea unui criteriu de
convergenţă.

Algoritmul este inclus în programul Test_K_S1 şi el


furnizează valori ale lui y α care sunt practic egale cu
coeficienţii k (α ) din tabelul 8.1, pentru valori α din
domeniul celor utilizate în testele statistice.

În consecinţă, valorile y α obţinute de program la orice


valori netabelate pentru α , pot fi folosite în relaţia (8.10) la
calculul lui d cr , funcţie de talia N a şirului de observaţii.
Exemplul 8.2.1

a) Folosind datele de debite maxime anuale pe pârâul P,


din exemplul 6.5.2, să se verifice prin testul Kolmogorov –
Smirnov dacă distribuţia normală de medie µ = 9,41 m 3s -1 şi
abatere standard σ = 5,34 m 3s -1 este conformă cu şirul observat,
la nivel de semnificaţie α = 0,05 .
b) Ce rezultă cu acelaşi test dacă valorile celor doi
parametri sunt privite ca estimaţii şi se verifică ajustarea legii
N (9,41;5,34) la datele observate ?

Soluţie
Se foloseşte programul Test_K_S1, care verifică ipoteze
statistice pe un şir de date neclasate.
El execută testul de conformitate pentru ipoteza nulă
H 0 : Fˆ (x ) = F (x ) şi
oricare dintre ipotezele alternative:
H 11 : Fˆ (x ) ≠ F (x ) (test bilateral, cu statistica d din (8.9))
H 12 : Fˆ (x ) ≥ F (x ) (test unilateral, cu statistica d + din (8.8))
H 13 : Fˆ (x ) ≤ F (x ) (test unilateral, cu statistica d − din (8.8))

unde funcţia teoretică F (x ) se poate alege dintre Gamma,


Weibull, exponenţială, normală, log-normală.

În cazul legilor normală şi exponenţială, programul poate


executa şi testul de ajustare (concordanţă), în acord cu relaţiile
şi datele menţionate.

a) La rularea pentru legea N (9,41;5,34) şi testarea


conformităţii, cu ipoteza alternativă H 11 , şi pentru nivel de
semnificaţie α = 0,05 , a rezultat
d obs = 0,1776 < d cr = 0,2102
şi evident H 0 acceptată.
Tabelul include debitele maxime ordonate crescător
( X obs ) , valoarea frecvenţei cumulate observate calculată cu
(8.7), valoarea frecvenţei cumulate teoretice corespunzătoare
+ −
lui X obs , precum şi diferenţele d şi d de forma (8.8)
pentru fiecare dată din şir.
Se observă din tabel că estimatorul d obs = 0,1776 apare ca
d + la X obs = 8,04 m 3s -1 .
Test de conformitate Kolmogorov-Smirnov
pentru legea N(9.41;5.34)
--------------------------------------------
Xobs. Fobs(x) Fteor(x) Dplus Dminus
--------------------------------------------
2.22 0.02500 0.08774 -0.06274 0.08774
2.39 0.05000 0.09298 -0.04298 0.06798
2.54 0.07500 0.09780 -0.02280 0.04780
4.34 0.10000 0.16987 -0.06987 0.09487
4.39 0.12500 0.17225 -0.04725 0.07225
4.47 0.15000 0.17613 -0.02613 0.05113
4.55 0.17500 0.18004 -0.00504 0.03004
4.58 0.20000 0.18153 0.01847 0.00653
5.09 0.22500 0.20793 0.01707 0.00793
5.34 0.25000 0.22164 0.02836 -0.00336
5.52 0.27500 0.23183 0.04317 -0.01817
5.66 0.30000 0.23993 0.06007 -0.03507
6.05 0.32500 0.26327 0.06173 -0.03673
6.16 0.35000 0.27005 0.07995 -0.05495
6.80 0.37500 0.31117 0.06383 -0.03883
7.01 0.40000 0.32522 0.07478 -0.04978
7.04 0.42500 0.32725 0.09775 -0.07275
7.10 0.45000 0.33131 0.11869 -0.09369
7.32 0.47500 0.34642 0.12858 -0.10358
7.76 0.50000 0.37732 0.12268 -0.09768
7.81 0.52500 0.38089 0.14411 -0.11911
7.92 0.55000 0.38877 0.16123 -0.13623
8.04 0.57500 0.39742 0.17758 -0.15258
8.84 0.60000 0.45615 0.14385 -0.11885
9.25 0.62500 0.48670 0.13830 -0.11330
9.52 0.65000 0.50687 0.14313 -0.11813
9.78 0.67500 0.52627 0.14873 -0.12373
11.79 0.70000 0.67073 0.02927 -0.00427
12.41 0.72500 0.71151 0.01349 0.01151
12.68 0.75000 0.72849 0.02151 0.00349
13.46 0.77500 0.77454 0.00046 0.02454
15.01 0.80000 0.85147 -0.05147 0.07647
15.19 0.82500 0.85911 -0.03411 0.05911
15.63 0.85000 0.87658 -0.02658 0.05158
16.05 0.87500 0.89179 -0.01679 0.04179
16.06 0.90000 0.89214 0.00786 0.01714
16.10 0.92500 0.89350 0.03150 -0.00650
17.11 0.95000 0.92399 0.02601 -0.00101
22.42 0.97500 0.99123 -0.01623 0.04123
24.94 1.00000 0.99683 0.00317 0.02183
--------------------------------------------
La nivel alfa= 0.050 Dcritic= 0.2102
Dobservat= 0.1776
Testul de conformitate acceptat
--------------------------------------------
c) La rularea ca test de ajustare, admiţând aceleaşi valori
pentru medie şi abatere standard dar considerând că sunt
estimaţii ale parametrilor respectivi,
valoarea estimatorului de test în ipoteza alternativă H 11 rezultă
identică, adică d obs = 0,1776 ,
însă valoarea critică este acum d cr = 0,1388 şi deci H 0 se
respinge.

Se verifică uşor că (8.11), cu coeficientul k (α ) din


tabelul 8.2 pentru α = 0,05 şi talia N = 40 , conduce la acest
d cr .

Comentarii:
- Dacă se cunoaşte exact că media şi abaterea standard au
valorile menţionate şi că legea este de tip normală, atunci
ipoteza H 0 că ea redă datele observate se acceptă la nivel de
semnificaţie de 0,05.
- Dacă valorile parametrilor sunt doar estimări făcute pe
baza eşantionului de date, atunci nu există suficientă evidenţă
pentru a accepta H 0 , la acelaşi nivel de semnificaţie.

Exemplul 8.2.2
Să se reia problema din Exemplul 8.2.1 şi să se
testeze ipoteza că datele observate sunt bine redate de o lege
log-normală cu parametri a = 2,08 şi respectiv b = 0,582 , la
nivel de semnificaţie α = 0,05 .

Soluţie
În ipoteza nulă H 0 : Fˆ (x ) = LN (2,08;0,582) cu alternativa
H 1 : Fˆ (x ) ≠ LN (a, b ) , programul Test_K_S1 a indicat valoarea
observată a estimatorului d obs = 0,085 şi valoarea critică – la
fel ca în exemplul anterior d cr = 0,2102 .
Deşi analiza s-a făcut ca test de conformitate, având în
vedere că d obs este mult mai mic decât d cr ,
se poate afirma că valorile estimate pe baza datelor de
eşantion pentru a şi b, fac ca legea log-normală să se ajusteze
bine cu setul de date, pentru α = 0,05 .

Exemplul 8.2.3

a) Fie datele problemei din Exemplul 6.5.3 referitoare la


timpii de funcţionare (în unităţi arbitrare) până la defectare a
unui lot de 50 piese electronice. Să se verifice prin testul
Kolmogorov – Smirnov la nivel de semnificaţie α = 0,02 , dacă
o lege Weibull de parametri a = 3,348 şi b = 108,55 redă setul
de date observate.
b) Verificaţi ajustarea legii normale N (96,98;29,18) la
setul de date, cu acelaşi nivel de semnificatie.

Soluţie
a) În cazul rulării pentru legea Weibull şi ca test de
conformitate, la nivel de semnificaţie α = 0,02 s-a obţinut:
d obs = 0,0921 şi d cr = 0,2106
Deoarece d cr este de peste două ori mai mare decât d obs ,
poate fi privit şi ca test de ajustare, în care ipoteza H 0 este
admisă.

b) Rularea pentru legea normală s-a făcut cu opţiunea


testului de ajustare şi a rezultat
d obs = 0,0626 faţă de d cr = 0,1367 ,
ipoteza H 0 fiind admisă.

Dacă la verificarea prin testul hi-pătrat din Ex. 8.1.2 s-a


putut spune cu evidenţă că legea normală este mai potrivită
decât legea Weibull pentru setul de date observate,
în analiza de faţă acest lucru nu este justificat deoarece
prima lege s-a verificat prin test de conformitate, iar cea de-a
doua prin test de ajustare.
Exemplul 8.2.4
Un lac de acumulare cu folosinţă
hidroenergetică, are nivelul normal de retenţie (NNR) la cota
800 mdM şi nivelul minim de exploatare (NmE) la cota 740
mdM. Pentru un interval de 3 ani de exploatare s-au mediat
nivelurile zilnice din fiecare zi a anului şi apoi cele 365 valori s-
au clasat ca în tabelul alăturat.
a) Să se verifice cu testul Kolmogorov – Smirnov dacă o
distribuţie Beta cu parametri a = 4 şi b = 2 redă distribuţia de
frecvenţă a datelor de niveluri medii observate, la un nivel de
semnificaţie α = 0,05 .
b) Dacă ipoteza H 0 este acceptată, să se determine pe
baza legii teoretice, fracţia de timp din durata anului cât
nivelul în lac se plasează în domeniul cel mai favorabil de
căderi pentru turbine, cuprins între 785 şi 800 mdM.

Interval cotă Z Număr date Interval cotă Z Număr date


740 – 743 0 770 – 773 30
743 – 746 0 773 – 776 35
746 – 749 0 776 – 779 28
749 – 752 1 779 – 782 34
752 – 755 6 782 – 785 41
755 – 758 4 785 – 788 30
758 – 761 12 788 – 791 36
761 – 764 10 791 – 794 40
764 – 767 16 794 – 797 21
767 – 770 16 797 -800 5

Soluţie
a) Se ştie că distribuţia Beta (a,b) este definită pe
domeniul x ∈ (0,1) .
Datele de niveluri din problemă se pot adimensionaliza
cu relaţia:
Z − NmE Z − 740 Z − 740
x= = =
NNR − NmE 800 − 740 60
şi noua variabilă este acum definită pe domeniul 0 – 1.
Cu transformarea menţionată, în variabila x vor apare
20 de clase de ecart ∆x = 0,05 :
prima între 0 şi 0,05, a doua între 0,05 şi 0,10, , ş.a.m.d,
ultima între 0,95 şi 1,00,
având frecvenţele absolute din tabelul de date.

Testul Kolmogorov – Smirnov s-a făcut folosind


frecvenţele cumulate observate pe clase, adică
F̂k , k = 1,2,K , K = 20 şi respectiv
( )
s s
valorile funcţiei de repartiţie teoretică F xk , unde x k este
limita superioară a clasei k, iar F ( x ) ≡ B(a, b ) .

O variantă a programului Test_K_S1 operează nu cu un


şir de date observate, ci cu o distribuţie de frecvenţă a datelor
observate.
Rezultatele sunt incluse în tabelul următor care conţine
limitele intervalelor de clasare în variabila x, frecvenţa
( )
cumulată observată F̂k şi cea teoretică F xks , precum şi
estimatorii d + şi d − pentru fiecare clasă.
Test Kolmogorov-Smirnov pentru lege Beta(4;2)
----------------------------------------------------
xi Xs Fobs(x) Fteor(x) Dplus Dminus
----------------------------------------------------
0.00 0.05 0.00000 0.00003 -0.00003 0.00003
0.05 0.10 0.00000 0.00046 -0.00046 0.00046
0.10 0.15 0.00000 0.00223 -0.00223 0.00223
0.15 0.20 0.00274 0.00672 -0.00398 0.00398
0.20 0.25 0.01918 0.01563 0.00355 -0.00355
0.25 0.30 0.03014 0.03078 -0.00064 0.00064
0.30 0.35 0.06301 0.05403 0.00898 -0.00898
0.35 0.40 0.09041 0.08704 0.00337 -0.00337
0.40 0.45 0.13425 0.13123 0.00302 -0.00302
0.45 0.50 0.17808 0.18750 -0.00942 0.00942
0.50 0.55 0.26027 0.25623 0.00405 -0.00405
0.55 0.60 0.35616 0.33696 0.01920 -0.01920
0.60 0.65 0.43288 0.42842 0.00445 -0.00445
0.65 0.70 0.52603 0.52822 -0.00219 0.00219
0.70 0.75 0.63836 0.63281 0.00554 -0.00554
0.75 0.80 0.72055 0.73728 -0.01673 0.01673
0.80 0.85 0.81918 0.83520 -0.01602 0.01602
0.85 0.90 0.92877 0.91854 0.01023 -0.01023
0.90 0.95 0.98630 0.97738 0.00892 -0.00892
0.95 1.00 1.00000 0.99996 0.00004 -0.00004
----------------------------------------------------
La nivel alfa= 0.050 Dcritic= 0.0706
Dobservat= 0.0192
Testul de conformitate acceptat
. S-a efectuat testul bilateral ( H 1 : Fˆ ≠ F ) şi se constată că
valoarea estimatorului observat a rezultat d obs = 0,0192 iar
valoarea critică este d cr = 0,0706 .
Deci ipoteza H 0 se acceptă sub testul de conformitate.

b) Limita inferioară a domeniului cel mai favorabil de


785 − 740
căderi, Z = 785 mdM, corespunde la x = = 0,75 .
60
Din tabel se constată că pentru x s = 0,75 apare frecvenţa
cumulată teoretică F (0,75) = 0,63281 .
Probabilitatea ca pe parcursul anului nivelul să se
plaseze peste această valoare este:
P(Z > 785) = P(x > 0,75) = 1 − F (0,75) = 0,36719 ,
ceea ce corespunde la circa 134 zile.
Repartiţia observată – la care F (0,75) = 0,63836 este
foarte apropiată de cea teoretică – ar fi condus la circa 132 zile
pe an cu niveluri în domeniul favorabil.

Exemplul 8.2.5
Să se verifice ajustarea datelor de debite medii
anuale pe Dunăre, la Orşova, din perioada 1840 – 1999
(tabelul 8.1.3) la legea normală de medie µ = 5435,34 m 3s -1 şi
abatere standard σ = 928,77 m 3s -1 folosind testul Kolmogorov –
Smirnov:
a) pe şirul de date observate;
b) pe şirul datelor clasate în 25 clase de ecart egal, din
3 -1
domeniul 3200 – 8200 m s .
Se va considera nivelul de semnificaţie α = 0,05 .
Comentaţi rezultatele şi prin comparaţie cu Exemplul 8.1.3.
Soluţie
a) La rularea programului Test_K_S1 pentru cazul
testului bilateral de ajustare, s-au obţinut rezultatele:
d obs = 0,0788 şi d cr = 0,0704 ,
deci ipoteza H 0 se respinge.

Observaţie în Exemplul 8.1.3 aceleaşi date au fost


verificate prin testul hi-pătrat la acelaşi α şi în raport cu
aceeaşi lege normală, ipoteza nulă fiind acceptată cu riscul de
a greşi luat la respingerea ei de aproape 67% - adică foarte
mare !
Apare întrebarea cum să se procedeze dacă aceeaşi
lege teoretică şi pentru aceleaşi date observate este acceptată
printr-un test şi respinsă prin alt test ?!

b) Rulând programul pentru date clasate,


cu ecart egal de câte 200 m 3s -1 pe domeniul de debite 3200 –
8200 m 3s -1 ,
au rezultat de această dată
d obs = 0,0639 şi d cr = 0,0704
deci ipoteza H 0 se acceptă.

Aceasta este o altă situaţie interesantă, în care


- acelaşi test,
- efectuat asupra aceleiaşi legi teoretice,
- la acelaşi α şi
- în raport cu aceleaşi date observate,
conduce la respingerea ipotezei H 0 când se lucrează cu
toate datele şirului şi
la acceptarea lui H 0 când se lucrează cu datele clasate.

Rezultatele sunt incluse în tabelul următor.


Test Kolmogorov-Smirnov pentru legea N(5435.34;928.77)
cu debitele medii anuale pe Dunare clasate in 25 clase
------------------------------------------------------------
Xi Xs Fobs(x) Fteor(x) Dplus Dminus Nr.apar
3200.00 3400.00 0.00625 0.01287 -0.00662 0.00662 1
3400.00 3600.00 0.00625 0.02273 -0.01648 0.01648 0
3600.00 3800.00 0.02500 0.03780 -0.01280 0.01280 3
3800.00 4000.00 0.04375 0.05979 -0.01604 0.01604 3
4000.00 4200.00 0.07500 0.09041 -0.01541 0.01541 5
4200.00 4400.00 0.12500 0.13115 -0.00615 0.00615 8
4400.00 4600.00 0.16875 0.18289 -0.01414 0.01414 7
4600.00 4800.00 0.25625 0.24563 0.01062 -0.01062 14
4800.00 5000.00 0.37500 0.31829 0.05671 -0.05671 19
5000.00 5200.00 0.46250 0.39864 0.06386 -0.06386 14
5200.00 5400.00 0.52500 0.48347 0.04153 -0.04153 10
5400.00 5600.00 0.60625 0.56900 0.03725 -0.03725 13
5600.00 5800.00 0.67500 0.65134 0.02366 -0.02366 11
5800.00 6000.00 0.74375 0.72703 0.01672 -0.01672 11
6000.00 6200.00 0.79375 0.79347 0.00028 -0.00028 8
6200.00 6400.00 0.85000 0.84915 0.00085 -0.00085 9
6400.00 6600.00 0.88125 0.89371 -0.01246 0.01246 5
6600.00 6800.00 0.91875 0.92777 -0.00902 0.00902 6
6800.00 7000.00 0.92500 0.95262 -0.02762 0.02762 1
7000.00 7200.00 0.95625 0.96993 -0.01368 0.01368 5
7200.00 7400.00 0.97500 0.98145 -0.00645 0.00645 3
7400.00 7600.00 0.98125 0.98876 -0.00751 0.00751 1
7600.00 7800.00 0.98125 0.99320 -0.01195 0.01195 0
7800.00 8000.00 0.99375 0.99577 -0.00202 0.00202 2
8000.00 8200.00 1.00000 0.99719 0.00281 -0.00281 1
------------------------------------------------------------
La nivel alfa= 0.050 Dcritic= 0.0704
Dobservat= 0.0639
Testul de conformitate acceptat

Deoarece concluziile rezultate în analiza de aici şi


respectiv în Ex.8.1.3 legat de ajustarea legii N (5435,34; 928,77 ) la
setul de 160 valori de debite medii anuale sunt contradictorii,
se pot întreprinde următoarele:

1. Să se aibă în vedere intervalele de încredere din jurul


estimaţiilor pentru medie şi abatere standard şi să se reia testul
Kolmogorov – Smirnov cu alte valori ale acestor parametri din
intervalele respective.
Conform (6.7) şi deoarece distribuţia Student-t cu
ν = 160 − 1 = 159 grade de libertate este identică cu distribuţia
normală standard, intervalul de încredere pentru medie ar fi
(la prag de semnificaţie α = 5% ):
928,77 928,77
5435,34 − 1,96 < µ < 5435,34 + 1,96 ,
159 159
adică
(5290,97 < µ < 5579,71) m 3s -1
La fel, pentru varianţă, intervalul de încredere este:
ns 2 ns 2
<σ <
2
h α hα
1−
2 2
unde cuantilele au valorile h0,025 = 125,98 şi h0,975 = 195,81
pentru distribuţia χ (ν = 159) .
2

Rezultă pentru abaterea standard:


(839,56 < σ < 1046,69) m 3s -1
Deoarece intervalele de încredere sunt suficient de largi,
este posibil ca altă pereche de valori (µ, σ ) din domeniile
respective să ajusteze concludent legea normală prin testul
Kolmogorov – Smirnov.

2. Să se apeleze şi la alte teste decât cele două de mai


sus şi care sunt destinate verificării normalităţii datelor.

? ..Problema 8.2.1
S-a constatat că un lot de 20 şoareci de laborator folosiţi
pentru a testa un nou vaccin au murit după timpii (exprimaţi în
ore) de la injectare trecuţi în tabelul următor.
50,83 47,73 24,47 59,49 75,43 5,69 49,45 123,35 88,15 4,89
14,02 65,70 10,86 71,76 41,89 27,49 27,25 97,06 20,03 38,66
a) Să se verifice prin testul Kolmogorov – Smirnov ipoteza
că durata de viaţă după injecţie este descrisă de o lege
exponenţială de parametru cunoscut b = 50 ore, la nivel de
semnificaţie α = 0,05 .
b) Care este concluzia testului de ajustare, la acelaşi nivel de
semnificaţie, dacă se foloseşte media de eşantion a duratei de
viaţă de 47,12 ore ca estimaţie pentru b ?
? ..Problema 8.2.2
Refaceţi problema 8.1.2 apelând la testul Kolmogorov –
Smirnov pentru verificarea ipotezelor de: a) conformitate cu
legea N (1000; 120) şi b) concordanţă cu legea N (1002,8; 107,12) ,
la acelaşi nivel de semnificaţie α = 0,05 .

8.3. Alte teste statistice


Exisă şi alte teste ce pot fi utilizate ca
- teste de conformitate pentru diferite repartiţii teoretice
sau
- teste de ajustare în cazul unor legi particulare (în special
normală şi exponenţială).

8.3.1 Testul Cramer - von Mises


Utilizează statistica definită prin:

W2 = N [∫ Fˆ (x ) − F (x )]2 dF (x ) (8.18)
−∞

în care F̂ ( x ) este frecvenţa cumulată observată, iar F ( x ) cea


dată de legea teoretică testată.
Relaţia practică de calcul a statisticii W 2 este:
N 2
 2i − 1 
− F ( xi )
1
2
W = + ∑ (8.19)
12 N i =1  2 N 
cu xi , i = 1,2,K , N datele de eşantion ordonate crescător.

La folosirea ca test de conformitate, valoarea critică a


estimatorului de test se obţine cu relaţia:
k (α ) 0,4 0,6
Wcr2 = 0 + − (8.20)
1 N N2
1+
N
iar la folosirea ca test de concordanţă pentru legea normală şi
respectiv exponenţială - prin relaţiile:
k (α ) k (α )
Wcr2 = 1 Wcr2 = 2
N 0,5 ; E 0,16 (8.21)
1+ 1+
N N
Valorile coeficienţilor k 0 , k1 şi k 2 apar în tabelul 8.4.
Tabel 8.4
Valori critice pentru k (α ) la testul Cramer – von Mises
α 0,15 0,10 0,05 0,025 0,01
k 0 (α ) 0,284 0,347 0,461 0,581 0,743
k1 (α ) 0,091 0,104 0,126 0,148 0,178
k 2 (α ) 0,149 0,177 0,224 0,273 0,337

8.3.2. Testul Anderson – Darling


Ponderează expresia estimatorului Cramer – von Mises
dată de (8.18) sub forma:

2
A = [∫ Fˆ (x ) − F (x )]2 w(x )dF (x ) ,
−∞
cu
w(x ) =
1
- o funcţie de pondere pentru cazul standard
F (x )[1 − F (x )]
al testului.
În practică, estimatorul se calculează cu relaţia:
1 N
A = − N − ∑ (2i − 1){ln F ( xi ) + ln[1 − F ( x N +1− i )]}
2
(8.22)
N i =1

La folosirea ca test de conformitate, valoarea critică a


estimatorului este dată de k 0 (α ) din Tabelul 8.5 pentru N ≥ 5 ,

iar când se aplică pentru testarea concordanţei cu legea


normală şi respectiv exponenţială, valorile critice se obţin cu
relaţiile:
k1 (α ) 2 k (α )
2
Acr = Acr = 2
N 4 25 ; E 0,6 (8.23)
1+ − 1+
N N2 N
unde coeficienţii k1 şi k 2 sunt precizaţi în tabelul următor.
Tabel 8.5
Valori critice pentru k (α ) la testul Anderson - Darling
α 0,15 0,10 0,05 0,025 0,01
k 0 (α ) 1,610 1,933 2,492 3,070 3,857
k1 (α ) 0,576 0,656 0,787 0,918 1,092
k 2 (α ) 0,922 1,078 1,341 1,606 1,957

8.3.3. Testul Watson


În scopul verificării H 0 conform căreia
- o selecţie de volum N,
- cu funcţia de repartiţie empirică F̂ (x ) ,
- provine dintr-o populaţie cu funcţia de repartiţie
teoretică F ( x ) ,
Watson propune estimatorul:
N 2
 1 2i − 1
U = ∑  F ( xi ) − x + −
2 1
+
2 2 N 
(8.24)
i =1 
12 N
cu xi ordonate crescător.

Valoarea critică a estimatorului la teste de conformitate


este dată de relaţia:
2 k (α ) 0,1  1
U cr = 0 + 1 −  (8.25)
0,8 N  N 
1+
N

iar pentru testarea concordanţei legii normale şi respectiv


exponenţiale, valorile critice sunt date de relaţiile:
2 k (α ) k 2 (α )
U cr = 1 U 2
=
N 0,5 ; crE 0,16 (8.26)
1+ 1+
N N
Valorile coeficienţilor k 0 , k1 şi k 2 sunt date în tabelul 8.6.
Tabel 8.6
Valori critice pentru k (α ) la testul Watson
α 0,15 0,10 0,05 0,025 0,01
k 0 (α ) 0,131 0,152 0,187 0,221 0,267
k1 (α ) 0,085 0,096 0,116 0,138 0,163
k 2 (α ) 0,112 0,130 0,161 0,191 0,230

8.3.4. Testul Kuipert


Reprezintă o adaptare a statisticii Kolmogorov – Smirnov,
care se aplică prin statistica:
V = d+ +d− (8.27)
+ −
unde d şi d sunt date de (8.8) din paragraful anterior.
În cazul testelor de conformitate, valoarea critică se
obţine cu relaţia:
k 0 (α )
Vcr = (8.28)
0.24
N + 0.155 +
N

iar pentru testări de ajustare a legilor normală şi exponenţială


cu:
k1 (α ) k 2 (α ) 0,2
VcrN = şi VcrE = + (8.29)
0,82 0,35 N
N + 0,05 + N + 0,24 +
N N
Coeficienţii k 0 , k1 şi k 2 au valorile din tabelul 8.7.
Tabel 8.7
Valori critice pentru k (α ) la testul Kuipert
α 0,15 0,10 0,05 0,025 0,01
k 0 (α ) 1,537 1,620 1,747 1,862 2,001
k1 (α ) 1,320 1,386 1,489 1,585 1,693
k 2 (α ) 1,445 1,527 1,655 1,774 1,910
În oricare dintre testele anterioare, ipoteza H 0 se
respinge dacă valoarea estimatorului observat este mai mare
decât valoarea critică corespunzătoare.

Lista de teste din acest paragraf a fost introdusă pentru a


oferi exemplificări la punctul 2 din finalul problemei din
Exemplul 8.2.5.

? ..Problema 8.3.1
Dacă aţi rezolvat Problema 8.2.1 şi aveţi valorile funcţiei
teoretice de repartiţie F (xi ) calculate în varianta de test de la
punctul a) din acea problemă:
a) Calculaţi manual sau printr-un program simplu de calcul
2
(în limbajul preferat), valorile estimatorilor de test W (pentru
2
testul Cramer – von Mises) şi A (pentru testul Anderson –
Darling);
b) Folosind tabelele incluse în paragraful 8.3, calculaţi
valorile critice ale estimatorilor respectivi în cazul testului de
conformitate şi pentru nivel de semnificaţie α = 0,05 ;
c) Exprimaţi o opinie despre testul care pare să fie cel mai
edificator între Kolmogorov – Smirnov (Problema 8.2.1),
Cramer – von Mises şi Anderson - Darling (problema de faţă).
10. REGRESII ŞI CORELAŢII
Pentru a examina legătura dintre două V.A. X şi Y, prima
acţiune recomandabilă este
trasarea unui grafic de dispersie (scatter diagram) cu datele
observate {xi , yi } , i = 1,2,K , n - disponibile din înregistrări simultane
asupra realizărilor celor două V.A. analizate.

Alurile lui posibile pot fi de formele următoare


y y y

x x x

a) b) c)
Fig.10.1. Forme posibile de grafice dispersionale

În cazul a) punctele corespunzătoare perechilor de valori x şi y


tind să se plaseze aproximativ după o linie dreaptă;
în cazul b) punctele par să urmeze un tip oarecare de curbă;
în cazul c) dispunerea punctelor nu sugerează nici un tip de
dependenţă între valorile x şi variabila Y, (exprimabilă printr-o
relaţie matematică explicită). În sens mai larg, cazul c) devine
identic cu cazul a) pentru care panta dreptei respective ar fi zero.

Relaţia matematică prin care se poate estima valoarea unei


variabile dependente (sau variabilă explicată), pentru valori
cunoscute ale unei (sau mai multor) variabile independente (sau
explicative) se numeşte ecuaţie de regresie.

Dacă relaţia respectivă este de tip linear, se vorbeşte despre o


regresie lineară.
Dacă variabila explicată depinde de o singură variabilă
explicativă, regresia lineară este simplă (cazul a)),
iar dacă depinde de mai multe variabile explicative – regresia
lineară se numeşte multiplă.
Analiza datelor experimentale sub aspectul inferenţei statistice,
presupune mai ales aceste tipuri de regresii.

Totuşi, se vor prezenta aspecte privind deducerea şi a diverse


tipuri nelineare de legături între variabile explicate şi respectiv
explicative.

10.1. Regresia lineară simplă


10.1.1. Dreapta de regresie lineară
Fie problema estimării/predicţiei valorii variabilei dependente
Y, pe baza valorii măsurate (observate), cunoscută, a unei variabile
independente şi frecvent controlată X.

Dacă se dispune de un eşantion aleator cu n perechi de valori


{(xi , yi ), i = 1,2,K , n} din populaţiile celor două variabile şi
dacă reprezentarea grafică a punctelor de coordonate ( xi , yi )
pare să urmeze traiectoria unei drepte,
variabilele respective sunt corelate linear într-o anumită
măsură şi
ecuaţia dreptei care exprimă această legătură lineară se
numeşte dreaptă de regresie lineară, putând fi scrisă sub forma:
yˆ = a + bx (10.1)
Parametrii a şi b reprezintă intersecţia dreptei cu axa y a
ordonatelor şi respectiv panta ei.

Estimaţiile punctuale pentru a şi b se găsesc cu datele de


eşantion şi - odată acestea obţinute - ecuaţia de regresie lineară
poate fi utilizată pentru a deduce o estimare punctuală a valorii ŷ
pentru o valoare oarecare, x, a variabilei X.
Formulele de calcul a estimaţiilor punctuale (notate â şi b̂ în
continuare) se obţin prin metoda celor mai mici pătrate
care minimizează suma pătratelor diferenţelor între valorile yi
observate şi respectiv ŷi date de ecuaţia de regresie.

Notând cu S suma respectivă, relaţia care corespunde acestui


criteriu este:

( )2 
n n n
min S = ∑ ε i2 = ∑ ( yi − yˆ i )2 = ∑ yi − aˆ − bˆxi (10.2)
 i =1 i =1 i =1 
Prin ε i = yˆ i − yi s-a notat ecartul (sau diferenţa) rezidual între
valoarea ŷi estimată pe baza ecuaţiei de regresie pentru x = xi şi
respectiv valoarea yi observată.

Condiţiile de minim a lui S aˆ , bˆ ( ) constau în anularea


derivatelor parţiale, adică:
∂S ∂S
= 0 şi =0
∂aˆ ∂bˆ
ceea ce furnizează ecuaţiile:

( )
n
− 2∑ yi − aˆ − bˆxi = 0
 i =1

( )
n

− 2∑ xi yi − aˆ − bxi = 0
ˆ
 i =1
care se pot scrie şi sub forma:
 n n
naˆ + b ∑ xi = ∑ yi
ˆ
 i =1 i =1
 n n n (10.3)

aˆ ∑ xi + b ∑ xi = ∑ xi yi
ˆ 2

 i =1 i =1 i =1
n n
Dacă se notează prin u j = ∑ xi , j = 0,1, 2 şi prin v j = ∑ xi yi ,
j j

i =1 i =1
j = 0,1 , sistemul de ecuaţii (10.3) se scrie:
u0 aˆ + u1bˆ = v0

u1aˆ + u 2bˆ = v1
iar cu notaţiile:
u u1 v u1
∆= 0 = u0u 2 − u12 ; ∆0 = 0 = v0u 2 − v1u1 şi
u1 u2 v1 u2
u v0
∆1 = 0 = u0 v1 − u1v0 ,
u1 v1
soluţia lui devine:

∆ v u −v u ∆ u v −u v
aˆ = 0 = 0 2 1 1 ; bˆ = 1 = 0 1 1 0 (10.4)
∆ u0u 2 − u12 ∆ u0u 2 − u12

Mai explicit, parametrul b̂ se poate scrie succesiv:


1 1 1 1
n∑ xi yi − ∑ xi ∑ yi n ∑ xi y i −
n
∑ xi ⋅
n
∑ y i
n
∑ xi yi − x y s XY
b=
ˆ = = =
n∑ xi − (∑ xi )
2 2 1 s 2X

2 2
1 2 1  2

n
∑ xi −  n ∑ xi  n
x i x

(10.5)
unde s XY este covarianţa de eşantion (v. Cap. 3, relaţia (3.42)), iar
s 2X este varianţa de eşantion a variabilei explicative.

Pe de altă parte, prima ecuaţie (10.3) se poate scrie şi sub forma:


1 1
aˆ + bˆ ∑ xi = ∑ yi sau aˆ + bˆ x = y (10.6)
n n
de unde se explicitează parametrul â :
aˆ = y − bˆ x (10.7)
dacă parametrul b̂ a fost deja calculat.

Din (10.6) se constată că dreapta de regresie trece prin punctul


de coordonate (x, y ) din planul xOy, adică prin centrul de greutate al
norului de puncte (xi , yi ) , i = 1,2,K , n , aşa cum s-a reprezentat în
Fig. 10.2.
y
punct experimental

yi
ecart ecart rezidual
total
ŷi dreaptă de regresie

ecart explicat
y
centrul de
greutate

x xi x
Fig.10.2. Dreapta de regresie şi ecarturi

Aici s-au definit cele trei ecarturi pentru un punct observat


(xi , yi ) , având valoarea estimaţiei lui Y în baza ecuaţiei de regresie
yˆ i = aˆ + bˆxi :
- ecartul total yi − y - diferenţa între valoarea individuală a
variabilei explicate, yi şi media valorilor yi ;
- ecartul explicat prin regresie yˆ i − y , unde ŷi este estimaţia
lui yi prin ecuaţia de regresie la x = xi ;
- ecartul rezidual (neexplicat prin regresie) ε i = yˆ i − yi , adică
diferenţa dintre estimaţia ŷi la x = xi pe baza ecuaţiei de regresie şi
valoarea individuală yi .

Media pătratelor ecarturilor totale este desigur varianţa totală

a variabilei Y adică s 2 1
Y =
n
∑ iy − y
2
. ( )
2 1
Varianţa explicată prin regresie este sYˆ = ∑ yˆ i − y ,
n
2
( )
iar varianţa reziduală se scrie sε = ∑ ( yˆ i − yi ) .
2 1 2
n
Deoarece ecarturile sunt V.A. şi cum ecartul total este egal cu
suma celorlalte două,
varianţa lui va fi suma varianţelor celorlalte două, adică:
sY2 = s 2ˆ + sε2 (10.8)
Y

Dacă â dat de (10.6) se înlocuieşte în ecuaţia de regresie


(
yˆ i = aˆ + bˆxi = y − bˆ x + bˆxi = y + bˆ xi − x ,)
rezultă că se poate scrie relaţia:
(
yˆ i − y = bˆ xi − x )
Prin ridicare la pătrat, însumare după i şi împărţire la n în
ambii membrii, se obţine:
s 2ˆ = bˆ 2 s 2X (10.9)
Y
o relaţie între varianţa explicată şi varianţa variabilei explicative.

Măsura tăriei corelaţiei lineare dintre două V.A. X şi Y este


coeficientul de corelaţie Pearson sau coeficientul de corelaţie
lineară.
Pentru un eşantion de date (xi , yi ) , i = 1,2,K , n , el se notează cu r
şi este definit prin raportul dintre covarianţa datelor xi , yi şi
produsul abaterilor standard a valorilor xi , respectiv yi , adică:
s
r = XY (10.10)
s X sY
Rescriind (10.5) sub forma:
s sY s
bˆ = XY =r Y
s X sY sX sX
rezultă că r se poate exprima şi în funcţie de parametrul b̂ al dreptei
de regresie prin:
s
r = bˆ X (10.11)
sY
iar dacă se înlocuieşte aici b̂ obţinut din (10.9), rezultă şi:
sYˆ
r= (10.12)
sY
adică pătratul coeficientului de corelaţie lineară este egal cu
raportul varianţei explicate prin regresie la varianţa totală a
variabilei explicate.

Valorile lui r se plasează în domeniul [− 1÷ 1] .


Are valoarea +1 doar dacă toate punctele experimentale
(xi , yi ) sunt plasate pe dreapta de regresie, de pantă pozitivă
s^
bˆ = Y
, iar corelaţia lineară dintre variabile este perfectă şi
sX
pozitivă.
De asemenea, dacă r = −1 toate punctele experimentale sunt
s^
plasate pe dreapta de regresie de pantă b = −
ˆ Y
, iar corelaţia
sX
lineară între variabile este perfectă şi negativă.
2
Dacă r = ±1 varianţa reziduală sε este nulă.
Pentru valori ale lui r apropiate de zero, corelaţia lineară între
X şi Y este foarte slabă, iar
dacă r = 0 lipseşte complet o corelaţie lineară între cele două
variabile, (dar putând să existe o legătură de alt tip).

Se numeşte coeficient de determinare de eşantion şi se


notează prin R, pătratul coeficientului de corelaţie lineară, adică:
s 2ˆ
R = r2 = Y (10.13)
sY2
şi exprimă proporţia din varianţa totală a valorilor de eşantion ale
lui Y care poate fi explicată printr-o regresie lineară cu valorile lui
X. R furnizează o măsură mai bună decât r pentru tăria legăturii
lineare dintre cele două variabile.

10.1.2. Aspecte de statistică ale analizei de regresie


lineară
Anterior s-a admis că se dispune de un singur eşantion de date
observate ( xi , yi ) , i = 1,2,K , n .

Utilizând aceleaşi valori ale lui x şi selectând eşantioane


suplimentare de talie n, valoarea yi din perechea de ordin i, (xi , yi )
va fi valoarea unei V.A. Yi şi yi va diferi – în principiu – de la
eşantion la eşantion.

Se defineşte şi se notează Y x V.A. Y , corespunzătoare unei


valori fixe pentru x, iar media şi abaterea ei standard se vor nota
prin µY x şi respectiv σY x .
Atunci simbolul Y xi reprezintă V.A. Yi , de medie µY xi şi
2
varianţă σY xi .

Pentru a construi intervale de încredere se presupune că


- variabilele Y1 , Y2 ,K , Yn sunt independente şi
- normal distribuite,
cu mediile µY xi = E (Y xi ) şi varianţe egale σY x = σ pentru
2 2
i
i = 1,2,K , n .

Curba care uneşte mediile µY xi pentru i = 1,2,K , n se numeşte


curbă de regresie.
Dacă mediile respective se aşează după o linie dreaptă,
regresia este lineară şi poate fi redată prin ecuaţia:
µY x = α + β x (10.14)
în care parametrii α şi β se numesc coeficienţi de regresie.
În Fig.10.3 sunt reprezentate două astfel de distribuţii
condiţionale Y x1 şi Y x2 , de medii diferite (dar cu varianţe egale) şi
aşezate după o dreaptă.
y

dreaptă de
regresie

µY x 2

µY x1

x1 x2 x

Fig.10.3. Distribuţii condiţionale Y xi

În condiţiile menţionate (adică relaţie lineară între X şi Y;


distribuţii condiţionale Y xi normale şi independente, de medii µY xi şi
varianţă constantă pentru orice x),
valorile ŷi (pentru x = xi ), â şi b̂ obţinute pe baza unui
eşantion dat ( xi , yi ) , i = 1,2,K , n sunt estimări ale valorilor reale
pentru µY xi , α şi respectiv β.

Pentru alte eşantioane de talie n şi la aceleaşi valori xi , vor


rezulta alte estimări ale lui µY xi , α şi β .
Cu alte cuvinte α şi β sunt valori ale unor V.A. notate A şi B,
care depind de V.A. Y1 , Y2 ,K , Yn admise independente şi normal
distribuite.
Ca urmare, V.A. A şi B sunt şi ele normal distribuite.
În cazul V.A. A, aceasta are media şi varianţa date de:
 n 2
 ∑ xi 
 
µA = α ; σ 2A = σ 2  i =1  (10.15)
2 2
n sX 
 
 
iar variabila Z definită prin relaţia:
A − α ( A − α )ns X
Z= =
σA n (10.16)
σ ∑ xi2
i =1
este o variabilă normală standard.
2
De regulă varianţa σ a distribuţiilor Y x nu este cunoscută şi
se înlocuieşte prin estimatorul ei de eşantion, pentru care o valoare
nedeplasată, cu n − 2 grade de liberatate, este:
n
∑ ( yi − yˆi )2 nsε2
sˆε2 = i =1 =
(n − 2) (n − 2) (10.17)

sau mai preferabil sˆε2 =


n
n−2
(
sY2 − bˆs 2X . )
( A − α )ns X
În acest caz variabila T de forma T = n are o distribuţie
sˆε ∑ xi2
i =1
Student-t cu ν = n − 2 grade de libertate.

Cu observaţiile de mai sus, intervalul de încredere (1 − γ ) ⋅ 100%


pentru parametrul α al dreptei de regresie (10.14) va fi de forma:
aˆ − t γ σ A < α < aˆ + t γ σ A (10.18)
1− 1−
2 2
unde t1− γ este cuantila distribuţiei normale standard ( σ cunoscut)
2
sau respectiv a distribuţiei Student-t cu n − 2 grade de libertate ( σ
γ
estimat prin ŝε ) pentru care funcţia de distribuţie este egală cu 1 − .
2
Pentru a verifica ipoteza nulă că α ia o anumită valoare α 0 ,
faţă de o ipoteză alternativă posibilă (α ≠ α 0 , α < α 0 sau α > α 0 ) ,
se efectuează testul de conformitate bazat pe estimatorul de test:
t obs =
(aˆ − α 0 )ns X =
aˆ − α 0
n σA (10.19)
sˆε ∑ xi2
i =1
care se compară cu valoarea critică adecvată, la nivel de semnificaţie
γ ales şi care este cuantilă a distribuţiei Student-t cu ν = n − 2 grade
de libertate.
În ipoteza H1 : α ≠ α 0 se va aplica testul bilateral şi regiunea
de acceptare a lui H 0 este:
t γ < t obs < t γ , (10.20)
1−
2 2
iar pentru celelalte ipoteze H1 - testul unilateral cu regiunea critică
t < t sau respectiv t obs > t1− γ .
obs γ

În cazul V.A. B, aceasta are media şi varianţa:


σ2
µB = β , σ 2B = (10.21)
ns 2X
Folosind estimatorul nedeplasat de eşantion ŝε , în loc de σ se
mai poate scrie:
2
σB =
sˆε2
=
sY2 1 − r 2 ( )
ns X s 2X (n − 2 )
2 (10.22)

(B − β)s X
( σ cunoscut)
n
Variabilele Z= sau
σ
(B − β)s X
( σ necunoscut)
n
T=
sˆε
au distribuţiile normală standard sau respectiv Student-t cu n − 2
grade de libertate.
Intervalul de încredere (1 − γ ) ⋅ 100% pentru parametrul β al
dreptei de regresie este de forma:
bˆ − t γ σ B < β < bˆ + t γ σ B (10.23)
1− 1−
2 2

unde t1− γ este, după caz, cuantila variabilei Z sau respectiv T pentru
2
γ
care funcţia de repartiţie este egală cu 1 − .
2
Testul de conformitate pentru ipoteza nulă β = β0 , faţă de una
din ipotezele alternative H1 ,
se face comparând valoarea estimatorului
(
t obs =
)
bˆ − β 0 s X n b − β 0
=
ˆ
(10.24)
sˆε σB
cu valorile cuantilelor care definesc regiunea critică, la nivelul de
semnificaţie γ ales, pentru distribuţia Student-t cu ν = n − 2 grade de
libertate – ca în cazul variabilei A.

Dacă în ipoteza nulă se ia β 0 = 0 , testul se numeşte de


semnificaţie a regresiei lineare simple.
(echivalează cu problema existenţei unei relaţii lineare între X
şi Y - situaţie identică celei în care se testează nulitatea
coeficientului de corelaţie lineară prin H 0 : ρ = 0 ).

Deoarece coeficientul de corelaţie r este şi el o V.A. cu valoarea


depinzând de eşantion, ipoteza asupra coeficientului de corelaţie a
populaţiei, ρ , de forma H 0 : ρ = 0 - se bazează pe estimatorul:
r n−2
t obs = (10.25)
1− r 2
având lege Student-t cu n − 2 grade de libertate.
La nivel de semnificaţie γ ales,
H 1 : ρ ≠ 0 se acceptă dacă t obs > t γ;
1−
2
H 1 : ρ > 0 se acceptă dacă t obs > t1− γ şi respectiv
H 1 : ρ < 0 se acceptă dacă t obs < t γ ,
valorile critice fiind cuantilele corespunzătoare ca anterior.

Pentru H 0 : ρ = ρ 0 , estimatorul de test se calculează cu relaţia:


n − 3  (1 + r )(1 − ρ0 )
zobs = ln  
 (1 − r )(1 + ρ0 )
2
(10.26)
şi el urmează o distribuţie normală standard.

În sfârşit, estimarea mediei condiţionale a lui y la o valoare x


dată este şi ea supusă fluctuaţiilor de eşantionare.
Ecuaţia de regresie poate fi scrisă şi yˆ (x ) = y + bˆ(x − x ) şi - la un x
oarecare - trebuie definit un interval de încredere pentru µY x în
jurul valorii de eşantion ŷ (x ) .
Pentru o valoare x fixată, varianţa variabilei Yˆ este dată de:

=
σ2 
1 +
σ 2ˆ
x−x 
2

( )
n 
Y s X 
2

2
iar cu estimaţia nedeplasată sˆε pentru σ 2 rezultă:

σYˆ =

1+
x−x ( )2
(10.27)
n−2 s 2X

Intervalul de încredere (1 − γ ) ⋅ 100% pentru µY x va fi:


yˆ ( x ) − t γ σYˆ < µY x < yˆ ( x ) + t γ σYˆ (10.28)
1− 1−
2 2
cu t1− γ cuantila distribuţiei Student-t cu n − 2 grade de libertate.
2
Reprezentate grafic, cele două limite ale intervalului de
încredere au alura unor hiperbole în jurul dreptei de regresie.

În particular, pentru x = 0 , σYˆ devine egal cu σ A , iar


dacă x = x se regăseşte intervalul de încredere pentru media
y.

Dacă nu există date experimentale suficiente pentru a defini


satisfăcător un interval de încredere al mediei condiţionale µY x ,
poate să intereseze în schimb un interval pentru estimaţia unei
valori y individuale, la un x dat.
Valoarea lui y la acel x se obţine cu ecuaţia de regresie, fie ea
ŷ* , abaterea ei standard este dată de:

σYˆ =

1+ n +
x−x( )2
(10.29)
* n−2 s 2X
şi intervalul de încredere (1 − γ ) ⋅100% va fi :
yˆ* − t γ σYˆ < y ( x ) < yˆ* + t γ σYˆ (10.30)
1− * 1− *
2 2

Pentru a stabili, la un nivel de semnificaţie γ precizat,


linearitatea unui eşantion de n observaţii
folosind k valori xi şi
pentru fiecare dintre acestea câte ni valori observate ale
 k 

variabilei Yi , cu  n = ∑ i  ,
n
 i =1 
există un test bazat pe estimatorul:
σ12
F= (10.31)
σ 22
care are o distribuţie Fisher cu k − 2 şi respectiv n − k grade de
libertate.
2
Aici σ1 şi σ 2 sunt două estimări independente ale varianţei
2

σ 2 , date de relaţiile:
k 2  k ni 
2 
1  Ti 1  − bˆ ns 
σ12 = ∑ − ∑ ∑ y
(k − 2) i =1 ni n  i =1 j =1 
ij
2 2
X
 
(10.32)
1  k i 2 k Ti2 
n
σ 22 = ∑ ∑ yij − ∑ 
(n − k ) i =1 j =1 i =1 ni 
ni
unde yij este valoarea j a variabilei Yi , j = 1,2,K , ni iar Ti = ∑ yij .
j =1
2
Dacă regresia este nelineară, σ1 supraestimează pe σ 2 iar
ipoteza nulă H 0 : σ12 = σ 22 va fi testată
faţă de alternativa H1 : σ12 > σ 22
σ12
şi respinsă când f obs = este mai mare decât f cr .
σ 22
unde f cr este cuantila pentru care distribuţia Fisher cu k − 2
şi n − k grade de libertate are valoarea funcţiei de repartiţie egală
cu 1 − γ .

La respingerea lui H 0 nu există suficientă evidenţă pentru a


accepta linearitatea între X şi Y, trebuind căutată, eventual, o altă
relaţie de legătură.

Exemplul 10.1.1
Într-un târg de maşini second – hand, un cumpărător
potenţial analizează ofertele de preţ pentru o maşină de cilindree mică
din marca Fiat, notându-şi vechimea maşinilor (în ani, ţinând seama
de anul de fabricaţie anunţat) şi preţul cerut (în mii de euro). A
obţinut datele din tabelul 10.1.1 pe parcursul plimbării prin târg.
Tabel 10.1.1
Număr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
observaţie
Vechime 2 3 2 4 6 3 5 2 4 3 2 4 5 3 5 6
(ani)
Preţ 6,4 5,9 6,2 5,0 3,6 5,5 4,4 6,8 5,1 5,7 6,1 5,3 4,6 5,5 4,8 3,8
(mii €)

Dacă se admite vechimea ca variabilă explicativă (X) şi preţul


cerut pe maşină ca variabilă explicată (Y):
a) Să se găsească ecuaţia unei drepte de regresie pentru
y = f (x ) ;
b) Să se reprezinte grafic diagrama de dispersie a datelor şi
dreapta de regresie;
c) Să se estimeze preţul unei maşini de tipul dorit şi având o
vechime declarată de 4 ani;
d) Să se obţină intervalul de încredere (1 − γ ) ⋅ 100% = 99% al
preţului mediu condiţionat de vechimea de 4 ani, în care vizitatorul
târgului acceptă să se încadreze la o eventuală cumpărare.
e) La nivel de semnificaţie γ = 0,05 , poate accepta vizitatorul că
este corectă dependenţa lineară între preţ şi vechime pe care şi-a
bazat socotelile ? Să se determine valoarea coeficientului de
corelaţie lineară.

Soluţie
a) Conform (10.4) pentru găsirea estimaţiilor parametrilor
dreptei de regresie trebuie să se calculeze:
16 16
u0 = n = 16 ; u1 = ∑ xi = 59 ; u 2 = ∑ xi2 = 247 ;
i =1 i =1
16 16
v0 = ∑ yi = 84,7 şi v1 = ∑ xi yi = 293,8
i =1 i =1

Atunci rezultă:

84,7 ⋅ 247 − 293,8 ⋅ 59 3586,7


aˆ = = = 7,615 şi
16 ⋅ 247 − 59 2 471
16 ⋅ 293,8 − 59 ⋅ 84,7
bˆ = = −0,6295
471

b) Diagrama de dispersie şi dreapta de regresie găsită, sunt


reprezentate în figură.

7
y
(mii €)
6.5

5.5

4.5

3.5
x (ani vechime)
3
0 1 2 3 4 5 6 7

c) Conform ecuaţiei de regresie, pentru x = 4 ani vechime,


preţul maşinii ar trebui să fie de circa
yˆ ( x = 4 ) = 7,615 − 0,6295 ⋅ 4 = 5,097 mii €.

d) Pentru a calcula intervalul de încredere al preţului mediu


condiţionat de vechimea x = 4 ani,
conform (10.27) trebuie să se determine valorile de eşantion
pentru mărimile x , s X şi sε care apar în expresia lui σYˆ .
2

Se obţine imediat:
u 59
x= 1 = = 3,6875 şi
n 16

s 2X
1 16
n i =1
2
(
1 16 2
n i =1
2 u
n
)
= ∑ xi − x = ∑ xi − x = 2 − x =
2 247
16
− 3,68752 = 1,8398

Având în vedere (10.8) şi (10.9), rezultă că:


sY2 = bˆ 2 s 2X + sε2 , adică sε = sY2 − bˆ 2 s 2X ,
16
1

2
unde sY2 = yi2 − y
n i =1
v0 84,7
Pentru y se găseşte y = = = 5,294
n 16
1 16 2 460,71
iar primul termen din sY2 este ∑ yi = = 28,794 .
n i =1 16
Rezultă atunci:
sY2 = 28,794 − 5,294 2 = 0,768 şi
sε = 0,768 − 0,62952 ⋅ 1,8398 = 0,1962
Cu aceste date şi pentru x = 4, se obţine:

σYˆ =

1+
(x − x)
2
=
0,1962
1+
(4 − 3,6875)2
= 0,0538
n−2 s 2X 16 − 2 1,8398
Cuantila distribuţiei Student cu 14 grade de libertate pentru
γ
care funcţia de repartiţie este egală cu 1 − = 0,995 se găseşte
2
t cr = 2,977 şi apoi se calculează
tcr ⋅ σYˆ = 2,977 ⋅ 0,0538 = 0,160 .
Intervalul de încredere pentru preţul mediu condiţionat de x =
4 va fi:
5,097 − 0,160 < µY 4 < 5,097 + 0,160 ,
adică 4,937 < µY 4 < 5,257 mii €.

e) La verificarea linearităţii relaţiei între X şi Y trebuie calculat


estimatorul F din (10.31). Datele (x, y ) din tabel se pot grupa în k = 5
subseturi şi anume:
4
- pentru x1 = 2 , n1 = 4 , T1 = ∑ y1 j = 25,5
j =1
- pentru x2 = 3 , n2 = 4 , T2 = 22,6
- pentru x3 = 4 , n3 = 3 , T3 = 15,4
- pentru x4 = 5 , n4 = 3 , T4 = 13,8
- pentru x5 = 6 , n5 = 2 , T5 = 7,4
Cu formulele (10.32) rezultă:
1  25,52 22,6 2 15,4 2 13,82 7,4 2 1 
σ12 =  + + + + − ⋅ 84,7 2 − 0,62952 ⋅ 16 ⋅ 1,8398 =
(5 − 2)  4 4 3 3 2 16 
= 0,04

1   25,5 2 7,4 2 


σ 22 = 460,71 −  +K +  = 0,0495
(16 − 5)   4
 2 

σ12 0,04
Valoarea estimatorului de test rezultă obs
f =
2
= = 0,808
σ2 0, 0495
Cuantila distribuţiei Fisher cu 3 şi 11 grade de libertate pentru
care funcţia de repartiţie este egală cu 1 − γ = 1 − 0,05 = 0,95 se găseşte
f cr = 3,59 .
Deoarece f obs = 0,808 < f cr = 3,59 , ipoteza H 0 se acceptă şi
deci relaţia dintre X şi Y este o regresie lineară.

Într-adevăr, cu (10.11) de exemplu, se obţine pentru coeficientul

r = ˆ s X = −0,6295 1,8398 = −0,974


b
de corelaţie lineară sY ,
0,768
adică foarte aproape de o corelaţie lineară perfectă şi negativă.

Exemplul 10.1.2

a) Pentru datele problemei din Exemplul 10.1.1, să se găsească


intervalele de încredere 99% ale coeficienţilor α şi β ai dreptei de
regresie µY x = α + βx .
b) Folosind estimaţia de eşantion aˆ = 7,615 , să se verifice
ipoteza că α = 7 - faţă de alternativa α > 7 , la nivel de semnificaţie
γ = 0,01 .

Soluţie
a) Cuantila distribuţiei Student cu ν = n − 2 = 16 − 2 = 14 grade
de libertate, pentru care funcţia de repartiţie este egală cu
γ
1− = 0,995 se găseşte t 0,995 = 2,977 .
2
Abaterea standard pentru variabila A se calculează cu (10.16)
2
folosind estimaţia de eşantion (10.17) pentru σ . Rezultă:
nsε2 16 ⋅ 0,1962 2
sˆε2= = = 0,044
(n − 2) (16 − 2)
 n 2
 ∑ xi 
   247 
σ 2A = sˆε2  i =1  = 0,044  = 0,0231
2 2  2 
n sX   16 1,8398 
 
 
şi σ A = 0,152 .
Se obţine intervalul de încredere pentru α :
7,615 − 2,977 ⋅ 0,152 < α < 7,615 + 2,977 ⋅ 0,152 ,
adică 7,162 < α < 8,068 .

Abaterea standard pentru variabila B se calculează cu (10.22)


şi rezultă:
sˆε2 0,044
2
σB = = = 0,0015 ; σ B = 0,0387
ns 2X 16 ⋅1,8398
Intervalul de încredere pentru β va fi atunci:
− 0,6295 − 2,977 ⋅ 0,0387 < β < −0,6295 + 2,977 ⋅ 0,0387 ,
adică − 0,7447 < β < −0,5143 .

b) Pentru a testa H 0 : α = 7 faţă de H 1 : α > 7 , regiunea


critică la nivel de semnificaţie γ = 0,01 este dată de cuantila
distribuţiei Student cu 14 grade de libertate pentru care funcţia de
repartiţie este egală cu 1 − γ = 0,99 . Se găseşte t cr = 2,624 .
Estimatorul T se calculează cu relaţia:
t obs =
(aˆ − α )ns X =
(7,615 − 7 ) ⋅16 ⋅ 1,8398
= 4,049
n 0,044 ⋅ 247
sˆε ∑ xi2
i =1

Deoarece tobs = 4,049 > tcr = 2,624 , ipoteza H 0 se respinge,


concluzionând că α > 7 .
Se observă că limita inferioară a intervalului de încredere
găsit la punctul a) este 7,162, mai mare decât valoarea 7 testată aici.

Exemplul 10.1.3
În secţiunea unui viitor lac de acumulare se cunosc
debitele maxime anuale ( m s ) şi volumele undelor de viitură
3 -1

corespunzătoare ( mil. m ), pe o perioadă de 31 ani, ca în tabelul


3

10.1.2.
Să se găsească:
a) Coeficientul de corelaţie lineară între debitul maxim şi
volumul undelor de viitură;
b) Ecuaţia dreptei de regresie pentru volum ca funcţie de debitul
maxim;
c) Intervalele de încredere, la nivel de semnificaţie 0,05, pentru
coeficienţii ecuaţiei de regresie;
d) Banda de încredere la nivel de semnificaţie 0,05, în jurul
dreptei de regresie şi să se reprezinte grafic.
Tabel 10.1.2
An Qmax W An Qmax W An Qmax W
ms3 -1 10 6 m 3 m 3s -1 10 6 m 3 m 3s -1 10 6 m 3

1 835 107 11 375 41,4 21 1215 110


2 622 61,2 12 1225 185 22 385 40,2
3 975 126 13 410 31,1 23 1475 185
4 825 89,4 14 617 79,3 24 925 126
5 515 58,3 15 373 35,6 25 595 58,3
6 1035 129 16 1295 210 26 1875 235
7 527 46,1 17 935 111 27 476 70,1
8 875 111 18 576 59,4 28 450 59
9 415 41,2 19 1000 142 29 1125 138
10 700 68,3 20 570 64,2 30 1295 152
31 593 68,4

Soluţie
Variabila explicativă X este aici debitul maxim al undei de
viitură, iar variabila explicată Y este volumul viiturii.
Calculele s-au făcut cu programul Regresie, care include
procedura Student necesară pentru evaluarea valorilor cuantilelor
t γ.
1−
2
Coeficienţii ecuaţiei de regresie y = a + bx şi coeficientul de
corelaţie lineară nu se obţin cu relaţiile (10.4) din metoda celor mai
mici pătrate,
ci prin relaţii ca (10.5), (10.6), (10.10) în care apar covarianţa,
varianţele, mediile etc. ale datelor de intrare.
În tabelul 10.1.3 sunt trecute o parte dintre rezultatele rulării.
Tabel 10.1.3
Rezultate analiza de regresie:
-------------------------------------------------------
Valori medii x / y : 809.968 / 98.016
Variante x / y : 135668.6 / 2853.2
Variante explicata / reziduala: 2623.820 / 229.365
Coeficienti corelatie r / R : 0.9590 / 0.9196
Coeficienti regresie a / b : -14.6245 / 0.13907
Abateri standard a / b : 6.7938 / 0.0076
-------------------------------------------------------
La prag de semnificatie alfa = 0.0500
- Interval incredere pentru a: -28.521 -0.728
- Interval incredere pentru b: 0.12345 0.15469
-------------------------------------------------------
La prag de semnificatie alfa = 0.0500
dreapta de regresie si banda de incredere sunt:
X Yinf Y(X) Ysup
------------------------------------------------------
373.00 28.32 37.25 46.17
423.07 35.87 44.21 52.55
473.13 43.38 51.17 58.97
523.20 50.85 58.14 65.43
573.27 58.26 65.10 71.94
623.33 65.61 72.06 78.51
673.40 72.89 79.02 85.16
723.47 80.08 85.99 91.90
773.53 87.17 92.95 98.73
823.60 94.16 99.91 105.67
873.67 101.04 106.87 112.71
923.73 107.82 113.84 119.86
973.80 114.50 120.80 127.10
1023.87 121.11 127.76 134.41
1073.93 127.65 134.73 141.80
1124.00 134.13 141.69 149.25
1174.07 140.56 148.65 156.74
1224.13 146.96 155.61 164.27
1274.20 153.32 162.58 171.83
1324.27 159.66 169.54 179.42
1374.33 165.98 176.50 187.03
1424.40 172.28 183.46 194.65
1474.47 178.56 190.43 202.29
1524.53 184.83 197.39 209.94
1574.60 191.10 204.35 217.61
1624.67 197.35 211.31 225.28
1674.73 203.60 218.28 232.96
1724.80 209.84 225.24 240.64
1774.87 216.07 232.20 248.33
1824.93 222.30 239.17 256.03
1875.00 228.53 246.13 263.73
----------------------------------------------------
a) Se constată că pentru coeficientul de corelaţie lineară a
rezultat r = 0,959 , iar coeficientul de determinare este R = 0,9196 .

b) Ecuaţia dreptei de regresie are coeficienţii a = −14,6245 şi


b = 0,13907 , deci se poate scrie
W (Qmax ) = −14,6245 + 0,13907 ⋅ Qmax ,
cu Qmax în m 3s -1 şi W în mil. m .
3

c) Intervalele de încredere la nivel de semnificaţie 0,05 sunt:


- pentru a: − 28,521 < a < −0,728 ;
- pentru b: 0,12345 < b < 0,15469

c) Pentru calcularea benzii de încredere a mediei condiţionate


µY x s-au folosit relaţiie (10.27) şi (10.28).
Domeniul xmax − xmin , adică (1875 – 373) m s s-a împărţit
3 -1

în (n − 1) = (31 − 1) = 30 intervale egale şi pentru fiecare xi discret


rezultat astfel, s-a calculat y ( xi ) cu ecuaţia de regresie şi respectiv
limita inferioară yinf ( xi ) şi limita superioară ysup (xi ) a benzii de
încredere. Rezultatele sunt trecute în tabelul 10.1.3.
(
În jurul centrului de greutate al norului de puncte Q max ,W )
= (810; 98,02 ) lăţimea benzii este cea mai redusă (circa ± 5,75 ),
la xmin = 373 m 3s -1 ea devine ± 8,92 , iar la xmax = 1875 m 3s -1 ajunge
la ± 17,6 mil. m 3 .
Reprezentarea grafică a dreptei de regresie şi banda de
încredere din jurul ei sunt incluse în figură.
300 ( 6
W 10 m
3
)
ysup
250

200
xdat i , ydat i
150 y(x )
yinf
100

50

0
(
Qmax m 3s -1 )
350 600 850 1100 1350 1600 1850

Dreapta de regresie şi banda de încredere 0,05 în jurul ei

? ..Problema 10.1.1
Cantitatea de sare (în grame), y, care se poate dizolva într-o
cantitate de apă (în litri), x, la temperatură constantă a fost măsurată în
10 experimente diferite rezultând următoarele date:
x (l) 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1
y (g) 173 196 209 230 235 261 283 284 299 317
a) Să se găsească coeficientul de corelaţie lineară între cele două
variabile;
b) Să se găsească ecuaţia de regresie lineară pentru cantitatea de
sare dizolvată, în funcţie de volumul de apă receptor, la temperatură
constantă;
c) Aflaţi intervalele de încredere cu nivel de semnificaţie 0,05
pentru coeficienţii a şi b ai ecuaţiei de regresie;
d) Pentru x = 1,6 litri, care este cantitatea de sare dizolvabilă
conform ecuaţiei de regresie şi ce interval de încredere la nivel 0,05
are această valoare ? Cum se plasează data experimentală faţă de
interval ?

? ..Problema 10.1.2
Un lot de 21 studenţi promovaţi au recapitulat între 8 şi 16 ore
materia la un examen de semestru şi au obţinut punctajele (din 100
puncte) finale ca în tabelul următor.
x 8 9 10 11 12 13 14 15 16
(ore)
y 52 60 57 65 74 77 95 80 91
(punctaj) 54 64 71 69 88 82 97 86
63 68 78 94
Să se găsească:
a) Coeficientul de corelaţie lineară între numărul orelor de
recapitulare (x) şi punctajul la examen (y);
b) Ecuaţia de regresie lineară pentru punctaj ca funcţie de timpul
alocat;
c) La nivel de semnificaţie 0,05, între ce limite se plasează
punctajul estimat pentru 10,4 ore de studiu ? Dar pentru 14,8 ore ?

? ..Problema 10.1.3
Un medic nutriţionist constată din fişele unor pacienţi selectate
aleatoriu că aceeaşi dietă recomandată a condus la pierderi în greutate
(în kg), y, funcţie de numărul de săptămâni cât a fost urmată, x, ca în
tabelul următor.
x 6 5 4 6 3 4 2 5 1 4
(săptămâni)
y 14,8 13,2 10,7 15,5 7,7 10,3 5,1 16 4,2 12,6
(kg)

x 1 3 2 4 2 1 3 5 4 5
(săptămâni)
y 3,8 7,9 6,6 10,2 6,9 4,5 8,8 13,9 9,2 12,7
(kg)
a) În baza valorii coeficientului de corelaţie lineară, este justificată
căutarea unei ecuaţii de regresie lineară de forma y = a + bx ?
b) Dacă răspunsul este afirmativ, să se găsească parametrii a şi b;
c) Care sunt intervalele de încredere 98% pentru valorile a şi b ?
d) Estimaţi, în baza ecuaţiei de regresie, după câte săptămâni de
dietă se pierd 5 kg ? Dar 10 kg ?
10.2. Regresia lineară multiplă
Există situaţii practice când interesează să se estimeze media
condiţională a unei variabile aleatoare Y care depinde de mai multe
variabile explicative X 1 , X 2 ,K , X p .

Pentru aceasta sunt necesare date observate asupra


- valorilor lui Y,
- cât şi pentru fiecare dintre variabilele X, sub forma unui
eşantion {(x1i , x2i ,K , x pi , yi ), i = 1,2,K , n} , unde n este talia lui.
Valoarea yi (depinzând de eşantion) este valoarea unei V.A. Yi ,
iar
ecuaţia teoretică de regresie lineară multiplă pentru media
condiţionată de x1 , x2 ,K , x p se scrie:
µY x , x ,K , x = β 0 + β1 x1 + β 2 x2 + ... + β p x p (10.33)
1 2 p

unde β j , j = 0,1,..., p sunt parametri care trebuie estimaţi pe baza


datelor observate.

Notând estimaţiile cu b0 , b1 ,..., b p , ecuaţia de regresie de


eşantion va fi:
yˆ = b0 + b1 x1 + b2 x2 + ... + b p x p (10.34)

Pentru simplificare limităm numărul de variabile explicative


X la p = 2 , (generalizarea pentru p > 2 fiind evidentă), iar ecuaţia de
regresie comentată va fi:
yˆ = b0 + b1 x1 + b2 x2 (10.35)

Pentru fiecare grup i de observaţii din eşantion, se scrie:


yi = b0 + b1 x1i + b2 x2i + ε i (10.36)
cu ε i = yˆ (x1i , x2i ) − yi , ecartul dintre valoarea dată de ecuaţia de
regresie (10.35) şi valoarea observată.
Parametrii b0 , b1 şi b2 se găsesc prin m.c.m.m.p., rezolvând
sistemul rezultat din condiţiile de minimizare a sumei pătratelor
n
abaterilor εi - de forma (însumările făcându-se după i, adică ∑):
i =1
nbˆ0 + bˆ1 ∑ x1i + bˆ2 ∑ x2i = ∑ yi

ˆ
b0 ∑ x1i + bˆ1 ∑ x1i + bˆ2 ∑ x1i x2i = ∑ yi x1i
2
(10.37)

bˆ0 ∑ x2i + bˆ1 ∑ x1i x2i + bˆ2 ∑ x2i = ∑ yi x2i
2

Calculele se simplifică scriind (10.35) sub forma:


yˆ = y + b1 x1' + b2 x2' (10.38)
' '
unde x j este variabila centrată x j = x j − x j , caz în care trebuie
rezolvat sistemul de două ecuaţii
ˆ ' 2 ˆ
 1 ∑ 1i + b2 ∑ x1i x2i = ∑ yi x1i
' ' ' '
b x
 (10.39)
bˆ ' 2
 1 ∑ x1i x2i + b2 ∑ x2i = ∑ yi x2i
' ' ˆ ' '

Folosind varianţele şi covarianţele:


∑ xij' = ∑ (x ji − x j ) = ns 2Xj
2 2

∑ x 'ji xli' = ∑ (x ji − x j )(xli − xl ) = ns X j X l


şi ∑ yi' x 'ji = ∑ (yi − y )(x ji − x j ) = ns X j Y ,
sistemul (10.39) se scrie mai simplu:
bˆ1s 2 + bˆ2 s X X = s X Y
 X1 1 2 1
 (10.40)
bˆ1s X 2 X 1 + bˆ2 s 2X = s X 2Y
 2

După găsirea estimaţiilor pentru b̂1 şi b̂2 prin rezolvarea


sistemului (10.40), parametrul b0 din formula (10.35) va fi:
bˆ = y − bˆ x1 − bˆ x 2
0 1 2 (10.41)
Ca la regresia lineară simplă, relaţia dintre varianţele totală,
explicată prin regresie şi reziduală ale valorilor lui Y este:
sY2 = s 2ˆ + sε2 (10.42)
Y
p
( )
n
2 1
∑ ∑ bˆ j s X j Y
2
unde sY = y i − y ; s 2ˆ = 2 2 2
şi sε = sY − sYˆ .
n i =1 Y
j =1

Estimaţiile nedeplasate ale varianţelor populaţiei se calculează


cu:
n n
sˆY2 = sY2 2 2
şi sˆYˆ = sYˆ (10.43)
n −1 n − p −1
Dacă p = 2 ca mai sus, atunci
n
s 2ˆ = bˆ1s X 1Y + bˆ2 s X 2Y şi sˆ 2ˆ = s 2ˆ (10.44)
Y Y Y n−3

Coeficientul de determinare de eşantion este raportul dintre


varianţa explicată de regresie şi varianţa totală, adică:
p

s 2ˆ
∑ˆ
b j s X jY
j =1 sε2
R= Y = = 1− (10.45)
2 2
sY sY sY2
iar estimatorul lui pentru populaţie se calculează cu:
Rˆ = R
n −1 ˆ = R n −1
n − p − 1 şi
R pentru p = 2 (10.46)
n−3

Alte relaţii utile în cazul regresiilor lineare multiple sunt:


s 2ˆ = RsY2 şi sε2 = (1 − R )sY2 (10.47)
Y

Coeficientul de corelaţie lineară este r = R şi se poate


demonstra că r
este egal cu coeficientul de corelaţie lineară între y şi ŷ ,
adică r = rYYˆ .

Adesea trebuie să se decidă dacă


- o variabilă independentă oarecare poate fi eliminată sau
- dimpotrivă - este necesar să fie adăugată într-o ecuaţie de
regresie multiplă.

Eliminarea e posibilă dacă are un efect redus sau nul asupra


valorii estimate a lui Y.
Dimpotrivă, o variabilă independentă trebuie adăugată în
ecuaţie dacă prin aceasta se îmbunătăţesc calităţile predictive ale ei.

O corelaţie tare între Y şi – de ex. X 2 , se poate datora faptului


că atât Y cât şi X 2 sunt legate de variabila X 1 .

Notând rYX 1 , rYX 2 şi rX 1 X 2 coeficienţii de corelaţie clasici


dintre Y şi X 1 , Y şi X2 şi respectiv X 1 şi X 2 ,
atunci coeficientul de corelaţie parţială de eşantion între Y şi
X2 pentru X 1 păstrat fix, se notează rYX 2 x1 şi este dat de:
rYX 2 − rYX 1 rX 1 X 2

(1 − r )(1 − r )
rYX x =
2 1 2 2 (10.48)
YX 1 X1 X 2

Similar se defineşte şi coeficientul de corelaţie parţială între


Y şi X 1 pentru X 2 păstrat fix, rYX x .1 2

Semnificaţia pătratului lui rYX 2 x1 - de ex. este proporţia din


variaţia valorilor lui Y care rămâne neexplicată printr-o dreaptă de
regresie implicând doar pe X 1 şi cea care se poate explica prin
includerea în model a lui X 2 alături de X 1 .

Ca la regresia lineară simplă, se presupune că distribuţia de


eşantionare a unui coeficient b j din ecuaţia de regresie multiplă este
'
2 2 c jj
normală, de medie µβ j = bˆ j şi de varianţă: σβ = sε ,
j n
2
unde sε se înlocuieşte cu estimaţia nedeplasată:
n
sˆε2 = sε2 (10.49)
n − p −1
'
iar c jj este elementul de pe diagonala principală, de indice j, din
inversa matricii de covarianţă.

Pentru ecuaţia de regresie (10.38), varianţele lui y , b1 şi b2


sunt:
1 s 2X
σ 2 = sˆε2 ; σβ2 = sˆε2 2
şi
y n 1 (s X X )
1 2
2
− s 2X s 2X
1 2

s 2X
σβ2 = sˆε2 1
2 (s X X )2 − s 2X
1 2 1
s 2X
2
(10.50)

Abaterea standard pentru parametrul β j ar fi atunci:

c 'jj
σ β j = sε (10.51)
n − p −1

şi intervalele de încredere se construiesc în jurul valorii de eşantion


b̂ j , folosind
- cuantila distribuţiei Student-t cu ν = n − p − 1 grade de
γ
libertate, pentru care funcţia de repartiţie este egală cu 1 − (γ =
2
pragul de semnificaţie) şi
- abaterea standard σβ j .

La testul de conformitate a unui coeficient b̂ j cu o valoare


oarecare de interes notată generic v j , se utilizează estimatorul:
bˆ j − v j
t obs =
σβ j (10.52)

iar valoarea lui critică se obţine din legea Student-t cu n − p − 1


grade de libertate.
Dacă v j = 0 , testul devine de semnificaţie pentru b̂ j .
Intervalul de încredere pentru media condiţionată µ Y x1, x2 ,K , x p
se construieşte cu varianţa dată de:
sε2  
∑( )∑ ( )
p p
2
σˆ = 1 + xj −x j xl − x l c jl 
'
(10.53)
Y n  j =1 l =1 
 
2 '
unde sε se înlocuieşte prin estimaţia nedeplasată (10.49), iar c jl
este elementul de indici j şi l din inversa matricii de covarianţă.

Distribuţia de eşantionare a lui ŷ dat de ecuaţia de regresie


urmează o distribuţie Student-t cu n − p − 1 grade de libertate.

Ca la regresia lineară simplă, dacă interesează intervalul de


încredere pentru estimaţia unei valori y individuale, la
x1 , x2 ,..., x p specificaţi, atunci în expresia lui σ 2ˆ de mai sus se
Y
adaugă n între parantezele drepte.

În sfârşit, testul de semnificaţie al regresiei lineare multiple se


bazează pe estimatorul:
s 2ˆ p n − p −1 R
f obs = Y = (10.54)
sε2 (n − p − 1) p 1− R
având o lege Fisher – Snedecor cu p şi n − p − 1 grade de libertate.
Ipoteza nulă H 0 : toţi coeficienţii β j sunt nuli se respinge la
nivel de semnificaţie γ dacă f obs depăşeşte cuantila pentru care
funcţia de repartiţie este egală cu 1 − γ .
Exemplul 10.2.1
Fie problema din Exemplul 10.1.1 extinsă cu o nouă
variabilă explicativă pentru preţul cerut pe maşinile second – hand şi
anume: kilometri parcurşi înregistraţi la bord. Tabelul 10.1.1 se
completează sub forma următoare (cu distanţele în mii de km).
Tabel 10.2.1
Număr 1 2 3 4 5 6 7 8 9 10 11
observaţie
X 1 - vechime 2 3 2 4 6 3 5 2 4 3 2
(ani)
X 2 - distanţă 32,1 48,3 40,2 64,4 100,7 49,6 80,5 29,4 58,7 52,4 24,6
(mii km)
Y - preţ 6,4 5,9 6,2 5,0 3,6 5,5 4,4 6,8 5,1 5,7 6,1
(mii €)

Număr 12 13 14 15 16
observaţie
X 1 - vechime 4 5 3 5 6
(ani)
X 2 - distanţă 60,6 88,5 50,2 86,7 102,5
(mii km)
Y - preţ 5,3 4,6 5,5 4,8 3,8
(mii €)

a) Să se găsească ecuaţia de regresie pentru preţul mediu


condiţionat, de forma µY x1 , x 2 = β 0 + β1 x1 + β 2 x2 ;
b) Să se calculeze coeficientul de determinare R pentru această
regresie multiplă;
c) Să se calculeze coeficientul de corelaţie parţială între preţ şi
distanţa parcursă, pentru vechime fixă, rYX 2 x1 .
Soluţie
a) Pentru cele n = 16 observaţii, se obţin următoarele date
succesive:
∑ x1i = 59 ; x1 = ∑
59
= 3,6875 ; x12i = 247 ;
16
1 2 247
s 2X = ∑ x12i − x1 = − 3,6875 2 = 1,840
1 n 16


969,4
x2i = 969,4 ; x 2 = = 60,5875 ; ∑ x22i = 67916,36 ;
16
67916,36
s 2X = − 60,5875 2 = 573,927
2 16
84,7
∑ yi = 84,7 ; y = 16
= 5,29375

∑ x1i x2i = 4086,6 ;


1 4086,6
s X1 X 2 =
n
∑ x1i x2i − x1 x 2 =
16
− 3,6875 ⋅ 60,5875 = 31,9961

∑ x1i yi = 293,8 ;
1 293,8
s X 1Y =
n
∑ x1i yi − x1 y =
16
− 3,6875 ⋅ 5,29375 = −1,1582

∑ x2i yi = 4809,24 ; s X 2Y = 16 − 60,5875 ⋅ 5,29375 = −20,1576


4809,24

Sistemul de ecuaţii (10.40) devine:


 1,840 bˆ1 + 31,9962 bˆ2 = −1,1582
 sau
31,9962 bˆ1 + 573,927bˆ2 = −20,1576
 bˆ1 + 17,3892bˆ2 = −0,6295

 bˆ1 + 17,9373bˆ2 = −0,6300
De aici rezultă bˆ2 = −0,00091 şi bˆ1 = −0,6136 , iar b̂0 se obţine
cu (10.41), adică
bˆ0 = 5,29375 + 0,6136 ⋅ 3,6875 + 0,00091 ⋅ 60,5875 = 7,6117 .
Ecuaţia de regresie multiplă pentru preţul mediu condiţionat
de vechime şi kilometraj este:
µY x , x = 7,6117 − 0,6136 x1 − 0,00091x2
1 2

b) Din datele problemei rezultă ∑ yi = 460,71 , astfel încât


2

varianţa lui Y va fi:


1 2 460,71
sY2 = ∑ yi2 − y = − 5,29375 2 = 0,7706
n 16
Varianţa explicată prin regresie este:
2
s 2ˆ =
Y ∑ bˆ j s X j Y = 0,6136 ⋅1,1582 + 0,00091⋅ 20,1576 = 0,7290
j =1
Varianţa reziduală va fi:
sε2 = sY2 − s 2ˆ = 0,7706 − 0,729 = 0,0416
Y
Coeficientul de determinare este dat de (10.45), adică:
sε2 0,0416
R =1− =1− = 0,946
sY2 0,7706
În concluzie, ecuaţia de regresie găsită explică 94,6% din
variaţia valorilor lui Y.

c) Coeficienţii de corelaţie clasici între Y şi X 1 , Y şi X 2 şi


respectiv X 1 şi X 2 sunt daţi de relaţiile:
sYX 1 − 1,1582
rYX 1 = = = −0,9727
sY s X 1 0,7706 ⋅1,84
sYX 2 − 20,1576
rYX 2 = = = −0,9585
sY s X 2 0,7706 ⋅ 573,927
s X1 X 2 31,9961
rX 1 X 2 = = = 0,9846
s X1 s X 2 1,84 ⋅ 573,927
Rezultă coeficientul de corelaţie parţială între preţ şi distanţa
parcursă, la vechime fixă, cu relaţia (10.48):
− 0,9585 + 0,9727 ⋅ 0,9846 − 0,00078
rYX x = = = −0,0192
2 1
(1 − 0,9737 2 )(1 − 0,98462 ) 0,001646
Pătratul acestei valori, adică 0,00037 indică faptul că adăugarea
variabilei X 2 la ecuaţia de regresie lineară simplă, conduce la
reducerea cu doar 0,037% a variaţiei valorilor lui Y faţă de ce
rămăsese neexplicat prin dreapta de regresie.
Deoarece X 2 aduce informaţie suplimentară neglijabilă, el ar
putea fi ignorat în analiza preţurilor, comparativ cu vechimea X 1 a
maşinii.

? ..Problema 10.2.1
Un hipermarket a colectat date observate asupra vânzărilor sale
lunare la o marcă de maşină automată de spălat, în relaţie cu numărul
lunar de apariţii a informaţiilor despre marca respectivă în materialele
publicitare scrise, distribuite de magazin şi respectiv cu numărul de
reclame TV a câte 30 secunde, difuzate lunar despre produs. Au
rezultat datele din tabelul următor.
Lună de 1 2 3 4 5 6
observaţie
Y - maşini vândute 10 20 12 41 32 45
(bucăţi)
X 1 - reclame scrise 0 2 1 3 3 4

X 2 - reclame TV 1 2 1 3 3 4

a) Găsiţi o ecuaţie de regresie multiplă de forma


µY x , x = β 0 + β1 x1 + β 2 x2 pe baza acestor date observate;
1 2
b) Evaluaţi numărul de maşini de spălat vândute într-o lună cu 3
reclame în materiale publicitare şi 4 reclame la TV.

? ..Problema 10.2.2
În tabelul următor sunt trecute date observate privind: numărul
zilnic (mediu) de ore petrecute în faţa televizorului; vârsta privitorului
(în ani) şi nivelul de instruire (în ani de studii).
Ore 2,5 3,0 1,2 1,9 2,9 4,0 3,8 2,1 0,7 2,7
la TV
Vârsta 30 25 22 35 40 45 50 40 35 42
Studii 12 10 16 16 12 9 10 16 20 14
a) Găsiţi ecuaţia de regresie lineară multiplă pentru media
condiţionată a timpului zilnic de vizionare TV;
b) Evaluaţi timpul de vizionare pentru o persoană de 30 ani, cu 12
ani de studii.

10.3. Regresii nelineare


Adesea alura norului de date experimentale (xi , yi ) , i = 1,2,..., n
sugerează alt tip de relaţie analitică decât linia dreaptă - care trebuie
identificată şi găsite valorile parametrilor ei.
Aceste aspecte constituie subiectul regresiilor nelineare.

Abordarea implică metode matematice mai complicate, care


vizează totuşi minimizarea reziduurilor ( yˆ i − yi ) .
Aici nu mai sunt valabile aspectele teoretice anterioare privind
distribuţiile de eşantionare şi diversele teste statistice.

Având în vedere utilitatea regresiilor nelineare în prelucrarea


datelor experimentale şi folosirea ulterioară a rezultatelor în probleme
practice de interes, se vor detalia în continuare câteva elemente
referitoare la acestea.

10.3.1. Regresia polinomială


Se pune problema ca – pe baza valorilor experimentale (xi , yi ) ,
i = 1,2,..., n să se găsească o relaţie de forma:
y ( x ) = a0 + a1x + a2 x 2 + ... + a p x p (10.55)

Cu m.c.m.m.p. minimizarea sumei pătratelor reziduurilor:



( 
)
n
p 2
min S = ∑ yi − a0 − a1 xi − a2 xi − ... − a p xi
2

 i =1 
revine la rezolvarea sistemului de ecuaţii algebrice lineare:
{ ( )}
n
∂S
= −2∑ xij yi − a0 − a1 xi − a2 xi 2 − ... − a p xi p = 0 ,
∂a j i =1
pentru j = 0,1,2,..., p

Cu notaţiile menţionate:
n n
u j = ∑ xi , j = 0,1,2,...,2 p şi v j = ∑ xij yi , j = 0,1,2,..., p ,
j

i =1 i =1
sistemul respectiv se scrie:
u0 a0 + u1a1 + u 2 a2 + ... + u p a p = v0

u1a0 + u 2 a1 + u3 a2 + ... + u p +1a p = v1

u 2 a0 + u3 a1 + u 4 a2 + ... + u p + 2 a p = v2
 (10.56)
.....................................................
u p a0 + u p +1a1 + u p + 2 a2 + ... + u 2 p a p = v p

Prin rezolvarea lui se găsesc estimaţiile coeficienţilor âi ,


i = 0,1,2,..., p ai ecuaţiei de regresie polinomială (10.55).

10.3.2. Regresii linearizate prin transformări


matematice
Se notează prin litere mici parametrii din ecuaţia de regresie
nelineară şi prin litere mari parametrii din ecuaţia linearizată.

Regresia geometrică
Dacă alura norului de puncte sugerează o curbă de tipul celei din
Fig. 10.4,

b>0

b<0
x
Fig.10.4. Regresie geometrică

se poate căuta o regresie numită geometrică, de forma:


y = ax b (10.57)
Logaritmând în ambii membri rezultă:
ln y = ln a + b ln x
şi notând Y = ln y ; X = ln x ; A0 = ln a şi A1 = b , se găseşte relaţia
lineară:
Y = A0 + A1 X (10.58)
Coeficienţii A0 şi A1 se obţin rezolvând sistemul:
nA0 + A1 ∑ ln xi = ∑ ln yi
 (10.59)
 A0 ∑ ln xi + A1 ∑ (ln xi ) = ∑ (ln xi )(ln yi )
2

după care parametrii din ecuaţia (10.57) vor fi a = e 0 şi b = A1


A

Regresia exponenţială 1
Ecuaţia cu forma analitică
y = ab x (10.60)
se numeşte de tip exponenţial şi are alura din Fig. 10.5.
Logaritmând în ambii membrii, rezultă:
ln y = ln a + x ln b
şi cu notaţiile Y = ln y ; X = x ; A0 = ln a şi A1 = ln b se ajunge la
forma (10.58).

b>1

b<1
x
Fig.10.5. Regresia exponenţială 1

Prin rezolvarea sistemului:


nA0 + A1 ∑ X i = ∑ Yi
 (10.61)
 A0 ∑ X i + A1 ∑ X i = ∑ X iYi
2
se găsesc A0 şi A1 , iar apoi a = e A0 şi b = e A1 . (10.62)

Regresia exponenţială 2 – diferă de (10.60) prin formă şi


anume:
y = ae bx (10.63)
Logaritmând, rezultă: ln y = ln a + bx şi cu notaţiile Y = ln y ,
X = x , A0 = ln a , A1 = b , se ajunge la forma (10.58), iar după

şi b = A1 .
A0
rezolvarea sistemului de forma (10.61) se obţin a = e

Regresia exponenţială 3 – are ecuaţia:


bx
y = axe (10.64)
şi alura din Fig. 10.6.

x
Fig. 10.6. Regresia exponenţială 3

y
Modificând (10.64) la forma: = ae bx şi logaritmând, rezultă:
x
 y
ln  = ln a + bx
x
 y
Notând Y = ln   ; X = x ; A0 = ln a ; A1 = b , rezolvarea este ca în
x
situaţiile anterioare.
La oricare variantă de mai sus - datele observate care conţin
xi = 0 sau yi = 0 trebuie eliminate pentru a putea continua calculul
parametrilor.

Alte regresii nelineare

x
1) Ecuaţia y= (10.65)
a + bx
1
y= 1 1
=b+a .
se poate scrie sub forma 1 şi apoi
a +b y x
x
1 1
Cu notaţiile Y = ; X = ; A0 = b şi A1 = a , se ajunge la
y x
forma lineară Y = A0 + A1 X .

1
2) Ecuaţia y= (10.66)
a + bx
1
se scrie y = a + bx şi apoi se linearizează cu notaţiile
1
Y = ; X = x ; A0 = a şi A1 = b .
y

a
3) Ecuaţia y = (10.67)
x+b
1 1 b 1
se scrie şi y= sau = + x.
1 b y a a
x+
a a
1 b 1
Notând Y = ; X = x ; A0 = şi A1 = , se rezolvă problema pentru
y a a
1 A0
a găsi A0 şi A1 , iar apoi a = A şi b = A1 .
1
1
4) Ecuaţia y=
(ax + b )2 (10.68)
1
se poate scrie şi = ax + b şi apoi se linearizează notând Y = 1 ;
y y
X = x ; A0 = b şi A1 = a .

Regresii nelineare cu 3 parametri

Dacă ecuaţia de regresie căutată include 3 parametri, cum ar fi,


relaţia:
x
y =c+
a + bx (10.69)
sau relaţia :
b
y =c+ (10.70)
x−a
este necesară o ipoteză suplimentară pentru a găsi transformări prin
care să se ajungă la forme lineare.

În general, ea constă în forţarea curbei de regresie astfel încât


să treacă printr-un punct specificat ( x0 , y0 ) din planul xOy
reprezentat de o pereche de valori (xi , yi ) observate sau ales altfel –
( )
de ex. - în centrul de greutate al norului de observaţii x, y .

Presupunând ultima situaţie, ecuaţia (10.69) se scrie:


x x
y− y=c+ −c−
a + bx a + bx
relaţie prelucrată în continuare, rezultând:
x−x
y− y
b
(
= a + bx + a + bx x
a
) (10.71)
x−x
Dacă se notează Y =
y− y
b
; X = x ; A0 = a + b x şi A1 = a + b x ,
a
( )
relaţia (10.71) devine: Y = A0 + A1 X .

Datele pentru care se calculează coeficienţii regresiei lineare vor fi deci:


Xi x1 .................. xi .................. xn
Yi x1 − x .................. xi − x .................. xn − x
y1 − y yi − y yn − y

După aflarea coeficienţilor A0 şi A1 cu m.c.m.m.p. se obţine


uşor că:
A02 A0 A1 x
a= ; b = şi c = y − (10.72)
A0 + A1 x A0 + A1 x a + bx

( )
În cazul ecuaţiei (10.70), cu acelaşi punct fix x, y , aceasta se
poate scrie:
b b
y− y =c+ −c−
x−a x−a
şi apoi se aduce la forma:
x−x
y− y
=−
a−x
+
1
c− y c− y
x−x ( ) (10.73)

x−x a−x
Notând Y = ; X = x − x ; A0 = − şi A1 =
1
,
y− y c− y c− y
rezultă relaţia lineară Y = A0 + A1 X .

Coeficienţii ei se calculează pe baza datelor:


Xi x1 − x .................. xi − x .................. xn − x
Yi x1 − x .................. xi − x .................. xn − x
y1 − y yi − y yn − y

şi după aflarea lor se găsesc coeficienţii din ecuaţia originală:


A0 − A1 x 1 + A1 y
a=
A1 ; c =
A1 şi b = y − c x − a ( )( ) (10.74)

Aici se încadrează şi situaţia când există două variabile


explicative, iar ecuaţia de regresie căutată are forma:
y = ax1b x2c (10.75)
Prin logaritmare în ambii membri rezultă:
ln y = ln a + b ln x1 + c ln x2
şi cu notaţiile Y = ln y ; X 1 = ln x1 ; X 2 = ln x2 ; B0 = ln a ; B1 = b ;
B2 = c , se obţine expresia lineară:
Y = B0 + B1 X 1 + B2 X 2 (10.76)
care se tratează ca regresia lineară multiplă.

Tăria corelaţiilor nelineare se apreciază prin coeficientul de


determinare, definit ca raportul dintre varianţa explicată prin
ecuaţia de regresie şi respectiv varianţa totală a valorilor lui y ,
adică:

R=
∑ ( yˆ i − y )
= 1−

2
( yˆ i − yi )2
(
∑ i y − y )2
∑ i( y − y )2 (10.77)

Exemplul 10.3.1
Urmărind evoluţia în timp a debitului la o staţie
hidrometrică, pe durata unei viituri, s-au obţinut datele din tabelul
următor, cu timpul în ore şi debitul în m 3s -1 .
Tabel 10.3.1.a
Hidrograf de viitură observat
Nr. observ. 1 2 3 4 5 6 7 8 9 10 11
t (ore) 0 1 2 3 4 5 6 8 10 12 14
3 -1 10 88 179 232 263 275 266 226 188 157 130
Q (m s )

12 13 14 15 16 17 18
16 18 20 22 24 26 28
108 91 76 64 54 46 38
Constatând că debitul maxim de 275 m 3s -1 s-a înregistrat la t = 5
ore după începerea observaţiilor, să se găsească ecuaţii de regresie
pătratice pentru faza de creştere şi respectiv faza de descreştere a
viiturii.
Să se compare datele Q observate cu cele date de ecuaţia de
regresie.

Soluţie
Primele 6 perechi de valori ( ti , Qi ) se folosesc pentru o relaţie de
aproximare de forma:
Qc (t ) = a0 + a1t + a2t 2
iar ultimele 13 perechi pentru o relaţie de forma:
Qd (t ) = b0 + b1t + b2t 2

Conform m.c.m.m.p. coeficienţii c0 , c1 şi c2 ai unei astfel de


relaţii se găsesc rezolvând un sistem de ecuaţii algebrice lineare:
nc0 + c1 ∑ ti + c2 ∑ ti2 = ∑ Qi


c0 ∑ ti + c1 ∑ ti + c2 ∑ ti3 = ∑ ti Qi
2
(a)

c0 ∑ ti + c1 ∑ ti + c2 ∑ =∑
2 3
ti4 ti2Qi

unde n este numărul de perechi de valori ( ti , Qi ) folosite, iar


însumările se fac pentru i = 1,2,..., n .

Pentru faza ascendentă n = 6 , iar sumele care apar în (a) sunt:


∑ ti = 15 ; ∑ ti = 55 ; ∑ ti = 225 ; ∑ ti4 = 979 ;
2 3

∑ Qi = 1047 ; ∑ ti Qi = 3569 ; ∑ ti Qi = 13975 ,


2

şi atunci rezultă sistemul:


 6a0 + 15a1 + 55a2 = 1047

15a0 + 55a1 + 225a2 = 3569
55a + 225a + 979a = 13975
 0 1 2
cu soluţia a0 = 4,643 ; a1 = 105,264 ; a2 = −10,179 .
Pentru faza descendentă, schimbând originea timpului la
momentul debitului maxim, adică sub forma
Tabel 10.3.1.b
Nr. observ. 1 2 3 4 5 6 7 8 9 10 11 12 13
'
t (ore) 0 1 3 5 7 9 11 13 15 17 19 21 23
3 -1 275 266 226 188 157 130 108 91 76 64 54 46 38
Q (m s )

sumele de calculat în sistemul (a) vor fi mai mici.


Acum n = 13 , iar sumele au valorile:
2
∑ ti' = 144 ; ∑ ti' = 2300 ;
3 4
∑ ti' = 41328 ; ∑ ti' = 791660 ;

∑ Qi = 1719 ; ∑ ti'Qi = 11618 ;


2
∑ ti' Qi = 149148
Sistemul de rezolvat este:
 13b0 + 144b1 + 2300b2 = 1719

144b0 + 2300b1 + 41328b2 = 11618
2300b + 41328b + 791660b = 149148
 0 1 2
sau
b0 + 11,077b1 + 176,923b2 = 132,231

b0 + 15,972b1 + 287b2 = 80,681

b0 + 17,969b1 + 344,2b2 = 64,847
cu soluţia b0 = 279,308 ; b1 = −20,014 ; b2 = 0,422 .

Ecuaţiile de regresie vor fi:


Qc (t ) = 4,643 + 105,264t − 10,179t 2 şi respectiv

()
Qd t ' = 279,308 − 20,014t ' + 0,422t '
2

unde t ' = t − 5 .

Coeficienţii de determinare s-au găsit Rc = 0,9964 şi respectiv


Rd = 0,9984 .
Datele de debit calculate cu ecuaţia Qc (t ) sunt:
t (ore) 0 1 2 3 4 5
3 -1 4,64 99,73 174,46 228,82 262,84 276,49
Q (m s )
observat 10 88 179 232 263 275
iar pentru faza de descreştere, folosind t ' ca în tabelul 10.3.1.b, cu
'
()
ecuaţia pentru Qd t se obţine:
' 0 1 3 5 7 9 11 13
t (ore)
3 -1 279,31 259,72 223,06 189,79 159,89 133,36 110,22 90,44
Q (m s )
observat 275 266 226 188 157 130 108 91

15 17 19 21 23
74,05 61,03 51,38 45,12 42,22
76 64 54 46 38

Se poate afirma că cele două ecuaţii de regresie pătratică


reproduc satisfăcător datele observate.

Exemplul 10.3.2
Cu aceleaşi date de debit din tabelul 10.3.1.a al
problemei anterioare, dar considerând momentele observaţiilor cu o
oră în plus, adică ti : 1,2,3,...,29 ore, să se găsească parametri a şi b
ai unei regresii exponenţiale de forma (10.64) şi anume:
Q(t ) = ate bt
şi să se calculeze debitul dat de ecuaţia de regresie în acest caz.

Soluţie
S-au prelucrat datele de intrare originale, în acord cu
transformarea care permite linearizarea ecuaţiei de regresie, adică
Q 
s-au calculat valorile yi = ln i  , i = 1,2,...,18 .
 ti 
Perechile ( ti , yi ), i = 1,2,...,18 s-au preluat în programul Regresie
care furnizează parametri c0 şi c1 ai regresiei lineare y (x ) = c0 + c1 x .
Aceştia au valorile: c0 = 4,1764 şi c1 = −0,13295 .
Parametrul c1 este chiar b din regresia exponenţială căutată, iar
c
parametrul a va fi a = e 0 = e 4,1764 = 65,1505 .
În concluzie, regresia cerută va fi:
Q(t ) = 65,1505 t e −0,13295 t
Tabelul următor conţine datele Q observate şi respectiv cele
date de ecuaţia de regresie de mai sus.
Qobs 10 88 179 232 263 275 266 226 188

Qcalc 57,04 99,88 131,17 153,12 167,57 176,05 179,82 177,22 166,03

157 130 108 91 76 64 54 46 38


150,40 133,02 115,56 99,0 83,87 70,41 58,66 48,56 39,98

Evident că acum ecuaţia de regresie nu reproduce satisfăcător


valorile observate, mai ales în zona debitelor mari.
Ca alură, graficul calculat seamănă cu cel al viiturii
înregistrate, însă ca precizie este foarte îndepărtat.
Totuşi, aici s-a căutat o ecuaţie de regresie cu doar doi
parametri şi pentru întreaga plajă a valorilor t ,
în timp ce în Exemplul 10.3.1 s-au găsit două ecuaţii pătratice
(cu 6 parametri în total), fiecare valabilă pe câte un subdomeniu al
variabilei t .

Exemplul 10.3.3
Se ştie că deversorul cu muchie ascuţită şi fantă
b
triunghiulară are cheia de forma Q = ah , unde Q este debitul
tranzitat şi h este înălţimea lamei deversante.
La calibrarea unui astfel de deversor plasat într-o instalaţie din
laboratorul de mecanica fluidelor, s-au înregistrat următoarele date.
Nr. observ. 1 2 3 4 5 6 7 8 9 10
h (m) 0,105 0,108 0,139 0,164 0,173 0,181 0,189 0,194 0,199 0,203
3 -1 0,003 0,0031 0,0058 0,0086 0,0099 0,0113 0,0123 0,0131 0,0139 0,0147
Q (m s )

Să se găsească parametri a şi b ai ecuaţiei de regresie.

Soluţie
Deoarece prin logaritmare în ambii membri se ajunge la forma:
ln Q = ln a + b ln h
şi notând y = ln Q ; x = ln h ; c0 = ln a şi c1 = b , se obţine o regresie
lineară ca y = c0 + c1 x .
Din datele originale s-a format un fişier cu datele transformate
xi = ln hi şi yi = ln Qi , i = 1,2,...,10 , care a fost preluat în programul
Regresie rezultând parametri c0 = −0,3396 şi c1 = b = 2,43554 .
Parametrul a = e c0 = e −0,3396 = 0,712 ,
astfel încât cheia deversorului va fi:
Q = 0,712h 2,43554
cu Q în m s şi h în m.
3 -1

Exemplul 10.3.4
Faţă de talvegul râului din secţiunea barajului,
variaţiile volumului aflat în acumulare (în mil. m ) şi suprafeţei
3

oglinzii apei (în ha) cu cota suprafeţei libere a apei din lac sunt
estimate la faza de proiect ca în tabelul 10.3.4.a.
Tabel 10.3.4.a
Volumul în acumulare şi suprafaţa oglinzii apei ca funcţii de
cota suprafeţei libere în lac
z (m) 3
V (mil. m ) S (ha) z (m) V (mil. m 3 ) S (ha)
25 3,13 37,75 95 114,16 328,72
30 5,28 48,30 100 131,67 371,52
35 7,95 58,65 105 151,13 407,00
40 11,24 73,02 110 172,42 444,60
45 15,24 86,72 115 195,73 487,62
50 20,13 109,0 120 221,22 530,85
55 26,09 129,55 125 249,00 580,35
60 33,11 151,02 130 279,18 626,87
65 41,17 171,47 135 311,68 673,09
70 50,27 192,52 140 346,39 715,52
75 60,48 215,95 145 383,38 764,32
80 71,89 240,37 150 422,83 813,65
85 84,54 265,70 155 464,77 863,67
90 98,56 295,35 159 507,30 900,0
a) Să se găsească o ecuaţie de regresie pătratică, de forma
V (z ) = a0 + a1 z + a2 z 2 pentru variaţia volumului cu z;
b) Să se compare rezultatele de mai sus cu cele date de o ecuaţie
de regresie geometrică de forma V ( z ) = az , prin intermediul sumei
b

pătratelor abaterilor Vˆ − V , unde Vˆ este valoarea dată de regresie,


i i i
iar Vi
este valoarea observată;
c) Să se refacă analiza de la punctele a) şi b) dar doar pe
domeniul de cote 65 ÷ 159 (între nivelul minim excepţional şi nivelul
maxim de la coronamentul barajului);
d) Să se găsească o ecuaţie de regresie pătratică pentru suprafaţa
oglinzii apei, între cotele 65 şi 159, de forma S (z ) = b0 + b1 z + b2 z 2 ;
e) Pornind de la volumul în lac specificat în date pentru cota
z = 65 m, adică V (z = 65) = 41,17 mil. m 3 , să se evalueze volumele la
cotele următoare (70,75,..., 159 m) folosind ecuaţia de regresie
găsită pentru S (z ) şi să se compare cu valorile observate.

Soluţie
a) Considerând cele n = 28 perechi de valori ( zi ,Vi ) , ecuaţia
de regresie pătratică se obţine sub forma:
V1 ( z ) = 60,46 − 2,5788 z + 0,033123 z 2 (a)
pentru care suma pătratelor abaterilor faţă de valorile observate este

∑ (Vˆ1i − Vi )
28 2
= 1313,02
i =1

b) În cazul regresiei geometrice, prin logaritmarea relaţiei în


ambii membri, rezultă:
ln V = ln a + b ln z , adică y ( x ) = a0 + a1 x
Valorile xi = ln zi şi respectiv yi = ln Vi , pentru i = 1,2,...,28 , s-au
introdus ca date de intrare în programul Regresie care a furnizat
valorile parametrilor a0 = −7,6717 şi a1 = b = 2,73175 .
a0 −4
Deoarece a = e , adică a = 4,65825 ⋅10 . rezultă ecuaţia de
regresie geometrică:
V2 ( z ) = 4,65825 ⋅10 −4 z 2,73175 (b)
∑ (Vˆ2i − Vi )
28
2
pentru care = 1382,68 , adică ceva mai mare decât la a).
i =1
Volumele date de regresiile (a) şi (b) sunt afişate în tabelul
10.3.4.b, comparativ cu valorile observate.
Tabel 10.3.4.b
Comparatie intre volumele observate si cele date de ecuatiile
de regresie patratica, respectiv geometrica
------------------------------------------------------------------------
Z(m) Vobservat Vpatratic Vgeometric Z(m) Vobservat Vpatratic Vgeometric
------------------------------------------------------------------------
25 3.13 16.75 3.07 95 114.16 115.22 117.73
30 5.28 12.99 5.05 100 131.67 134.71 135.43
35 7.95 10.89 7.70 105 151.13 155.86 154.74
40 11.24 10.45 11.08 110 172.42 178.67 175.71
45 15.24 11.67 15.29 115 195.73 203.14 198.40
50 20.13 14.55 20.39 120 221.22 229.27 222.86
55 26.09 19.10 26.45 125 249.00 257.06 249.15
60 33.11 25.30 33.55 130 279.18 286.52 277.32
65 41.17 33.16 41.75 135 311.68 317.63 307.44
70 50.27 42.69 51.12 140 346.39 350.40 339.55
75 60.48 53.87 61.72 145 383.38 384.84 373.71
80 71.89 66.72 73.62 150 422.83 420.93 409.98
85 84.54 81.23 86.88 155 464.77 458.69 448.40
90 98.56 97.39 101.56 159 507.30 490.09 480.72
------------------------------------------------------------------------
În zona cotelor / volumelor mici, regresia geometrică
aproximează datele observate mai bine decât cea pătratică, în timp
ce pentru cotele medii şi mari, regresia pătratică este mai bună.

c) Folosind doar n = 20 perechi de valori din tabelul 10.3.4.a şi


anume cele pentru z ≥ 65 m - s-au găsit ecuaţiile de regresie:
V1 ( z ) = 161,2 − 4,45727 z + 0,041414 z 2 (c)

∑ (Vˆ1i − Vi )
20
2
pentru care = 163,14
i =1

şi respectiv V2 ( z ) = 3,42 ⋅10 −4 z 2,79728 (d)

∑ (Vˆ2i − Vi )
20 2
pentru care = 373,36 , adică mult mai mare faţă de (c).
i =1
Valorile calculate cu regresiile (c) şi (d) sunt incluse în tabelul
10.3.4.c.
Tabel 10.3.4.c
Comparatie intre volumele observate si cele date de ecuatiile
de regresie, pe zona volumului util
------------------------------------------------------------------------
Z(m) Vobservat Vpatratic Vgeometric Z(m) Vobservat Vpatratic Vgeometric
------------------------------------------------------------------------
65 41.17 46.45 40.30 115 195.73 196.31 198.78
70 50.27 52.12 49.58 120 221.22 222.69 223.91
75 60.48 59.86 60.13 125 249.00 251.13 251.00
80 71.89 69.67 72.03 130 279.18 281.65 280.10
85 84.54 81.55 85.34 135 311.68 314.24 311.29
90 98.56 95.50 100.14 140 346.39 348.90 344.63
95 114.16 111.52 116.49 145 383.38 385.63 380.17
100 131.67 129.61 134.46 150 422.83 424.42 417.99
105 151.13 149.78 154.12 155 464.77 465.29 458.14
110 172.42 172.01 175.54 159 507.30 499.48 491.98

d) Ecuaţia de regresie pătratică pentru suprafaţa oglinzii apei


ca funcţie de cotă, în zona z ∈ [65 − 159] m s-a găsit a fi:
S ( z ) = −12,64 + 0,54539 z + 0,03309 z 2 (e)

e) Creşterea de volum în lac între două cote z1 şi z 2 este dată


de relaţia:
z
1 2
S (z )dz
100 ∫
∆V =
z1

cu ∆V în mil. m 3 şi S în ha.
Folosind pentru S ( z ) ecuaţia de regresie pătratică găsită, se
poate scrie:

∫ (b0 + b1z + b2 z )dz = 1001 b0 (z2 − z1 ) + b21 (z22 − z12 )+ b32 (z23 − z13 )
z2
1 2
∆V =
100
z1
Dacă se notează z 2 − z1 = ∆z , relaţia se poate pune şi sub forma:
1   b2 2  
∆V = ∆z b0 + ∆z  + ∆z[0,5b1 ( z1 + z 2 ) + b2 z1 z 2 ] =
100   3  
∆z
= [B + 0,5b1 (z1 + z 2 ) + b2 z1z 2 ] = c0 + c1 (z1 + z 2 ) + c2 z1z 2 (f)
100
b B∆z 0,5b1∆z b2 ∆z
şi c2 =
2
unde B = b0 + 2 ∆z ; c0 = ; c1 = .
3 100 100 100
Exceptând ultimele date din tabelul 10.3.4.a pentru care
z 2 − z1 = 159 − 155 = 4 m, la toate celelalte ∆z are valoarea ∆z = 5 m.
Cu parametri b0 , b1 şi b2 ai regresiei S ( z ) , se obţin valorile
coeficienţilor c din relaţia (f).
B = −12,36425 ; c0 = −0,6182125 ; c1 = 0,01363475 ; c2 = 0,0016545 .
Utilizând relaţia (f) pentru calculul tranşelor de volum între două
cote succesive, s-au obţinut valorile volumelor calculate pe baza
ecuaţiei de regresie (e) pentru S ( z ) , ca în tabelul 10.3.4.d.
Tabel 10.3.4.d
Comparatie intre volumele observate si cele calculate
folosind ecuatia de regresie patratica pentru S(z)
-------------------------------------------------------
Z(m) Vobservat Vprin S Z(m) Vobservat Vprin S
-------------------------------------------------------
65 41.17 41.17 115 195.73 196.85
70 50.27 49.92 120 221.22 222.27
75 60.48 59.97 125 249.00 249.81
80 71.89 71.39 130 279.18 279.56
85 84.54 84.27 135 311.68 311.59
90 98.56 98.69 140 346.39 345.99
95 114.16 114.74 145 383.38 382.84
100 131.67 132.50 150 422.83 422.23
105 151.13 152.05 155 464.77 464.24
110 172.42 173.47 159 507.30 508.68
Ultima valoare din tabel (cea de la z = 159 m) este incorectă
deoarece s-a folosit în calcule ∆z = 5 m – care era adevărat la toate
celelalte transe de volum.
Rezultatele calculate astfel sunt surprinzător de apropiate de
valorile observate ale volumului în lac, la toate cotele suprafeţei
libere.

Exemplul 10.3.5
Într-un experiment vizând capacitatea de biodegradare
a materiei organice poluante, s-au evaluat vitezele reacţiei de
descompunere, µ , (în ore -1 ) în funcţie de concentraţia de substrat
organic supus biodegradării, S (în mg ⋅ l ) şi s-au obţinut datele
-1

următoare.
S ( mg ⋅ l -1 ) 25 50 75 100 150 200 250 300
( )
µ h -1 0,04 0,067 0,086 0,10 0,12 0,133 0,143 0,15
Ştiind că descompunerea are loc după o cinetică de tip Monod,
S
cu viteza de reacţie de forma µ = µ max , unde µ max este o viteză
S +k
maximă, iar k este constanta de semisaturaţie, să se găsească
valorile acestor parametri pentru experimentul considerat.
Soluţie
Dacă se notează µ = y , µ max = a , S = x şi k = b , expresia
vitezei de reacţie are forma:
ax 1 1 1 b1
y= = = +  
x + b 1 b  1  , care se poate scrie şi y a a  x  .
+  
a a x
1 1
Notând Y = , X = ,
1 b
c0 = şi c1 = se ajunge la forma
y x a a
lineară: Y = c0 + c1 X .
Coeficienţii c0 şi c1 se determină folosind programul Regresie
şi au valorile c0 = 4,995 şi c1 = 499,395 .
1 1
Rezultă a = µ max = c = 4,995 = 0,2
0
şi apoi b = c1a = 0,2 ⋅ 499,395 ≅ 100 .
S
Deci ecuaţia vitezei de reacţie este µ = 0,2 .
S + 100

? ..Problema 10.3.1
Cunoscând din date experimentale că o pompă centrifugă poate
3 -1
realiza presiunile (în m), la diverse debite tranzitate (în m s ) ca în
tabelul următor:
Q
5,7 6,5 7,3 7,95 8,6 9,4 9,8 10,3 10,8 11,25 11,7 12,1 12,4 12,75 13
3 -1
(m s )
H
18,3 17,5 16,8 16 15,75 14,5 13,7 12,95 12,2 11,44 10,7 9,9 9,15 8,4 7,6
(m)

a) Să se găsească o ecuaţie de regresie pătratică pentru


caracteristica pompei de forma H (Q ) = a0 + a1Q + a2Q 2 ;
b) Să se găsească o ecuaţie de aceaşi formă matematică pentru Q
admisă ca variabilă explicată şi respectiv H - variabilă explicativă.
? ..Problema 10.3.2
La presiunea de o atmosferă, concentraţia la saturaţie a
oxigenului (în mg ⋅ l ) în apa dulce variază cu temperatura ei în ( o C ).
-1

Pe baza datelor experimentale din tabelul următor:


T(
o
C)
0 2 5 8 10 12 15 20 25 30 35 40

C sat 14,62 13,83 12,77 11,84 11,29 10,78 10,08 9,09 8,26 7,56 6,95 6,41
-1
( mg ⋅ l )

să se găsească o ecuaţie de regresie pătratică pentru C sat (T ) .

? ..Problema 10.3.3
Ştiind că cererea biochimică de oxigen (CBO) într-o apă poluată
cu materie organică evoluează după o relaţie de forma L(t ) = L0 e −kt ,
unde L0 este CBO la momentul zero, k este coeficientul vitezei de
reacţie (admisă reacţie de ordinul unu) şi t este timpul (în zile), iar L
se măsoară în mg ⋅ l , să se prelucreze datele experimentale din
-1

tabelul următor pentru a afla L0 şi k în cazul apei poluate analizate.


t (zile) 0,5 0,5 0,5 0,5 2,5 2,5 3,5 3,5 4,5 4,5 5 5
L ( mg ⋅ l )
-1 385 355 362 378 240 210 188 162 140 130 105 125

? ..Problema 10.3.4
c
O ecuaţie de regresie de forma y = are alura ca în figură
1 + ae bx
pentru valori adecvate ale parametrilor a şi b şi unde c este o valoare
de palier.
y

x
Presupunând că la sfârşitul anului 1989 erau înscrise în circulaţie
în Bucureşti 90.000 de maşini şi că la finele anilor următori numărul
maşinilor înscrise în circulaţie (în sute de mii) a variat ca în tabelul
următor:
x = t (ani) 0 1 2 3 4 5 6 7 8 9 10 11 12
y = nr. maşini 0,9 1,15 1,6 2,3 3,1 4,02 5,0 6,0 6,9 7,7 8,3 8,8 9,1

13 14 15 16 17
9,4 9,6 9,72 9,82 9,88
să se găsească ecuaţia de regresie de forma menţionată, admiţând
valoarea de palier c = 10 (corespunzând la 1 milion maşini care pot fi
parcate în amenajările existente din oraş).

S-ar putea să vă placă și