Documente Academic
Documente Profesional
Documente Cultură
INTRODUCERE
9
1994 27.13 18.68 53.00 84.88 70.33 57.26 32.89 16.92 14.22 17.61 12.06 11.35 34.69
1995 12.22 22.62 45.45 98.51 121.5 75.38 54.54 27.41 46.64 22.50 37.95 56.68 51.78
1996 37.91 16.90 15.43 129.7 146.9 47.20 36.81 61.32 103.6 55.42 33.11 34.09 59.87
1997 19.80 19.10 26.69 60.04 141.5 92.35 43.34 58.43 86.95 56.85 32.32 23.88 55.11
1998 17.98 23.50 21.37 96.55 103.6 110.0 92.19 40.64 38.33 65.84 54.47 18.13 56.89
1999 6.88 14.84 56.42 170.5 99.73 55.60 56.94 47.27 39.31 22.11 17.95 20.65 50.68
2000 13.82 20.31 45.27 145.0 48.81 28.76 41.15 26.36 42.27 24.67 15.60 16.64 39.05
----------------------------------------------------------------------------------
Qmin 6.88 9.72 13.34 28.98 37.07 26.55 22.77 16.47 12.55 12.46 11.27 6.86 26.25
Qmed 18.50 18.77 35.93 90.37 100.5 77.54 64.53 47.13 39.47 30.50 26.64 22.60 47.70
Qmax 46.10 50.30 86.48 170.5 272.1 166.9 154.6 136.2 120.3 99.05 62.09 56.68 74.39
----------------------------------------------------------------------------------
10
Din cauza multitudinii de aspecte specifice fiecărei discipline –
în contextul abordării statistice – au apărut numeroase lucrări orientate
pe tratarea datelor şi, mai ales, pe valorificarea ulterioară a rezultatelor
modelelor probabiliste dintr-o disciplină sau alta.
Evident, noţiunile şi metodele statistice din proiectarea şi
analiza de fiabilitate şi siguranţă în funcţionare a sistemelor din
ingineria mecanică, diferă destul de mult de cele din ingineria
electronică.
Chiar şi natura problemelor analizate diferă în
- domeniul medical,
- faţă de cele din domeniul ingineresc,
- de cele din domeniul hidrologiei,
- climatologiei,
- ştiinţelor de mediu,
- managementului etc.
Din motivele enumerate, nu voi insista la curs pe
detalierea abordărilor dintr-un anumit domeniu, dar la
aplicaţii veţi primi teme cu un conţinut apropiat specializării
fiecăruia
Atât statistica descriptivă, cât şi statistica deductivă (sau
de inferenţă / raţionament) sunt definite ca un ansamblu de
metode de calcul.
Multe dintre acestea sunt comune celor două categorii. De
exemplu, o metodă poate fi reprezentată de formula de calcul a
unei medii şi
– dacă se foloseşte media unui set de valori pentru a caracteriza
setul respectiv, această operaţie aparţine statisticii descriptive, iar
– dacă aceeaşi medie este utilizată pentru a face supoziţii privind
media unui set mai mare de valori, operaţia aparţine statisticii
deductive.
11
Setul tuturor observaţiilor posibile asupra informaţiei
considerate, formează o populaţie.
12
Se descriu operaţiunile preliminare de ordonare, clasare şi
reprezentare grafică a datelor, acestea facilitând analiza lor şi
formarea unei viziuni sintetice de natură statistică.
Apoi se vor defini principalele caracteristici descriptive (sau
măsuri statistice) de poziţie, de dispersie şi de formă – care se
pot calcula pe baza setului de date analizat şi se comentează legătura
dintre valorile lor şi alura reprezentărilor grafice.
13
normală standard, log-normală, hi-pătrat, Student-t,
Fisher-Snedecor, exponenţială, Weibull, gamma, beta, legi
ale valorilor extreme)
majoritatea fiind ilustrate prin diverse aplicaţii.
14
Capitolul 7 aprofundează aspecte de statistică deductivă prin
prezentarea elementelor generale privind testarea ipotezelor
statistice - în legătură cu populaţii de variabile aleatoare.
Se defineşte ipoteza statistică şi se clasifică tipurile de teste.
Se vor descrie aspectele de bază ale unui test parametric
incluzând:
- ipoteza nulă şi cea alternativă,
- nivelul de semnificaţie,
- regiunea critică,
- estimatorul de test şi
- calculul valorii lui,
- probabilitatea critică etc.
În continuare se prezintă
- teste de conformitate şi respectiv de omogenitate pentru
- variabile aleatoare continue (medie, varianţă, diferenţa
mediilor) şi pentru
- variabile discrete.
Capitolul se încheie cu unele exemple de teste neparametrice.
15
- cu doi factori de influenţă, fără sau cu interacţiune între
aceştia.
Pentru testarea varianţelor se descriu şi se ilustrează unele teste
specifice (Hartley, Bartlett, Levene).
16
Alte exemple:
17
2. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ
Admitem că discuţia se referă la o colecţie de date brute,
(înregistrate asupra parametrului de interes a unui proces oarecare)
formând un eşantion din populaţia tuturor observaţiilor posibile.
9
Se numeşte rang - numărul de ordine al unei date
oarecare din şirul ordonat.
10
Procedure Sortare(n:integer; var x:vect);
{ Procedura de ordonare crecatoare/descrescatoare a datelor}
label 1,2,3,4;
var i,j:integer; xx:real; opt:char;
begin
kaz:=0; {implicit: ordonare crescatoare}
writeln('Implicit - ordoneaza crescator setul de date !');
write('Doresti ordonare descrescatoare (Y/N) ? '); readln(opt);
opt:=Upcase(opt); if opt='Y' then kaz:=1;
i:=2;
1: if i > n then goto 4
else
begin
xx:=x[i]; j:=i-1;
2: if j <= 0 then goto 3;
if kaz = 0 then
begin { ordonare crescatoare }
if x[j] <= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
if kaz = 1 then
begin { ordonare descrescatoare }
if x[j] >= xx then goto 3
else
begin
x[j+1]:=x[j]; j:=j-1; goto 2;
end;
end;
3: x[j+1]:=xx; i:=i+1; goto 1;
end;
4: end;
11
Exemplul 2.1.1
Ştiind că debitele maxime anuale înregistrate pe
Dunăre la postul hidrometric Olteniţa în perioada 1921 – 1962 au avut
valorile din tabelul 2.1.1.a, să se ordoneze crescător şirul de date,
folosind un program de calcul care include o procedură de sortare.
Tabel 2.1.1.a
Debite maxime anuale (mc/s) la Oltenita,pe Dunare,intre 1921 si 1962
7750 11500 11900 13800 8480 13700 8780 9380 9680 8140
10700 14400 9870 8090 10100 9100 14000 9620 9560 15600
14300 15900 7610 14200 11100 7990 11900 10100 7050 8510
10200 10000 12200 10800 13300 13000 10100 12200 8230 9370
9720 13800
Soluţie
S-a utilizat programul Setdate care a generat fişierul de rezultate
având conţinutul din tabelul 2.1.1.b.
Tabel 2.1.1.b
Debite maxime anuale la Oltenita, pe Dunare, intre 1921 si 1962
Datele ordonate crescator:
7050.00 7610.00 7750.00 7990.00 8090.00
8140.00 8230.00 8480.00 8510.00 8780.00
9100.00 9370.00 9380.00 9560.00 9620.00
9680.00 9720.00 9870.00 10000.00 10100.00
10100.00 10100.00 10200.00 10700.00 10800.00
11100.00 11500.00 11900.00 11900.00 12200.00
12200.00 13000.00 13300.00 13700.00 13800.00
13800.00 14000.00 14200.00 14300.00 14400.00
15600.00 15900.00
Exemplul 2.1.2
Să se ordoneze descrescător şirul de debite medii
anuale din tabelul 2.1.2.a, înregistrate la Olteniţa în intervalul 1921-
1962
Tabel 2.1.2.a
Debite medii anuale (mc/s) la Oltenita,pe Dunare, intre 1921 si 1962
4090 6650 6300 6950 5350 7960 5990 5220 5240 5400
6570 5900 5700 5100 5190 6150 8040 6100 5980 8600
8850 7000 4160 7280 5570 4460 4400 6120 4200 4300
5950 5550 5640 5520 7860 6730 5650 6080 5460 6480
5010 6280
12
Soluţie
Se utilizează acelaşi program, dar specificând opţiunea pentru
ordonare descrescătoare şi se obţin rezultatele din tabelul 2.1.2.b
Tabel 2.1.2.b
Debite medii anuale la Oltenita pe Dunare intre 1921 si 1962
Datele ordonate descrescator:
8850.00 8600.00 8040.00 7960.00 7860.00
7280.00 7000.00 6950.00 6730.00 6650.00
6570.00 6480.00 6300.00 6280.00 6150.00
6120.00 6100.00 6080.00 5990.00 5980.00
5950.00 5900.00 5700.00 5650.00 5640.00
5570.00 5550.00 5520.00 5460.00 5400.00
5350.00 5240.00 5220.00 5190.00 5100.00
5010.00 4460.00 4400.00 4300.00 4200.00
4160.00 4090.00
? Problema 2 1 1
Un eşantion stocastic de 50 de clienţi admis reprezentativ pentru
o anumită bancă, a obţinut dobânzile anuale la conturile lor curente în
valută (USD) ca în tabelul 2 1 3. Să se ordoneze crescător şirul de
valori din acest tabel.
Tabel 2.1.3
Dobanzi anuale la conturi curente (in $),
pentru un esantion de 50 clienti
28.43 35.22 36.92 96.44 65.99 55.87 52.77 42.87 39.44 80.01
87.63 21.32 24.92 57.91 61.25 27.83 32.93 64.88 40.96 50.01
38.55 69.47 31.62 59.91 25.14 36.10 63.54 27.92 28.21 45.66
49.23 43.16 87.98 73.97 29.03 38.31 51.17 68.23 52.92 70.18
72.05 58.22 44.15 47.85 33.64 32.95 26.29 30.14 22.81 23.64
13
2.2. Gruparea datelor de eşantion
14
K
N = ∑ nk (2.7)
k =1
nk
– frecvenţa relativă a clasei f k şi fk = (2.8)
N
– frecvenţa cumulată până la clasa k inclusiv Fk şi
k
Fk = ∑ fj (2.9)
j =1
K
iar FK = ∑ fk =1 (2.10)
k =1
De regulă se preferă
- gruparea în clase de ecart hk constant şi
- având limitele de clasă alese cu valori convenabile (multiplii
de 2, 5, 10, 100 etc.).
15
Exemplul 2.2.1
Pentru datele problemei din Exemplul 2.1.2 (şirul de
debite medii anuale înregistrate la postul hidrometric Olteniţa între
1921-1962 ) să se întocmească tabloul distribuţiei de frecvenţă.
Soluţie
Având în vedere (2.3) şi (2.4), deoarece talia acestui şir este N =
42, rezultă numărul recomandat de clase
K > 1 + 3,33 log 42 = 6,405
sau K = int ( 1,443 ln 42 ) = int ( 5,393 ) = 5
16
Tabel 2.2.1.a
3 -1
Clasare în K = 8 clase de ecart h = 600 m s
k ak bk ck nk fk Fk
1 4050 4650 4350 6 0,143 0,143
2 4650 5250 4950 5 0,119 0,262
3 5250 5850 5550 9 0,214 0,476
4 5850 6450 6150 10 0,238 0,714
5 6450 7050 6750 6 0,143 0,857
6 7050 7650 7350 1 0,024 0,881
7 7650 8250 7950 3 0,071 0,952
8 8250 8850 8550 2 0,048 1,000
Tabel 2.2.1.b
3 -1
Clasare în K = 6 clase de ecart h = 800 m s
k ak bk ck nk fk Fk
1 4050 4850 4450 6 0,143 0,143
2 4850 5650 5250 13 0,309 0,452
3 5650 6450 6050 11 0,262 0,714
4 6450 7250 6850 6 0,143 0,857
5 7250 8050 7650 4 0,095 0,952
6 8050 8850 8450 2 0,048 1,000
17
Exemplul 2.2.2
Să se claseze în 10 clase de ecart egal, cele 50 de
valori ale dobânzilor anuale din tabelul 2.1.3 , problema 2.1.1.
Soluţie
Valorile extreme din şirul de date sunt 96,44 şi respectiv 21,32,
adică o plajă de 75,12 $.
Pentru clasarea în 10 clase, rezultă un ecart pe clasă de
75,12 / 10 = 7,512.
Ecartul folosit nu poate fi mai mic decât această valoare şi
trebuie să aibă acelaşi număr de cifre zecimale ca datele din şir.
Rezultă că ecartul h = 7,52 $ îndeplineşte condiţiile respective.
Limita inferioară a primei clase va fi admisă mai mică decât
valoarea minimă din şir şi având o cifră zecimală semnificativă în
plus faţă de aceasta. În consecinţă a1 = 21,315 $.
Limitele intervalelor de clasare se determină apoi adăugând
ecartul h la a1 pentru a obţine succesiv
b1 = a 2 = a1 + h ; b2 = a 3 = a 2 + h ;............. bk = a k + h
Valorile centrale c k se calculează cu relaţia (2.6).
18
Desigur că este posibil ca operaţiunea de clasare să se realizeze
şi folosind clase de ecart h variabil.
Spre această opţiune poate conduce reprezentarea grafică
(histograma) a distribuţiei de frecvenţă, dacă alura ei pare neregulată,
cu oscilaţii ale frecvenţelor între clase succesive.
Ilustrarea modului de abordare în acest caz apare în Exemplul
2.2.3.
19
2.2.2. Reprezentări grafice
20
12 Număr apariţii Frecvenţă relativă
nk f (% )
k
10 0,25
6
0,125
0
4050 4650 5250 5850 6450 7050 7650 8250 8850
10 0,25
6
0,125
0
4050 4850 5650 6450 7250 8050 8850
21
Fig. 2.2 – Histograma datelor din tabelul 2.2.2
Număr apariţii Frecvenţă relativă
12
nk f (% )
k
10 20
6
10
4
0
21,315 96,515
Dobândă anuală (USD)
Exemplul 2.2.3
La postul de urmărire a calităţii apelor evacuate în
emisar de o staţie de tratare s-au prelevat zilnic probe pe parcursul
unei luni şi s-au găsit încărcările de CBO 5 ( în mg l-1) ca în tabelul
2.2.3.a. Să se analizeze distribuţia de frecvenţă şi să se traseze
histograma datelor măsurate.
Tabel 2.2.3.a
Încărcare CBO 5 (mg.l-1) la 30 probe zilnice
Proba nr. CBO 5 Proba nr. CBO 5 Proba nr. CBO 5
1 27,24 11 17,91 21 53,06
2 58,20 12 38,53 22 19,48
3 35,38 13 27,31 23 17,86
4 21,08 14 17,14 24 41,34
5 24,17 15 20,69 25 37,54
6 13,33 16 28,41 26 26,20
7 20,68 17 16,76 27 14,42
8 21,23 18 98,93 28 21,39
9 30,76 19 77,34 29 34,19
10 22,71 20 30,94 30 55,09
22
Soluţie
Din inspecţia datelor se constată că iau valori pe domeniul 13,33
– 98,93 mg l-1.
Alegând, de exemplu, k = 7 clase de ecart egal şi extinzând
plaja între 10 şi 101 mg l-1, ar rezulta
- ecarturi egale de câte 13 mg l-1,
- cu efectivele de 13, 9, 3, 3, 0, 1 şi respectiv 1 apariţii,
deci cu majoritatea datelor plasate între 10 şi 36 mg l-1.
Tabel 2.2.3.b
Analiza de frecvenţă cu clase de ecart inegal
k ak bk hk nk n’ k fk f’ k
1 10 15 5 2 0,40 0,067 0,0134
2 15 20 5 5 1,00 0,167 0,0334
3 20 25 5 7 1,40 0,233 0,0466
4 25 30 5 4 0,80 0,133 0,0266
5 30 40 10 6 0,60 0,200 0,0200
6 40 60 20 4 0,20 0,133 0,0067
7 60 100 40 2 0,05 0,067 0,0017
23
Densitate de
1,5 '
apariţie n k
0,5
0
10 20 30 40 50 60 70 80 90 100
Concentraţie CBO5 (mg l )
. -1
Fig.2.3. Histograma cu clase de ecart inegal pentru concentraţia CBO 5 din probe
24
Adesea, în practică se constată un tip special de distribuţii
simetrice, numite în formă de clopot.
Când se clasează cu ecart constant, la acest tip se observă că
- înălţimile dreptunghiurilor histogramei se reduc aproximativ
în acelaşi raport, începând de la clasa de frecvenţă maximă,
spre cele două extremităţi ale axei absciselor iar
- variabilitatea datelor este bine reflectată de o regulă empirică,
după care
- circa 68% dintre datele şirului se plasează într-un interval
având lăţimea egală cu dublul abaterii standard în jurul mediei;
- circa 95% din observaţii – într-un interval cu lăţimea de
patru ori abaterea standard şi respectiv
- circa 99,7% din observaţii - într-un interval cu lăţimea de
şase ori abaterea standard în jurul mediei.
Semnificaţia parametrilor menţionaţi (medie, abatere standard)
va fi precizată ulterior.
25
40 Frecvenţă
relativă (%)
35
30
25
20
15
10
0
2850 3650 4450 5250 6050 6850 7650 8450 9250 10050
( 3 -1
Debit mediu anual m s )
Fig.2.4. Poligonul frecvenţei procentuale pentru datele de debite medii anuale
din tabelul 2.2.1.b
26
Fig.2.5. Poligonul frecvenţei procentuale pentru datele de dobânzi anuale
din tabelul 2.2.2
25 Frecvenţă
relativă (%)
20
15
10
0
0 20 40 60 80 100 120
Dobânda anuală (USD)
27
Fig. 2.6 Graficul frecvenţelor cumulate pentru datele clasate în tabelul 2.2.1.b
Frecvenţă
100
cumulată Fk (%)
75
50
25
0
4050 4850 5650 6450 7250 8050 8850
(
Debit mediu anual m s
3 -1
)
Ca exemplu, în Fig. 2.6 este redat graficul frecvenţelor
cumulate (în %) corespunzător poligonului frecvenţelor din Fig.2.4
şi datelor de debite medii anuale pe Dunăre clasate în tabelul 2.2.1.b.
28
2.2.3. Distribuţii de frecvenţă empirice
Când
- datele înregistrate asupra unei mărimi de interes sunt în număr
redus,
- iar analiza anterioară nu poate conduce la concluzii
convingătoare,
se preferă utilizarea unei maniere empirice de analiză statistică.
r −α
Fˆ (x[r ] ) = (2.12)
N + 1 − 2α
unde N este talia şirului, iar α - un coeficient cu valori între 0 şi 0,5.
29
- Pentru o populaţie originară perfect cunoscută, se
recomandă α = 0,3 şi respectiv α = 0,5 dacă parametrii acesteia
nu sunt cunoscuţi.
- Pentru o lege de probabilitate normală a populaţiei originare
se recomandă α = 0,375 ; sau α = 0,44 dacă legea este de tip
exponenţial; sau α = 0 pentru o lege uniformă; sau, în sfârşit,
α = 0,4 ca cel mai bun compromis pentru o formulă neparametrică.
- În şcoala franceză se preferă α = 0,5 ; iar în practica din SUA,
α=0
30
Este de aşteptat ca graficul F̂ ( x ) construit cu datele din acest
tabel, să oscileze în jurul poligonului frecvenţelor cumulate realizat
pe clase de debite şi reprezentat în Fig. 2.6, pentru acelaşi set de
valori.
? Problema 2 2 1
40 de rugbişti aleşi aleatoriu din echipele de primă divizie au
greutăţile corporale (în kg) din tabelul 2.2.4
Tabel 2.2.4
Greutăţile (în kg) unui lot de 40 rugbişti (R – număr sportiv în lot; G – greutate)
R G R G R G R G
1 97,2 11 102,3 21 85,2 31 100,3
2 103,1 12 97,5 22 93,3 32 98,3
3 86,5 13 110,0 23 106,3 33 102,8
4 91,3 14 88,2 24 102,8 34 102,5
5 101,1 15 92,5 25 96,8 35 92,9
6 109,5 16 96,2 26 95,2 36 107,0
7 111,2 17 107,5 27 114,7 37 101,7
8 90,8 18 104,8 28 97,6 38 104,2
9 98,3 19 98,9 29 98,0 39 100,9
10 99,1 20 95,0 30 108,5 40 105,2
a) Să se ordoneze crescător datele de greutate din tabel;
b) Rotunjind valoarea minimă la primul întreg inferior şi pe cea
maximă la primul întreg superior, să se claseze datele de pe această
plajă în 5 clase de ecart egal;
c) Să se reprezinte histograma şi poligonul frecvenţelor relative
pentru această distribuţie de frecvenţă;
d) Prezintă histograma vreo caracteristică evidentă ?
e) Trasaţi ogiva frecvenţelor cumulate şi estimaţi procentul
sportivilor cu greutatea de cel puţin 100 kg.
31
? Problema 2.2.2
Un lot de 30 studenţi ajunşi la o universitate din Braşov venind
din restul ţării, sunt chestionaţi în legătură cu poziţia geografică a
localităţii de origine faţă de Braşov, după categoriile: NE (nord – est),
SE (sud – est), V (vest), SV (sud – vest) şi respectiv NV (nord – vest).
Răspunsurile au fost următoarele: NV, V, V, NE, NV, SV, SV,
SV, SE, NV, SV, SE, SE, V, SV, NE, N, V, NE, NV, NV, SV, V, SE,
SV, SV, NV, V, SV şi NV.
Construiţi o distribuţie de frecvenţă pentru aceste date
categoriale.
? Problema 2.2.3
Ştiind că 40 de muncitori pe un şantier de construcţii au prestat
în luna anterioară un număr de ore suplimentare plătite - ca în tabelul
2.2.5 Tabel 2.2.5
Număr de ore suplimentare plătite pentru luna
anterioară, la un lot de 40 muncitori
22 12 17 2 4 14 25 19 26 17
6 10 7 7 13 16 17 13 24 22
24 23 19 8 5 9 15 20 18 20
25 18 8 26 24 24 22 21 12 15
32
2.3.Caracteristici descriptive ale seturilor de date
33
- Caracteristici de dispersie - care sunt măsuri ale gradului de
împrăştiere a datelor observate, în raport cu valoarea centrală.
Printre cele frecvent folosite se numără: plaja (sau domeniul)
observaţiilor, abaterea medie absolută, varianţa şi abaterea
standard, coeficientul de variaţie, intervalele intercuartile ş.a.
34
La translatarea originii datelor din şirul iniţial cu valoarea
constantă c, noul şir yi = xi + c , i = 1,2,..., N va avea media
y = x +c,
iar la scalarea datelor sub forma yi = c.xi , i = 1,2,..., N, va
rezulta y = c ⋅ x .
Mediana – notată ~
x – este definită ca valoarea faţă de care
jumătate dintre observaţiile seriei de date sunt mai mari şi respectiv
cealaltă jumătate sunt mai mici.
Se mai numeşte şi valoare echiprobabilă sau cuartilă de ordin 2.
35
de ecart egal, se constată că mediana (valoarea corespunzătoare la F =
~
50%) este x = 5785 m3.s-1.
Pe de altă parte, observând datele ordonate din tabelul 2.1.2.b
pentru acelaşi set de observaţii, se constată că valorile de rang N/2 =
42/2 =21 şi respectiv 22 sunt 5950 şi 5900 m3.s-1, astfel încât cu relaţia
~
(2.17.b) ar rezulta x =5925 m3.s-1 care diferă destul de mult (circa
2,4%) faţă de mediana obţinută pe baza ogivei frecvenţei cumulate.
Moda – notată x̂
– se defineşte ca fiind valoarea care apare
cel mai frecvent printre datele observate.
Se mai numeşte şi valoare dominantă, valoarea cea mai
probabilă sau valoare modală.
36
- ea apare în poligonul frecvenţei procentuale din Fig. 2.4. la
abscisa pentru care frecvenţa atinge valoarea maximă.
Presupunând că
- numărul de date din şir, N, este foarte mare şi că
- a fost posibilă o clasare cu ecart hk foarte mic (astfel încât
poligonul frecvenţelor poate fi aproximat printr-o curbă continuă şi
unimodală)
~
relaţia între x , x şi x̂ depinde de alura distribuţiei de frecvenţă.
Cele trei situaţii tipice sunt reprezentate în figura 2.7
X̂ X~
X
A1 A2
~
X̂ , X , X
A1 A2
37
f
~ X̂
X X
A1 A2
38
Abaterea medie absolută – notată AMA – este definită ca
media diferenţelor absolute dintre fiecare dată a şirului şi media lui,
adică
1 N
AMA = ∑ xi − x (2.19)
N i =1
s (N + 1) =
N 2 [x N +1 − x ( N )]2
s ( N ) +
2
(2.23)
N + 1 N +1
39
iar la eliminarea valorii x N din şir, cu relaţia
s 2 (N − 1) =
N
.s 2 (N ) − N
[ ]2
x − x( N )
(2.24)
N −1 N
unde prin s 2 (N ) şi x (N ) s-au notat varianţa şi media şirului cu N
date observate.
40
Cele două caracteristici fundamentale media (pentru tendinţa
centrală) şi abaterea standard (pentru dispersie) pot fi utilizate
împreună la analiza unui set de observaţii în baza teoremei (sau
inegalităţii) lui Cebâşev.
care ajută la determinarea fracţiei (sau procentajului) de
observaţii care se estimează că s-ar plasa într-un număr specificat
de abateri standard, de fiecare parte în raport cu media.
41
Notând z i scorul valorii xi din şir, acesta se va calcula cu relaţia:
xi − x
zi = , (2.28)
s
iar rezultatul va fi un număr adimensional.
Intervalele intercuantile
42
Intervalul intercuartile se obţine ca diferenţa q3 − q1 .
şi este o măsură a dispersiei mai puţin sensibilă la fluctuaţiile
de eşantion decât amplitudinea (sau plaja).
Exemplul 2.3.1
La examenul de Statistică Aplicată, un lot de studenţi
au obţinut punctajele (din 100 puncte) incluse în tabelul 2.3.1.a.
Tabel 2.3.1.a
56 42 60 64 85 76 81 40 70 68
66 58 65 46 44 72 70 74 80 80
49 51 55 60 63 58 94 67 73 69
75 70 79 90 42 77 77 50 91 45
62 59 72 87 98 73 54 49 53 70
43
Soluţie
În tabelul 2.3.1.b se găsesc datele problemei ordonate crescător.
Tabel 2.3.1.b
Punctaj obtinut de 50 studenti la examenul de Statistica
Datele ordonate crescator:
40.00 42.00 42.00 44.00 45.00
46.00 49.00 49.00 50.00 51.00
53.00 54.00 55.00 56.00 58.00
58.00 59.00 60.00 60.00 62.00
63.00 64.00 65.00 66.00 67.00
68.00 69.00 70.00 70.00 70.00
71.00 72.00 72.00 73.00 73.00
74.00 75.00 76.00 77.00 77.00
79.00 80.00 80.00 81.00 85.00
87.00 90.00 91.00 94.00 98.00
a) Clasarea punctajelor s-a făcut cu procedura din Exemplul
2.2.2 pentru a evita ambiguitatea atribuirii unei valori din şir egală
cu limita dintre două clase, la una dintre acestea. Se ajunge totuşi la
situaţia nerealistă că limita ultimei clase devine 102,5 puncte,
punctajul maxim posibil fiind 100 puncte.
Dacă s-ar admite plaja cuprinsă între punctajul minim (aici 40) şi
cel maxim posibil (100 în cazul problemei), cu 7 clase pe domeniu ar
rezulta un ecart de 60/7 = 8,5714 puncte, dar care este ,,neprietenos’’
în aplicaţii practice.
Tabel 2.3.1.c
Punctaj obtinut de 50 studenti la examenul de Statistica
Rezultate clasare in 7 clase de ecart= 9.00:
k a(k) b(k) c(k) n(k) f(k) fc(k)
1 39.50 48.50 44.00 6 0.1200 0.1200
2 48.50 57.50 53.00 8 0.1600 0.2800
3 57.50 66.50 62.00 10 0.2000 0.4800
4 66.50 75.50 71.00 13 0.2600 0.7400
5 75.50 84.50 80.00 7 0.1400 0.8800
6 84.50 93.50 89.00 4 0.0800 0.9600
7 93.50 102.50 98.00 2 0.0400 1.0000
44
b) Cu rezultatele din tabelul anterior, în Fig.2.8 s-a trasat
poligonul frecvenţelor cumulate procentuale.
80
70
60
50
40 q3
30 ~
X
20
F*
10 q1
0
35 45 55 65 75 85 95 105
Puncte la examen
45
Estimarea medianei pe baza ogivei din Fig.2.8 se obţine ca
abscisă corespunzătoare frecvenţei cumulate de 50%.
Un calcul mai precis decât citirea grafică este interpolarea liniară
între perechile 3 şi 4 de valori (bk , fc k ) din tabelul 2.3.1.c. Procedând
astfel se obţine ~x 2 = 67,19 puncte.
Pentru calculul modei, se constată din tabel că frecvenţa relativă
maximă (26%) apare în clasa a 4-a iar valoarea centrală a acestei
clase, adică c 4 , va fi admisă ca modă - deci xˆ = 71 puncte.
Exemplul 2.3.2
Ştiind că numărul mediu zilnic de cărţi consultate în
biblioteca facultăţii este de 112, cu o abatere standard de 14 cărţi, să
se folosească inegalitatea lui Cebâşev pentru a afla ce fracţie de timp
a) Se vor consulta între 56 şi 168 cărţi pe zi ?
b) Se vor consulta între 92 şi 132 cărţi pe zi ?
c) Se vor consulta mai puţin decât 42 sau mai mult decât 182
cărţi pe zi ?
46
Soluţie
Pentru rezolvarea problemei, este util să se traseze diagrama din
Fig. 2.9
X − 5s X − 4s X − 3s X − 2s X −s X X +s X + 2s X + 3s X + 4s X + 5s
Exemplul 2.3.3
S-a constatat statistic faptul că la banda de servire a
cantinei unei universităţi, timpul mediu de aşteptare pentru a se
47
ajunge la mâncare este de 120 secunde, cu o abatere standard de 25
secunde. Admiţând că distribuţia timpilor de aşteptare este în formă
de clopot şi folosind regula empirică menţionată la sfârşitul
paragrafului 2.2.2, să se estimeze:
a) Procentul de studenţi care trebuie să aştepte mai mult de 70
secunde;
b) Procentul de studenţi care trebuie să aştepte între 95 şi 170
secunde;
c) Câţi studenţi dintre 1000 care frecventează cantina respectivă
vor trebui să aştepte mai mult de 170 secunde ?
d) În ce interval de timp se plasează perioada de aşteptare pentru
circa 95% dintre studenţi ?
e) Propuneţi o procedură de estimare a procentului de studenţi
care vor aştepta la bandă cel puţin 160 de secunde ?
Soluţie
Ca şi în exemplul anterior, este util să se realizeze diagrama din
Fig.2.10 (asemănătoare cu fig. 2.9, dar adaptată la problema de faţă).
X − 3s X − 2s X −s X X +s X + 2s X + 3s
Fig. 2.10 Diagrama procentelor de apariţii în jurul mediei la distanţe multiplu de abaterea
standard, pentru distribuţia în formă de clopot.
48
b) Conform diagramei din Fig.2.10, procentul celor care
aşteaptă între 95 şi 170 secunde este de circa 2 × 34 + 13,5 = 81,5% .
49
Momentul de ordin r în raport cu originea – calculat
cu relaţia:
1 N r
M r = ∑ xi (2.30)
N i =1
Prin comparaţie cu (2.13), se constată că x = M 1 , deci media
setului de valori este chiar momentul de ordin unu în raport cu
originea.
50
Caracteristici de formă
51
3 ⋅ (x − ~
x)
a2 = , (2.36)
s
52
? Problema 2.3.1
Pentru datele de debite maxime anuale înregistrate pe Dunăre, la
Olteniţa, între 1921 – 1962, precizate în tabelul 2.1.1.a, alcătuiţi
tabloul distribuţiei de frecvenţă cu 7 clase de ecart h=1275 m3s-1,
începând de la valoarea minimă a1 = 7000 m3 ⋅ s −1 . Calculaţi măsurile
caracteristice de poziţie, dispersie şi formă (medie, abatere standard,
coeficient de variaţie, mediană, modă, interval intercuartile, coeficient
de asimetrie şi coeficient de boltire).
? Problema 2.3.2
Calculaţi măsurile caracteristice de mai sus pentru setul de
debite medii anuale la acelaşi post şi din aceeaşi perioadă (tabelul
2.1.2.a), clasate ca în tabelul 2.2.1.b.
? Problema 2.3.3
Reluaţi Problema 2.2.1 cu greutăţile celor 40 de rugbişti
prezentate în tabelul 2.2.4 şi calculaţi măsurile caracteristice ca în
cazul anterior, apelând pentru mediană şi cuartile la împărţirea pe 5
clase a datelor din problema menţionată.
a) Ce constataţi referitor la forma distribuţiei reflectată prin valorile
coeficienţilor de asimetrie ?
b) Cum apare moda faţă de medie şi mediană, prin prisma
observaţiei de mai sus ?
c) Dacă aţi raţionat corect la punctul d) al Problemei 2.2.1, aţi
dedus că în acest caz este aplicabilă regula empirică privind
împrăştierea datelor. Folosind media şi abaterea standard calculate şi
respectiv ogiva frecvenţelor cumulate, estimaţi în ce măsură se
verifică regula empirică pentru datele problemei de faţă. Comentaţi.
? Problema 2.3.4
Un alergător pe distanţe scurte a participat la curse de 100 m,
200 m şi 400 m împreună cu alţi competitori. Ştiind că timpii realizaţi
de atlet pe aceste distanţe, timpii medii şi abaterile standard la cursele
respective sunt ca în tabelul următor, să se aprecieze în care cursă a
înregistrat sportivul cea mai bună performanţă relativă
53
Cursă Timp alergător Timp mediu Abatere standard
(sec) (sec) (sec)
100 m 11,1 11,5 0,12
200 m 24,4 24,6 0,35
400 m 47,2 46,8 0,57
? Problema 2.3.5
Încercând să evite reproşurile părinţilor, un student mai ,,silitor,,
a decis ca pentru toate disciplinele din anul întâi să le comunice
punctaje obţinute la activităţile aferente (seminar, laborator, lucrări de
casă, examene finale) cu 25 puncte mai mult.
a) Dacă aceste punctaje (din 100) au fost: 92, 87, 53, 73,
65, 83, 77, 60, 50, 75, 80 şi 62, să se determine media şi abaterea
standard a punctajelor reale obţinute în anul respectiv.
b) Folosind inegalitatea lui Cebâşev şi observând punctajul
minim real, faceţi o estimare aproximativă a numărului de examene
trecute cu cel puţin 50 de puncte şi respectiv al celor restante (prin
rotunjire în favoarea lui !)
54
3. NOŢIUNI DE BAZĂ PRIVIND
PROBABILITĂŢILE
ŞI VARIABILELE ALEATOARE
3.1 Unele definiţii
Exemple:
9
Experiment aleator (sau statistic sau stocastic) =
orice acţiune / operaţiune:
- repetabilă în condiţii similare,
- al cărei rezultat nu se cunoaşte dinainte,
- dar pentru care se cunosc mulţimea rezultatelor posibile.
Exemple:
10
Pentru simplificare, se rezumă acum discuţia la V.A. discrete.
11
Reuniunea evenimentelor A şi B se notează prin A∪B şi este
evenimentul care conţine toate elementele aparţinând fie lui A, fie
lui B, fie ambelor.
Se reprezintă prin regula A ∪ B = {x x ∈ A....sau...x ∈ B}.
Altfel spus A∪B se realizează când cel puţin unul dintre A şi B
se realizează.
12
În exemplul din Fig. 3.1., în spaţiul S sunt definite două
evenimente compatibile A şi B,
care prin intersecţia lor generează evenimenul C = A∩B
reprezentat haşurat.
Desigur că eliminând C din contururile evenimentelor A şi
respectiv B, rămân trei evenimente mutual exclusive (incompatibile)
şi anume C, A-C şi B-C.
De pe aceeaşi diagramă se poate constata că evenimentul A∪B
este reprezentat de conturul lui A plus conturul lui B-C (sau B plus
A-C).
C=A∩B
Noţiunea de probabilitate
13
n
P( A) = A n→∞ (3.1)
n
cu n A - numărul de realizări ale evenimentului A din numărul n,
foarte mare, de experimente.
14
Există şi permutări mai complexe cum ar fi :
n
Evident An = Pn (deoarece prin definiţie o != 1 );
Ann−1 = Ann şi Ano = 1
15
Numărul aranjamentelor cu repetiţie a n obiecte luate câte
k este
Ank = n k (3.6)
şi în cazul celor n = 3 litere, luate câte k = 2 cu repetiţie
rezultă 3 2 = 9 variante
adică S = {aa; bb; cc; ab; ba; ac; ca; bc; cb }
16
Numărul combinărilor cu repetiţie a n obiecte luate câte k
este
C nk = C nk+ k −1
Exemplul 3.1.1
Dacă spaţiul de selecţie într-un experiment statistic
este format din elemente reprezentate, fiecare, de un grup format din
trei litere (a, b, c ) , dar cu posibilitatea de repetiţie a aceleiaşi litere
până la de trei ori într-un grup, să se precizeze conţinutul complet al
lui S.
Soluţie
Este vorba de permutări cu repetiţie a trei obiecte, iar numărul
acestora este dat de relaţia (3.3).
3
Rezultă P3 = 3 = 27 grupuri distincte, astfel încât conţinutul
complet al spaţiului de selecţie va fi:
17
Exemplul 3.1.2
Soluţie
a) Fie cele 4 obiecte literele a, b, c, d
La aşezarea lor în linie se pot forma permutări de 4 grupe
distincte adică P4 = 4!= 24 grupe .
Pentru a găsi cele 24 de variante cel mai simplu ar fi:
- Să se păstreze prima literă fixă şi să se permute celelalte 3 în
cele 3 != 6 moduri posibile. Rezultă linia de grupe:
abcd acdb adbc abdc acbd adcb
- Pe coloana fiecărei grupe din prima linie să se aducă în prima
poziţie a doua literă, apoi a treia şi în final a patra, mutând la coadă
pe cea din prima poziţie. Rezultă:
bcda cdba dbca bdca cbda dcba
cdab dbac bcad dcab bdac cbad
dabc bacd cadb cabd dacb badc
a c a d a b a d a b a c
d b c c d b
18
Exemplul 3.1.3
S-a constatat că din 100 de cititori ai presei cotidiene:
35 citesc ziarul Cotidianul (C); 49 citesc Evenimentul zilei (E); 32
citesc ziarul Adevărul (A); dar 11 citesc atât C cât şi E; 9 citesc C şi
A; 13 citesc E şi A, iar 5 le citesc pe toate trei. Alcătuiţi diagrama
Venn pentru datele de mai sus şi indicaţi în fiecare contur închis
format, care este numărul de realizări (aici cititori)
Soluţie
E
6 30
C
20
5
4 8
15
A
12
19
Însumând datele de mai sus rezultă că 88 dintre cei 100 cititori
cumpără cel puţin unul dintre cele trei ziare menţionate, în timp ce
restul de 12 preferă alte publicaţii sau niciuna.
Exemplul 3.1.4
Soluţie
Numărul total de rezultate posibile este egal cu n = 6 × 6 = 36
(oricare latură a unui zar cu oricare latură a celuilat)
Suma punctelor de pe cele două feţe poate lua doar valorile:
S = {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12}
Dacă se contorizează suma punctelor de pe cele două feţe în cele
36 de variante posibile prezentate în tabelul 3.1.1, se constată că
evenimentele simple din spaţiul S. se realizează în câte un număr de
variante posibile ca în vectorul n A următor
n A = {1; 2; 3 4; 5; 6; 5; 4; 3; 2; 1}
Tabelul 3.1.1
Rezultate posibile la aruncarea a două zaruri
1,1 1,2 1,3 1,4 1,5 1,6
2,1 2,2 2,3 2,4 2,5 2,6
3,1 3,2 3,3 3,4 3,5 3,6
4,1 4,2 4,3 4,4 4,5 4,6
5,1 5,2 5,3 5,4 5,5 5,6
6,1 6,2 6,3 6,4 6,5 6,6
20
b) Probabilitatea ca suma cifrelor să rezulte 11 va fi:
n A10
P(e10 = {11}) =
2
⋅ 100 = ⋅ 100 = 5,56%
n 36
c) Deoarece numărul maxim din vectorul n A este 6 şi se
plasează la poziţia a 6-a rezultă că evenimentul simplu cel mai
probabil din S este e6 = {7} , şi are probabilitatea de apariţie
P(e6 ) =
6
⋅ 100 = 16,67%
36
________________________________________________________
Exemplul 3.1.5
Dacă la experimentul statistic din exemplul anterior
se admite ca variabilă observată numărul de pe zarul cel mai mare
sau numărul comun (la dublă), găsiţi probabilitatea ca rezultatul
(realizarea) să fie:
a) număr par (evenimentul compus A);
b) număr mai mare decât 4 (evenimentul compus B);
c) număr par sau mai mare decât 4 (evenimentul A U B );
d) număr par şi mai mare decât 4 (evenimentul A I B ).
Soluţie
21
c) Evenimentul A U B (variabila cu realizare număr par sau
〉 4 ) apare în 30 dintre variante, astfel că
P( A U B ) =
30
⋅ 100 = 83,33%
36
Exemplul 3.1.6
Estimaţi probabilitatea ca două persoane anumite
dintr-un grup de 10 persoane aşezate aleatoriu în jurul unei mese
rotunde, să se afle pe locuri învecinate.
Soluţie
22
? ..Problema 3.1.1
Presupunând că nu se dispută nici o partidă, în câte moduri ar
putea să arate clasamentul unei competeţii la care s-au înscris 10
echipe?
? ..Problema 3.1.2
În câte moduri se pot ocupa poziţiile de preşedinte,
vicepreşedinte şi secretar în Biroul Executiv, format din 10 membri, al
unui partid politic ?
? ..Problema 3.1.3
Un grup de 5 copii este alcătuit din 2 gemeni identici şi respectiv
3 tripleţi identici. Câte aranjări diferite în formaţiune de câte 5 se pot
face cu grupul respectiv şi reprezentaţi-le grafic ?
? ..Problema 3.1.4
Ajunsă în faţa unui bancomat, o persoană mai în vârstă constată
că nu-şi mai aduce aminte din codul PIN de 4 cifre decât pe prima şi
faptul că toate cifrele diferă între ele. Care este probabilitatea ca din
primele 5 încercări să reuşească să-şi scoată banii necesari, dacă
tastează corect variante de cod posibile ?
23
3.2. Axiome fundamentale şi probabilităţi
condiţionate
S-a menţionat că probabilitatea unui eveniment A definit pe
spaţiul de selecţie S este:
0 ≤ P ( A) ≤ 1 (3.8)
şi s-a definit evenimentul sigur pentru care:
P(S ) = 1 , (3.9)
cu semnificaţia că la un experiment stocastic se obţine în mod cert
un rezultat oarecare din spaţiul de selecţie S al problemei
P ( A U B ) = P ( A) + P (B ) − P ( A ∩ B ) (3.10)
P ( A U B ) = P ( A) + P (B ) (3.11)
24
Dacă B = A (complementul lui A în raport cu S),
deoarece A ∪ A = S şi A ∩ A = φ , iar P(S ) = 1 - v. (3.9), rezultă că:
()
1 = P ( A) + P A
sau ()
P A = 1 − P ( A) (3.12)
( )
Simbolul P B A defineşte probabilitatea de realizare a lui B
ştiind că evenimentul A deja s-a realizat.
Se numeşte probabilitate condiţionată (impune condiţia ca
A să fi apărut în prealabil) şi se defineşte prin:
P( A ∩ B )
P(B A) = dacă P( A) > 0 (3.14)
P ( A)
unde P( A ∩ B ) şi P( A) sunt calculate în raport cu S.
P( A ∩ B ) = P( A) ⋅ P(B A) (3.15)
utilizabilă pentru calculul probabilităţii evenimentului A intersectat
cu B.
25
Deoarece A ∩ B = B ∩ A , în locul lui (3.15) se poate scrie şi
P ( A ∩ B ) = P (B ∩ A) = P (B ) ⋅ P ( A B ) (3.16)
26
Teorema este utilă în special când trebuie evaluate
probabilităţile condiţionate P(Br A) , pentru r = 1,2,..., k .
Deoarece prin definiţie
P ( Br ∩ A )
P(Br A) =
P ( A)
folosind la numitor probabilitatea totală P( A) dată de (3.21) se obţine:
P ( Br ) ⋅ P ( A Br )
P(Br A) =
k , pentru r = 1,2,..., k (3.22)
∑ P(Bi ) ⋅ P(A Bi )
i =1
relaţie cunoscută sub numele de regula (formula) lui Bayes.
Exemplul 3.2.1
Reluând problema celor 100 cititori de presă din
Exemplul 3.1.3, să se găsească probabilitatea ca o persoană aleasă
aleator din acest grup:
a) Să nu citească nici unul dintre cele 3 ziare;
b) Să citească Cotidianul sau Evenimentul zilei
c) Să citească Adevărul, ştiind că ea citeşte Cotidianul;
d) Să citească Evenimentul zilei şi Adevărul, dar să nu citească
Cotidianul;
e) Să nu citească Cotidianul sau să nu citească Adevărul.
Soluţie
a) Revăzând datele, 88 persoane citesc cel puţin un ziar din cele
trei, iar 12 persoane din 100 citesc alte publicaţii.
Rezultă pentru punctul a) probabilitatea
P(a ) =
12
⋅ 100 = 12%
100
b) Cotidianul şi Evenimentul zilei sunt citite de 35+49=84
persoane, dar dintre ei 11 le citesc pe ambele şi nu pot face parte din
cei 84. Rezultă atunci
84 − 11
P(C ∪ E ) = ⋅ 100 = 73%
100
27
c) Cotidianul este citit de 35 persoane, iar 9 citesc şi Adevărul.
Rezultă probabilitatea condiţionată
P(A C ) =
9
⋅ 100 = 25,71%
35
d) Evenimentul zilei şi Adevărul sunt citite doar de 8 persoane.
Rezultă pentru punctul d) probabilitatea
P(d ) =
8
⋅ 100 = 8%
100
e) Deoarece 9 persoane din 100 citesc Cotidianul şi Adevărul,
probabilitatea de a nu citi Cotidianul sau a nu citi Adevărul va fi
100 − 9
P(e ) = ⋅ 100 = 91%
100
Altă rezolvare
Fie C şi A evenimentele de a nu citi Cotidianul şi respectiv
Adevărul. Având în vedere datele din enunţ
()
PC =
100 − 35 65
100
=
100
şi ()
PA =
100 − 32 68
100
=
100
Din regula aditivităţii se ştie că
( ) () () (
P(e ) = P C ∪ A = P C + P A − P C ∩ A = )
= P (C ) + P (A) − P (C )⋅ P (A C )
Probabilitatea condiţionată a evenimentului A , când se
cunoaşte că C a avut loc se estimează astfel:
- din 100 persoane sunt 65 care nu citesc C
- dintre cei 65 se ştie că 12 nu citesc nimic şi 30 citesc
Evenimentul zilei (restul citind A sau A+E)
( )
Rezultă atunci că P A C =
12 + 30 42
65
=
65
Înlocuind în relaţia de mai sus probabilităţile găsite, se obţine
(
P(e ) = P C ∪ A = )65
+
68
−
65 42 91
100 100 100 65 100
⋅ =
28
Exemplul 3.2.2
Soluţie
a) Notând cu
A evenimentul că mâna nu conţine nici un as, cu
B evenimentul că include un as şi cu
C evenimentul că s-au nimerit 2 aşi,
evenimentele respective sunt mutual exclusive, iar evenimentul de a
avea cel mult 2 aşi în mână este reprezentat de reuniunea A ∪ B ∪ C .
Presupunând evenimentul C şi
separând cei 4 aşi de restul cărţilor,
aceştia se pot extrage în grupe de câte doi în C 42 variante
distincte.
Din restul de 48 cărţi, celelalte 3 cărţi necesare unei mâini se
3
pot grupa în C 48 moduri diferite.
Rezultă că numărul total de variante ale evenimentului C este
nC = C 42 ⋅ C 48
3
, iar probabilitatea evenimentului C este, conform
definiţiei
2 3
nC C 4 ⋅ C 48
P(C ) =
N
=
5 şi rezultă P(C ) = 0,03993
C52
Raţionând în mod similar, numărul de variante posibile ale
1 4
unei mâini cu un singur as este n B = C 4 ⋅ C 48 ,
iar pentru evenimentul A (mână fară nici un as): n A = C 40 ⋅ C 48
5
.
Rezultă probabilităţile:
29
C 40 ⋅ C 48
5
C 14 ⋅ C 48
4
P ( A) = = 0,65884 P (B ) = = 0,29947
5 5
C52 C52
Deoarece în cazul evenimentelor mutual exclusive
P( A ∪ B ∪ .C ) = P( A) + P(B ) + P(C ) ,
rezultă că probabilitatea de a primi o mână cu cel mult 2 aşi este:
P( A ∪ B ∪ .C ) = 0,65884 + 0,29947 + 0,03993 = 0,99824
Exemplul 3.2.3
Pentru un jucător la 6 din 49 există 12 numere
speciale distincte (vârsta lui, numărul de la pantofi, data zilei de
naştere a copilului, etc.) din care compune variante de joc. Care este
probabilitatea ca la o extragere aleatoare, aceasta să conţină:
a) Două numere speciale pentru jucător ?
b) Dar cinci numere speciale ?
Soluţie
6
La extragerea 6 din 49 există evident N = C 49 variante distincte
echiprobabile.
6 49!
Deoarece C 49 = = 13 983 816 , rezultă că probabilitatea de
6! 43!
extragere a unei anumite variante este de 1 la aproape 14 milioane.
Notând
cu n = 49 numărul de bile din aparat,
cu t = 6 talia extragerii,
cu s = 12 numărul de bile speciale pentru jucător şi
cu d – numărul de bile speciale aflate printre cele t extrase,
30
numărul de variante de extragere a d bile speciale este egal cu
C sd înmulţit cu C n − s , unde d ≤ min (s, t ) ,
t −d
adică
numărul de variante de combinare a celor s speciale în grupe
de câte d dorite,
înmulţit cu numărul de variante de combinare a celor
nespeciale din total (n − s ) , în grupe de câte se acceptă nespeciale
dintre cele extrase (t − d ) .
Exemplul 3.2.4
Serviciul de control a calităţii a constatat statistic, în
timp, că trei muncitori A, B şi C sunt capabili să realizeze câte 100
piese simple de un anumit tip într-o oră, dar cu câte 1, 2 şi respectiv
4 rebuturi la suta de piese.
Într-o anumită oră de lucru, A a produs 95 piese, B a produs 103
piese şi C doar 92 piese.
Alegând la întâmplare una dintre piesele produse în ora
respectivă şi observând că este defectă, care sunt probabilităţile ca ea
să fie realizată de A, B şi respectiv C ?
31
Soluţie
0,314 ⋅ 0,04
= 0,31 şi P(C R ) =
0,355 ⋅ 0,02
La fel, P(B R ) = = 0 ,55
0,02306 0,02306
32
Ţinând seama de randamentele lor anterioare, probabilităţile
actualizate îl indică de departe pe C ca posibil autor (55% şansă) şi
pe A cel mai improbabil (14% şansă).
? ..Problema 3.2.1
Verificaţi regula aditivităţii pe datele problemei din Exemplul
3.1.5 şi aflaţi probabilitatea evenimentului număr par ştiind că este
mai mare decât 4.
? ..Problema 3.2.2
La revenirea din vacantă, 100 de studenţi aleşi aleatoriu din cei
1750 studenţi ai facultăţii, au fost chestionaţi în legătură cu excursiile
în care şi-au petrecut săptămânile de vacanţă. Dintre aceştia 55 au
declarat câte o săptămână pe litoral (L), 30 – câte o săptămână la
munte (M) şi 24 – câte o săptămână în străinătate (S). 17 studenţi au
declarat vacanţe de câte 2 săptămâni şi anume: 6 la munte şi pe litoral;
7 la munte şi în străinătate şi 4 în străinătate şi pe litoral; iar 5 au
petrecut 3 săptămâni, câte una la munte, în străinătate şi pe litoral.
Folosiţi diagrama Venn pentru a afla:
a) Procentul celor care n-au declarat nici o destinaţie de vacanţă;
b) Procentul celor care au fost pe litoral sau la munte;
c) Procentul celor care au fost sau pe litoral sau în străinătate
sau la munte;
d) Procentul celor care au fost în străinătate ştiind că au fost şi
pe litoral;
e) Estimaţi numărul de studenţi din facultate care îndeplinesc
condiţiile de la punctele a) la d);
f) Dacă vacanţa efectivă are 6 săptămâni, ce procent din
perioada de vacanţă au petrecut cei 1750 studenţi în excursii la munte,
pe litoral sau în străinătate ?
? ..Problema 3.2.3
Dintr-un lot de 100 becuri verificate la stand s-au depistat 5
defecte însă din greşeală au plecat toate la împachetat. Ştiind că se
alcătuiesc baxuri având câte 10 becuri ambalate, care este
probabilitatea ca un bax ales aleator să conţină:
a) Un bec defect;
b) 3 becuri defecte;
c) Toate cele 5 becuri defecte ?
33
Distribuţii de variabile aleatoare
34
Când valorile p ( xi ) se definesc prin intermediul unei funcţii,
se utilizează şi noţiunea de lege de probabilitate a V.A X.
Exemplu
Fie experimentul statistic lansarea unui zar cinstit,
cu spaţiul de selecţie discret S = {1;2;3;4;5;6}.
35
- Dacă prima aruncare a fost un eşec şi este nevoie de a doua -
probabilitatea de a rezulta 5 rămâne 1 (aruncările fiind
6
experimente independente),
iar probabilitatea de reuşită acum se obţine aplicând regula
multiplicativă (3.17) asupra probabilităţii curente 1 şi a celei de
6
eşec la anterioara lansare, adică
p(2 ) = P( X = 2 ) =
5 1
⋅
6 6
- Cu nereuşită la a doua încercare (de probabilitate P (A) = )
5
6
probabilitatea de succes la a treia va fi
2
5 5 1 5 1
p(3) = P( X = 3) = ⋅ ⋅ = ⋅
6 6 6 6 6
- Generalizând pentru încercarea k rezultă
k −1
5
p(k ) = P( X = k ) = ⋅
1
6 6
iar tabloul V.A X definită în acest fel va fi
1 2 3 ... k ...
k −1
X :1 5 52 5
... ...
6 62 63 6k
(3.24)
36
Suma probabilităţilor p(xi ) dintr-un tablou ca (3.23) trebuie să
fie egală cu 1, (semnificând că V.A X ia cu certitudine o valoare
oarecare xi din S la realizarea unui experiment statistic dedicat).
x* →∞
( )
lim F X x * = 1 şi lim F X x * = 0
x* → − ∞
( ) (3.26)
37
În cazul distribuţiei geometrice (3.24) cu q = 0,4, primele
5 probabilităţi asociate valorilor X = 1; 2; ...; 5 sunt p = 0,4; 0,24;
0,144; 0,0864 şi 0,0518, iar histograma are alura din Fig. 3.2.
p(x )
0,4
0,3
0,2
0,1
x
0 1 2 3 4 5
38
Funcţia f (x ) poate avea alura din Fig. 3.3, cu proprietăţile că:
i) suprafaţa dintre graficul ei şi axa absciselor este egală cu 1;
ii) suprafaţa dintre graficul ei, axa absciselor şi verticalele
ridicate prin două puncte x = a şi x = b redă probabilitatea ca
V.A. X să ia valori din acest interval, adică:
b
P(a < X ≤ b ) = ∫ f (x )dx (3.29)
a
f (x )
dx
f ( x )dx
( )
x*
FX x * = ∑ p(x ) (3.30)
−∞
( )
x*
FX x* = ∫ f (x )dx (3.31)
−∞
şi în plus:
( )
f x =
* dFX x * ( ) (3.32)
dx
39
Având în vedere relaţia (3.31), în loc de (3.29) se poate scrie:
40
Semnificaţia speranţei matematice (sau a valorii aşteptate a
V.A.) = valoare medie a V.A. X rezultată din experimente repetate
indefinit, care generază valori pentru X.
µ Xr = ∑ p( xi )( xi − µ X )r sau µ Xr = ∫ ( x − µ X ) f ( x )dx
r
(3.39)
S S
41
Coeficienţii de variaţie, asimetrie şi aplatisare ai
V.A. X se definesc prin intermediul momentelor, cu relaţiile:
σ µ3 µ4
µ; şi
σ3 σ4
discretă,
atunci se pot utiliza următoarele relaţii de calcul:
µ aX +b = aµ X + b ; µ aX = aµ X
σ 2X +b = σ 2X ; σ 2aX +b = a 2 σ 2X (3.42)
42
Cazul variabilelor aleatoare multiple
-------------------------------------------------------------------------------
Exemple
43
Dacă se însumează pentru toate valorile lui Y la valori fixe ale
lui X, rezultă distribuţia discretă de probabilitate doar a lui X, cu
valorile notate prin g ( xi ) .
Invers, dacă se însumează pentru toate valorile lui X la valori
fixe ale lui Y, rezultă distribuţia discretă de probabilitate doar a lui
Y, având valorile notate prin h( y j ) .
( )
În mod asemănător, funcţia f x y = f ( x, y ) h( y ) este o
funcţie doar de x şi se numeşte distribuţie condiţionată a V.A. X
ştiind că Y = y .
44
Fie X şi Y două V.A. discrete sau continue şi distribuţia lor
comună f (x, y ) , iar distribuţiile marginale g (x ) şi respectiv h( y ) .
45
Expresia normalizată a lui s XY se numeşte coeficient de
corelaţie lineară şi este dat de
s
rXY = XY (3.47)
s X sY
adică raportul covarianţei la produsul abaterilor standard ale celor
două variabile observate.
46
Dacă V.A. Z este dată de produsul a două V.A. X şi Y adică
Z=XY, media lui Z rezultă
µ Z = µ X .µ Y + σ XY (3.50)
În cazul unei V.A. care este funcţie mai complicată de alte V.A.,
sub forma generală Z=φ(X,Y,…),
nu se pot găsi relaţii exacte pentru µ Z şi σ 2Z ca mai sus.
Se folosesc diverse metode aproximative:
- linearizarea prin dezvoltare în serie Taylor cu păstrarea
primilor termeni şi prelucrarea lor sau
- metoda Rosenblueth bazată pe discretizarea funcţiilor de
densitate în distribuţii discrete echivalente.
Exemplul 3.3.1
În cadrul unui team-building organizat de o firmă
pentru noii angajaţi, trebuie alcătuit aleator un echipaj de 5 persoane
pentru coborârea cu barca pe un curs de apă, dintr-un lot de 4 bărbaţi
şi 6 femei încă nerepartizaţi. Dacă variabila aleatoare discretă X este
definită prin numărul de bărbaţi din echipaj, să se găsească:
a) Distribuţia de probabilitate a lui X;
b) O relaţie de calcul pentru distribuţia de probabilitate a V.A.
discretă X;
c) Să se reprezinte grafic histograma de probabilitate pentru
distribuţia lui X
47
Solutie
a) V.A. discretă poate lua doar valorile 0; 1; 2; 3; 4, în timp ce
spaţiul de selecţie pentru un echipaj de 5 persoane, posibil de format
5
dintr-un lot de 4+6=10, conţine N = C10 = 252 realizări distincte.
0 5
Există C 4 C 6 = 6 variante distincte de formare a echipajului de
5 persoane doar dintre cele 6 femei. Deci probabilitatea formării
unui echipaj fără bărbaţi este
C 40 C 65 6 3
P( X = 0) = = =
N 252 126
În mod similar, numărul de variante cu un singur bărbat în
1 4 60 30
echipaj este C 4 C 6 = 60 şi P( X = 1) = = .
252 126
C 42 C 63 120 60
Pentru X=2 rezultă P( X = 2) = = = .
N 252 126
C 43C 62 30
Pentru X=3 rezultă P( X = 3) = = .
N 126
3
Pentru X=4 rezultă P( X = 4) = .
126
Distribuţia de probabilitate a V.A. X va fi
xi 0 1 2 3 4
p(x i 3 30 60 30 3
) 126 126 126 126 126
48
Atunci formula pentru distribuţia de probabilitate a lui X
va fi
C 4x C 65− x
p( x) = ,
5
C10
cu x= 0, 1, 2, 3, 4 sau - mai detaliat -
480
p( x) =
7(5 − x)!(4 − x)!( x!) 2 , cu x= 0,1,…4.
0,4
0,3
0,2
0,1
x
0
0 1 2 3 5
Histograma de probabilitate pentru Exemplul 3.3.1
49
Exemplul 3.3.2
Ştiind că o V.A. continuă X, poate lua valori pe
intervalul x ∈ [2;6] şi are funcţia de densitate de probabilitate
f ( x ) = 0,075.x − 0,05
a) Să se arate că P(2 < x < 6) = 1 .
b) Să se găsească P(x < 5) .
c) Să se găsească P(3 < x < 5) .
d) Să se găsească P(x = 5) .
Soluţie
a) Graficul funcţiei de densitate f ( x ) pe domeniul lui x este
reprezentat în figura următoare.
f(x)
0,5
0,4
0,3
f(x)
0,2
0,1
x
0
1 2 3 4 5 6
Aa =
[ f ( x1 ) + f ( x2 )]( x2 − x1 ) = [ f (2) + f (6)](6 − 2) = (0.1 + 0.4)4 = 1.
2 2 2
Deci într-adevăr probabilitatea ca V.A. X definită prin f ( x ) să
ia orice valoare din x ∈ [2;6] este 100%.
50
b) P(x < 5) corespunde trapezului haşurat spre dreapta, de arie
Ab =
[ f (2) + f (5)](5 − 2) = (0.1 + 0.325) ⋅ 3 = 0.6375
2 2
deci P( x < 5) =63.75%.
Exemplul 3.3.3
Într-un recipient sunt amestecate 9 piese
asemănătoare dintre care 4 sunt perfecte (B); 3 au mici defecţiuni
reparabile (R) şi 2 sunt rebuturi (D). Din recipient se extrag 3 piese
fără reinserţie.
Se notează prin X variabila aleatoare reprezentând numărul
de piese defecte (D) extrase şi cu Y variabila aleatoare reprezentând
numărul de piese reparabile (R) extrase.
a) Să se găsească distribuţia de probabilitate comună (legată) a
lui X şi Y.
b) Să se găsească probabilitatea P[( X , Y ) ∈ A] , unde A este o
zonă din spaţiul de selecţie astfel încât {(x, y )! x + y ≤ 2}
c) Să se găsească distribuţiile marginale pentru X şi Y.
d) Să se găsească distribuţia condiţionată f ( y ¦ 2 ) pentru toate
valorile lui y, precum şi P(Y = 1 X = 2 ) .
e) Să se determine dacă V.A. X şi Y sunt statistic independente.
f) Să se găsească media V.A. Z definită prin Z=XY.
51
Soluţie
Rezultă că f (1,2) =
6
.
84
Procedând în mod similar pentru a afla probabilităţile celorlalte
combinaţii ( x, y ) posibile, se găsesc datele din matricea
distribuţiei de probabilitate comună prezentată mai jos:
Probabilităţi f (xi , y j )
xi
yj 0 1 2 ∑ pe linii
0 4/84 12/84 4/84 20/84
1 18/84 24/84 3/84 45/84
2 12/84 6/84 - 18/84
3 1/84 - - 1/84
∑ pe 35/84 42/84 7/84 1
coloane
52
Expresia analitică pentru această distribuţie se scrie
y 3−( x + y )
C 2x C 3 C 4
f ( x, y ) = ,
C 93
pentru x=0,1,2; y=0,1,2,3 şi 0 ≤ x + y ≤ 3
53
d) Din definiţia distribuţiei condiţionate rezultă
f (2, y ) f (2, y )
f ( y 2) = = = 12 ⋅ f (2, y ) pentru y = 0, 1, 2, 3.
g (2 ) 7 84
Se obţine succesiv:
f (0 2 ) = 12 ⋅ f (2,0 ) = 12 ⋅ = ; f (1 2 ) = 12 ⋅ f (2,1) = 12 ⋅
4 4 3 3
= ;
84 7 84 7
iar f (2 2 ) şi f (3 2 ) sunt 0 deoarece f (2 2) = f (3 2) = 0 .
Deci
yj 0 1 2 3
f(y j /2) 4/7 3/7 0 0
Se constată că P(Y = 1 X = 2) = f (1 2) = .
3
7
∑ ∑ xi ⋅ y j ⋅ f (xi , y j )
2 3
E ( XY ) =
i =0 j =0
Cu datele din tabelul problemei, (unele fiind f ( x, y ) = 0 !),
E(X ,Y ) =
44
rezultă
84
54
? ..Problema 3.3.1
O persoană care doreşte să investească la bursă o anumită sumă de
bani pentru un an, are şansa ca dacă investeşte în acţiuni ale
Companiei A să câştige 3.000 RON cu probabilitatea de 40% sau să
piardă 1.000 RON cu probabilitatea de 60%, iar dacă investeşte în
acţiuni de la Compania B - să câştige 10.000 RON cu probabilitatea
de 20% sau să piardă 3.000 cu probabilitatea de 80%. Pentru care
acţiuni este recomandabil să opteze?
? ..Problema 3.3.2
Echipajul de 6 astronauţi al unei navete spaţiale se selectează
aleatoriu dintr-un grup de 5 ingineri, 4 biologi şi 3 fizicieni. Dacă
V.A. X = numărul de ingineri şi Y = numărul de biologi aleşi în
echipaj
a) Să se găsească distribuţia de probabilitate comună a lui X şi Y,
sub formă analitică şi tabelară
b) Dacă se ştie că deja s-a selectat 1 biolog în echipaj, care este
probabilitatea de a avea şi cel puţin 2 ingineri pentru a se putea ocupa
de problemele de pilotaj şi alte activităţi tehnice de la bord?
? ..Problema 3.3.3
Fie V.A. X cu distribuţia de probabilitate
xi 1 2 3 4
p ( xi ) 0,1 0,2 0,3 0,4
a) Să se găsească media funcţiei de variabila aleatoare
v1 ( x ) = (3 x − 1)
2
? ..Problema 3.3.4
Fie X şi Y două V.A. independente, cu varianţele σ X = 2 şi
2
55
4. LEGI DE PROBABILITATE FOLOSITE
FRECVENT
9
Valorile acestei distribuţii se vor nota cu b( x ; n, p ) şi sunt date
de
b( x ; n, p ) = C nx ⋅ p x ⋅ q n− x pentru x = 0,1,..., n (4.1)
unde q = 1 − p este probabilitatea de eşec la o încercare.
( ) ∑ Cnx
i i
n− x j
F ( X = xi ) = ∑ b x j ; n, p = j xj
p q (4.3)
j =0 j =0
10
atunci variabilele aleatoare X 1 , X 2 ,..., X k reprezentând numărul de
apariţii al lui E1 , E 2 ,..., E k se numesc V.A multinomiale şi
distribuţia lor de probabilitate este distribuţia multinomială.
11
Aici interesează V.A discretă X care reprezintă numărul de
succese dintr-o extragere aleatoare de n obiecte.
Ea se numeşte V.A hipergeometrică, iar distribuţia sa de
probabilitate – distribuţie hipergeometrică.
Acest de tip de distribuţie s-a folosit deja Ex. 3.2.2, Ex. 3.2.3, etc.
12
k k
în condiţiile ∑ xi = n şi ∑ ai = N ,
i =1 i =1
se defineşte o funcţie de distribuţie multihipergeometrică de
forma:
x x x
C a 1 C a 2 ...C a k
mh(x1 , x 2 ,...x k ; a1 , a 2 ,...a k ; N , n ) = 1 2 k
(4.8)
n
CN
13
4.1.6. Distribuţia Poisson
Experimentele referitoare la valorile unei V.A X reprezentând
numărul de realizări ce apar într-un interval de timp dat sau într-o
zonă spaţială dată se numesc experimente Poisson şi au proprietăţile:
14
Funcţia de repartiţie corespunzătoare valorii X = xi va fi
dată de relaţia:
x
∑ p(x j ; µ ) = e
i i
µ j
F ( X = xi ) = −µ
∑ x! (4.13)
j =0 j =0 j
Exemplul 4.1.1
Un trăgător cu arcul nimereşte o ţintă fixă în 4
încercări din 6. Care este probabilitatea ca într-o serie viitoare de 6
încercări
a) Să lovească ţinta de 2 ori ?
b) Dar de 5 ori ?
c) Care este probabilitatea de a nu avea mai mult de 4 reuşite ?
Soluţie
Acesta poate fi privit ca un experiment binomial cu n = 6
încercări, în care un succes înseamnă atingerea ţintei.
Din seturile anterioare se ştie că probabilitatea succesului la o
4 4 2
încercare este p = , iar a eşecului q = 1 − =
6 6 6
a) Probabilitatea ca în seria de 6 curentă să aibă 2 reuşite este:
2 4
2 4 2
b(2;6; 4 6 ) = C 6 = 0,082
6 6
b) Probabilitatea a 5 reuşite va fi:
5 1
2
4
b(5;6; 4 6 ) = C 65
= 0,263
6
6
15
c) Probabilitatea a cel mult 4 reuşite pe set, adică P(0 ≤ X ≤ 4)
este egală cu valoarea funcţiei de repartiţie (probabilitate cumulată)
corespunzătoare lui X = 4, adică
4 4 xi 6− xi
x 4 2
F ( X = 4) = ∑ b(xi ;6, 4 6) = ∑ C6 i
i =0 i =0 6
6
unde xi sunt: 0, 1, 2, 3 şi 4.
După un calcul simplu se găseşte FX ( X = 4) = 0,65 şi deci, cu
probabilitatea de 65%, arcaşul va avea cel mult 4 reuşite.
Exemplul 4.1.2
Într-un coş se găsesc bucăţi de pânză roşii, galbene şi
albastre. S-a constatat că la extrageri aleatoare de câte 15 bucăţi au
rezultat în medie câte 5 roşii şi 7 galbene. Care este probabilitatea ca
la o extragere următoare să se obţină pânzele necesare pentru 5
steaguri tricolore ?
Soluţie
Probabilităţile evenimentelor E1 (roşu), E 2 (galben) şi E3
(albastru) sunt:
5 1 7 15 − 5 − 7 3 1
p1 = = ; p2 = ; p3 = = = .
15 3 15 15 15 5
Admiţând un experiment multinomial, probabilitatea ca într-o
extragere de 15 bucăţi să avem câte 5 din fiecare culoare, adică
x1 = 5 , x 2 = 5 , x3 = 5 va fi dată de (4.4), adică:
5 5 5
1 7 1 15! 1 7 1
m 5,5,5; , , ;15 = = 0,022
3 15 5 5! 5! 5! 3 15 5
deci circa 2,2%.
16
Exemplul 4.1.3
Soluţie
a) Este vorba despre o distribuţie hipergeometrică având N =
52, n = 5 şi k = 4 ⋅ 4 = 16 cărţi figuri în pachet.
Conform (4.5) probabilitatea a x = 5 succese (figuri) în mâna
5 0
C16 C36
de 5 cărţi este de h( X = 5;52,5,16 ) = = 0,0017
5
C52
Exemplul 4.1.4
Într-un lot de 20000 păpuşi vorbitoare, 2000 au
sistemul de sunet defect. Un magazin de jucării primeşte 20 de păpuşi
din lotul respectiv. Care este probabilitatea ca exact 3 dintre cele 20
să aibă acest defect ?
17
Soluţie
Este vorba de o distribuţie hipergeometrică, cu N = 20000 şi n =
20.
Deoarece n este mult mai mic decât N, se poate aproxima
distribuţia respectivă printr-o distribuţie binomială.
Exemplul 4.1.5
Aflaţi probabilitatea ca acelaşi zar să iasă de trei ori
din 6 aruncări.
Soluţie
În problemă, V.A este numărul de încercări după care apare al
treilea succes. Deci este vorba despre un experiment binomial
negativ, având
x = 6 (numărul de aruncări),
k = 3 (numărul de apariţii a aceluiaşi zar)
şi p = 1 6 probabilitatea apariţiei zarului de interes la o
încercare.
Probabilitatea ca din 6 aruncări să apară de 3 ori acelaşi zar se
obţine cu (4.9), adică: b * ( x; k , p ) = C xk−−11 p k q x −k
unde X = 6 , k = 3 , p = 1 6 şi q = 1 − 1 6 = 5 6
3 3
1 5
Rezultă b (6;3,1
*
6 ) = C52 = 0,027
6 6
18
Exemplul 4.1.6
Numărul mediu anual de accidente rutiere grave pe
dealul Feleacului este de 6. Să se găsească probabilitatea ca într-un
an dat să se producă acolo 8 accidente grave.
Soluţie
În acest experiment Poisson, V.A X este numărul de accidente
produse într-un an dat în zona respectivă, ştiind că media anuală
este µ = 6 .
Conform (4.11) probabilitatea valorii x pentru distribuţia
Poisson este:
µx
p( x; µ ) = e −µ
x!
Aici interesează probabilitatea pentru X = 8 şi µ = 6 , rezultând
8
p(8;6 ) = e −6 6
= 0,103
8!
Exemplul 4.1.7
La o populaţie de 2,5 milioane locuitori, în Bucureşti
sunt rănite anual 250 de persoane pe treceri de pietoni.
Să se găsească probabilitatea ca în anul următor să existe mai
puţin de 8 accidentaţi în aceste condiţii la 100000 de locuitori.
Soluţie
La nivelul oraşului, probabilitatea de accidentare pe trecerea
250
de pietoni a unei persoane este de. p = = 0,0001
2500000
Dacă accidentarea unei persoane este privită ca un „succes”,
la n = 100000 de locuitori,
numărul mediu de accidentaţi anual este
µ = n ⋅ p = 100000 ⋅ 0,0001 = 10 .
V.A X reprezentând numărul de persoane accidentate astfel, este
o V.A binomială cu distribuţia b( x ;100000,0,0001) .
19
Totuşi, s-a menţionat că dacă n este foarte mare şi p apropiat de
0, distribuţia binomială poate fi aproximată satisfăcător printr-o
distribuţie Poisson cu media µ .
? ..Problema 4.1.1
Un şofer a constatat că este prins cu exces de viteză de către
60% dintre filtrele radar prin care trece. Dacă în călătoria din concediu
a trecut prin 10 filtre, care este probabilitatea să fi fost prins cu exces
de viteză
a) exact de 6 ori ?
b) între 4 şi 7 ori inclusiv ?
c) cel puţin de 8 ori ?
? ..Problema 4.1.2
Dintr-o subgrupă de 16 studenţi, 10 sunt băieţi şi restul fete.
Dacă pentru o lucrare de laborator se formează aleatoriu o echipă de 4
studenţi, care este probabilitatea ca echipa să conţină:
a) doar studente ?
b) doar băieţi ?
20
? ..Problema 4.1.3
Între 6000 de flori din aceeaşi specie, un grădinar a observat 900
cu un colorit aparte. După perioada de florescenţă a cules aleatoriu
seminţe de la 3 plante. Care este probabilitatea ca printre seminţe să
existe şi unele de la o floare de culoare deosebită ?
? ..Problema 4.1.4
Probabilitatea ca un student să scrie un program simplu de calcul
fără greşeli este de 0,4. Să se găsească probabilitatea ca el să realizeze
3 programe fără greşeli în nu mai mult de 5 ocazii.
? ..Problema 4.1.5
Pe străzile nereabilitate din Bucureşti se găsesc în medie câte 5
gropi cu diametrul mai mare de 20 cm la 1000 m 2 de şosea. Să se
determine probabilitatea ca pe 1000 m 2 oarecare să se întâlnească
a) 5 astfel de gropi
b) mai mult decât 5 astfel de gropi
? ..Problema 4.1.6
Bazat pe 85 ani de observaţii la o staţie hidrometrică,
probabilitatea apariţiei unui debit mai mare decât Q * este
( )
P Q ≥ Q * = 0,02326 . Admiţând debitele maxime anuale ca evenimente
independente, să se găsească probabilitatea ca în următorii 10 ani
*
a) să apară de 4 ori debite de viitură mai mari sau egale cu Q
b) să nu apară nici o dată un astfel de debit
Comparaţi rezultatele cu cele date de aproximarea prin
distribuţie Poisson.
21
4.2. Distribuţii de probabilitate continue
Se prezintă aspectele referitoare la un număr de distribuţii de
probabilitate continue - dintre cele cu utilizare mai frecventă în
aplicaţiile de analiză statistică a datelor experimentale.
f(x)
0,3
0,2 inflexiuni
0,1
P (x 1≤X ≤x 2)
x
0
x1 x2 μ-σ x= μ μ+σ
-2 0 2 4 6 8 10 12
22
Domeniul V.A. cuprinde axa absciselor, deci S = (− ∞; ∞ ) ,
iar valorile funcţiei de densitate pentru X = x se obţin cu :
2
1 x −µ
−
f (x ) =
1 2 σ
e , pentru − ∞ < x < ∞ (4.14)
σ 2π
cu π = 3,14159... şi e = 2,71828...
În (4.14) apar ca parametri atât media µ , cât şi abaterea
standard σ .
În mod prescurtat, distribuţia normală se notează N (µ, σ ) .
23
2
x2 − 1 x −µ
P(x1 < X ≤ x 2 ) = dx = F (x 2 ) − F ( x1 )
1
∫ e 2 σ (4.16)
σ 2π x
1
24
Formulele (4.14) la (4.16) conţin parametrii µ şi σ , iar
integrala (4.16) nu are primitivă analitică şi atunci orice calcule de
probabilitate presupun evaluări numerice ale lor, efectuate cu un
program de calcul specializat.
0,5 f(z)
0,4
0,3
0,2
0,1
z
z1 z2
0
-4 -3 -2 -1 0 1 2 3 4
25
În afara intervalului z ∈ (− 3,49; 3,49) cele două ramuri ale curbei
se suprapun practic cu axa absciselor.
( )
z* − z
1
F Z = z* =
2 π −∞
∫e 2 dz (4.19)
26
sau
( ) ( )( )
F z * = 1 − f z * b1t + b2 t 2 + b3t 3 + b4 t 4 + b5t 5 + ε( z ) ,
pentru z ≥ 0 (4.22)
*
1
şi unde t = ; b1 = 0,31938153 ; b2 = −0,356563782 ;
1 + 0,2316419 ⋅ z *
b3 = 1,781477937 ; b4 = −1,821255978 ; b5 = 1,330274429 , cu ε(z ) < 7,5 ⋅ 10 −8
cu ε(q ) < 3 ⋅ 10
−3
b1 = 0,99229 ; b2 = 0,04481 ,
sau
c0 + c1t + c 2 t 2
zq = t − + ε(q ) , pentru 0 ≤ q ≤ 0,5 (4.24)
1 + d1t + d 2 t 2 + d 3t 3
1
şi unde t = ln ; c0 = 2,515517 ; c1 = 0,802853 ; c 2 = 0,010328
(1 − q )
2
Exemplul 4.2.1
S-a constatat că timpul de aşteptare pentru a fi servit
la un fast-food este o variabilă aproximativ normal distribuită de
medie µ = 4,6 minute şi abatere standard σ = 1,3 minute. Dacă timpul
de aşteptare poate fi măsurat cu orice precizie dorită, să se găsească
probabilitatea ca un consumator să aibă de aşteptat:
a) mai mult de 6 minute;
b) între 3 şi 5 minute;
c) mai puţin de 2 minute.
27
Soluţie
Considerând N (4,6;1,3) cu graficul funcţiei de densitate de
probabilitate de mai jos, răspunsurile corespund suprafeţelor
haşurate şi marcate prin literele corespunzătoare.
f(x)
0,4
b)
0,2
a)
c)
x
0
μ= 4,6
0 1 2 3 4 5 6 7 8 9 10
28
Este inclusă în programul Gauss dedicat calculelor pentru
distribuţii normale.
Cu acesta se obţine că F (1,0769) = 0,8592 , astfel încât
P( X > 6 ) = 1 − 0,8592 = 0,1408
2 − 4,6
c) La x = 2 corespunde z = = −2 ,
1,3
iar P( X < 2) = P(Z < −2) = F (− 2) pentru care programul indică
valoarea F (− 2 ) = 0,0228
Exemplul 4.2.2
O maşină unealtă reglată corect produce piese cu
diametrul mediu de 25 mm şi având pentru această caracteristică
dimensională o distribuţie normală N (µ, σ ) .
Totuşi, la fabricarea unui lot de 100 piese s-a constatat că 9
dintre acestea au diametrul mai mic de 22 mm şi 6 piese îl au mai
mare decât 28 mm.
a) Să se găsească cu ce medie µ şi abatere standard σ a lucrat
maşina lotul respectiv;
b) Să se găsească probabilitatea ca o piesă oarecare dintre
acestea să aibă diametrul cuprins în intervalul 24,5 – 25,5 mm
29
Soluţie
Notând cu X V.A. N (µ, σ ) reprezentată de diametrul unei piese
realizate, se ştie că:
P( X < 22 ) =
9
şi respectiv P( X > 28) =
6
100 100
X −µ
a) Dacă se introduce variabila normală standard Z = şi
σ
22 − µ 28 − µ
se notează z1 = şi respectiv 2 z = , rezultă că
σ σ
P( X < 22 ) = P(Z < z1 ) = F ( z1 ) = 0,09 şi respectiv
P( X > 28) = P(Z > z 2 ) = 1 − P(Z < z 2 ) = 1 − F ( z 2 ) = 0,06
unde F ( z ) este valoarea funcţiei de repartiţie pentru variabila
N (0,1) , la argumentul z . Este necesar să se găsească cuantilele z1
şi z 2 pentru care F ( z1 ) =0,09 şi F (z 2 ) = 0,94 .
Se pot folosi tabele sau un program de calcul.
Funcţia CuantNO1 (q:real):real de mai jos calculează cuantila
z corespunzătoare unei valori F (z ) = q specificate, folosind metoda
bisecţiei.
Function CuantN01(q:real):real;
{ Calculeaza cuantila Zq a repartitiei N(0,1) pentru care
F(Zq) = q, folosind aproximatia Hastings pentru F(z) si
metoda bisectiei intre z = -4 si 0 }
var qc,zs,fs,zd,fd,zm,fm:real;
begin
if q = 0.5 then cuantn01:=0.0
else
begin
if q < 0.5 then qc:=q
else qc:=1-q;
zs:=-4.0; fs:=qc-RepN01(zs);
zd:=0.0; fd:=qc-RepN01(zd);
repeat
zm:=0.5*(zs+zd); fm:=qc-RepN01(zm);
if fs*fm <= 0 then
begin
zd:=zm; fd:=fm;
end
else
begin
zs:=zm; fs:=fm;
end;
until abs(fm) <= 0.00001;
cuantn01:=zm;
if q > 0.5 then cuantn01:=-cuantn01;
end;
end;
30
Rulând programul Gauss pentru µ = 1 şi σ = 0 , se găseşte că:
la F ( z1 ) =0,09 corespunde z1 = -1,3407,
iar la F ( z 2 ) = 0,94 corespunde z 2 = 1,5548.
22 − µ 28 − µ
Deoarece z1 = = −1,3407 şi respectiv z 2 = = 1,5548 ,
σ σ
se obţin parametrii µ = 24,7782 mm şi respectiv σ = 2,0722 mm.
P(24,5 < X < 25,5) = P(− 0,1343 < Z < 0,3483) = F (0,3483) − F (− 0,1343)
Exemplul 4.2.3
Optzeci de procente dintre pasagerii rutelor aeriene
declară că sunt neliniştiţi la aterizări. Să se găsească probabilitatea
ca dintre 100 de pasageri ai unui zbor:
a) să fie neliniştiţi la aterizare între 78 şi 85 inclusiv;
b) să fie neliniştiţi exact 80 pasageri.
Soluţie
Este vorba de un experiment binomial în care o încercare
corespunde unui pasager oarecare, iar starea de nelinişte
corespunde unui succes.
Numărul de încercări independente este n = 100 pasageri iar
probabilitatea de succes la fiecare încercare este p = 0,8 .
Media şi varianţa distribuţiei sunt µ = n p = 100 ⋅ 0,8 = 80
şi respectiv σ 2 = n p q = 100 ⋅ 0,8 ⋅ 0,2 = 16 , cu abaterea standard σ = 4 .
31
Cu n = 100 , atât n p = 80 , cât şi n q = 20 sunt mai mari decât 5 şi
deci distribuţia binomială discretă poate fi aproximată prin
distribuţia normală continuă N (80,4) .
85
32
Pentru a evalua precizia aproximaţiei, formula (4.1) adică
b( x ; n, p ) = C nx ⋅ p x ⋅ q n− x ,
unde n = 100 ; p = 0,8 ; q = 0,2 , va da pentru x = 80 :
b(80 ;100; 0,8) = C100
80
⋅ 0,880 ⋅ 0,2 20 = 0,0993
0,0995 − 0,0993
Rezultă o diferenţă de circa ⋅ 100 ≅ 0,2% deci
0,0993
într-adevăr o aproximaţie foarte bună obţinută cu legea normală.
33
3
coeficientul de asimetrie C s = 3θ + θ
0,6
04
a=0
0,2 a=1
a=2
0 2 4 6 8 10
12
34
( )
Cuantila corespunzătoare unei valori q = F x q specificate a
funcţiei de repartiţie se obţine sub forma:
xq = e
(a+bzq ) + c
(4.27)
cu z q cuantila variabilei normale standard pentru q specificat
găsită din tabele sau cu relaţiile aproximative (4.23) – (4.24).
Exemplul 4.2.4
Prelucrând un şir de debite maxime anuale
înregistrate pe Olt în amonte de zona amenajată, s-a găsit că:
media lor are valoarea Q = 450 m 3s −1 ,
3 −1
abaterea standard este s = 225 m s ,
iar coeficientul de asimetrie C s a rezultat C s = 1,52 ,
datele variind între Qmin = 110 m 3s −1 şi Qmax = 1220 m 3s −1 .
Presupunând că debitul maxim anual este o variabilă aleatoare
distribuită log-normal
a) Să se determine ecuaţia funcţiei de densitate de
probabilitate;
b) Să se calculeze media, varianţa şi momentul centrat de ordin
3 pentru distribuţia respectivă;
c) Să se calculeze şi reprezinte grafic funcţiile de densitate şi de
repartiţie;
d) Să se determine valorile cuartilelor Q0,25 şi Q0,75 , între care
se va plasa debitul maxim anual cu probabilitatea de 50%;
e) Ce valori ale debitului maxim anual nu sunt şi respectiv sunt
depăşite cu probabilitatea de 5%?
35
Soluţie
a) Admiţând pentru populaţie că parametri sunt egali cu
statisticile de eşantion şi observând (4.26), se constată că:
µ2 s 225
Cv = = =θ= = 0,5
M1 Q 450
şi atunci C s = 3θ + θ 3 = 3 ⋅ 0,5 + 0,53 = 1,625 , (o valoare apropiată de
C s = 1,52 găsită pe baza şirului de date înregistrate).
În concluzie, apare justificat să se accepte că distribuţia log-
normală este adecvată aici.
2
b
Deoarece C v = e − 1 , se obţine succesiv
2
( ) (
C v2 + 1 = e b , b 2 = ln C v2 + 1 şi respectiv b = ln 0,5 2 + 1 = 0,47238 .)
Din relaţiile (4.26) mai rezultă:
µ 2 = s 2 = e b − 1e 2a +b = C v2 e 2a +b
2 2 2
s2 2 a +b 2 s2
şi apoi =e , 2a + b = ln
2
C v2 C2
v
1 s 2 1 225 2
2
deci a = 2 ln 2 − b , adică a = 2 ln 2 − 0,47238 = 5,99768
2
C v 0,5
Folosind a şi b găsite mai sus, se verifică uşor că parametrul c
rezultă c=0.
Expresia analitică a funcţiei de densitate devine
− 2, 24072(ln x −5,99768 )2
f (x ) =
0,844537
exp
x
36
1200
∫ (x − µ ) f (x ).dx = 8 551797,7 m s
3 9 -3
- pentru momentul µ 3 =
0
c) Funcţiile de densitate şi repartiţie sunt afişate de program la
pas de afişare ∆Q = 50 m s , iar integrarea numerică se face la pas
3 -1
δQ = 1 m 3s -1 .
Pentru variaţia cu debitul maxim a densităţii f şi a repartiţiei de
probabilitate au rezultat următoarele date şi grafice:
(
Qmax m 3s −1 ) f (% ) F (% ) (
Qmax m 3s −1 ) f (% ) F (% )
50 0,00 0,00 650 0,08 84,49
100 0,01 0,16 700 0,06 87,93
150 0,06 1,83 750 0,05 90,62
200 0,14 6,94 800 0,04 92,71
250 0,20 15,67 850 0,03 94,32
300 0,23 26,69 900 0,02 95,58
350 0,23 38,37 950 0,02 96,55
400 0,21 49,48 1000 0,01 97,30
450 0,18 59,34 1050 0,01 97,88
500 0,15 67,70 1100 0,01 98,33
550 0,12 74,57 1150 0,01 98,69
600 0,10 80,10 1200 0,00 98,96
f(%)
0,2
0,15
0,1
0,05
Qmax (m 3s -1 )
0
0 200 400 600 800 1000 1200
37
100 F(%)
50
Qmax (m 3s -1 )
0
0 200 400 600 800 1000 1200
38
4.2.3. Legea hi – pătrat cu ν grade de libertate
V.A. X formată ca sumă a ν variabile aleatoare normale
standard zi , ridicate la pătrat, adică
ν
X = ∑ Z i2
i =1
are o lege de densitate de probabilitate numită hi – pătrat cu ν grade
2
de libertate, notată prin χ ν şi definită de relaţia:
ν x
−1 −
x 2 ⋅ e 2
f (x ) =
ν , ν > 0; 0≤ x <∞ (4.28)
ν
2 2 ⋅ Γ
2
ν
unde Γ este funcţia gamma de parametru α = , dată de integrala:
2
∞
Γ(α ) = ∫ t α −1 ⋅ e −t dt (4.29)
0
Se observă că f ( x ) din (4.28) depinde de un singur parametru
şi anume ν , numărul de grade de libertate. Alura graficului funcţiei
de densitate pentru legea hi – pătrat apare în Fig. 4.4, pentru câteva
valori ale lui ν .
f(x)
0,6
0,4
ν =1
0,2
ν =3
ν =6
0 2 4 6 8 10
12
Fig.4.4. Distribuţia hi – pătrat pentru diverse valori ν
39
Caracteristicile descriptive ale legii χ ν2 sunt date de relaţiile:
M 1 = µ = ν ; µ 2 = 2ν ; µ 3 = 8ν ; µ 4 = 48ν
moda = ν − 2 , pentru ν > 2
2
Dacă X 1 şi X 2 sunt două variabile independente de legi χ ν1 şi
2
respectiv χ ν 2 , atunci V.A. Y = X 1 + X 2 urmează o lege χ (ν1 + ν 2 ) .
2
Observaţii
2
Dacă ν creşte indefinit, distribuţia χ tinde către distribuţia
( )
normală N ν, 2ν , cu o convergenţă relativ lentă.
z = 2 x − 2ν − 1 sau x=
(z + 2ν − 1 )2
2
unde z este variabila normală standard.
( )
x*
F x* = ∫ f (x )dx
0
cu f (x ) de forma (4.28), se pot utiliza două metode practice.
Prima se bazează pe o dezvoltare în serie a lui F (x ) .
40
Cea de-a doua este aplicabilă pentru ν ≥ 8 şi furnizează valori
F ( x ) între 0,0001 şi 0,9999 la o precizie mai bună de 10 −4 , cu
relaţiile:
( )
- dacă x * = ν − 1 , atunci F x = Φ (t1 )
*
1 0,08
+
t1 = − 3 ν
unde
2ν − 2
*
( )
- dacă x * ≠ ν − 1 , atunci F x = Φ (t 2 ) (4.30)
a (ν − 1) ln ν −* 1 + x* − (ν − 1)
x * 2 0,08
unde t 2 = şi a = x − ν + −
x * − (ν − 1) 3 ν
41
Alura graficului funcţiei de densitate t ν este redată în Fig. 4.5
pentru câteva valori ν .
Se observă că este o distribuţie simetrică de medie M 1 = µ = 0 ,
ν
având µ 2 = (pentru ν > 2 ) şi cu µ 3 = 0 .
ν−2
De asemenea, pentru ν → ∞ , legea tν tinde către legea N (0,1) ,
aproximaţia fiind complet acceptabilă dacă ν > 30 .
0,5
f(x)
0,4
ν →∞
0,3
ν =1
0,2
0,1
x
0
-6 -4 -2 0 2 4 6
2
Ca şi χ ν , legea t ν are aplicaţii în efectuarea testelor statistice,
la determinarea intervalelor de încredere, ş.a.m.d.
42
( )
Cuantila xq pentru care q = F x q se aproximează cu relaţia:
z q + 1 5 z q4 + 16 z q2 + 3 3 z q6 + 19 z q4 + 17 z q2 − 15
x q = z q 1 + + + (4.33)
4ν 96 ν 2
384 ν 3
2
două V.A. independente, de legi χ ν1 şi respectiv χ ν 2 .
2
43
Indiferent de valorile lui ν1 şi ν 2 , graficele distribuţiei
F (ν1 , ν 2 ) au asimetrie pozitivă (vezi Fig. 4.6).
f (x )
0,8 F(10,50)
0,6
F(10,4)
0,4
0,2
x
0
0 2 4 6 8
44
Funcţia de repartiţie a distribuţiei F (ν1 , ν 2 ) este tabelată
pentru diverse valori x şi respectiv grade de libertate ν1 şi ν 2 .
*
1 − y 2 + 2 y ln y
iar funcţia g ( y ) = pentru x > 0 şi p ≠ 1
(1 − y )
*
2
45
Depinde de parametrul a (de poziţie sau limită inferioară) şi
respectiv parametrul b (de dispersie sau de scară).
1,2
0,8
0,4
0 2 4 6 8
46
Exemplul 4.2.5
O substanţă chimică sub formă lichidă adusă la
temperatura de 150 0 C , trece în faza gazoasă printr-o reacţie de
ordinul întâi, cu o constantă a vitezei de reacţie k = 3,5 ⋅ 10 −4 1 s (sau
1,26 1/h). Prin aceasta se înţelege faptul că numărul de molecule,
N (t ) , de substanţă lichidă rămase la momentul t după începerea
reacţiei este dat de:
N (t ) = N (0 ) e − kt
unde N (0 ) este numărul de molecule în faza lichidă la t = 0.
Descreşterea numărului de molecule în faza lichidă, − dN (t ) , în
intervalul (t , t + dt ) va fi atunci − dN (t ) = N (0) ke − kt dt
Dar − dN (t ) este numărul de molecule din totalul iniţial care
supravieţuiesc pentru un timp T şi nu mai mult, cu t < T ≤ t + dt .
Deci, probabilitatea ca una din moleculele originale în faza
lichidă să supravieţuiască până la acest moment este:
dN (t )
P(t < T ≤ t + dt ) = − = ke − kt dt
N (0 )
Conform definiţiei probabilităţii elementare pentru o V.A.
continuă, rezultă că funcţia de densitate de probabilitate a duratei de
supravieţuire a moleculelor în faza lichidă este:
f (t ) = ke
− kt
1
adică o lege exponenţială ca (4.36), de parametri a = 0 şi b = , deci
k
1
E 0, .
k
47
În figură se redă variaţia mărimii y = f (t ) h −1 în funcţie de t h .
y = f (t ) / h −1
1,2
1,0
0,8
0,6
0,4
0,2
t/h
48
Un caz mai general este legea Weibull pentru care V.A. X are
funcţia de densitate de probabilitate.
x
a
a a −1 − b
f (x ) = a x e pentru x ≥ 0, a > 0, b > 0
(4.39)
b
0 în rest
şi se va nota prescurtat W (a, b ) .
Depinde de parametru de formă a şi de parametrul de scară b.
49
4.2.8. Legea Gamma cu doi parametri
Se notează G (a, b ) , are densitatea de repartiţie
a b x b −1e − ax
pentru x ≥ 0, a > 0, b > 0
Γ(b )
f (x ) = (4.43)
0 in rest
şi reflectă o V.A. care este suma a n variabile independente de tip
exponenţial, fiecare având aceeaşi medie.
50
S-ar ajunge la acest rezultat considerând un proces în care
evenimentele apar în medie cu viteza de 1 pe secundă.
În acest caz, Z secunde ar reprezenta timpul de aşteptare până
la apariţia evenimentului cu numărul m.
Probabilitatea ca acest timp de aşteptare să fie mai mare decât
c secunde este chiar probabilitatea ca nu mai mult de m-1
evenimente să fi apărut în intervalul de timp dintre 0 şi c secunde.
Exemplul 4.2.6
La un ghişeu de bilete RATB, o persoană este a
cincea din coadă. Timpul ei de aşteptare este suma timpilor de servire
a celor patru persoane din faţă. Timpii de servire sunt variabile
independente, distribuite exponenţial, cu media 20 secunde.
Care este probabilitatea ca persoana în cauză să aştepte mai mult
de 90 s ?
Soluţie
Notând cu T durata de servire în secunde, se ştie că aceasta are
1
distribuţia de forma ae − at , cu media µ = = 20 .
a
51
4.2.8. Legea Beta cu doi parametri
a
Media distribuţiei (4.46) este µ = , iar varianţa ei
a+b
µ2 =
ab
(a + b + 1) .
(a + b )2
52
Există numeroase situaţii practice în care o caracteristică
admisă ca V.A. poate avea o funcţie de densitate de probabilitate
reprezentată bine de distribuţia Beta.
Spre exemplu, în domeniul resurselor de apă:
- nivelul într-un lac de acumulare nu poate să se plaseze decât
între două limite fizice
- sau nivelul pânzei freatice într-un acvifer freatic poate varia
doar între suprafaţa solului şi respectiv primul strat de rocă
impermeabilă de sub suprafaţă.
53
Mărimea aleasă / definită reprezintă o nouă V.A., notată cu Y,
iar cele n valori Y obţinute din cele n subserii, formează un eşantion
(sau o populaţie) pentru această variabilă aleatoare.
54
Cu variabila redusă y = α(x − β) , relaţia (4.49) devine:
−y
F ( x ) = e −e (4.50)
55
2. Funcţia de distribuţie a valorilor minime, sub forma
funcţiei de repartiţie, se scrie:
α
x−γ
−
F (x ) = e β − γ
,
(4.55)
are cei trei parametri α , β şi γ şi poate fi aplicată dacă: x ≥ γ ;
γ ≥ 0 ; α > 0 şi β > γ
Prin derivare se obţine funcţia de densitate
α
x−γ
α −1 −
α x−γ β − γ
f (x ) = e
β − γ β − γ (4.56)
α
x−γ
Cu variabila y = , rezultă:
β − γ
α −1
α
F (x ) = e − y şi f (x ) = − y α e− y (4.57)
β−γ
56
Relaţiile între parametrii α , β şi γ şi respectiv media, abaterea
standard şi coeficientul de asimetrie (µ, σ, C s ) sunt următoarele:
2 1 1
3
3
C s = Γ1 + − 3Γ1 + Γ1 + + 2 Γ1 + [B(α )]3
α α α α
1
−
2 1 2
2
B(α ) = Γ1 + − Γ1 + (4.58)
α α
1
β = µ + σA(α ) ; γ = β − σ B(α ) A(α ) = 1 − Γ1 + B(α )
α
? ..Problema 4.2.1
Într-o holdă de porumb plantele au înălţimea medie de 183 cm,
cu o abatere standard de 8,5 cm. Dacă înălţimea lor este o variabilă
aleatoare normal distribuită, să se găsească
a) procentul de plante mai înalte de 2 m;
b) procentul de plante mai scunde decât 170 cm;
c) înălţimea sub care se plasează 95% din holdă.
? ..Problema 4.2.2
Bateriile auto produse de Rombat au o durată de viaţă normal
distribuită, cu media 46 luni şi abaterea standard 5,8 luni.
a) Dacă fabrica garantează funcţionarea pentru 3 ani, ce procent
din produse va trebui să înlocuiască în perioada de garanţie ?
b) Ce procent din produse va funcţiona între termenul de
garanţie şi durata medie de viaţă ?
c) Ce procent din produse va funcţiona mai mult de 4 ani ?
57
? ..Problema 4.2.3
În urma examenului la Prelucrarea statistică a datelor
experimentale s-a constatat o repartiţie normală a punctajelor obţinute,
cu media 70 (din 100 puncte) şi abaterea standard de 10,6 puncte.
Rezultatele s-au clasificat în 5 categorii şi anume: A – cele mai slabe
5%, B – 20% mediocre, C – 50% medii, D – 20% bune şi E – 5%
foarte bune. Să se afle:
a) punctajul maxim pentru categoria A;
b) între ce punctaje s-au plasat rezultatele medii;
c) punctajul minim al rezultatelor foarte bune.
? ..Problema 4.2.4
Timpii de ecluzare la o ecluză de pe un canal navigabil sunt
aproximativ normal distribuiţi, cu o medie de 17,3 minute şi abaterea
standard 4,2 minute. Să se găsească probabilitatea de a realiza
ecluzarea în mai mult de 19,7 minute, dacă la măsurarea timpului
acesta se rotunjeşte la zecimea de minut cea mai apropiată.
? ..Problema 4.2.5
Distribuţia variabilei aleatoare cu funcţia de densitate de
probabilitate
a−x
e b
f (x ) =
a−x 2
b1 + e b
se numeşte distribuţie logistică, este definită pentru − ∞ < x < ∞ şi
are media µ = a şi varianţa σ 2 = (b.π)2 / 3 . Admiţând µ = 10 şi
σ = 3 , să se compare probabilitatea ca µ − σ ≤ X ≤ µ + σ în cazul
acestei distribuţii şi respectiv pentru distribuţia normală cu aceiaşi
parametri.
58
5. ELEMENTE DE TEORIA EŞANTIONĂRII
(SELECŢIEI)
9
5.1. Noţiunea de distribuţie de eşantionare
Fie o V.A. având o populaţie originară de realizări posibile şi
pentru care nu se cunosc dinainte
- nici caracteristicile descriptive (media µ , varianţa σ , etc.) şi
2
10
În majoritatea situaţiilor însă, se apelează doar la un subset din
totalitatea eşantioanelor posibile,
iar distribuţia frecvenţei relative a valorilor statisticii găsită pe
baza acestui subset se va numi distribuţie de eşantionare
experimentală.
Exemplul 5.1.1
Fie o V.A. discretă cu populaţia definită pe spaţiul de
eşantionare S = {0,2,4,6,8}. Să se formeze, cu reinserţie, cele 25 de
eşantioane posibile a câte 2 componente şi
a) Să se construiască distribuţia de eşantionare a mediei X ;
b) Să se reprezinte graficul histogramei de probabilitate pentru
distribuţia lui X ;
c) Să se compare media populaţiei, µ , cu media distribuţiei lui
X, µX .
Soluţie
a) Cele 25 eşantioane de câte 2 componente posibil de format
din S (cu reinserţie după extragerea oricărei componente) sunt trecute
în tabelul 5.1.1, împreună cu media fiecărui eşantion.
Tabel 5.1.1
Setul eşantioanelor posibile şi mediile lor
Eşant. X Eşant. X Eşant. X Eşant. X Eşant. X
0,0 0 0,2 1 0,4 2 0,6 3 0,8 4
2,0 1 2,2 2 2,4 3 2,6 4 2,8 5
4,0 2 4,2 3 4,4 4 4,6 5 4,8 6
6,0 3 6,2 4 6,4 5 6,6 6 6,8 7
8,0 4 8,2 5 8,4 6 8,6 7 8,8 8
Se constată că spaţiul de eşantionare pentru V.A. X conţine, în
acest caz, valorile {0,1,2,3,4,5,6,7,8} care apar de 1,2,3,4,5,4,3,2 şi
respectiv 1 ori dintr-un total de 25 date.
Rezultă tabloul distribuţiei de frecvenţă relativă pentru X sub
forma:
Tabel 5.1.2
Distribuţia de frecvenţă pentru X
x 0 1 2 3 4 5 6 7 8
()
f x 1 2 3 4 5 4 3 2 1
25 25 25 25 25 25 25 25 25
11
b) Graficul histogramei de probabilitate pentru distribuţia lui
X transpune datele din tabelul 5.1.2 sub forma de mai jos.
0.25 ()
f x
0.2
0.15
0.1
0.05
x
0
0 1 2 3 4 5 6 7 8
1 2 3 4 5 4 3 2 1
µX = 0⋅ + 1 ⋅ + 2 ⋅ + 3 ⋅ + 4. + 5 ⋅ + 6 ⋅ + 7 ⋅ + 8 ⋅ =4
25 25 25 25 25 25 25 25 25
12
Notând generic prin t o statistică (sau caracteristică descriptivă)
oarecare (ca media, varianţa, etc.) a unui eşantion ,
- cel mai adesea nu interesează informaţii despre ea în sine, ci
- se urmăreşte estimarea, pe baza ei, a parametrului care îi
corespunde (notat generic prin θ ) pentru populaţia originară şi care
este în fapt necunoscut apriori.
13
Cu datele aceluiaşi exemplu, este uşor de verificat că varianţa
populaţiei de 5 valori rezultă:
[ ] = ∑ (x − 4)
5
= E (x − µ X ) 2 2 1
σ 2X i ⋅ = 8,
i =1
5
iar varianţa distribuţiei de eşantionare a mediei va fi
( ) ( )( 8 σ 2X
)
25
2
∑
2
σ2 = E x −µX = f xi xi − 4 = 4 = = ,
X 2 n
i =1
unde n = 2 reprezintă talia eşantioanelor formate din populaţia
originară.
Variabila
x −µX
z=
σX (5.3)
n
corespunde unei V.A. normale standard Z şi deci
distribuţia de eşantionare a mediei X urmează o lege
(
normală N µ X , σ X n . )
Afirmaţia este valabilă pentru orice populaţie finită (indiferent
de legea ei de probabilitate), dacă n ≥ 30 .
14
iar pentru populaţie normală – talia eşantionului, n, nu are
importanţă.
2
Dacă varianţa populaţiei σ nu este cunoscută, dar talia
eşantioanelor n ≥ 30 ,
2
o bună estimare a lui σ se obţine prin varianţele de eşantion
s2 ,
iar variabila
(X − µ X ) (s / n )
va avea o distribuţie încă apropiată de legea normală standard.
15
Pentru n < 30 , raportul
(X − µ X ) (s / n )
nu mai dă valori ale unei distribuţii standard normale,
ci valorile unei statistici T a cărei distribuţie se numeşte
distribuţie t sau distribuţie Student-t. Valorile lui T sunt date de:
x −µX
t= (5.5)
s/ n
cu s varianţa de eşantion.
16
2
La fel, pentru varianţa lui S rezultă:
µ4 − σ4 µ 4 − 2σ 4 µ 4 − 3σ 4
σ2 2 = −2 + (5.7)
2
S n n n3
unde µ 4 şi σ 4 sunt momentul centrat de ordin 4 şi respectiv pătratul
varianţei populaţiei lui X.
17
5.2.3. Distribuţia de eşantionare a momentelor
centrate
σ 2M =
1
( ) 1
µ 2k − 2kµ k −1µ k +1 − µ 2k + k 2 µ 2 µ 2k −1 + 0
k n n3
cu ultimii termeni - erori de aproximare, neglijabili pentru n ≥ 30 .
2 4
Deoarece µ1 = 0 prin definiţie şi µ 2 = σ ,
dacă se admite k = 2 în (5.10) rezultă pentru varianţa lui S 2 :
µ4 − σ4
σ2 2 ≅
S n
adică relaţia (5.8) de mai sus.
18
De exemplu, pentru coeficientul de variaţie de eşantion,
media şi varianţa lui sunt date de:
µ C v = Cv =
σ 2
σC =
( )
µ 2 µ 4 − σ 4 − 4µσ 2 µ 3 + 4σ 3
µ şi (5.11)
v 4nµ 4 σ 2
19
σ12 σ 22
µ X − X = µ1 − µ 2 ; σ X 1 − X 2 = + (5.13)
1 2 n1 n2
Mărimea
z=
(x1 − x 2 ) − (µ1 − µ 2 )
σ12 σ 22 (5.14)
+
n1 n2
va furniza valori ale variabilei Z, cu distribuţie normală standard.
Spre exemplu,
20
Există şi alte proceduri de eşantionare decât cea având
caracteristicile de aleatoare şi independentă.
De exemplu,
- în Eşantionarea sistematică se alege pentru eşantion fiecare al
k-lea element dintr-o populaţie, începând de la un punct de start
definit aleator din primele k elemente.
21
Exemplul 5.2.1
Din evidenţele Ministerului Sănătăţii, greutăţile
copiilor la naştere urmează o distribuţie aproximativ normală de
medie 3 kg şi abatere standard 0,4 kg. Să se găsească:
a) Probabilitatea ca un eşantion aleator format din 25 nou
născuţi să aibă greutatea medie mai mare de 3,15 kg, dacă se
rotunjeşte cântărirea la a doua cifră după virgulă (zeci de grame);
b) Probabilitatea ca media de greutate a eşantionului să fie sub
2,9 kg;
c) Media şi varianţa distribuţiei de eşantionare a varianţei
greutăţii nou născuţilor din eşantion;
2
d) Valorile cuartilelor S 0,25 şi S 0,75 , între care se plasează
2
Soluţie
a) Selecţia se face dintr-o populaţie foarte mare şi aproximativ
normal distribuită.
În consecinţă şi media de eşantion X va fi distribuită
aproximativ normal, cu media µ X = 3 kg şi abaterea standard
σX 0,4
σX = = = 0,08 kg .
n 25
Rotunjind greutatea la zeci de grame, interesează valoarea
variabilei normale standard Z care corespunde la x = 3,155 kg , adică
X − µ X 3,155 − 3
z= = = 1,94
σX 0,08
Probabilitatea care interesează va fi atunci:
( )
P X > 3,155 = P(Z > 1,94 ) = 1 − P(Z < 1,94 ) = 1 − 0,9738 = 0,0262 ,
adică circa 2,62%
22
şi ( )
P X < 2,895 = P(Z < −1,31) = 0,0951 ,
adică circa 9,51%
şi respectiv F ( y 2 ) = 0,75 .
Rezultă valorile varianţelor de eşantion a varianţei
σ 2X 0,4 2
S12 = y1 = 19,037 ⋅ = 0,1218 şi respectiv S 22 = 0,1808 .
n 25
( 2
În consecinţă P 0,1218 < S < 0,1808 = 0,5 )
Reamintind că µ S 2 = 0,1536 , şi σ S 2 = 0,0447 ,
( ) ( )
rezultă că intervalul µ S 2 − σ S 2 ÷ µ S 2 + σ S 2 , adică intervalul
(0,1089; 0,1983) va conţine evident mai mult de 50% dintre valorile
V.A. S 2 .
23
Exemplul 5.2.2
Se speră că un echipament computerizat de ambalare
a cafelei în pungi vidate va realiza pungi cu o greutate medie de 500
g. La un control aleator pe 16 astfel de pungi s-a găsit o greutate
medie de 491,9 g, cu o abatere standard pe lot de 12 g.
a) Este de aşteptat ca echipamentul să producă pungi cu
greutatea medie dorită de 500 g, dacă se acceptă că distribuţia
greutăţii pungilor realizate este normală ?
b) Cât ar trebui să fie greutatea medie a unui lot aleator de 16
pungi, cu abaterea standard pe lot de 12 g, pentru a putea presupune
că 90% dintre pungile produse vor avea greutatea medie dorită de
500 g ?
Soluţie
a) Este vorba despre o populaţie normală cu varianţă
necunoscută şi valoare dorită a mediei de 500 g.
Lotul aleator de n = 16 pungi controlate are greutatea medie de
eşantion x = 491,9 g şi abaterea standard s = 12 g.
Conform relaţiei (5.5), statistica T având valoarea
x − µ X 491,9 − 500
t= = = −2,7
s n 12 16
are o lege de distribuţie Student-t cu ν = 16 − 1 = 15 grade de libertate.
Probabilitatea ca T să ia valori mai mici decât -2,7 se găseşte cu
programul LegiVAC şi este P(T < −2,7 ) = 0,0082
24
b) Pentru a putea presupune că 90% dintre pungi vor avea
greutatea medie de 500 g ar fi trebuit ca media de eşantion x q să fie
astfel încât variabila T să aibă:
( ) ( )
P T < t q = F t q = 0,9
Cu programul Test_S_F_H şi opţiunea S la rulare, pentru
nivelul de semnificaţie 0,1 se găseşte cuantila distribuţiei Student cu
ν = 15 grade de libertate pentru care F (t q ) = 0,9 ca fiind t q = 1,341 .
s 12
Rezultă x q = µ X + tq = 500 + 1,341 = 504,02 g
n 16
În concluzie, dacă greutatea medie a pungilor din eşantion ar fi
fost x = 504,02 g şi abaterea standard pe lot de s = 12 g, s-ar fi putut
sconta ca 90% dintre pungile produse de echipament să aibă
greutatea medie de 500 g.
Exemplul 5.2.3
Suma notelor obţinute de studentele unei universităţi
la examenele din primii 4 ani are o medie de 336 şi o varianţă de 36
puncte. Studenţii aceleiaşi universităţi şi la aceleaşi examene au
înregistrat o medie a sumei notelor de 300 puncte cu o varianţă de 50
puncte. Distribuţiile sumei notelor pentru ambele categorii sunt
aproximativ normale.
Să se găsească probabilitatea ca suma medie a unui eşantion
aleator de 18 studente să depăşească cu peste 41 puncte suma medie
a unui eşantion aleator de 25 studenţi.
Soluţie
Notând cu X 1 şi X 2 V.A. reprezentând media de eşantionare
pentru studente şi respectiv studenţi, conform relaţiilor (5.13):
- media diferenţelor mediilor de eşantionare este
µ X 1 − X 2 = µ1 − µ 2 = 336 − 300 = 36
- varianţa acestei diferenţe este
2 σ12 σ 22 36 50
σ = + = + =4
X1−X 2 n1 n2 18 25
25
z=
(x1 − x 2 ) − (µ1 − µ 2 )
Valoarea
σ12 σ 22
+
n1 n2
corespunde unei V.A. Z cu distribuţie normală standard.
Dacă media eşantionului de studente depăşeşte pe cea a
eşantionului de studenţi cu 41 puncte, adică x1 − x 2 = 41 ,
valoarea variabilei Z corespunzătoare va fi:
41 − 36
z= = 2,5 şi atunci
2
( )
P X 1 − X 2 > 41 = P(Z > 2,5) = 1 − P(Z < 2,5) = 1 − 0,9938 = 0,0062
adică o probabilitate de sub 1%.
Exemplul 5.2.4
Conform evidenţei oficiale, dintre cei 50000 locuitori
cu drept de vot ai unui oraş, 6000 nu au urmat şcoala sau au făcut
doar şcoala primară, 18000 au absolvit gimnaziul, 17000 au
terminat liceul şi respectiv 9000 au studii superioare. Dacă se doreşte
realizarea unui eşantion de 1000 persoane în vederea sondării
opţiunilor la un referendum, dar ţinând seama de nivelul studiilor,
câte persoane din fiecare categorie trebuie alese prin eşantionare
aleatoare stratificată pentru ca lotul rezultat să fie reprezentativ ?
Soluţie
Conform (5.15), în care n = 1000 talia eşantionului, N = 50 000
– numărul persoanelor cu drept de vot şi N i = numărul total de
persoane din fiecare categorie:
- dintre cei N1 = 6000 locuitori cu cel mult şcoala primară se vor
alege aleator
6000
n1 = ⋅ 1000 = 120 persoane
50000
- dintre cei N 2 = 18000 absolvenţi de gimnaziu se vor alege
aleator n2 = 360 persoane
26
- dintre cei N 3 = 17000 absolvenţi de liceu se vor alege n3 = 340
persoane
- dintre cei N 4 = 9000 locuitori cu studii superioare se vor alege
aleator n4 = 180 persoane
? Problema 5.2.1
Din populaţia S = {1,2,2,3,3,4} se efectuează eşantioane aleatoare
de câte 2 componente, fără reinserţie.
a) Presupunând că toate cele 30 de eşantioane posibile sunt
echiprobabile, să se construiască distribuţia de eşantionare a mediei X
b) Să se reprezinte histograma de probabilitate a distribuţiei lui
X
σ N −n
c) Să se verifice că µ X = µ şi σ X =
n N −1
? Problema 5.2.2
O populaţie mare sau infinită are abaterea standard de 72. Ce
talie de eşantioane este necesară astfel ca eroarea standard a mediei să
fie
a) 24; b) 9; c) 6 ?
? Problema 5.2.3
Timpul consumat de 1000 persoane pentru a completa un
formular simplu este aproximativ normal distribuit, cu media 29,3
secunde şi abaterea standard de 8,6 secunde. Dacă se alcătuiesc 400 de
eşantioane aleatoare de câte 25 persoane, din această populaţie, să se
găsească:
a) Media şi abaterea standard a mediei X ;
b) Numărul de medii de eşantion care cad între 25,1 şi 30,6
secunde;
c) Numărul de medii de eşantion mai mari de 31,7 secunde.
Se admite că timpii se rotunjesc la zecimi de secundă.
27
6. ELEMENTE DE TEORIA ESTIMAŢIEI
1−α
α α
2 2
z
zα 2 0 z1−α 2
2
Când varianţa populaţiei σ nu este cunoscută şi
nu se dispune de eşantioane cu talia n ≥ 30 .
s-a văzut că raportul
x−µ
t=
s n
reprezintă valoarea unei V.A. cu distribuţie Student-t şi
ν = n − 1 grade de libertate.
Aici x şi s sunt media şi abaterea standard a eşantionului
cu n < 30 dintr-o populaţie aproximativ normală.
Distribuţia Student este simetrică în raport cu 0 şi tinde
către distribuţia normală standard când ν → ∞ .
Notând cu t c = t1− α cuantila distribuţiei t cu ν = n − 1
2
α
grade de libertate, pentru care F (t c ) = 1 − ,
2
intervalul de încredere pentru medie se scrie acum:
s s
x − tc < µ < x + tc (6.5)
n n
Exemplul 6.3.1
Un eşantion aleator format din 64 membri ai
sindicatului Alma Mater are media de vârstă 39,3 ani şi
abaterea standard a vârstelor de 4,8 ani.
a) Să se estimeze media şi abaterea standard ale
populaţiei de sindicalişti;
b) Să se determine intervalul de încredere a mediei
pentru pragul de semnificaţie α = 5% ;
c) Ce talie ar trebui să aibă eşantionul pentru a fi 98%
siguri că estimarea mediei µ nu se face cu o eroare mai mare
de jumătate de an ?
Soluţie
a) Estimarea punctuală a mediei populaţiei este egală cu
valoarea de eşantion a statisticii X , adică µˆ = x = 39,3 ani.
Deoarece n = 64 este destul de mare, estimaţia varianţei
populaţiei, σ̂ 2 , se poate lua identică cu varianţa de eşantion
adică σˆ = s şi respectiv σˆ = s = 4,8 ani.
2 2
Soluţie
Talia eşantionului n = 15 fiind redusă, o estimare mai
corectă a abaterii standard a populaţiei se obţine cu (6.6), adică
n 15
σˆ = s = 0,62 = 0,642 kg ,
n −1 14
diferită cu aproape 7% faţă de s = 0,62 kg.
În acest caz (n < 30 ) este indicată utilizarea valorii t c a
variabilei de lege Student-t cu ν = 15 − 1 = 14 grade de
libertate.
Având în vedere că 1 − α = 0,95 şi deci α = 0,05 , cuantila
t c = t α = t 0,975 a variabilei t cu ν = 14 grade de libertate, se
1−
2
găseşte a fi t c = 2,145 (cu programul LegiVAC sau programul
Test_S_F_H şi opţiunea S).
Rezultă intervalul de încredere 95% pentru greutatea
medie cu (6.7), sub forma:
s s
x − tc < µ < x + tc ,
n −1 n −1
0,62 0,62
adică 3,95 − 2,145 < µ < 3,95 + 2,145
14 14
şi anume (3,595 < µ < 4,305) kg
Dacă s-ar fi utilizat variabila normală standard în locul
variabilei t, ar fi rezultat intervalul de încredere 95% sub forma:
0,62 0,62
3,95 − 1,96 < µ < 3,95 + 1,96
15 15
adică (3,636 < µ < 4,264) kg, mai redus cu circa 11,55%.
? ..Problema 6.3.1
O companie care foloseşte forţă de muncă din zona
limitrofă a constatat că, pentru un eşantion aleator de 16
muncitori, distanţa medie a domiciliului faţă de uzină este 19,2
km, cu o abatere standard de 3,1 km. Admiţând că distanţele
locuinţelor tuturor angajaţilor sunt aproximativ normal
distribuite, să se găsească intervalul de încredere 95% pentru
distanţa medie ce trebuie parcursă ca să se ajungă la serviciu.
? ..Problema 6.3.2
Pe un eşantion aleator de 64 cumpărători s-a observat un
timp mediu de aşteptare la casele unui mare magazin alimentar
de 4,5 minute, cu o abatere standard de 2,1 minute
a) Construiţi intervalul de încredere 95% pentru timpul
mediu de aşteptare al tuturor cumpărătorilor din acest magazin
b) Care este eroarea posibilă de apreciere a mediei
populaţiei, dacă se foloseşte media de eşantion ?
c) Ce talie trebuie să aibă eşantionul analizat pentru a avea
99% încredere că media de eşantion nu diferă cu mai mult de
0,5 minute faţă de media reală ?
6.4. Alţi estimatori şi intervalele lor de
încredere
6.4.1. Diferenţa mediilor
2
În (6.10) se pot înlocui termenii de forma ns prin
(n − 1)σˆ 2 , unde σ̂ 2 este o estimare nedeplasată a varianţei .
2 2
Dacă x1 , s1 , x 2 şi s 2 sunt mediile şi varianţele a
două eşantioane independente de dimensiuni n1 şi n2 reduse,
provenind din populaţii aproximativ normale şi având varianţe
necunoscute şi inegale, intervalul de încredere (1 − α ) ⋅ 100%
pentru µ1 − µ 2 este dat de:
(x1 − x 2 ) − tc s12 s2
( )
+ 2 < µ1 − µ 2 < x1 − x 2 + t c
n1 − 1 n2 − 1
s12 s2
+ 2
n1 − 1 n2 − 1
(6.11)
grade de libertare.
ns 2
Folosind statistica H = (sau cu estimarea nedeplasată
σ2
(n − 1)σˆ 2
),
σ2
aceasta urmează o distribuţie χ cu ν = n (sau
2
2
Valorile lui χ nu pot fi negative, iar graficul ei este
asimetric, asimetria reducându-se pe măsură ce creşte ν .
Deoarece
α (ν1 , ν 2 ) =
1
f
1− f α (ν 2 , ν1 ) ,
2
2
relaţia (6.20) se mai poate scrie:
σ12
f α (ν 2 , ν1 ) R <
R
<
σ 22 f α (ν1 , ν 2 ) (6.21)
2
2
unde s-au explicitat condiţiile de calcul a cuantilelor f α prin
2
specificarea ordinii gradelor de libertate.
Exemplul 6.4.1
Un hipermarket achiziţionează un anumit
produs agricol (cartofi, lămâi, etc.) de la doi furnizori şi îşi pune
problema dacă să renunţe sau nu la unul dintre ei. Criteriul de
decizie s-a bazat pe diferenţa dintre mediile populaţiilor de
produse oferite şi respectiv diferenţa a două medii de eşantion,
de talie egală, selectate aleator şi independent din cele două
populaţii. Dacă la un nivel de încredere de 96% această
diferenţă va depăşi 1,80g, se va alege furnizorul cu cea mai bună
medie a populaţiei. În caz contrar, se vor păstra ambii furnizori.
Populaţiile produselor se admit cu distribuţii aproximativ
normale.
Pentru a adopta decizia, s-au ales două eşantioane de câte
50 produse din cele oferite de furnizori. În eşantionul primului,
a rezultat o greutate medie pe produs de 81,4 g, cu abaterea
standard de 4,6 g, iar pentru cel de-al doilea, greutatea medie a
fost 84,5 g şi abaterea standard 4 g.
a) Ce decizie consideraţi că s-a adoptat ?
b) Care ar trebui să fie decizia, la nivel de încredere de
95%, dacă s-ar dispune de eşantioane a câte 15 produse, având
aceleaşi medii şi varianţe de eşantion ca mai sus, dar admiţând
populaţiile cu aceleaşi varianţe ?
Soluţie
a) Estimaţia punctuală pentru diferenţa mediilor
populaţiilor, µ1 − µ 2 se face prin diferenţa mediilor de eşantion
adică x1 − x 2 = 81,4 − 84,5 = −3,1 g .
Deoarece n1 = n2 = 50 , (talie mare) se pot aproxima
varianţele populaţiilor prin varianţele eşantioanelor, adică
σ1 = s1 = 4,6 g şi respectiv σ 2 = s 2 = 4 g .
Conform (6.8), intervalul de încredere 96% pentru
diferenţa mediilor populaţiilor este:
(x1 − x 2 ) − ∆ < µ1 − µ 2 < (x1 − x 2 ) + ∆
σ12 σ 22 4,6 2 4 2
unde ∆ = zc + = zc + = 0,862 z c ,
n1 n2 50 50
iar z c este cuantila z1− 0,04 = z 0,98 a distribuţiei normale standard
2
care se găseşte a fi z c = 2,055 .
În consecinţă ∆ = 0,862 ⋅ 2,055 = 1,77 g
Deoarece diferenţa dintre (µ1 − µ 2 ) şi (x1 − x 2 ) este
(µ1 − µ 2 ) − (x1 − x 2 ) < ∆ = 1,77 g
la nivel de încredere 96%, iar limita stabilită a fost de 1,80 g,
având intervalul de încredere corespunzător în jurul lui
( )
x1 − x 2 cu o extindere mai mică decât 1,80 g, se va putea
decide să nu se renunţe la nici un furnizor.
Exemplul 6.4.2
Pentru a studia efectul plimbărilor pe jos asupra
pierderii în greutate la un grup de 10 angajaţi sedentari, li s-a
prescris acestora un anumit program de mişcare pe următoarele
6 luni. Greutăţile (în kg) înainte şi după terminarea programului
au fost ca în tabelul următor.
Persoana 1 2 3 4 5 6 7 8 9 10
Ginit. 95 81 76 96 82 87 71 93 77 110
Gfinal 89 78 77 93 80 86 72 93 74 105
Să se găsească intervalul de încredere 98% pentru
diferenţa reală între greutăţile medii dinainte şi de după
program.
Soluţie
Fie µ1 şi µ 2 greutăţile medii iniţială şi respectiv finală.
Cele 10 perechi de valori reprezintă eşantioane
dependente (aceleaşi persoane au fost cântărite înainte şi după
experiment).
Estimaţia punctuală a diferenţei mediilor de greutate se
obţine cu µ1 − µ 2 = µ D şi este d = 86,8 − 84,7 = 2,1 kg .
Având în vedere diferenţele d i = (6,3,−1,3,2,1,−1,0,3,5)
obţinute cu datele din tabel, se poate calcula varianţa
diferenţelor de eşantion cu relaţia:
2
n n
n∑ d i − ∑ di
2
10 ⋅ 95 − 212
2 i =1 i =1
sd = = = 5,656
n(n − 1) 10 ⋅ 9
astfel încât s d = 5,656 = 2,378 .
Conform (6.13), t c = t1− α = t1− 0,02 = t 0,99 este cuantila
2 2
distribuţiei Student-t cu ν = 10 − 1 = 9 grade de libertate şi se
găseşte a fi t c = 2,821 pentru α = 0,02 .
Rezultă intervalul de încredere 98% pentru reducerea
medie de greutate sub forma:
s s
d − tc d < µ D < d + tc d
n n
2,378 2,378
adică 2,1 − 2,821 < µ D < 2,1 + 2,821 ,
10 10
deci (− 0,02 < µ D < 4,22 ) kg
Exemplul 6.4.3
Dintr-un lot de 500 posibili cumpărători ai unui
autoturism nou, 280 s-au exprimat că-şi vor lua o maşină nouă
având consum redus de combustibil, iar restul au optat pentru
alte calităţi.
a) Să se găsească intervalul de încredere 96% pentru
proporţia reală a celor ce-şi vor cumpăra o maşină cu consum
redus;
b) Cât de mare ar trebui să fie lotul interogat dacă se
urmăreşte încredere 99% pentru ca eroarea la estimarea lui p
să fie de cel mult 0,05 ?
Soluţie
a) Este un experiment binomial cu estimaţia punctuală a
şansei de succes pˆ = 280 / 500 = 0,56 , astfel încât qˆ = 1 − pˆ = 0,44 .
Conform (6.14), intervalul de încredere pentru p este:
pˆ qˆ pˆ qˆ
pˆ − z c < p < pˆ + z c
n n
unde z c = z1− α = z1− 0,04 = z 0,98 este cuantila distribuţiei normale
2 2
standard pentru α = 0,04 şi se găseşte că z c = 2,055 .
Rezultă
0,56 ⋅ 0,44 0,56 ⋅ 0,44
0,56 − 2,055 < p < 0,56 + 2,055
500 500
adică 0,514 < p < 0,606
Exemplul 6.4.4
Pentru a compara variabilitatea pieselor de
acelaşi tip produse de două maşini unelte, s-a ales un eşantion
de 16 piese realizate de prima maşină şi s-a constatat o abatere
standard a diametrelor de 2,86 μm, în timp ce la un eşantion de
25 piese făcute pe a doua maşină, abaterea standard a fost de
1,94 μm. Să se găsească:
a) Intervalele de încredere 90% pentru varianţele
populaţiilor de piese realizate pe cele două maşini, admise
populaţii normale;
b) Intervalul de încredere 90% pentru raportul
varianţelor şi respectiv raportul abaterilor standard al celor
două populaţii.
Soluţie
ˆ 2 = 1,94 μm
a) Admiţând că σˆ 1 = 2,86 μm şi respectiv σ
sunt estimaţii nedeplasate ale abaterilor standard pentru cele
două eşantioane, în locul relaţiei (6.17) se va folosi pentru
intervalul de încredere al varianţei formula:
(n − 1)σˆ 2 < σ 2 < (n − 1)σˆ 2
h α hα
1−
2 2
hα
La prima maşină n1 = 16 ; σˆ 12 = 8,18 iar este cuantila
2
distribuţiei χ 2 cu ν = n − 1 = 15 grade de libertate pentru care
F h α = 0,05 . Cu programul LegiVAC sau Test_S_F_H se
2
găseşte h0,05 = 7,26 şi respectiv h0,95 = 24,996 , astfel încât
intervalul de încredere pentru σ 12 va fi:
15 ⋅ 8,18 15 ⋅ 8,18
< σ12 < ,
24,996 7,26
adică (4,909 < σ12 < 16,901), iar pentru abaterea standard
(2,216 < σ1 < 4,111) µ m
2
La a doua maşină n2 = 25 ; σˆ 2 = 3,764 iar h α este
2
cuantila distribuţiei χ cu ν = n − 1 = 24 grade de libertate
2
pentru care h α = 0,05 .
F
2
Se găseşte h0,05 = 13,848 şi h0,95 = 36,415 , iar intervalele
2
de încredere pentru σ 2 şi respectiv σ 2 sunt:
24 ⋅ 3,764 24 ⋅ 3,764
< σ 22 < ,
36,415 13,848
( )
adică 2,481 < σ 2 < 6,523 şi respectiv (1,575 < σ 2 < 2,554) μm
2
b) Raportul varianţelor de eşantioane este
σˆ 2 8,18
R= 1 = = 2,173
2
σˆ 2 3,764
În (6.20), f α este cuantila distribuţiei Fisher cu n1 − 1 = 15
2
şi respectiv n2 − 1 = 24 grade de libertate pentru care funcţia de
α
repartiţie este egală cu , aici 0,05.
2
Cu programul Test_S_F_H şi opţiunea F la rulare se
găseşte f 0,05 = 0,437 şi respectiv f 0,95 = 2,108 .
Rezultă intervalul de încredere 90% pentru raportul
varianţelor:
R σ12 R
< <
f 0,95 σ 22 f 0,05
adică
2,173 σ12 2,173
< <
2,108 σ 22 0,437
σ12
sau 1,031 < < 4,973 , iar pentru raportul abaterilor standard
σ22
σ
1,015 < 1 < 2,23
σ2
? ..Problema 6.4.1
La un test specific de inteligenţă, 8 studenţi aleşi aleatoriu
au avut un indice IQ mediu de 121 puncte, cu o varianţă de 7, în
timp ce la un lot aleator de 12 liceeni s-a constatat un IQ mediu
de 112, cu o varianţă de 16 puncte. Admiţând că ambele
populaţii sunt aproximativ normale, să se găsească intervalul de
încredere 99% pentru diferenţa între mediile indicilor IQ reali, la
cele două populaţii.
? ..Problema 6.4.2
Considerând că valoarea 3,1 km a abaterii standard din
Problema 6.3.1 este o estimaţie nedeplasată, să se construiască
intervalul de încredere 95% pentru varianţa σ 2 a populaţiei
distanţelor faţă de uzină.
? ..Problema 6.4.3
Bricostore se aprovizionează cu şuruburi de un anumit tip
de la doi furnizori. Pentru a stabili dacă există diferenţe
semnificative între numărul mediu de şuruburi pe cutie livrate
de către aceştia, s-au ales aleator 10 cutii provenind de la primul
furnizor şi 9 de la al doilea. În primul caz s-a găsit un număr
mediu de şuruburi pe cutie de x1 = 35,3 bucăţi, cu o abatere
standard s1 = 2,4 , iar în al doilea caz a rezultat x2 = 31,7 şi
s 2 = 3,4 . Admiţând populaţiile normale
a) Să se găsească intervalul de încredere 98% pentru
µ1 − µ 2 dacă se presupun varianţe egale
b) Să se construiască intervalul de încredere 90% pentru
σ1 / σ 2
? ..Problema 6.4.4
a) Dintr-un eşantion aleator de 300 posesori de autoturism,
210 declară că au maşină cu instalaţie de aer condiţionat. Să se
găsească intervalul de încredere 98% pentru proporţia
posesorilor de maşini cu aer condiţionat.
b) Ce eroare posibilă există la acest nivel de încredere,
dacă se estimează proporţia respectivă la 0,7 ?
? ..Problema 6.4.5
Petrom afirmă că 60% dintre staţiile sale oferă şi alte
facilităţi, în afara vânzării carburanţilor. Câte staţii trebuie
verificate aleator pentru a fi cel puţin 90% convinşi că nu se face
o eroare mai mare de 0,01 acceptând afirmaţia respectivă ?
6.5. Metode de estimare
( −
L = 2πs 2 2 ) ∏
e 2s
2
i =1
şi prin logaritmarea (6.23) se obţine:
( )
n (x − µ )
) 2
n
ln L = − ln 2πs − ∑
2 i
2 2
i =1 2 s
Cu prima condiţie de extrem adică:
∂ (ln L ) 1 n 1 n
= ∑ ( x i − µ
ˆ ) =
∑ x i − nµˆ =0
,
∂µˆ 2
s i =1 2
s i =1
1 n
rezultă evident µˆ = ∑ xi = x
n i =1
deci estimatorul de verosimilitate maximă pentru media
populaţiei este media de eşantion.
2
Privind varianţa s ca al doilea parametru şi dezvoltând
ln L sub forma:
1 n
ln L = − ln(2π) − ln s − (xi − µˆ )2 ,
n n
2 2
2
2 ∑
2 s i =1
2
prin derivare în raport cu s şi egalare cu zero se obţine
∂ (ln L ) 1 n
=−
n
+ ∑ ( xi − µˆ )2 = 0
∂s 2 2 s 2 2 s 4 i =1
1 n
sau −n+
2 ∑ ( xi − µˆ )2 = 0
s i =1
de unde s =
1 n
2
∑
n i =1
( x i − µˆ )2
=
1 n
∑
n i =1
x i − x
2
(
, (un estimator )
deplasat al varianţei populaţiei).
2 ns 2
S-a văzut că σˆ = este o estimaţie nedeplasată.
n −1
i =1
şi logaritm din ea care se poate scrie:
m m m m
ln L = ∑ ln C n i ⋅ pˆ xi ⋅ (1 − pˆ )n− xi = ∑ lnC n i + ln pˆ ∑ xi + ln (1 − pˆ )∑ (n − xi )
x x
i =1 i =1 i =1 i =1
Spre exemplu,
- în cazul parametrului µ al unei populaţii normale,
2
- cu varianţa σ cunoscută,
- dacă x este media unui eşantion de talie n şi
- se cunoaşte distribuţia anterioară a populaţiei mediei,
admisă normală de medie µ 0 şi varianţă σ 02 ,
atunci distribuţia posterioară a populaţiei mediei va fi
normală, cu media µ1 şi varianţa σ12 date de
n xσ 02 + µ 0 σ 2 σ 02 σ 2
µ1 = ; σ12 = (6.28)
nσ 02 + σ 2 nσ 02 + σ 2
Exemplul 6.5.1
Durata de execuţie a unui reper simplu este
aproximativ normal distribuită, cu abaterea standard de 25
secunde. Din experienţa anterioară se cunoaşte că timpul
mediu de execuţie, µ , este o variabilă aleatoare cu distribuţie
normală, având media µ 0 = 82 sec şi abaterea standard
σ 0 = 5 sec .
Dacă pentru un eşantion aleator de 25 repere s-a
determinat un timp mediu de execuţie x = 80 sec , să se găsească
intervalul Bayesian de încredere 99% pentru media populaţiei
µ a duratelor de execuţie.
Soluţie
Conform (6.28), distribuţia posterioară a populaţiei
timpilor medii de execuţie va avea media µ1 şi varianţa σ12 :
n xσ 02 + µ 0 σ 2 25 ⋅ 80 ⋅ 5 2 + 82 ⋅ 25 2
µ1 = = = 81sec
nσ 02 + σ 2 25 ⋅ 5 2 + 25 2
σ 02 σ 2 5 2 ⋅ 25 2
σ12 = = = 12,5
nσ 02 + σ 2 2
25 ⋅ 5 + 25 2
şi σ1 = 3,536 sec .
Cuantila z c = z 0,01 = z 0,995
1−
se găseşte z c = 2,575
2
iar intervalul de încredere 99% după Bayes, se obţine cu
(6.29), adică:
81 − 2,575 ⋅ 3,536 < µ < 81 + 2,575 ⋅ 3,536
sau (71,895 < µ < 90,105) sec .
Exemplul 6.5.2
Fie şirul de debite maxime anuale înregistrate
la un post hidrometric pe pârâul P, într-un interval de 40 ani, ca
în tabelul următor.
Debite maxime anuale m 3s −1 ( )
An Qmax An Qmax An Qmax An Qmax
1 4,39 11 7,01 21 5,52 31 2,54
2 5,34 12 11,79 22 6,80 32 15,63
3 9,52 13 2,22 23 8,04 33 22,42
4 24,94 14 4,58 24 7,04 34 16,06
5 6,05 15 17,11 25 16,05 35 16,10
6 4,55 16 6,16 26 4,47 36 8,84
7 7,32 17 9,78 27 5,66 37 12,41
8 2,39 18 7,76 28 9,25 38 13,46
9 4,34 19 15,01 29 12,68 39 7,92
10 7,81 20 7,10 30 5,09 40 15,19
a) Să se folosească metoda verosimilităţii maxime pentru
a afla estimaţiile parametrilor a şi b ai funcţiei Gamma de
forma:
a b x b−1e − ax
f (x ) =
Γ(b ) ,
care se admite că redă distribuţia acestei variabile hidrologice;
b) Să se traseze graficul funcţiei de densitate Gamma cu
parametri găsiţi mai sus;
c) Să se claseze datele problemei în clase de ecart egal
pe domeniul [0 − X max ] şi să se afle frecvenţele absolute de
eşantion şi respectiv cele teoretice, pe clase;
d) Să se compare mediile şi abaterile standard de
eşantion cu cele teoretice.
Soluţie
a) Logaritmul natural al funcţiei de verosimilitate va fi:
( ) n
[( n
)] { ( )
ln L x; a, b = ∑ ln f x ; a, b = ∑ bˆ ln aˆ + bˆ − 1 ln x − aˆx − ln Γ bˆ
ˆ ˆ
i =1
ˆ ˆ
i
i =1
i i [ ( )]}
unde n = 40 este numărul de date din eşantion.
Condiţiile de maxim pentru ln L au forma:
∂ ln L n ˆ
b
= ∑ − xi = 0
∂aˆ i =1
aˆ
∂ ln L n
= ∑ ln aˆ + ln xi −
∂ ln Γ bˆ [ ( )] = 0
∂bˆ i =1
∂bˆ
Din prima ecuaţie rezultă
n
bˆ ˆ
n = ∑ xi sau b = x (a)
aˆ i =1 aˆ
A doua ecuaţie se poate scrie succesiv:
n bˆ
∑ x ln + ln x i −
[ ( )] = 0
∂ ln Γ bˆ
i =1 ∂bˆ
n
n ln b − n ln x + ∑ ln xi − n
ˆ ∂ ln Γ bˆ [ ( )]
=0
i =1 ∂bˆ
()
F bˆ = ln bˆ −
[ ( )]
∂ ln Γ bˆ
−c = 0 (b)
∂bˆ
1 n
unde s-a notat c = ln x − ∑ ln xi .
n i =1
6 cj
unde g (α ) = 1 + ∑ α + j − 1 , iar coeficienţii c j , j = 1,2,K ,6 sunt
j =1
precizaţi.
f(x)
0,1
0,075
0,05
0,025
x
0 5 10 15 20 25
15
10
10
5
5
x x
0 0
a) b)
Histogramele frecvenţei absolute a) – de eşantion; b) – teoretică
122,11 79,88 70,07 84,39 68,43 25,62 152,01 155,97 75,94 102,34
97,42 58,00 92,29 85,24 40,12 83,02 135,81 93,95 116,86 118,67
116,54 98,19 100,62 154,44 83,99 62,03 125,16 72,30 35,18 107,87
91,12 72,43 108,43 78,24 129,22 96,16 121,80 74,57 73,92 73,88
115,90 107,46 84,54 137,51 150,06 98,86 92,85 104,18 115,69 107,72
Soluţie
Funcţia de repartiţie a distribuţiei Weibull are o expresie
analitică precizată şi anume:
a
x
−
F (x ) = 1 − e b (a)
iar în Cap. 2 s-a recomandat, printre altele, formula:
( )
Fˆ x[r ] =
r − 0,3
N + 0,4
(b)
*
(media necunoscută a unei populaţii este egală cu x ), testul
va folosi media de eşantion x ca estimaţie µ̂ pentru media
populaţiei.
Altă clasificare.
În cazul testelor parametrice –
- este necesar ca populaţia originară să fie cunoscută ca
formă (tip de lege de probabilitate) şi
- se pune problema verificării ipotezei privind unul sau
mai mulţi parametri, pentru care, de asemenea, se cunosc
formele distribuţiilor de eşantionare.
Noţiuni noi:
Nivel de semnificaţie
Pe de altă parte,
- dacă se respinge H 0 există riscul de eroare α ,
- dar nu se poate preciza probabilitatea (1 − β) că s-a
procedat corect (estimarea riscului β fiind greu de realizat).
1-α
α1 ε̂ α2 E
- 4 - 2
e1 e=0 0
e2
2 4
Cazul din fig. 7.1 corespunde unui test zis bilateral în care:
- ipoteza nulă este H 0 : θ = θ 0
- nu se cunoaşte semnul diferenţei între θ̂ observat şi θ 0
- se acceptă ca importante atât situaţia când θˆ > θ 0 , cât şi
cea cu θˆ < θ 0 ,
- iar ipoteza alternativă este H 1 : θ ≠ θ 0
α
La acest test se alege, de regulă α1 = α 2 = şi regiunea
2
critică este alcătuită din cele două zone de la extremităţile
distribuţiei de eşantionare a diferenţei.
Dimpotrivă, dacă interesează doar una dintre diferenţe
(pozitivă sau negativă), adică
a) H 0 : θ = θ 0 ; H 1 : θ > θ 0 sau
b) H 0 : θ = θ 0 ; H 1 : θ < θ 0 ,
atunci e vorba despre un test unilateral, iar regiunea critică se
află în întregime la extremitatea din dreapta sau respectiv
stânga distribuţiei de eşantionare, ca în fig. 7.2.
1-α
α E
- 4 - 2
e=0
0
e2
2 4
de libertate.
Variantele de teste pentru conformitatea varianţei sunt
prezentate în tabelul 7.3.
Tabel 7.3
Sinteză teste conformitate varianţă
Valoarea Condiţie Condiţie
H0 H1 estimatorului acceptare H 0 respingere Observaţii
de test
σ 2 < σ 02 hobs > hα hobs < hα h = variabilă
σ =
2
σ 02 ns 2
hobs < h1−α hobs > h1−α χ 2 cu
σ >
2
σ 02 hobs = ν = n −1
σ2 ≠ σ 02 σ0 2 hα < hobs < h α hobs < h α grade de
1−
2 2 2 libertate
sau
hobs > h α
1−
2
Tabel 7.4
Sinteză teste pentru diferenţa mediilor
Valoarea Condiţie Condiţie
H0 H1 estimatorului de acceptare respingere Observaţii
test H0
µ1 − µ 2 < d 0
z obs =
(x 1 )
− x2 − d0 z obs > z α z obs < z α z = variabilă
normală
µ1 − µ 2 = d 0 z obs < z1−α z obs > z1−α
σ12 σ 22 standard;
µ1 − µ 2 > d 0 +
n1 n2 z obs > z α σ12 = σ 22 -
1−
z obs < z α 2 cunoscute
1−
µ1 − µ 2 ≠ d 0 2
µ1 − µ 2 < d 0
t obs =
(x 1 )
− x2 − d0 t obs > t α t obs < t α t = variabilă
µ1 − µ 2 = d 0 t obs < t1−α t obs > t1−α
t cu
1 1 ν = (n1 + n2
µ1 − µ 2 > d 0 sp +
n1 n2 t obs < t t obs > t
1−
α
1−
α − 2)
2 2
µ1 − µ 2 ≠ d 0 grade de
n1 s12 + n2 s 22 libertate
sp = σ12 = σ 22 -
n1 + n2 − 2
necunoscute
µ1 − µ 2 = d 0 µ1 − µ 2 < d 0
t obs =
(x 1 )
− x2 − d0 t obs > t α t obs < t α t = variabilă
t cu ν
*
s12 s2 t obs < t1−α t obs > t1−α
µ1 − µ 2 > d 0 + 2 grade de
n1 − 1 n2 − 1 t obs < t α t obs > t α libertate
1− 1−
2 2
σ12 ≠ σ 22 -
µ1 − µ 2 ≠ d 0
necunoscute
Pentru d 0 ≠ 0 în relaţiile de mai sus, testele verifică
ipoteze statistice referitoare la o valoare de referinţă
(presupusă) d 0 între mediile a două populaţii şi nu se
mai pot numi teste de omogenitate, ci mai degrabă teste de
conformitate în raport cu d0 .
Observaţie
Soluţie
Pentru punctele a) şi b) problema se admite ca un test
compus, cu ipoteza nulă H 0 : µ ≤ µ 0 , unde µ 0 = 50 , şi
alternativa H 1 : µ > µ 0 .
Populaţia X are distribuţia de tip N (µ, σ ) , iar V.A. X are
(
distribuţia de eşantionare de tip N µ, σ n (deoarece n = 36 - )
mai mare ca 30).
X − µ0
Statistica de test Z= are
σ n
în cazul a) – când µ X = 50 - o distribuţie normală standard
N (0,1) ,
iar limita regiunii critice x c = 51,2 corespunde la
x − µ0 51,2 − 50
zc = = = 1,44 şi deci
σ n 5 36
regiunea critică în variabila Z este pentru Z > z c .
Probabilitatea ca Z > z c este dată de suprafaţa haşurată
din figură, se notează cu α şi reprezintă probabilitatea de a
respinge ipoteza µ X = µ 0 = 50 când ea este adevărată, deci
α = P(Z > 1,44) = 1 − P(Z < 1,44) = 1 − 0,9251 = 0,0749
f(z)
α'
z
η
0 1 2 3 4 5
0 zC
Concluzie
probabilitatea de a respinge ipoteza nulă H 0 : µ ≤ µ 0 , ea
fiind adevărată
(faţă de ipoteza alternativă H 1 : µ > µ 0 ),
se micşorează pe măsură ce µ scade.
Această probabilitate atinge valoarea maximă α , atunci
când µ = µ 0 .
µ
0
f (z )
H c) H d)
1
H 1
0
β
z
' η η
'
0 β
Fig.7.5. Ilustrarea modificării lui β sub H 0 şi pentru două H 1
y = P(I ) y = 1 − P (II )
µ0
Exemplul 7.3.2
Conform datelor de la Agenţia de Protecţie a
Consumatorului, preţul orei de manoperă la reparaţiile auto are o
medie de 28 lei cu o abatere standard de 3,25 lei. Să se testeze
ipoteza că µ = 28 lei , faţă de alternativa µ ≠ 28 lei , la un nivel
de semnificaţie α = 0,05 , pe baza unui eşantion de 36 ateliere
la care s-a constatat un preţ mediu de 30 lei.
Soluţie
Condiţiile testului sunt:
H 0 : µ = µ 0 = 28 ; H 1 : µ ≠ µ 0 ; α = 0,05 ; n = 36 (> 30)
X − µ0
Este utilizabilă statistica Z = ,
σ n
în condiţiile unui test bilateral
cu regiunea critică Z < z α şi Z > z1− α ,
2 2
unde z α este cuantila z 0,025 a distribuţiei N (0,1) pentru care
2
Soluţie
Deoarece talia eşantionului n = 16 este < 30 şi σ
populaţiei este necunoscută,
estimatorul de test va fi o variabilă Student-t de forma:
X − µ0
T= , cu ν = n − 1 grade de libertate.
s n −1
Condiţiile testului sunt:
H0 : µ = µ 0 = 1,98 m ; H1 : µ > µ 0 ; α = 0,01 ; n = 16 (< 30)
iar condiţia de acceptare a lui H 0 : t obs < t1− α ,
unde t1− α este cuantila t 0,99 a distribuţiei Student cu ν = 15
grade de libertate, pentru care F (t ) = 0,99 .
Aceasta are valoarea t 0,99 = 2,602 , obţinută cu programul
Test_S_F_H sau din tabele.
Cu datele de eşantion x = 2 m şi s = 5,13 cm , se obţine
200 − 198
t obs = = 1,51
5,13 15
Deoarece t obs = 1,51 < t 0,99 = 2,602 ,
se acceptă H 0 : µ = 1,98 m , concluzionând că informaţiile de
eşantion nu indică o medie a tuturor jucătorilor din prima
divizie mai mare de 1,98 m, la nivel de semnificaţie 0,01.
Exemplul 7.3.4
Fie următoarea variantă a problemei din
Exemplul 6.4.1:
Pentru a compara produsele de acelaşi tip oferite de către
doi furnizori, se aleg două eşantioane egale de câte n = 15
produse de la fiecare dintre furnizori. La primul eşantion a
rezultat greutatea medie pe produs de 81,4 g, cu o abatere
standard de 4,44 g, iar la al doilea – o medie de 84,5 g, cu
abaterea standard 3,86 g.
Să se testeze ipoteza că greutăţile medii ale tuturor
produselor livrate de cei doi furnizori sunt egale, la nivel de
semnificaţie α = 0,05 şi presupunând că populaţiile sunt
aproximativ normale, cu aceeaşi varianţă.
Soluţie
Deoarece talia eşantioanelor este redusă, cu n1 = n2 = 15
iar populaţiile se admit normale şi cu varianţe egale dar
necunoscute,
2
se va folosi statistica de test T cu varianţa combinată S p ,
de forma:
T=
(x 1 )
− x2 − d0 n1s12 + n2 s 22
sp =
1 1 ; n1 + n2 − 2
sp +
n1 n2
Condiţiile testului sunt următoarele:
H0 : µ1 = µ 2 sau µ1 − µ 2 = 0 , cu d 0 = 0 ;
H 1 : µ1 ≠ µ 2 sau µ1 − µ 2 ≠ 0 ; α = 0,05 ;
iar condiţia de acceptare a lui H 0 : t obs < t1− α ,
2
unde t α = t 0,975 este cuantila distribuţiei Student-t cu
1−
2
ν = n1 + n2 − 2 = 28 grade de libertate, pentru care F (t ) = 0,975 .
Se găseşte t 0,975 = 2,048 .
Cu datele problemei:
x1 = 81,4 ; x 2 = 84,5 ; s1 = 4,44 ; s 2 = 3,86 şi n1 = n2 = 15 se obţine:
15 ⋅ 4,44 2 + 15 ⋅ 3,86 2
sp = = 4,306
15 + 15 − 2
81,4 − 84,5
t obs = = −1,972
1 1
4,306 +
15 15
Deoarece t obs = 1,972 < t 0,975 = 2,048 ,
se acceptă H 0 concluzionând că, pe baza informaţiilor
disponibile pentru acest test, nu există diferenţe între
greutăţile medii ale produselor celor doi furnizori, la nivel de
semnificaţie α = 0,05 .
Exemplul 7.3.5
Un eşantion aleator de talie n1 = 22 are media
datelor x1 =10,25 şi varianţa s12 = 7,38 . Un al doilea eşantion
cu n2 = 20 prezintă o medie de x 2 = 12,15 şi o varianţă s 22 = 6,61 .
La un nivel de încredere α = 0,02 , se poate afirma că cele
două eşantioane provin dintr-o aceeaşi populaţie ? (adică sunt
omogene şi diferenţele dintre caracteristicile lor se datorează
erorilor de eşantionare ?)
Soluţie
Pentru a putea decide dacă cele două populaţii originare
sunt identice
trebuie verificată ipoteza H 0 : µ1 = µ 2
cu alternativa H 1 : µ ≠ µ 0
pentru cazul n1 , n2 < 30 şi σ1 , σ 2 - necunoscute.
2 2
? Problema 7.3.2
O agenţie de pariuri sportive declară că vârsta medie a
jucătorilor este de 48 ani, cu o abatere standard de 4,3 ani.
Pentru a verifica această afirmaţie s-au înregistrat vârstele unui
eşantion aleator de 49 jucători şi s-a decis că dacă vârsta lor
medie, x , se plasează în intervalul 47 ≤ x ≤ 49 , să se accepte
ipoteza H 0 : µ = µ 0 = 48 , iar în caz contrar să se concluzioneze
că H1 : µ ≠ µ 0 .
a) Să se afle α în aceste condiţii
b) Să se evalueze β pentru alternativele adevărate µ = 46
şi respectiv µ = 50 .
? Problema 7.3.3
La o staţie meteorologică din zona montană s-au constatat
valori ale precipitaţiilor anuale care par să fie normal distribuite,
cu o medie de 1400 mm pe an şi o abatere standard de 110 mm.
La un nivel de semificaţie α = 0,04 , să se verifice
H 0 : µ = µ 0 = 1400 mm faţă de H1 : µ ≠ µ 0 , dacă un eşantion de
36 valori anuale a avut o medie x = 1432,6 mm / an
? Problema 7.3.4
În bazinul cu exemplare de vânzare al păstrăvăriei de la
Sâmbăta de Sus, un eşantion aleator de 100 peşti a avut
lungimea medie de 37,8 cm, cu o abatere standard de 5,2 cm. Să
se testeze ipoteza H 0 : µ = µ 0 = 35 cm , faţă de alternativa
H1 : µ > µ 0 , la nivel de semnificaţie 0,05.
? Problema 7.3.5
Postul TV Etno pretinde că transmite cel puţin 21 ore pe zi
programe cu specific etnografic. Este afirmaţia corectă, la nivel
de semnificaţie 0,01, dacă din 60 de zile monitorizate aleatoriu
s-a constatat că postul transmite astfel de programe în medie
20,4 ore pe zi, cu abatere standard de 1,8 ore ?
? Problema 7.3.6
O alergătoare de 400 m doreşte să-şi îmbunătăţească
performanţa şi crede că timpii scoşi de ea pe distanţa respectivă
au o abatere standard mai mică decât 1,3 secunde. Sunteţi de
acord cu atleta, la nivel de semnificaţie 0,05, dacă în 15 curse
alese întâmplător dintre ultimele la care a participat, s-a
constatat o abatere standard de 1,01 secunde ?
? Problema 7.3.7
Un eşantion aleator de talie n1 = 36 extras dintr-o
populaţie normală cu varianţa σ12 = 72 , are media x1 = 222 . Un al
doilea eşantion de talie n2 = 49 , dintr-o altă populaţie normală
cu varianţa σ 22 = 98 , are o medie x2 = 231 . Să se testeze
H 0 : µ1 = µ 2 faţă de alternativa H1 : µ1 ≠ µ 2 , la nivel de
semnificaţie 0,03.
? Problema 7.3.8
În cadrul unui studiu medical se urmăreşte, printre altele,
analiza variabilităţii greutăţii corporale la fete şi respectiv băieţi
din aceiaşi categorie de vârstă. Distribuţiile greutăţilor se admit
normale, atât la fete cât şi la băieţi. La un eşantion aleator de 25
fete s-a constatat o abatere standard de 7,8 kg, iar la un eşantion
aleator de 16 băieţi – o abatere standard de 4,5 kg. Se poate
afirma, la nivel de semnificaţie 0,01, că variabilitatea greutăţii
este mai mare în cazul fetelor ?
( )
k α'
P X ≤ k α' când p = p0 = ∑ b(x; n, p0 ) ≤ α
x =0
Similar, pentru a testa ipotezele:
H 0 : p = p 0 ; H 1 : p > p0 ,
regiunea critică de dimensiune α este dată de relaţia:
x ≥ kα , unde k α este cel mai mic întreg pentru care
n
P( X ≥ k α când p = p0 ) = ∑ b(x; n, p0 ) ≤ α
x = kα
În final, pentru a testa ipotezele:
H 0 : p = p0 ; H1 : p≠ p ,
0
regiunea critică de dimensiune α este dată de
'
x ≤ kα şi x ≥ kα .
2 2
Exemplul 7.4.1
Se estimează că 80% dintre locuinţele unui
cartier sunt racordate la televiziunea prin cablu şi se consideră
că această ipoteză este corectă dacă dintr-un eşantion de 20
locuinţe alese aleator, se vor găsi între 15 şi 18 care sunt
racordate.
a) Să se evalueze probabilitatea comiterii unei erori de
tip I, pentru ipoteza alternativă p ≠ 0,8 şi să se comenteze;
b) Să se evalueze probabilitatea unei erori de tip II în
alternativele p = 0,7 şi respectiv p = 0,9 şi să se comenteze.
Soluţie
a) Eroarea de tip I apare dacă 14 sau mai puţine locuinţe
sau respectiv dacă 19 sau mai multe locuinţe ar fi racordate,
în ipoteza că H 0 : p = p0 = 0,8 şi
cu alternativa H 1 : p ≠ p0 .
Deci
α = P (respingere H 0 când este adevărată )
= P( X ≤ 14 sau X ≥ 19 dacă p = 0,8) =
14 18
= ∑ b(x;20;0,8) + 1 − ∑ b( x;20;0,8)
x =0 x = 0
Cu programul binomial se găseşte că
valoarea funcţiei de repartiţie pentru X = 14 este
0,1958,
iar pentru X = 18 este 0,9308.
Rezultă:
α = 0,1958 + (1 − 0,9308) = 0,265
Cu procedura de decizie de a accepta H 0 dacă
15 ≤ X ≤ 18 rezultă că
în 26,5% din timp s-ar accepta H 1 : p ≠ 0,8 , deşi în
realitate p = 0,8 .
Exemplul 7.4.2
Soluţie
a) Folosind programul binomial, se găseşte:
α = P( X ≤ 71 sau X ≥ 89 când p = 0,8) =
71 88
∑ b ( x;100;0,8 ) + 1 − ∑ b ( x;100;0,8 )=
x =0 x = 0
= 0,0200 + (1 − 0,9874) = 0,0326
Exemplul 7.4.3
Secretariatul facultăţii afirmă că cel puţin 40%
dintre studenţii cu o restanţă ajung de obicei să mai adauge
una într-o sesiune curentă. Se poate admite această ipoteză, la
nivel de semnificaţie α = 0,05 , dacă dintr-un eşantion aleator
de 20 studenţi s-a constatat la sfârşitul sesiunii că 6 au câte
două restanţe?
Soluţie
Ipoteza nulă se defineşte prin H 0 că p = p0 = 0,4 ,
cu alternativa că H 1 : p < p0 şi prag de semnificaţie α = 0,05 .
Considerând ca „succes” = terminarea sesiunii cu două
restanţe, la proporţia p dintre cei care deja aveau una,
experimentul binomial de talie n = 20 , are regiunea critică dată
de:
( )
k α'
P X ≤ k α' când p = p0 = 0,4 = ∑ b(x;20;0,4) ≤ α ,
x =0
'
unde k α este cel mai mare întreg pentru care se realizează
condiţia de mai sus.
Cu programul binomial se găseşte pentru α = 0,05 că
regiunea critică este x ≤ k α' = 3 .
Deoarece în eşantion s-au găsit 6 studenţi cu două restanţe,
'
adică mai mult decât k α = 3 , ipoteza H 0 se acceptă, rezultând
concluzia că nu există suficientă evidenţă pentru a contrazice
afirmaţia secretariatului.
Exemplul 7.4.4
O societate de asigurări este interesată de
legătura dintre vârsta conducătorilor auto şi proporţia celor
care produc accidente rutiere cu despăgubiri. În acest sens s-a
selectat un eşantion aleator de 100 şoferi până în 25 ani, la
care s-au constatat 48 de accidente, şi respectiv un eşantion de
150 şoferi peste 25 ani, care au fost implicaţi în 63 de
accidente. La nivel de semnificaţie de 0,05, există o diferenţă
între proporţiile adevărate ale celor două categorii ?
Soluţie
Eşantioanele sunt de talie mare ( n1 = 100 şi n2 = 150 ) şi
atunci estimatorul de test se admite o variabilă normală
standard.
Se defineşte ipoteza nulă H 0 : p1 = p 2 ,
cu alternativa H 1 : p1 ≠ p 2 ,
caz în care regiunea critică va fi dată de z < z α şi z ≥ z1− α .
2 2
Valoarea estimatorului se calculează cu relaţia:
pˆ 1 − pˆ 2
z=
1 1 ,
pˆ qˆ +
n1 n2
în care p̂1 şi p̂ 2 sunt estimările de eşantion, adică
48 63
pˆ 1 = = 0,48 şi respectiv pˆ 2 = = 0,42
100 150
Prin p̂ s-a notat o proporţie ponderată:
48 + 63
pˆ = = 0,444 , iar qˆ = 1 − pˆ = 0,556
100 + 150
0,48 − 0,42
Rezultă z = = 0,9354
1 1
0,444 ⋅ 0,556 +
100 150
Pentru nivel de semnificaţie α = 0,05 , cuantilele z 0,025 şi
z 0,975 au valorile -1,96 şi respectiv 1,96.
Deoarece z = 0,9354 este cuprins între cele două cuantile
(adică în regiunea de acceptare), se acceptă H 0 şi concluzia că
proporţiile celor implicaţi în accidente sunt egale pentru
ambele categorii de vârstă.
? Problema 7.4.1
Dintr-un lot aleator de 250 studenţi integralişti, s-a
constatat că 182 se mulţumesc cu note de trecere mici, în locul
notelor care le-ar asigura bursă. Să se verifice ipoteza că
proporţia acestora este p = 0,8 , faţă de alternativa că p < 0,8 , la
nivel de semnificaţie 0,05.
? Problema 7.4.2
Dintr-un eşantion aleator de 500 telespectatori, 125 declară
că urmăresc talk-show-urile de după ora 22. Există suficientă
evidenţă pentru a concluziona că mai mult de 20% dintre
telespectatori urmăresc emisiunile respective, la nivel de
semnificaţie 0,04 ?
? Problema 7.4.3
Managerii de la Cora şi Carrefour susţin că nu există
diferenţe între preferinţele cumpărătorilor faţă de unul sau altul
dintre magazine, la gama produselor electronice. Sunteţi de
acord cu această afirmaţie, la nivel de semnificaţie 0,05, dacă
dintr-un eşantion aleator de 400 cumpărători 182 au declarat că
preferă Cora, în timp ce dintr-un alt eşantion de 250, 96 s-au
pronunţat în favoarea Carrefour ?
? Problema 7.4.4
Într-un studiu efectuat la o universitate mare s-a urmărit,
printre altele, să se stabilească dacă proporţia studentelor care
urmează şi un masterat este mai mare decât proporţia studenţilor
care procedează similar. Există suficientă evidenţă pentru
aceasta, la nivel de semnificaţie 0,01, dacă 110 din 200 studente
şi respectiv 38 din 100 studenţi aleşi aleatoriu, au continuat la
master ?
În continuare, admitem că
se compară perechile corespondente de valori X şi Y din
două eşantioane egale şi
se notează în câte situaţii X este mai mare decât Y (sau
diferenţele X i − Yi au semn pozitiv – de aici şi denumirea
testului!).
Exemplul 7.5.1
Pentru fiecare dintre 10 perechi de gemeni s-a
administrat, în mod aleatoriu, unuia dintre ei o pastilă de
dormit tip A şi celuilalt o pastilă de tip B. La 8 dintre cele 10
perechi s-a observat că pastila de tip A a produs durate mai
lungi ale somnului. Care este nivelul de semnificaţie, în raport
cu ipoteza nulă că cele două tipuri de pastile sunt la fel de
eficiente ?
Soluţie
Eficienţa egală corespunde la H 0 : p = p0 = 0,5
cu alternativa considerată că H 1 : p ≠ 0,5 (nu sunt la fel de
eficiente).
Este un test bilateral, la care regiunea critică este definită
prin:
α = P(K ≤ 2 şi K ≥ 8 pentru p = 0,5) = P(K < 3 şi K > 7 pentru p = 0,5) =
2 7
= ∑ b(k ;10;0,5) + 1 − ∑ b(k ;10;0,5) = 0,0537 + (1 − 0,9443) = 0,1094
k =0 k = 0
unde valorile funcţiilor de repartiţie se obţin cu programul
binomial.
Deoarece probabilitatea unei erori de tip I a rezultat
α = 0,1094 , adică o valoare mare faţă de cele folosite curent în
testarea ipotezelor (α = 0,05 ÷ 0,01) , nu se va respinge ipoteza
H 0 , concluzionând că cele două tipuri de pastile sunt la fel de
eficiente.
Exemplul 7.5.2
Se suspectează că moneda folosită de un
amator de pariuri este trucată pentru a rezulta în mai multe
aruncări cap decât pajură. La un experiment de 100 aruncări a
ieşit cap de 61 de ori. Este justificată suspiciunea la un nivel
de încredere α = 0,02 ?
Soluţie
Definind ipoteza nulă H 0 : p = 0,5 şi ipoteza alternativă
H 1 : p > 0,5 (proporţie mai mare de a rezulta cap), regiunea
critică apare pentru
α c = P(K ≥ 61 când p = 0,5) = 1 − P(K < 61 când p = 0,5)
Deoarece numărul de aruncări n = 100 este mare, se poate
aproxima distribuţia binomială prin distribuţia normală de
medie µ k = 100 / 2 = 50 şi abatere standard σ k = 100 / 4 = 5 .
Variabila normală standard va avea valoarea:
61 − 50 − 0,5
z= = 2,1
5
astfel că α c = 1 − P(z < 2,1) = 1 − 0,9821 = 0,0179 < α = 0,02
Deoarece α c a rezultat inferior nivelului de încredere
specificat prin enunţ, ipoteza nulă H 0 : p = 0,5 nu se respinge
şi trebuie acceptat că moneda nu este trucată.
Exemplul 7.5.3
După examenul la o anumită disciplină,
punctajele (din 100 puncte) obţinute de două eşantioane
aleatoare formate din 14 studente şi respectiv 10 studenţi sunt
cele din tabelul următor.
Număr 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Studente 39 34 61 70 43 71 50 76 56 65 83 68 79 73
Studenţi 60 31 45 39 52 51 35 56 54 58
Să se examineze dacă aceste date ilustrează cu evidenţă
semnificativă faptul că, printre studenţii şi studentele
reprezentate de aceste eşantioane, studentele par mai bune la
disciplina respectivă.
Soluţie
Notând cu eticheta F – studentele şi cu B – studenţii şi
ordonând crescător eşantionul global de n1 + n2 = 24 date, se
obţin rangurile punctajelor ca în tabelul de mai jos.
Rang 1 2 3 4 5 6 7 8 9 10 11
F 34 39 43 50 56
B 31 35 39 45 51 52 54 56
Rang 12 13 14 15 16 17 18 19 20 21 22
F 61 65 68 70 71 73 76 79 83
B 58 60
În ambele situaţii,
- ipoteza H 0 presupune că datele observate provin dintr-
o populaţie cu funcţia de repartiţie F ( x; θ) , unde F este
cunoscută şi θ (poate fi şi un vector de parametri) este
cunoscut precis sau doar ca estimaţie.
- ipoteza alternativă H 1 constă în afirmaţia că F ( x; θ)
nu este funcţia de repartiţie a V.A. observate, care poate fi
oricare altă lege de distribuţie - deci o alternativă foarte
generală.
f(x) testată
x
aj bj
∑
2 j j
χ obs = (8.1)
j =1 n*j
2
χ obs =∑∑
r c ( fij − fij* )2
(8.5)
i =1 j =1 f ij*
de libertate.
2
Deoarece valorile calculate χ obs sunt discrete, distribuţia
χ 2 doar aproximează distribuţia acestei V.A. discrete. Totuşi,
aproximarea este adecvată dacă ν > 1 .
Exemplul 8.1.1
Pentru datele problemei din Exemplul 6.5.2,
referitoare la debitele maxime anuale înregistrate la un post
hidrometric pe pârâul P, s-a presupus că acestea sunt redate de o
distribuţie Gamma cu doi parametri şi s-au găsit estimările
acestora cu metoda verosimilităţii maxime la valorile
aˆ = 0,345 şi bˆ = 3,25 .
a) Să se verifice prin testul χ 2 , la nivel de semnificaţie
α = 0,05 , dacă distribuţia Gamma cu parametrii â şi b̂
menţionaţi, redă setul de date observate şi să se afle riscul de
respingere a ipotezei nule, ea fiind adevărată;
b) Să se repete testul χ , la acelaşi nivel de semnificaţie şi
2
µˆ = x =
1 N
∑
N i =1
xi = 9,41 m 3s −1 şi σˆ =
1 N
∑
N i =1
(
xi − )
x
2
= 5,34 m 3s −1
( )
α = 0,05 , dacă distribuţia W aˆ , bˆ redă setul de date observate şi
să se afle riscul de respingere a ipotezei, H 0 ea fiind
adevărată;
b) Să se repete testul pentru cazul distribuţiei normale,
ştiind că estimaţiile de eşantion pentru medie şi abaterea
standard sunt µˆ = 96,98 şi σˆ = 29,18 ;
c) Folosind legea teoretică cea mai potrivită, să se găsească
probabilitatea de funcţionare a produsului fără defect pe
durata a 120 unităţi de timp şi rata de defectare la acel
moment.
Soluţie
a) Cu programul Test_hi2 şi opţiunea W, introducând
estimările aˆ = 3,348 şi bˆ = 108,55 şi α = 0,05 pentru nivelul de
semnificaţie, acesta a indicat:
2
- χ obs = 5,20 ; χ12− α (ν ) = 14,068 ;
( )
- riscul luat prin respingerea lui H 0 : W aˆ , bˆ egal cu
63,56%.
apariţii.
Soluţie
Pentru cele 160 valori de debite medii anuale s-a găsit
3 −1
media multianuală µˆ = 5435,34 m s şi abaterea standard
σˆ = 928,77 m 3s −1 .
Folosind aceste estimaţii în programul Test_hi2,
2
- valoarea estimatorului χ obs a rezultat 25,20, iar
- valoarea cuantilei distribuţiei χ cu ν = 160 / 5 − 2 − 1 = 29
2
Exemplul 8.1.4
Pentru un eşantion aleator de 1000 persoane s-a
alcătuit tabelul de contingenţă de mai jos, după variabilele de
clasificare sex şi emisiuni TV preferate.
Emisiuni TV
Sex Divertisment Stiri Sportive
Bărbaţi 102 190 308
Femei 148 160 92
Să se testeze ipoteza că sexul şi preferinţele pentru
emisiuni TV sunt variabile independente, la nivel de
semnificaţie α = 0,05 .
Soluţie
Se extinde tabelul de date cu frecvenţele marginale şi se
completează fiecare celulă adăugând între paranteze
frecvenţele teoretice calculate cu relaţia (8.4).
Emisiuni TV
Sex Divertisment Ştiri Sportive Sume ni
Bărbaţi 102 (150) 190(210) 308 (240) 600
Femei 148 (100) 160 (140) 92 (160) 400
Sume m j 250 350 400 Total
T=1000
2
( )
pentru care F χ = 1 − α = 0,95 şi care este χ 0,95 (2 ) = 5,991 .
2
Valoarea observată a estimatorului se obţine cu relaţia
(8.5) şi este
χ 2
=
(102 − 150)2 (190 − 210)2 (308 − 240)2 (148 − 100)2 (160 − 140)2
+ + + + +
obs
150 210 240 100 140
+
(92 − 160)2 = 91,33
160
2
Deoarece χ obs = 91,33 > χ 02,95 (2 ) = 5,991 ,
ipoteza H 0 se respinge, concluzionând că variabilele sex şi
preferinţă pentru emisiuni TV sunt dependente (ceea ce era de
aşteptat!).
Exemplul 8.1.5
Un eşantion de 800 votanţi este selectat
aleatoriu pentru a determina dacă proporţiile votanţilor din
zonele urbană, preorăşenească şi rurală care sunt în favoarea
votului uninominal la referendum sunt aceleaşi.
Rezultatele sondajului sunt cele din tabelul următor:
Zona Urbană Preorăşenească Rurală
Vot
Pentru 165 125 102
Contra 155 120 133
Se va folosi nivelul de semnificaţie α = 0,01 pentru
efectuarea testului.
Soluţie
Fie p1 , p 2 şi p3 proporţiile de votanţi pentru din
zonele urbană, preorăşenească şi rurală. Atunci:
- ipoteza nulă H 0 este p1 = p 2 = p3 ;
- ipoteza alternativă H 1 : p1 , p2 şi p3 nu sunt toate egale;
- regiunea critică: χ obs
2
> χ12−α (ν = 3 − 1) şi pentru α = 0,01
cu ν = 2 , cuantila χ 0,99 (ν ) = 9,210 .
2
Tabelul de contingenţă extins şi completat cu frecvenţele
teoretice este următorul:
Zona Urbană Preorăşenească Rurală Sume ni
Vot
Pentru 165 (157) 125 (120) 102 (115) 392
Contra 155 (163) 120 (125) 133 (120) 408
Sume m j 320 245 235 Total
T=800
Frecvenţele teoretice se calculează ca anterior cu (8.4).
n1m1 392 ⋅ 320
De exemplu: f11* = = = 156,8 rotunjit 157 la cel mai
T 800
apropiat întreg;
n2 m3 408 ⋅ 235
f 23* = = = 119,85 rotunjit la 120, etc.
T 800
Valoarea estimatorului de test va fi:
2
χ obs =
(165 − 157 )2 (125 − 120)2 (102 − 115)2 (155 − 163)2 (120 − 125)2
+ + + + +
157 120 115 163 125
+
(133 − 120)2 = 4,087
120
? ..Problema 8.1.2
Salariile de bază ale unui eşantion de 100 de mineri din
bazinul Olteniei s-au clasat în 8 clase de ecart egal cu ∆S = 75
RON, rezultând frecvenţele absolute pe clase din tabelul
următor.
Clasă (RON) 660-735 735-810 810-885 885-960 960-1035
Număr apariţii 1 1 12 24 20
nj
? ..Problema 8.1.3
Direcţia Penitenciarelor întreprinde un studiu pentru a
determina dacă proporţiile condamnaţilor de etnie română,
rromă sau alta, aflaţi în arest pe cauze civile şi respectiv penale,
sunt aceleaşi. S-a ales aleatoriu un eşantion de 500 fişe de
deţinuţi şi s-au constatat datele din tabelul următor. Se va folosi
nivelul de semnificaţie α = 0,01 pentru a verifica dacă
proporţiile sunt aceleaşi.
Etnie Româna Rromă Alta
Cauză
Civilă 270 52 58
Penală 80 28 12
k (α ) 0,2
d cr = +
0,5 N , (8.12)
N + 0,26 +
N
coeficienţii k (α ) având valorile din tabelul 8.2.
Tabel 8.2
Coeficienţii k (α ) pentru d cr la testul Kolmogorov – Smirnov
de ajustare (legea normală şi exponenţială)
α 0,15 0,10 0,05 0,025 0,01
k (α ) pentru 0,775 0,819 0,895 0,955 1,035
(8.11)
k (α ) pentru 0,926 0,990 1,094 1,190 1,308
(8.12)
2
se observă că cel de-al treilea devine neglijabil pentru y α ≥ 1 .
df (z α )
, iar indicii n şi v se referă la valorile
'
în care f este dz
α
nouă şi respectiv veche.
Dacă se notează a = e −2 , b = e −6 şi c = e −16 , relaţia de
iteraţie devine:
(
z z z α
a 1− b + c − 2 )
(z α )n = (z α )v + z
( z z
2a 1 − 4b + 9c ) (8.17)
(z α )
v
Soluţie
Se foloseşte programul Test_K_S1, care verifică ipoteze
statistice pe un şir de date neclasate.
El execută testul de conformitate pentru ipoteza nulă
H 0 : Fˆ (x ) = F (x ) şi
oricare dintre ipotezele alternative:
H 11 : Fˆ (x ) ≠ F (x ) (test bilateral, cu statistica d din (8.9))
H 12 : Fˆ (x ) ≥ F (x ) (test unilateral, cu statistica d + din (8.8))
H 13 : Fˆ (x ) ≤ F (x ) (test unilateral, cu statistica d − din (8.8))
Comentarii:
- Dacă se cunoaşte exact că media şi abaterea standard au
valorile menţionate şi că legea este de tip normală, atunci
ipoteza H 0 că ea redă datele observate se acceptă la nivel de
semnificaţie de 0,05.
- Dacă valorile parametrilor sunt doar estimări făcute pe
baza eşantionului de date, atunci nu există suficientă evidenţă
pentru a accepta H 0 , la acelaşi nivel de semnificaţie.
Exemplul 8.2.2
Să se reia problema din Exemplul 8.2.1 şi să se
testeze ipoteza că datele observate sunt bine redate de o lege
log-normală cu parametri a = 2,08 şi respectiv b = 0,582 , la
nivel de semnificaţie α = 0,05 .
Soluţie
În ipoteza nulă H 0 : Fˆ (x ) = LN (2,08;0,582) cu alternativa
H 1 : Fˆ (x ) ≠ LN (a, b ) , programul Test_K_S1 a indicat valoarea
observată a estimatorului d obs = 0,085 şi valoarea critică – la
fel ca în exemplul anterior d cr = 0,2102 .
Deşi analiza s-a făcut ca test de conformitate, având în
vedere că d obs este mult mai mic decât d cr ,
se poate afirma că valorile estimate pe baza datelor de
eşantion pentru a şi b, fac ca legea log-normală să se ajusteze
bine cu setul de date, pentru α = 0,05 .
Exemplul 8.2.3
Soluţie
a) În cazul rulării pentru legea Weibull şi ca test de
conformitate, la nivel de semnificaţie α = 0,02 s-a obţinut:
d obs = 0,0921 şi d cr = 0,2106
Deoarece d cr este de peste două ori mai mare decât d obs ,
poate fi privit şi ca test de ajustare, în care ipoteza H 0 este
admisă.
Soluţie
a) Se ştie că distribuţia Beta (a,b) este definită pe
domeniul x ∈ (0,1) .
Datele de niveluri din problemă se pot adimensionaliza
cu relaţia:
Z − NmE Z − 740 Z − 740
x= = =
NNR − NmE 800 − 740 60
şi noua variabilă este acum definită pe domeniul 0 – 1.
Cu transformarea menţionată, în variabila x vor apare
20 de clase de ecart ∆x = 0,05 :
prima între 0 şi 0,05, a doua între 0,05 şi 0,10, , ş.a.m.d,
ultima între 0,95 şi 1,00,
având frecvenţele absolute din tabelul de date.
Exemplul 8.2.5
Să se verifice ajustarea datelor de debite medii
anuale pe Dunăre, la Orşova, din perioada 1840 – 1999
(tabelul 8.1.3) la legea normală de medie µ = 5435,34 m 3s -1 şi
abatere standard σ = 928,77 m 3s -1 folosind testul Kolmogorov –
Smirnov:
a) pe şirul de date observate;
b) pe şirul datelor clasate în 25 clase de ecart egal, din
3 -1
domeniul 3200 – 8200 m s .
Se va considera nivelul de semnificaţie α = 0,05 .
Comentaţi rezultatele şi prin comparaţie cu Exemplul 8.1.3.
Soluţie
a) La rularea programului Test_K_S1 pentru cazul
testului bilateral de ajustare, s-au obţinut rezultatele:
d obs = 0,0788 şi d cr = 0,0704 ,
deci ipoteza H 0 se respinge.
? ..Problema 8.2.1
S-a constatat că un lot de 20 şoareci de laborator folosiţi
pentru a testa un nou vaccin au murit după timpii (exprimaţi în
ore) de la injectare trecuţi în tabelul următor.
50,83 47,73 24,47 59,49 75,43 5,69 49,45 123,35 88,15 4,89
14,02 65,70 10,86 71,76 41,89 27,49 27,25 97,06 20,03 38,66
a) Să se verifice prin testul Kolmogorov – Smirnov ipoteza
că durata de viaţă după injecţie este descrisă de o lege
exponenţială de parametru cunoscut b = 50 ore, la nivel de
semnificaţie α = 0,05 .
b) Care este concluzia testului de ajustare, la acelaşi nivel de
semnificaţie, dacă se foloseşte media de eşantion a duratei de
viaţă de 47,12 ore ca estimaţie pentru b ?
? ..Problema 8.2.2
Refaceţi problema 8.1.2 apelând la testul Kolmogorov –
Smirnov pentru verificarea ipotezelor de: a) conformitate cu
legea N (1000; 120) şi b) concordanţă cu legea N (1002,8; 107,12) ,
la acelaşi nivel de semnificaţie α = 0,05 .
? ..Problema 8.3.1
Dacă aţi rezolvat Problema 8.2.1 şi aveţi valorile funcţiei
teoretice de repartiţie F (xi ) calculate în varianta de test de la
punctul a) din acea problemă:
a) Calculaţi manual sau printr-un program simplu de calcul
2
(în limbajul preferat), valorile estimatorilor de test W (pentru
2
testul Cramer – von Mises) şi A (pentru testul Anderson –
Darling);
b) Folosind tabelele incluse în paragraful 8.3, calculaţi
valorile critice ale estimatorilor respectivi în cazul testului de
conformitate şi pentru nivel de semnificaţie α = 0,05 ;
c) Exprimaţi o opinie despre testul care pare să fie cel mai
edificator între Kolmogorov – Smirnov (Problema 8.2.1),
Cramer – von Mises şi Anderson - Darling (problema de faţă).
10. REGRESII ŞI CORELAŢII
Pentru a examina legătura dintre două V.A. X şi Y, prima
acţiune recomandabilă este
trasarea unui grafic de dispersie (scatter diagram) cu datele
observate {xi , yi } , i = 1,2,K , n - disponibile din înregistrări simultane
asupra realizărilor celor două V.A. analizate.
x x x
a) b) c)
Fig.10.1. Forme posibile de grafice dispersionale
i =1 i =1 i =1
n n
Dacă se notează prin u j = ∑ xi , j = 0,1, 2 şi prin v j = ∑ xi yi ,
j j
i =1 i =1
j = 0,1 , sistemul de ecuaţii (10.3) se scrie:
u0 aˆ + u1bˆ = v0
u1aˆ + u 2bˆ = v1
iar cu notaţiile:
u u1 v u1
∆= 0 = u0u 2 − u12 ; ∆0 = 0 = v0u 2 − v1u1 şi
u1 u2 v1 u2
u v0
∆1 = 0 = u0 v1 − u1v0 ,
u1 v1
soluţia lui devine:
∆ v u −v u ∆ u v −u v
aˆ = 0 = 0 2 1 1 ; bˆ = 1 = 0 1 1 0 (10.4)
∆ u0u 2 − u12 ∆ u0u 2 − u12
(10.5)
unde s XY este covarianţa de eşantion (v. Cap. 3, relaţia (3.42)), iar
s 2X este varianţa de eşantion a variabilei explicative.
yi
ecart ecart rezidual
total
ŷi dreaptă de regresie
ecart explicat
y
centrul de
greutate
x xi x
Fig.10.2. Dreapta de regresie şi ecarturi
a variabilei Y adică s 2 1
Y =
n
∑ iy − y
2
. ( )
2 1
Varianţa explicată prin regresie este sYˆ = ∑ yˆ i − y ,
n
2
( )
iar varianţa reziduală se scrie sε = ∑ ( yˆ i − yi ) .
2 1 2
n
Deoarece ecarturile sunt V.A. şi cum ecartul total este egal cu
suma celorlalte două,
varianţa lui va fi suma varianţelor celorlalte două, adică:
sY2 = s 2ˆ + sε2 (10.8)
Y
dreaptă de
regresie
µY x 2
µY x1
x1 x2 x
(B − β)s X
( σ cunoscut)
n
Variabilele Z= sau
σ
(B − β)s X
( σ necunoscut)
n
T=
sˆε
au distribuţiile normală standard sau respectiv Student-t cu n − 2
grade de libertate.
Intervalul de încredere (1 − γ ) ⋅ 100% pentru parametrul β al
dreptei de regresie este de forma:
bˆ − t γ σ B < β < bˆ + t γ σ B (10.23)
1− 1−
2 2
unde t1− γ este, după caz, cuantila variabilei Z sau respectiv T pentru
2
γ
care funcţia de repartiţie este egală cu 1 − .
2
Testul de conformitate pentru ipoteza nulă β = β0 , faţă de una
din ipotezele alternative H1 ,
se face comparând valoarea estimatorului
(
t obs =
)
bˆ − β 0 s X n b − β 0
=
ˆ
(10.24)
sˆε σB
cu valorile cuantilelor care definesc regiunea critică, la nivelul de
semnificaţie γ ales, pentru distribuţia Student-t cu ν = n − 2 grade de
libertate – ca în cazul variabilei A.
=
σ2
1 +
σ 2ˆ
x−x
2
( )
n
Y s X
2
2
iar cu estimaţia nedeplasată sˆε pentru σ 2 rezultă:
σYˆ =
sε
1+
x−x ( )2
(10.27)
n−2 s 2X
σYˆ =
sε
1+ n +
x−x( )2
(10.29)
* n−2 s 2X
şi intervalul de încredere (1 − γ ) ⋅100% va fi :
yˆ* − t γ σYˆ < y ( x ) < yˆ* + t γ σYˆ (10.30)
1− * 1− *
2 2
σ 2 , date de relaţiile:
k 2 k ni
2
1 Ti 1 − bˆ ns
σ12 = ∑ − ∑ ∑ y
(k − 2) i =1 ni n i =1 j =1
ij
2 2
X
(10.32)
1 k i 2 k Ti2
n
σ 22 = ∑ ∑ yij − ∑
(n − k ) i =1 j =1 i =1 ni
ni
unde yij este valoarea j a variabilei Yi , j = 1,2,K , ni iar Ti = ∑ yij .
j =1
2
Dacă regresia este nelineară, σ1 supraestimează pe σ 2 iar
ipoteza nulă H 0 : σ12 = σ 22 va fi testată
faţă de alternativa H1 : σ12 > σ 22
σ12
şi respinsă când f obs = este mai mare decât f cr .
σ 22
unde f cr este cuantila pentru care distribuţia Fisher cu k − 2
şi n − k grade de libertate are valoarea funcţiei de repartiţie egală
cu 1 − γ .
Exemplul 10.1.1
Într-un târg de maşini second – hand, un cumpărător
potenţial analizează ofertele de preţ pentru o maşină de cilindree mică
din marca Fiat, notându-şi vechimea maşinilor (în ani, ţinând seama
de anul de fabricaţie anunţat) şi preţul cerut (în mii de euro). A
obţinut datele din tabelul 10.1.1 pe parcursul plimbării prin târg.
Tabel 10.1.1
Număr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
observaţie
Vechime 2 3 2 4 6 3 5 2 4 3 2 4 5 3 5 6
(ani)
Preţ 6,4 5,9 6,2 5,0 3,6 5,5 4,4 6,8 5,1 5,7 6,1 5,3 4,6 5,5 4,8 3,8
(mii €)
Soluţie
a) Conform (10.4) pentru găsirea estimaţiilor parametrilor
dreptei de regresie trebuie să se calculeze:
16 16
u0 = n = 16 ; u1 = ∑ xi = 59 ; u 2 = ∑ xi2 = 247 ;
i =1 i =1
16 16
v0 = ∑ yi = 84,7 şi v1 = ∑ xi yi = 293,8
i =1 i =1
Atunci rezultă:
7
y
(mii €)
6.5
5.5
4.5
3.5
x (ani vechime)
3
0 1 2 3 4 5 6 7
Se obţine imediat:
u 59
x= 1 = = 3,6875 şi
n 16
s 2X
1 16
n i =1
2
(
1 16 2
n i =1
2 u
n
)
= ∑ xi − x = ∑ xi − x = 2 − x =
2 247
16
− 3,68752 = 1,8398
σYˆ =
sε
1+
(x − x)
2
=
0,1962
1+
(4 − 3,6875)2
= 0,0538
n−2 s 2X 16 − 2 1,8398
Cuantila distribuţiei Student cu 14 grade de libertate pentru
γ
care funcţia de repartiţie este egală cu 1 − = 0,995 se găseşte
2
t cr = 2,977 şi apoi se calculează
tcr ⋅ σYˆ = 2,977 ⋅ 0,0538 = 0,160 .
Intervalul de încredere pentru preţul mediu condiţionat de x =
4 va fi:
5,097 − 0,160 < µY 4 < 5,097 + 0,160 ,
adică 4,937 < µY 4 < 5,257 mii €.
Exemplul 10.1.2
Soluţie
a) Cuantila distribuţiei Student cu ν = n − 2 = 16 − 2 = 14 grade
de libertate, pentru care funcţia de repartiţie este egală cu
γ
1− = 0,995 se găseşte t 0,995 = 2,977 .
2
Abaterea standard pentru variabila A se calculează cu (10.16)
2
folosind estimaţia de eşantion (10.17) pentru σ . Rezultă:
nsε2 16 ⋅ 0,1962 2
sˆε2= = = 0,044
(n − 2) (16 − 2)
n 2
∑ xi
247
σ 2A = sˆε2 i =1 = 0,044 = 0,0231
2 2 2
n sX 16 1,8398
şi σ A = 0,152 .
Se obţine intervalul de încredere pentru α :
7,615 − 2,977 ⋅ 0,152 < α < 7,615 + 2,977 ⋅ 0,152 ,
adică 7,162 < α < 8,068 .
Exemplul 10.1.3
În secţiunea unui viitor lac de acumulare se cunosc
debitele maxime anuale ( m s ) şi volumele undelor de viitură
3 -1
10.1.2.
Să se găsească:
a) Coeficientul de corelaţie lineară între debitul maxim şi
volumul undelor de viitură;
b) Ecuaţia dreptei de regresie pentru volum ca funcţie de debitul
maxim;
c) Intervalele de încredere, la nivel de semnificaţie 0,05, pentru
coeficienţii ecuaţiei de regresie;
d) Banda de încredere la nivel de semnificaţie 0,05, în jurul
dreptei de regresie şi să se reprezinte grafic.
Tabel 10.1.2
An Qmax W An Qmax W An Qmax W
ms3 -1 10 6 m 3 m 3s -1 10 6 m 3 m 3s -1 10 6 m 3
Soluţie
Variabila explicativă X este aici debitul maxim al undei de
viitură, iar variabila explicată Y este volumul viiturii.
Calculele s-au făcut cu programul Regresie, care include
procedura Student necesară pentru evaluarea valorilor cuantilelor
t γ.
1−
2
Coeficienţii ecuaţiei de regresie y = a + bx şi coeficientul de
corelaţie lineară nu se obţin cu relaţiile (10.4) din metoda celor mai
mici pătrate,
ci prin relaţii ca (10.5), (10.6), (10.10) în care apar covarianţa,
varianţele, mediile etc. ale datelor de intrare.
În tabelul 10.1.3 sunt trecute o parte dintre rezultatele rulării.
Tabel 10.1.3
Rezultate analiza de regresie:
-------------------------------------------------------
Valori medii x / y : 809.968 / 98.016
Variante x / y : 135668.6 / 2853.2
Variante explicata / reziduala: 2623.820 / 229.365
Coeficienti corelatie r / R : 0.9590 / 0.9196
Coeficienti regresie a / b : -14.6245 / 0.13907
Abateri standard a / b : 6.7938 / 0.0076
-------------------------------------------------------
La prag de semnificatie alfa = 0.0500
- Interval incredere pentru a: -28.521 -0.728
- Interval incredere pentru b: 0.12345 0.15469
-------------------------------------------------------
La prag de semnificatie alfa = 0.0500
dreapta de regresie si banda de incredere sunt:
X Yinf Y(X) Ysup
------------------------------------------------------
373.00 28.32 37.25 46.17
423.07 35.87 44.21 52.55
473.13 43.38 51.17 58.97
523.20 50.85 58.14 65.43
573.27 58.26 65.10 71.94
623.33 65.61 72.06 78.51
673.40 72.89 79.02 85.16
723.47 80.08 85.99 91.90
773.53 87.17 92.95 98.73
823.60 94.16 99.91 105.67
873.67 101.04 106.87 112.71
923.73 107.82 113.84 119.86
973.80 114.50 120.80 127.10
1023.87 121.11 127.76 134.41
1073.93 127.65 134.73 141.80
1124.00 134.13 141.69 149.25
1174.07 140.56 148.65 156.74
1224.13 146.96 155.61 164.27
1274.20 153.32 162.58 171.83
1324.27 159.66 169.54 179.42
1374.33 165.98 176.50 187.03
1424.40 172.28 183.46 194.65
1474.47 178.56 190.43 202.29
1524.53 184.83 197.39 209.94
1574.60 191.10 204.35 217.61
1624.67 197.35 211.31 225.28
1674.73 203.60 218.28 232.96
1724.80 209.84 225.24 240.64
1774.87 216.07 232.20 248.33
1824.93 222.30 239.17 256.03
1875.00 228.53 246.13 263.73
----------------------------------------------------
a) Se constată că pentru coeficientul de corelaţie lineară a
rezultat r = 0,959 , iar coeficientul de determinare este R = 0,9196 .
200
xdat i , ydat i
150 y(x )
yinf
100
50
0
(
Qmax m 3s -1 )
350 600 850 1100 1350 1600 1850
? ..Problema 10.1.1
Cantitatea de sare (în grame), y, care se poate dizolva într-o
cantitate de apă (în litri), x, la temperatură constantă a fost măsurată în
10 experimente diferite rezultând următoarele date:
x (l) 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1
y (g) 173 196 209 230 235 261 283 284 299 317
a) Să se găsească coeficientul de corelaţie lineară între cele două
variabile;
b) Să se găsească ecuaţia de regresie lineară pentru cantitatea de
sare dizolvată, în funcţie de volumul de apă receptor, la temperatură
constantă;
c) Aflaţi intervalele de încredere cu nivel de semnificaţie 0,05
pentru coeficienţii a şi b ai ecuaţiei de regresie;
d) Pentru x = 1,6 litri, care este cantitatea de sare dizolvabilă
conform ecuaţiei de regresie şi ce interval de încredere la nivel 0,05
are această valoare ? Cum se plasează data experimentală faţă de
interval ?
? ..Problema 10.1.2
Un lot de 21 studenţi promovaţi au recapitulat între 8 şi 16 ore
materia la un examen de semestru şi au obţinut punctajele (din 100
puncte) finale ca în tabelul următor.
x 8 9 10 11 12 13 14 15 16
(ore)
y 52 60 57 65 74 77 95 80 91
(punctaj) 54 64 71 69 88 82 97 86
63 68 78 94
Să se găsească:
a) Coeficientul de corelaţie lineară între numărul orelor de
recapitulare (x) şi punctajul la examen (y);
b) Ecuaţia de regresie lineară pentru punctaj ca funcţie de timpul
alocat;
c) La nivel de semnificaţie 0,05, între ce limite se plasează
punctajul estimat pentru 10,4 ore de studiu ? Dar pentru 14,8 ore ?
? ..Problema 10.1.3
Un medic nutriţionist constată din fişele unor pacienţi selectate
aleatoriu că aceeaşi dietă recomandată a condus la pierderi în greutate
(în kg), y, funcţie de numărul de săptămâni cât a fost urmată, x, ca în
tabelul următor.
x 6 5 4 6 3 4 2 5 1 4
(săptămâni)
y 14,8 13,2 10,7 15,5 7,7 10,3 5,1 16 4,2 12,6
(kg)
x 1 3 2 4 2 1 3 5 4 5
(săptămâni)
y 3,8 7,9 6,6 10,2 6,9 4,5 8,8 13,9 9,2 12,7
(kg)
a) În baza valorii coeficientului de corelaţie lineară, este justificată
căutarea unei ecuaţii de regresie lineară de forma y = a + bx ?
b) Dacă răspunsul este afirmativ, să se găsească parametrii a şi b;
c) Care sunt intervalele de încredere 98% pentru valorile a şi b ?
d) Estimaţi, în baza ecuaţiei de regresie, după câte săptămâni de
dietă se pierd 5 kg ? Dar 10 kg ?
10.2. Regresia lineară multiplă
Există situaţii practice când interesează să se estimeze media
condiţională a unei variabile aleatoare Y care depinde de mai multe
variabile explicative X 1 , X 2 ,K , X p .
s 2ˆ
∑ˆ
b j s X jY
j =1 sε2
R= Y = = 1− (10.45)
2 2
sY sY sY2
iar estimatorul lui pentru populaţie se calculează cu:
Rˆ = R
n −1 ˆ = R n −1
n − p − 1 şi
R pentru p = 2 (10.46)
n−3
(1 − r )(1 − r )
rYX x =
2 1 2 2 (10.48)
YX 1 X1 X 2
s 2X
σβ2 = sˆε2 1
2 (s X X )2 − s 2X
1 2 1
s 2X
2
(10.50)
c 'jj
σ β j = sε (10.51)
n − p −1
Număr 12 13 14 15 16
observaţie
X 1 - vechime 4 5 3 5 6
(ani)
X 2 - distanţă 60,6 88,5 50,2 86,7 102,5
(mii km)
Y - preţ 5,3 4,6 5,5 4,8 3,8
(mii €)
∑
969,4
x2i = 969,4 ; x 2 = = 60,5875 ; ∑ x22i = 67916,36 ;
16
67916,36
s 2X = − 60,5875 2 = 573,927
2 16
84,7
∑ yi = 84,7 ; y = 16
= 5,29375
∑ x1i yi = 293,8 ;
1 293,8
s X 1Y =
n
∑ x1i yi − x1 y =
16
− 3,6875 ⋅ 5,29375 = −1,1582
? ..Problema 10.2.1
Un hipermarket a colectat date observate asupra vânzărilor sale
lunare la o marcă de maşină automată de spălat, în relaţie cu numărul
lunar de apariţii a informaţiilor despre marca respectivă în materialele
publicitare scrise, distribuite de magazin şi respectiv cu numărul de
reclame TV a câte 30 secunde, difuzate lunar despre produs. Au
rezultat datele din tabelul următor.
Lună de 1 2 3 4 5 6
observaţie
Y - maşini vândute 10 20 12 41 32 45
(bucăţi)
X 1 - reclame scrise 0 2 1 3 3 4
X 2 - reclame TV 1 2 1 3 3 4
? ..Problema 10.2.2
În tabelul următor sunt trecute date observate privind: numărul
zilnic (mediu) de ore petrecute în faţa televizorului; vârsta privitorului
(în ani) şi nivelul de instruire (în ani de studii).
Ore 2,5 3,0 1,2 1,9 2,9 4,0 3,8 2,1 0,7 2,7
la TV
Vârsta 30 25 22 35 40 45 50 40 35 42
Studii 12 10 16 16 12 9 10 16 20 14
a) Găsiţi ecuaţia de regresie lineară multiplă pentru media
condiţionată a timpului zilnic de vizionare TV;
b) Evaluaţi timpul de vizionare pentru o persoană de 30 ani, cu 12
ani de studii.
Cu notaţiile menţionate:
n n
u j = ∑ xi , j = 0,1,2,...,2 p şi v j = ∑ xij yi , j = 0,1,2,..., p ,
j
i =1 i =1
sistemul respectiv se scrie:
u0 a0 + u1a1 + u 2 a2 + ... + u p a p = v0
u1a0 + u 2 a1 + u3 a2 + ... + u p +1a p = v1
u 2 a0 + u3 a1 + u 4 a2 + ... + u p + 2 a p = v2
(10.56)
.....................................................
u p a0 + u p +1a1 + u p + 2 a2 + ... + u 2 p a p = v p
Regresia geometrică
Dacă alura norului de puncte sugerează o curbă de tipul celei din
Fig. 10.4,
b>0
b<0
x
Fig.10.4. Regresie geometrică
Regresia exponenţială 1
Ecuaţia cu forma analitică
y = ab x (10.60)
se numeşte de tip exponenţial şi are alura din Fig. 10.5.
Logaritmând în ambii membrii, rezultă:
ln y = ln a + x ln b
şi cu notaţiile Y = ln y ; X = x ; A0 = ln a şi A1 = ln b se ajunge la
forma (10.58).
b>1
b<1
x
Fig.10.5. Regresia exponenţială 1
şi b = A1 .
A0
rezolvarea sistemului de forma (10.61) se obţin a = e
x
Fig. 10.6. Regresia exponenţială 3
y
Modificând (10.64) la forma: = ae bx şi logaritmând, rezultă:
x
y
ln = ln a + bx
x
y
Notând Y = ln ; X = x ; A0 = ln a ; A1 = b , rezolvarea este ca în
x
situaţiile anterioare.
La oricare variantă de mai sus - datele observate care conţin
xi = 0 sau yi = 0 trebuie eliminate pentru a putea continua calculul
parametrilor.
x
1) Ecuaţia y= (10.65)
a + bx
1
y= 1 1
=b+a .
se poate scrie sub forma 1 şi apoi
a +b y x
x
1 1
Cu notaţiile Y = ; X = ; A0 = b şi A1 = a , se ajunge la
y x
forma lineară Y = A0 + A1 X .
1
2) Ecuaţia y= (10.66)
a + bx
1
se scrie y = a + bx şi apoi se linearizează cu notaţiile
1
Y = ; X = x ; A0 = a şi A1 = b .
y
a
3) Ecuaţia y = (10.67)
x+b
1 1 b 1
se scrie şi y= sau = + x.
1 b y a a
x+
a a
1 b 1
Notând Y = ; X = x ; A0 = şi A1 = , se rezolvă problema pentru
y a a
1 A0
a găsi A0 şi A1 , iar apoi a = A şi b = A1 .
1
1
4) Ecuaţia y=
(ax + b )2 (10.68)
1
se poate scrie şi = ax + b şi apoi se linearizează notând Y = 1 ;
y y
X = x ; A0 = b şi A1 = a .
( )
În cazul ecuaţiei (10.70), cu acelaşi punct fix x, y , aceasta se
poate scrie:
b b
y− y =c+ −c−
x−a x−a
şi apoi se aduce la forma:
x−x
y− y
=−
a−x
+
1
c− y c− y
x−x ( ) (10.73)
x−x a−x
Notând Y = ; X = x − x ; A0 = − şi A1 =
1
,
y− y c− y c− y
rezultă relaţia lineară Y = A0 + A1 X .
R=
∑ ( yˆ i − y )
= 1−
∑
2
( yˆ i − yi )2
(
∑ i y − y )2
∑ i( y − y )2 (10.77)
Exemplul 10.3.1
Urmărind evoluţia în timp a debitului la o staţie
hidrometrică, pe durata unei viituri, s-au obţinut datele din tabelul
următor, cu timpul în ore şi debitul în m 3s -1 .
Tabel 10.3.1.a
Hidrograf de viitură observat
Nr. observ. 1 2 3 4 5 6 7 8 9 10 11
t (ore) 0 1 2 3 4 5 6 8 10 12 14
3 -1 10 88 179 232 263 275 266 226 188 157 130
Q (m s )
12 13 14 15 16 17 18
16 18 20 22 24 26 28
108 91 76 64 54 46 38
Constatând că debitul maxim de 275 m 3s -1 s-a înregistrat la t = 5
ore după începerea observaţiilor, să se găsească ecuaţii de regresie
pătratice pentru faza de creştere şi respectiv faza de descreştere a
viiturii.
Să se compare datele Q observate cu cele date de ecuaţia de
regresie.
Soluţie
Primele 6 perechi de valori ( ti , Qi ) se folosesc pentru o relaţie de
aproximare de forma:
Qc (t ) = a0 + a1t + a2t 2
iar ultimele 13 perechi pentru o relaţie de forma:
Qd (t ) = b0 + b1t + b2t 2
()
Qd t ' = 279,308 − 20,014t ' + 0,422t '
2
unde t ' = t − 5 .
15 17 19 21 23
74,05 61,03 51,38 45,12 42,22
76 64 54 46 38
Exemplul 10.3.2
Cu aceleaşi date de debit din tabelul 10.3.1.a al
problemei anterioare, dar considerând momentele observaţiilor cu o
oră în plus, adică ti : 1,2,3,...,29 ore, să se găsească parametri a şi b
ai unei regresii exponenţiale de forma (10.64) şi anume:
Q(t ) = ate bt
şi să se calculeze debitul dat de ecuaţia de regresie în acest caz.
Soluţie
S-au prelucrat datele de intrare originale, în acord cu
transformarea care permite linearizarea ecuaţiei de regresie, adică
Q
s-au calculat valorile yi = ln i , i = 1,2,...,18 .
ti
Perechile ( ti , yi ), i = 1,2,...,18 s-au preluat în programul Regresie
care furnizează parametri c0 şi c1 ai regresiei lineare y (x ) = c0 + c1 x .
Aceştia au valorile: c0 = 4,1764 şi c1 = −0,13295 .
Parametrul c1 este chiar b din regresia exponenţială căutată, iar
c
parametrul a va fi a = e 0 = e 4,1764 = 65,1505 .
În concluzie, regresia cerută va fi:
Q(t ) = 65,1505 t e −0,13295 t
Tabelul următor conţine datele Q observate şi respectiv cele
date de ecuaţia de regresie de mai sus.
Qobs 10 88 179 232 263 275 266 226 188
Qcalc 57,04 99,88 131,17 153,12 167,57 176,05 179,82 177,22 166,03
Exemplul 10.3.3
Se ştie că deversorul cu muchie ascuţită şi fantă
b
triunghiulară are cheia de forma Q = ah , unde Q este debitul
tranzitat şi h este înălţimea lamei deversante.
La calibrarea unui astfel de deversor plasat într-o instalaţie din
laboratorul de mecanica fluidelor, s-au înregistrat următoarele date.
Nr. observ. 1 2 3 4 5 6 7 8 9 10
h (m) 0,105 0,108 0,139 0,164 0,173 0,181 0,189 0,194 0,199 0,203
3 -1 0,003 0,0031 0,0058 0,0086 0,0099 0,0113 0,0123 0,0131 0,0139 0,0147
Q (m s )
Soluţie
Deoarece prin logaritmare în ambii membri se ajunge la forma:
ln Q = ln a + b ln h
şi notând y = ln Q ; x = ln h ; c0 = ln a şi c1 = b , se obţine o regresie
lineară ca y = c0 + c1 x .
Din datele originale s-a format un fişier cu datele transformate
xi = ln hi şi yi = ln Qi , i = 1,2,...,10 , care a fost preluat în programul
Regresie rezultând parametri c0 = −0,3396 şi c1 = b = 2,43554 .
Parametrul a = e c0 = e −0,3396 = 0,712 ,
astfel încât cheia deversorului va fi:
Q = 0,712h 2,43554
cu Q în m s şi h în m.
3 -1
Exemplul 10.3.4
Faţă de talvegul râului din secţiunea barajului,
variaţiile volumului aflat în acumulare (în mil. m ) şi suprafeţei
3
oglinzii apei (în ha) cu cota suprafeţei libere a apei din lac sunt
estimate la faza de proiect ca în tabelul 10.3.4.a.
Tabel 10.3.4.a
Volumul în acumulare şi suprafaţa oglinzii apei ca funcţii de
cota suprafeţei libere în lac
z (m) 3
V (mil. m ) S (ha) z (m) V (mil. m 3 ) S (ha)
25 3,13 37,75 95 114,16 328,72
30 5,28 48,30 100 131,67 371,52
35 7,95 58,65 105 151,13 407,00
40 11,24 73,02 110 172,42 444,60
45 15,24 86,72 115 195,73 487,62
50 20,13 109,0 120 221,22 530,85
55 26,09 129,55 125 249,00 580,35
60 33,11 151,02 130 279,18 626,87
65 41,17 171,47 135 311,68 673,09
70 50,27 192,52 140 346,39 715,52
75 60,48 215,95 145 383,38 764,32
80 71,89 240,37 150 422,83 813,65
85 84,54 265,70 155 464,77 863,67
90 98,56 295,35 159 507,30 900,0
a) Să se găsească o ecuaţie de regresie pătratică, de forma
V (z ) = a0 + a1 z + a2 z 2 pentru variaţia volumului cu z;
b) Să se compare rezultatele de mai sus cu cele date de o ecuaţie
de regresie geometrică de forma V ( z ) = az , prin intermediul sumei
b
Soluţie
a) Considerând cele n = 28 perechi de valori ( zi ,Vi ) , ecuaţia
de regresie pătratică se obţine sub forma:
V1 ( z ) = 60,46 − 2,5788 z + 0,033123 z 2 (a)
pentru care suma pătratelor abaterilor faţă de valorile observate este
∑ (Vˆ1i − Vi )
28 2
= 1313,02
i =1
∑ (Vˆ1i − Vi )
20
2
pentru care = 163,14
i =1
∑ (Vˆ2i − Vi )
20 2
pentru care = 373,36 , adică mult mai mare faţă de (c).
i =1
Valorile calculate cu regresiile (c) şi (d) sunt incluse în tabelul
10.3.4.c.
Tabel 10.3.4.c
Comparatie intre volumele observate si cele date de ecuatiile
de regresie, pe zona volumului util
------------------------------------------------------------------------
Z(m) Vobservat Vpatratic Vgeometric Z(m) Vobservat Vpatratic Vgeometric
------------------------------------------------------------------------
65 41.17 46.45 40.30 115 195.73 196.31 198.78
70 50.27 52.12 49.58 120 221.22 222.69 223.91
75 60.48 59.86 60.13 125 249.00 251.13 251.00
80 71.89 69.67 72.03 130 279.18 281.65 280.10
85 84.54 81.55 85.34 135 311.68 314.24 311.29
90 98.56 95.50 100.14 140 346.39 348.90 344.63
95 114.16 111.52 116.49 145 383.38 385.63 380.17
100 131.67 129.61 134.46 150 422.83 424.42 417.99
105 151.13 149.78 154.12 155 464.77 465.29 458.14
110 172.42 172.01 175.54 159 507.30 499.48 491.98
cu ∆V în mil. m 3 şi S în ha.
Folosind pentru S ( z ) ecuaţia de regresie pătratică găsită, se
poate scrie:
∫ (b0 + b1z + b2 z )dz = 1001 b0 (z2 − z1 ) + b21 (z22 − z12 )+ b32 (z23 − z13 )
z2
1 2
∆V =
100
z1
Dacă se notează z 2 − z1 = ∆z , relaţia se poate pune şi sub forma:
1 b2 2
∆V = ∆z b0 + ∆z + ∆z[0,5b1 ( z1 + z 2 ) + b2 z1 z 2 ] =
100 3
∆z
= [B + 0,5b1 (z1 + z 2 ) + b2 z1z 2 ] = c0 + c1 (z1 + z 2 ) + c2 z1z 2 (f)
100
b B∆z 0,5b1∆z b2 ∆z
şi c2 =
2
unde B = b0 + 2 ∆z ; c0 = ; c1 = .
3 100 100 100
Exceptând ultimele date din tabelul 10.3.4.a pentru care
z 2 − z1 = 159 − 155 = 4 m, la toate celelalte ∆z are valoarea ∆z = 5 m.
Cu parametri b0 , b1 şi b2 ai regresiei S ( z ) , se obţin valorile
coeficienţilor c din relaţia (f).
B = −12,36425 ; c0 = −0,6182125 ; c1 = 0,01363475 ; c2 = 0,0016545 .
Utilizând relaţia (f) pentru calculul tranşelor de volum între două
cote succesive, s-au obţinut valorile volumelor calculate pe baza
ecuaţiei de regresie (e) pentru S ( z ) , ca în tabelul 10.3.4.d.
Tabel 10.3.4.d
Comparatie intre volumele observate si cele calculate
folosind ecuatia de regresie patratica pentru S(z)
-------------------------------------------------------
Z(m) Vobservat Vprin S Z(m) Vobservat Vprin S
-------------------------------------------------------
65 41.17 41.17 115 195.73 196.85
70 50.27 49.92 120 221.22 222.27
75 60.48 59.97 125 249.00 249.81
80 71.89 71.39 130 279.18 279.56
85 84.54 84.27 135 311.68 311.59
90 98.56 98.69 140 346.39 345.99
95 114.16 114.74 145 383.38 382.84
100 131.67 132.50 150 422.83 422.23
105 151.13 152.05 155 464.77 464.24
110 172.42 173.47 159 507.30 508.68
Ultima valoare din tabel (cea de la z = 159 m) este incorectă
deoarece s-a folosit în calcule ∆z = 5 m – care era adevărat la toate
celelalte transe de volum.
Rezultatele calculate astfel sunt surprinzător de apropiate de
valorile observate ale volumului în lac, la toate cotele suprafeţei
libere.
Exemplul 10.3.5
Într-un experiment vizând capacitatea de biodegradare
a materiei organice poluante, s-au evaluat vitezele reacţiei de
descompunere, µ , (în ore -1 ) în funcţie de concentraţia de substrat
organic supus biodegradării, S (în mg ⋅ l ) şi s-au obţinut datele
-1
următoare.
S ( mg ⋅ l -1 ) 25 50 75 100 150 200 250 300
( )
µ h -1 0,04 0,067 0,086 0,10 0,12 0,133 0,143 0,15
Ştiind că descompunerea are loc după o cinetică de tip Monod,
S
cu viteza de reacţie de forma µ = µ max , unde µ max este o viteză
S +k
maximă, iar k este constanta de semisaturaţie, să se găsească
valorile acestor parametri pentru experimentul considerat.
Soluţie
Dacă se notează µ = y , µ max = a , S = x şi k = b , expresia
vitezei de reacţie are forma:
ax 1 1 1 b1
y= = = +
x + b 1 b 1 , care se poate scrie şi y a a x .
+
a a x
1 1
Notând Y = , X = ,
1 b
c0 = şi c1 = se ajunge la forma
y x a a
lineară: Y = c0 + c1 X .
Coeficienţii c0 şi c1 se determină folosind programul Regresie
şi au valorile c0 = 4,995 şi c1 = 499,395 .
1 1
Rezultă a = µ max = c = 4,995 = 0,2
0
şi apoi b = c1a = 0,2 ⋅ 499,395 ≅ 100 .
S
Deci ecuaţia vitezei de reacţie este µ = 0,2 .
S + 100
? ..Problema 10.3.1
Cunoscând din date experimentale că o pompă centrifugă poate
3 -1
realiza presiunile (în m), la diverse debite tranzitate (în m s ) ca în
tabelul următor:
Q
5,7 6,5 7,3 7,95 8,6 9,4 9,8 10,3 10,8 11,25 11,7 12,1 12,4 12,75 13
3 -1
(m s )
H
18,3 17,5 16,8 16 15,75 14,5 13,7 12,95 12,2 11,44 10,7 9,9 9,15 8,4 7,6
(m)
C sat 14,62 13,83 12,77 11,84 11,29 10,78 10,08 9,09 8,26 7,56 6,95 6,41
-1
( mg ⋅ l )
? ..Problema 10.3.3
Ştiind că cererea biochimică de oxigen (CBO) într-o apă poluată
cu materie organică evoluează după o relaţie de forma L(t ) = L0 e −kt ,
unde L0 este CBO la momentul zero, k este coeficientul vitezei de
reacţie (admisă reacţie de ordinul unu) şi t este timpul (în zile), iar L
se măsoară în mg ⋅ l , să se prelucreze datele experimentale din
-1
? ..Problema 10.3.4
c
O ecuaţie de regresie de forma y = are alura ca în figură
1 + ae bx
pentru valori adecvate ale parametrilor a şi b şi unde c este o valoare
de palier.
y
x
Presupunând că la sfârşitul anului 1989 erau înscrise în circulaţie
în Bucureşti 90.000 de maşini şi că la finele anilor următori numărul
maşinilor înscrise în circulaţie (în sute de mii) a variat ca în tabelul
următor:
x = t (ani) 0 1 2 3 4 5 6 7 8 9 10 11 12
y = nr. maşini 0,9 1,15 1,6 2,3 3,1 4,02 5,0 6,0 6,9 7,7 8,3 8,8 9,1
13 14 15 16 17
9,4 9,6 9,72 9,82 9,88
să se găsească ecuaţia de regresie de forma menţionată, admiţând
valoarea de palier c = 10 (corespunzând la 1 milion maşini care pot fi
parcate în amenajările existente din oraş).