Documente Academic
Documente Profesional
Documente Cultură
Facultatea de Matematica-Informatica
Statistica matematica
Disciplină obligatorie; Anul II, Sem. 2, ore săptămânal, învăŃământ de zi: 2 curs, 2
seminar, total ore semestru 56; 6 credite; examen.
SelecŃii
Momente de selecŃie.
În practică, calculul momentelor de selecŃie se face uneori pentru observaŃii grupate, toate
valorile dintr-un interval înlocuindu-se cu mijlocul intervalului. Un astfel
Teorema . Dacă repartiŃia teoretică are media m şi dispersia σ 2 , atunci media
σ2
de selecŃie are valoarea medie m şi dispersia .
n
Exemple.
1. Să se arate că dacă ξ este o variabilă aleatoare normală N m,σ 2 , atunci repartiŃia ( )
mediei de selecŃie x este de asemenea normală.
Răspuns. Fie n numărul probelor şi x media de selecŃie. Avem
i t ∑ xk n
n
i nt x k
ϕ x (t ) = M e ( )itx n
= M e k =1
= ∏ M e
.
k =1
( )
n
, deci ϕ x (u ) = ∏ M e k . De la legea normală ştim că
t
Notăm u =
iux
n k =1
( )= e
σ 2u 2 nσ 2 u 2 σ 2t 2
mui − nmui − mti −
, deci ϕ x (u ) = e sau ϕ x (t ) = e
iux k 2 2 2n
Me . Aceasta este
σ2
funcŃia caracteristică a unei repartiŃii normale N m, deci funcŃia de repartiŃie
n
corespunzătoare este normală.
2. Fie ξ o variabilă aleatoare cu o repartiŃie Poisson de parametru λ . Să se determine
repartiŃia mediei de selecŃie.
Răspuns. Vom utiliza tot metoda funcŃiei caracteristice. Avem
i t xk
( )
n
ϕ x (t ) = M eitx = ∑ M e n
k =1
( )
n
, ϕ x (u ) = ∑ M eiux = e , de unde revenind la variabila t ,
t
sau cu notaŃia u =
nu
n k =1
t
ϕ x (t ) = e
n
= e . Am obŃinut funcŃia caracteristică a repartiŃiei Cauchy, deci x este o
n t
DemonstraŃie. Din
(xi − x )r = xir − Cr1x xir −1 + Cr2 x 2 xir − 2 − ... .
Teoria estimaŃiei
f (x ) =
1 2σ 2
e .
σ 2π
Pentru aplicaŃii practice trebuie să determinăm valorile numerice ale celor doi
parametri m şi σ .
Determinarea valorilor parametrilor unei repartiŃii specificate se face cu ajutorul
unei selecŃii de volum n care conduce la valorile x1 ,..., xn legate de variabila studiată.
În cele ce urmează ne vom ocupa de repartiŃii specificate care depind de un singur
parametru. Deci funcŃia de repartiŃie teoretică conŃine un singur parametru necunoscut θ .
O selecŃie de volum n din colectivitate ne-a dat estimaŃia θ1* altă selecŃie de volum
n ne dă estimaŃia θ*2 etc. Repetând procedeul obŃinem estimaŃiile θ1* ,..., θ*r .
O estimaŃie θ* a lui θ poate fi privită ca o variabilă aleatoare cu valorile posibile
θ1* ,..., θ*r .
α α
→
p
p , dar nu este o estimaŃie absolut corectă a lui p , este numai o
n +1 n +1
estimaŃie corectă.
α
Deoarece este o estimaŃie absolut corectă pentru p este natural să încercăm să
n
α2 α2 pq
estimăm pe p2 prin 2
. Avem M 2 = p 2 + şi
n n n
α2 4 p 3q 1 α2
D 2 2 = + O 2 , deci 2 este o estimaŃie corectă pentru p 2 . Pentru a
n n n n
determina o estimaŃie absolut corectă observăm că
α2 pq n − 1 2 p
M 2 = p 2 + = p + ,
n n n n
α p α2 α n − 1 2
M 2 = , deci M 2 − 2 = p sau
n n n n n
n α2 α
M 2 − 2 = p 2 ,
n −1 n n
α2 − α α2 − α 4 p 2q 1 α2 − α
de unde M = p 2 , D = + O , deci este
n (n − 1) n(n − 1) n n n(n − 1)
o estimaŃie absolut corectă a lui p 2 .
n 2
O estimaŃie absolut corectă pentru σ 2 este s unde s 2 este dispersia de
n −1
selecŃie.
( )
DefiniŃie. O estimaŃie θ* este nedeplasată dacă M θ * = θ . În caz contrar
avem o estimaŃie deplasată.
α
În exemplul anterior am văzut că este o estimaŃie absolut corectă a lui p . Să
n
trecem la estimarea dispersiei D 2 (ξ ) , ξ fiind variabila aleatoare bernoulliană care ia
valorile 1 şi 0 cu probabilităŃile p şi q = 1 − p . Dispersia de selecŃie este
1 n
s 2 = ∑ ( xi − x ) . Avem
2
n i =1
n −1 2
( )
M s 2 = D 2 (ξ ) − D 2 (ξ ) =
1
n n
D (ξ ) ,
∑ = k θ* ( x1 ,..., xn ) − θ .
i =1 ∂θ
DefiniŃie. O estimaŃie absolut corectă θ* ( x1 ,..., xn ) a parametrului θ se numeşte
eficientă dacă are dispersia minimă.
Dacă θ* este o funcŃie de estimaŃie absolut corectă, raportul
1
∂ ln f ( x, θ) 2
nM
(11.)
∂θ
( )
en θ =
*
D θ
2 *
( )
π π
( ) M ( xk − m ) =
n
1 2
M θ* =
n
∑
2 k =1 2
⋅σ⋅
π
= σ,
π−2 2
D 2 (θ* ) = σ ,
2n
deci θ* este o estimaŃie absolut corectă a lui σ . EficienŃa sa este
σ2
n 1
e= = ≅ 0,876 , deci θ* nu este cel mai eficient estimator.
π−2 2 π−2
σ
2n
Teorema Două estimaŃii eficiente ale parametrului θ sunt egale aproape sigur.
Fie repartiŃia de tip continuu f ( x, θ ) unde θ poate lua orice valoare dintr-un
interval I . Valorile de selecŃie x1 ,..., xn obŃinute în urma a n extracŃii independente
din populaŃie sunt variabile aleatoare independente cu aceeaşi densitate de probabilitate
f ( x, θ) . Fiecare selecŃie ( x1 ,..., xn ) o considerăm ca un punct în spaŃiul de selecŃie
n − dimensional ℝ n , iar probabilitatea elementară a vectorului ( x1 ,..., xn ) este
P( x1 ,..., xn ; θ)dx1...dxn = f ( x1 , θ)... f (xn , θ)dx1...dxn . (12)
DefiniŃie. FuncŃia P : ℝ n × I → ℝ se numeşte funcŃie de verosimilitate.
DefiniŃie. EstimaŃia θˆ ( x1 ,..., xn ) se numeşte estimaŃie de verosimilitate dacă θ̂
este un punct de maxim pentru funcŃia de verosimilitate.
Rezultă că θ̂ este o soluŃie a ecuaŃiei
∂ ln P ( x1 ,..., xn ; θ) n ∂ ln f ( xi , θ)
=∑ = 0. (13.)
∂θ i =1 ∂θ
EcuaŃia (13.) se numeşte ecuaŃie de verosimilitate.
Teorema Orice estimaŃie eficientă a parametrului θ este o estimaŃie de
verosimilitate maximă.
Exemple.
α
1. RepartiŃia de tip Bernoulli. Am văzut că este o estimaŃie absolut corectă pentru
n
probabilitatea p . Să arătăm că ea este şi o estimaŃie eficientă.
Răspuns. Din teorema de mai sus se ştie că pentru orice estimaŃie absolut corectă θ*
avem inegalitatea
( )
D 2 θ* ≥
1
2
,
n
∂ ln pi
n∑ pi ( p )
i =1 ∂p
unde p1 ( p ) = p , p2 ( p ) = 1 − p .
n
∂ ln pi
pi = p 2 + (1 − p )
1 1 1
∑
i =1 ∂p p 2
=
(1 − p ) pq
,
α
deci D 2 (θ* ) ≥
pq
. Minimul este atins pentru .
n n
La acelaşi rezultat se ajunge aplicând metoda verosimilităŃii maxime. Din
(
∂ ln p α q n−α )α n−α
= −
α
= 0 se obŃine p = .
∂α p q n
−
( x − m )2
2. RepartiŃia normală cu densitatea de probabilitate f ( x, m ) =
1 2 σ2
e .
σ 2π
a. Estimarea mediei.
Răspuns. Avem
m2 x2
ln f ( x, m ) = 2 x − 2 − 2 + ln
m 1
.
σ 2σ 2σ σ 2π
1 n
Din teorema 7.8. rezultă că θ* ( x1 ,..., xn ) = ∑ xi este o funcŃie de estimaŃie
n i =1
eficientă a lui m deoarece
m2 x2
ln f ( x, m ) = 2 ( x − m ) + 2 − 2 + ln
m 1
σ 2σ 2σ σ 2π
1 n
1 n
σ 2
şi M ∑ xi = m , D 2 ∑ xi = . Rezultă că θ* este o estimaŃie absolut
i =1
n i =1
n n
corectă.
FuncŃia de verosimilitate este
n
∑ ( xi −m )2
− i =1
P( x1 ,..., xn ; m ) =
1 2σ2
e
σ n (2π )
n
2
n
iar din ecuaŃia verosimilităŃii maxime ln P = 0 rezultă ∑ (x
i =1
i − m ) = 0 sau
1 n
m= ∑ xi .
n i =1
b. Estimarea parametrului σ .
Răspuns. FuncŃia de verosimilitate este
n
∑ ( xi −m )2
− i =1
P ( x1 ,..., xn ; σ ) =
1 2 σ2
e
σ n (2π)
n
2
şi
n
∑ (x − m) .
1
ln P = − n ln σ − n ln 2π −
2
2σ 2
i
i =1
∂ ln P
EcuaŃia verosimilităŃii maxime, = 0, conduce la soluŃia
∂σ
1 n
σ= ∑ (xi − m )2 .
n i =1
λk
3. RepartiŃia Poisson; estimarea parametrului λ din f ( k ; λ ) = e − λ , k = 0,1,...
k!
pe baza unei selecŃii repetate de volum n .
Răspuns. Avem
n
∑ xi
λi =1
P( x1 ,..., xn ; λ ) = e − nλ n
.
∏x!
i =1
i
1 n
Din ecuaŃia verosimilităŃii maxime obŃinem λ = ∑ xi .
n i =1
1 n
Să arătăm că θ* ( x1 ,..., xn ) = ∑ xi este o estimaŃie eficientă pentru λ . Într-
n i =1
λ
( )
adevăr M θ* = λ , D 2 θ* = ( ) n
.
Minimul dispersiei pentru funcŃii de estimaŃie absolut corecte este
1
,
∂ ln f (k , λ )
n 2
n∑ f (k , λ )
k =0 ∂λ
dar
∂ ln f (k , λ )
k −λ
λe
2 2
n n
k
f (k , λ ) = n∑ − 1
n
n∑ =
k =0 ∂λ k =0 λ k! λ
λ
deci, minimul dispersiei este .
n
Intervale de încredere
Cazul II – nu se cunoaşte σ 2
1 n
Calculăm dispersia de selecŃie ~
s2 = ∑ (xi − x )2 şi considerăm statistica
n − 1 i =1
x−m
t= ~
s (15.)
n
care are o repartiŃie Student cu n − 1 grade de libertate.
Intervalul de încredere este
~
s ~
s
x − tα ≤ m ≤ x + tα . (16.)
n n
Exemple.
1. Pe un eşantion format din 10.000 de indivizi din totalul populaŃiei unei zone de
700.000 de indivizi, s-a constatat că consumul mediu lunar pentru menaj este de
950.000 lei şi o abatere medie pătratică s = 700.000 . Să se determine un interval
de încredere pentru estimarea mediei de consum a întregii populaŃii.
Răspuns. Avem N = 700.000 , n = 10.000 , x = 950.000 , s = 700.000 ,
~
s ≅ s = 700.000 . Volumul eşantionului este mare, deci statistica
x−m x−m
t= ~ = este cu o repartiŃie normală centrală redusă.
s 7
n
La un prag de semnificaŃie δ = 0,95 , deci cu un risc α = 0,05 de a comite o
eroare asupra preciziei estimaŃiei avem
~
s ~
s
P x − t α ≤ m ≤ x + tα = 0,95 ,
n n
unde din tabelul repartiŃiei normale avem t α = 1,96 pentru α = 0,05 . Luând t α ≈ 2
găsim 936.000 ≤ m ≤ 964.000 , deci în 95 de cazuri din 100 valoarea medie a
consumului este în acest interval.
ObservaŃie. Dacă dorim o precizie mai mare a estimaŃiei, de exemplu δ = 0,99
deci α = 0,01 , din tabele găsim t 0 ,01 = 2,58 şi 931.940 ≤ m ≤ 968.060 , deci în
99 la sută din cazuri consumul mediu este în acest interval. Deci, odată cu creşterea
coeficientului de încredere, intervalul de încredere se extinde simetric faŃă de media de
selecŃie x .
2. Într-o întreprindere, în cele 4 ateliere de fabricaŃie lucrează 2.000 de muncitori. Să
se determine un interval de încredere pentru media întreruperilor în timpul de lucru
în decurs de o zi, ştiind că în urma sondajului efectuat s-au obŃinut rezultatele:
Numărul Nrumăr mediu Abatere
Vololum
muncitorilor din de minute medie
Atelier sondaj
fiecare atelier întrerupere pătratică
I 600 50 30 9
II 700 50 20 7
III 300 50 40 10
IV 400 50 20 8
N = 2000 n = 200 x = 26
Răspuns.
18.000 + 14.000 + 12.000 + 8.000 52.000
x= = = 26
2.000 2.000
Vom estima media populaŃiei originare cu o siguranŃă probabilistă de 95% . Ştim că
~
sx ~
s
x − tα
≤ m ≤ x + tα x
n n
Avem t α = 1,96 pentru α = 0,05 , iar
1 4
~
s x2 = ∑ (xi − x )2 = 1 (16 + 36 + 196 + 36) = 284 = 1,43
199 i =1 199 199
~
sx
deci − 0,84 şi 25,835 ≤ m ≤ 26,165 .
n
1,63 ⋅ 24 1,63 ⋅ 24
≤σ≤ , deci 0,88 ≤ σ ≤ 1,896 .
42,980 10,856
2. Să se determine un interval de încredere pentru parametrul p al repartiŃiei binomiale.
Răspuns. [9] Vom determina intervalul de încredere prin metoda expusă la punctul 2. Fie
ξ o variabilă aleatoare care ia valorile 1 şi 0 cu probabilităŃile p respectiv q = 1 − p .
Dacă x1 ,..., xn este o selecŃie repetată de volum n asupra caracteristicii ξ ,
n
probabilitatea ca U ( x1 ,..., xn ) = ∑x i = k , 0 ≤ k ≤ n este C nk p k q n− k , deci
i =1
k
P (U ( x1 ,..., xn ) ≤ k ) = ∑ C ni p i q n−i = s1 (k , p )
i =0
n
P (U ( x1 ,..., xn ) ≥ k ) = ∑ C ni p i q n−i = s 2 (k , p )
i =k
Avem
ds1 (k , p )
[ ]
k
= − nq n−1 + ∑ iC ni p i −1q n−i − (n − i )Cni p k q n−i =
dp i =0
n!
=− p k q n −k < 0
k!(n − k − 1)!
Rezultă că s1 (k , p ) este strict descrescătoare în raport cu p şi strict crescătoare în
raport cu k . Analog s2 (k , p ) este strict descrescătoare în raport cu k şi strict
crescătoare în raport cu p .
Cerem ca s1 (k , p ) ≤ r (1 − δ ) şi s2 (k , p ) ≤ s (1 − δ ) cu s > 0 , r > 0 ,
r + s = 1 . Limitele intervalului de încredere pentru p se găsesc pentru valoarea
s1 (k , p ) = r (1 − δ )
observată a lui k din sistemul în care prima ecuaŃie ne dă limita
s2 (k , p ) = s (1 − δ )
superioară, iar cealaltă limita inferioară a intervalului de încredere.
În unele cazuri putem determina intervale de încredere numai pentru selecŃii mari.
Pentru un studiu mai amplu se pot consulta [4], [7], [9], [16], [17], [20] etc.
TEST
Să se calculeze:
a. Valoarea medie a mărimii observate şi dispersia.
b. Să se determine moda variabilei (valoarea caracteristicii căreia îi corespunde
cea mai mare frecvenŃă).
c. Să se scrie funcŃia empirică de repartiŃie.
Răspuns.
a. x = 3,46 , s 2 = 3,93 .
b. moda = 3 .
5. Să se estimeze parametrul θ din densitatea de probabilitate f ( x; θ ) = θe − θx
dacă cinci observaŃii asupra lui x au dat valorile x1 = 0,7 ; x2 = 1,3 ;
x3 = 0,65 ; x4 = 0,8 ; x5 = 1,5
n
−θ ∑ xi
Răspuns. FuncŃia de verosimilitate este P ( x1 ,..., xn ; θ) = θ n e i =1
. EcuaŃia de maximă
∂ ln P n n
n
verosimilitate este = − ∑ xi = 0 , de unde θ = .
∂θ θ i =1 n
∑x
i =1
i
∏ f (x , θ ) i 1
i =1
n
≥k. (25)
∏ f (x , θ )
i =1
i 0
(
Teste relativ la parametrii repartiŃiei normale N m,σ 2 , )
Teste de semnificaŃie
Testul Z
Figura 8.1.
II. m1 < m0 .
x −m 1
P ( Z ∈W H 0 ) = P < − Zα = − Φ ( − Zα ) ,
σ 2
n
x −m
unde Z α = Z tab şi Z calc = deci W = {Z < − Z α } (figura 2.)
σ
n
a) dacă Z calc < − Z tab , respingem H 0 ,
b) dacă Z calc > − Z tab , acceptăm H 0 .
Figura 2.
III. m1 ≠ m0 .
P(Z ∈ W H 0 ) = P( Z > Z α ) =
x −m x −m
=P < −Z α ∪ > Zα =
σ σ
n n
x−m x −m
=P < −Zα + P > Zα = α
σ σ
n n
− Φ(− Z α ) + − Φ (Z α ) = α şi
1 1
deci
2 2
W = (− ∞,− Z α ) ∪ (Z α ,+∞ ) . (30)
Figura 3.
1 α
Z α = Z tab pentru Φ(Z ) = − .
2 2
a) dacă Z calc ∈ W , respingem H 0 ,
b) dacă Z calc ∉ W , acceptăm H 0 .
Exemplu. O maşină fabrică piese în serie. Ea a fost reglată astfel ca diametrul pieselor
să fie de 12,60 mm. Pe un eşantion de 100 de piese s-a obŃinut valoarea medie a
diametrelor x = 12,65 mm. Dacă σ 2 = 0,16 se cere:
a. Să se decidă dacă diametrele sunt semnificativ mai mari decât diametrul anunŃat
pentru α = 0,01 .
b. În aceleaşi condiŃii să se verifice dacă diametrele diferă semnificativ de valoarea
anunŃată.
Răspuns.
a. Verificarea ipotezei
H 0 : m = 12,60
cu alternativa
H1 = m > 12,60 .
12,65 − 12,60
Z calc = = 1,25 .
0,04
Regiunea critică este aceea pentru care Z ≥ Z α , unde Z α se determină din
egalitatea Φ (Z α ) = − α = 0,49 .
1
2
Din tabele rezultă Z α = 2,33 . Avem Z calc < Z α , deci acceptăm ipoteza H 0 .
b. Z calc = 1,25 , Z α = 2,33 , Z calc ∈ (− 2,33;2,33) deci acceptăm H 0 .
Testul „ t ”
Z=
(x1 − x2 ) − (m1 − m2 ) ∈ N (0,1) ,
σ12 σ 22
+
n1 n2
W = {Z < − Z α }, (34)
x1 − x2
Z calc = .
σ12 σ 22 (35)
+
n1 n2
a) dacă Z calc < − Z α , se respinge H 0 ,
b) dacă Z calc > − Z α , se acceptă H 0 .
II. Ipoteza H 0 : m1 = m2 cu alternativa H1 : m1 > m2 .
W = { Z > Zα } , (36))
deci pentru Z calc > Z α , respingem H 0 .
III. Ipoteza H 0 : m1 = m2 la alternativa H1 : m` ≠ m2 .
Regiunea de acceptare este
W C = (− Z α , Z α ) . (37)
ObservaŃie. Acest test (cazul III) se poate aplica şi în cazul în care volumul
selecŃiei este mare fără a ştii dacă distribuŃia este normală.
Exemplu. Într-un oraş s-a efectuat un sondaj privind cheltuielile lunare pentru
consumul alimentar. Sondajul a fost efectuat pe două eşantioane cuprinzând categorii
sociale diferite. S-au obŃinut rezultatele:
Volumul Media de consum Abaterea mediei
eşantion (lei) pătratică
Muncitori n1 = 327 x1 = 612.000 s1 = 104.000
FuncŃionari n2 = 286 x2 = 642.000 s2 = 118.000
Să se testeze dacă diferenŃa cheltuielilor medii lunare este semnificativă pentru cele
două categorii sociale
Răspuns. Testăm ipoteza H 0 : m1 = m2 la alternativa H1 : m1 ≠ m2 .
x1 − x2
Considerăm statistica Z = , dar necunoscând σ12 şi σ22 le vom
σ2
σ 2
1
+ 2
n1 n2
estima prin ~
s12 şi ~
s22 . Volumul eşantionului fiind mare putem considera că ~
s12 ≅ s12 şi
~
s22 ≅ s22 deci
612.000 − 642.000
Z calc = = 3,31 .
(109.000)2 + (118.000)2
327 286
La un prag de semnificaŃie α = 0,01 avem Z α = 2,33 , Z calc ∉ (− 2,33;2,33) ,
respingem H 0 şi acceptăm H1 , deci diferenŃa celor două medii este considerată
semnificativă.
ObservaŃie. În multe activităŃi de cercetare se admit următoarele criterii de
acceptare sau respingere a ipotezei diferenŃei nule.
- se acceptă H 0 şi se consideră diferenŃa nesemnificativă dacă Z calc < 1,96 pentru
α = 0,05 ,
- se respinge H 0 şi se consideră diferenŃa semnificativă dacă Z calc > 2,58
( α = 0,01 ; cazul nostru),
- ipoteza nu se acceptă şi nu se respinge dacă 1,96 < Z calc < 2,58 .
U=
(n − 1)~
s2
(38)
σ2
care are o repartiŃie χ 2 cu n − 1 grade de libertate.
Ca şi în celelalte cazuri avem şi aici următoarele situaŃii
I. σ12 > σ02 . Se aplică testul χ 2 unilateral dreapta. Regiunea critică este
{ }
W = U > χ α2 , iar
{U (n − 1)~s 2 .
calc H 0 } = χ calc =
2
(39)
σ02
Dacă χ calc
2
> χ α2 , n −1 respingem ipoteza H 0 .
II. σ12 < σ02 . Se aplică testul χ 2 unilateral stânga. Regiunea critică este
{ }
W = U < χ12− α , n −1 , unde U calc este dat de (39).
III. σ12 ≠ σ02 . Regiunea de acceptare este
W C = χ 2 α , χ 2α (40)
1− 2 , n −1 2 , n −1
pentru aceeaşi statistică (39). Dacă U calc ∈ W C acceptăm ipoteza H 0 .
Exemplu. În vederea planificării producŃiei unui produs, o fabrică testează cererea
pe piaŃă a acestuia. Testarea a durat două luni. S-a obŃinut media de selecŃie x = 1.500
şi s = 105 . DistribuŃia cererii fiind normală să se arate dacă este corectă aprecierea că
dispersia ei este σ 2 = 5.000 la un prag de semnificaŃie α = 0,02 .
Răspuns. Verificăm ipoteza H 0 : σ 2 = 5.000 la alternativa H1 : σ 2 ≠ 5.000 .
Aplicăm testul χ 2 bilateral cu n − 1 = 7 grade de libertate. Din tabele reiese că
χ2 α = χ 02,99;7 = 1,239 , χ 2α = χ 02, 01;7 = 18,475 .
1− , 7 ,7
2 2
Avem
~ n 2
s2 = s = 12.600 ,
n −1
χ calc
2
=
(n − 1)~
s 2 7 ⋅ 12.600
= = 17,64 .
σ02 5.000
Regiunea de acceptare este W C = (1,239;18,475) şi χ calc
2
∈ W C , deci se acceptă
ipoteza H 0 .
Compararea a două proporŃii
Fie două eşantioane de volum n1 respectiv n2 din populaŃii diferite sau din aceeaşi
populaŃie. Aceste eşantioane ne dau proporŃiile p1 respectiv p2 de elemente posedând o
anumită caracteristică A . Problema care se pune este de a testa ipoteza
H 0 : p1 = p2
contra alternativei
H1 : p1 ≠ p2 .
În general, proporŃiile urmează lungi de repartiŃie binominale, dar presupunând că
volumele eşantioanelor sunt mari putem considera repartiŃiile proporŃiilor ca normale.
Statistica
p1 − p2
Z=
p1q1 p2 q2 (41)
+
n1 n2
are o repartiŃie N (0,1) .
Regiunea critică este
W = {Z > Z α } (42)
Exemplu. Ne propunem prin sondaj că constatăm calitatea unui produs
care provine de la două secŃii de fabricaŃie. De la prima secŃie s-a extras un eşantion
de 225 piese din care 200 au corespuns cerinŃelor pieŃei iar din piesele care provin de
la secŃia a doua s-a extras un eşantion de 300 piese dintre care 220 au fost
corespunzătoare. Să se testeze ipoteza unei diferenŃe nesemnificative între cele două
propoziŃii cu o eroare de 5% .
200 4 220 11
Răspuns. Avem p1 = = , p2 = = . Trebuie testată ipoteza
225 5 300 15
H 0 : p1 = p2 contra alternativei H1 : p1 ≠ p2 . Statistica (8.28.) ne dă Z calc = 4,1 ,
Z 0,05 = 1,96 , Z calc > Z α şi respingem H 0 .
Deci, există o diferenŃă semnificativă între cele două proporŃii şi nu trebuie atribuită
fluctuaŃiilor de sondaj.
PROBLEME PROPUSE
∑x
i =1
i = 4.250.000 lei. Se ştie că salariul este o variabilă aleatoare normal
repartizată.
a) Cunoscând abaterea medie pătratică a salariaŃilor σ = 30.000 să se decidă
dacă salariul mediu este semnificativ mai mic decât cel anunŃat pentru
α = 0,01 .
b) aceeaşi întrebare ca la punctul a dacă σ = 30.000 nu se consideră realistă ci
25
se estimează pe baza datelor de selecŃie, unde ∑x
i =1
2
i = 5.600 ⋅ 106 .
Răspuns.
a) Verificăm H 0 : m = 1.550.000 contra alternativei H1 : m < 1.550.000 , cu
P (Z calc < − Z α ) , unde Z α = 0, 01 = 2,33 .
n
∑ (x − x)
1
Estimăm σ 2 cu ~
s2 =
2
b) i şi se aplică testul „ t ” pentru
n i =1
x − m0
P (tcalc < tα ) , unde tcalc = ~ pentru 24 grade de libertate
s
n
( t0 ,01; 24 = 2,492 ).
3. Ne propunem să controlăm prin sondaj exactitatea inventarierii făcută unui stoc
comercial care cuprinde mii de articole cu ajutorul unui eşantion de 500 de
articole ştiind că proporŃia erorii de inventariere acceptabilă este mai mică sau
egală cu 3% iar α = 0,05 .
Răspuns. N este foarte mare, n = 500 , p = 0,03 . Verificăm H 0 : p = 0,03 contra
alternativei H 1 : p > 0,03 . P (t > tα ) = α , t0 ,05 = 1,65 . N fiind foarte mare
regiunea critică este de forma f > I unde I este ales de aşa manieră ca
P( aleg H1 H 0 adevărată ) = P( f > I p = p0 ) = α .
f − p0
łinând seama că t= ∈ N (0,1) deducem
p0 (1 − p0 )
n
p0 (1 − p0 )
I = p0 + tα sau I = 0,043 , respingem H 0 , şi admitem că eroarea făcută
n
la inventariere este semnificativ superioară lui 3% .
4. Dintr-o populaŃie repartizată normal N (m,σ 2 ) s-a extras un eşantion de volum
n = 21 şi s-a obŃinut dispersia de selecŃie s 2 = 16,2 . Să se verifice ipoteza
reală H 0 : σ 2 = σ02 = 15 contra alternativei H1 : σ 2 ≠ 15 cu o eroare
α = 1% .
Răspuns. χ calc
2
=
(n − 1)s 2 = 21,6 ; χ 2 = 37,6 ; χ 2 < χ 2 şi admitem H .
α
σ02
0 , 01; 20 calc 0
5. Se admite un lot de piese dacă dispersia dimensiunilor pieselor nu este mai mare
ca 0,2 . În urma verificării unui eşantion de volum n = 121 de piese s-a
constatat că ~
s 2 = 0,3 . Se poate admite tot lotul la un prag de semnificaŃie
α = 0,01 ?
REGRESIE ŞI CORELAłIE
Caracteristici marginale
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
ym f1m f 2m ... f im ... f nm f •m
∑ y jf ij
j=1
∑y f
j=1
j ij
ŷ x = m
= (21.)
f i•
∑fj=1
ij
∑x f i ij
(22.)
x̂ y = i =1
f•j
VarianŃa lui y condiŃionată de x este:
∑ (y − yˆ x ) f ij
m
1
D x2 ( y ) =
2
j
f i• j =1
şi analog (23.)
D y2 ( x ) = ∑ (x − xˆ y ) f ij
1 2
i
f• j
Între caracteristicile condiŃionate şi cele marginale avem relaŃiile:
m
1
x=
f ••
∑ x̂
j=1
y ⋅ f•j
n
(24.)
1
y=
f ••
∑ ŷ
i =1
x i•f
∑ (xˆ − x ) f• j
m m
D 2 (x ) = ∑ D y2 (x ) f • j +
1 1 2
y
f •• j =1 f •• j =1
n n
(25.)
D (y) = D ( y ) f i• + ∑ ( yˆ − y ) f i•
1 1
2
f ••
∑
i =1
2
x
f •• i =1
x
2
Regresia liniară
Fie o populaŃie caracterizată simultan de două variabile x şi y, pentru care calculăm
mediile condiŃionate ŷ x şi x̂ y . Dacă reprezentăm grafic pe un sistem de axe
rectangulare perechile de valori (x, yˆ x ) şi unim punctele obŃinute, avem o linie
poligonală numită linie de regresie a variabilei y în raport cu x. Analog, putem obŃine
linia de regresie a variabilei x în raport cu y.
Dacă variabilele x şi y sunt independente, linia de regresie a lui y în raport cu x este
paralelă la axa absciselor, iar cealaltă la axa ordonatelor.
Problema regresiei constă în a arăta în ce măsură se schimbă, în medie, variabila
dependentă y ca urmare a schimbării cu o unitate a variabilei independente. SoluŃia
trebuie căutată într-o funcŃie care să exprime o astfel de dependenŃă, numită funcŃie de
regresie (făcând abstracŃie de influenŃa altor factori), graficul acestei funcŃii fiind linia de
regresie teoretică.
Această funcŃie de modelare poate avea forme variate. În cazul nostru, admiŃând că
dependenŃa este liniară (extremităŃile segmentelor care reprezintă mediile condiŃionate se
găsesc pe o linie dreaptă), ecuaŃia acestei funcŃii liniare va fi de forma
y x = a + bx (27.)
unde y x este media condiŃionată teoretică a lui y în raport cu x, iar parametrii a şi b se
estimează prin metoda celor mai mici pătrate. Se determină a şi b aşa încât expresia:
n n
S = ∑ e i = ∑ (y i − ax i − b )
2
i =1 i =1
∂s ∂s
să fie minimă din = 0 şi =0.
∂a ∂b
sau
n
∑ (xi − x )( yi − y )
a = i =1
n
( x i − x )2 (29.)
∑i =1
b = y − ax
Verificarea fidelităŃii ajustării de poate face cu ajutorul coeficientului de variaŃie al
ajustării
D y 1 Σ(ŷ − y x )2
CV = =
y y n
CorelaŃie. Curba de regresie nu ne dă nici o informaŃie asupra dispersiei.
Aplicabilitatea practică a ecuaŃiei de regresie depinde de gradul (intensitatea) de legătură
între variabile. În cazul unei legături slabe, ecuaŃia de regresie ori este puŃin sigură ori nu
are sens.
Coeficientul de corelaŃie măsoară gradul de legătură liniară între variabile. În cazul
a două variabile, este definit de relaŃia
Σ(x − x )(y − y )
ryx = (30.)
ns x s y
sau
ryx =
∑ (y − y )
x
2
(31.)
∑ (y − y ) 2
TEST
1. Tabelul următor ilustrează distribuŃia lucrătorilor dintr-o uzină după vârstă ( x ) şi
remuneraŃia lunară ( y ).
25 − 30 − 35 − 40 − 45 − 50 −
y\x < 25 > 55 Total
30 35 40 45 50 55
> 800 207 121 38 17 10 2 7 3 405
800 −
302 461 513 103 86 6 10 2 1483
900
900 −
18 526 682 567 613 431 105 60 3003
1000
1000 −
- 111 342 298 416 486 226 37 1910
1200
1200 −
- 1 3 182 227 263 98 18 792
1500
1500 −
- - - 18 22 13 12 5 70
2000
> 2000 - - - 1 14 6 7 5 33
Total 527 1220 1578 1186 1388 1201 465 130 7695
Răspuns. Din tabel observăm că pentru fiecare mărime a vârstei ( x ) avem o repartiŃie a
salariului ( y ). O astfel de repartiŃie se numeşte repartiŃie condiŃionată şi se notează ŷ x .
Avem
m m
∑ y j fij
j =1
∑y
j =1
j ij f
yˆ x = m
= . (a)
fi •
∑f
j =1
ij
Analog
n
∑x f i ij
(b)
xˆ y = i =1
f• j
Dx2 ( y ) =
1 m
∑ (y j − yˆ x )2 fij ,
f i • j =1
(c)
∑ (x − xˆ y ) f ij .
n
D (x ) =
2 1 2
y i
f• j i =1
Dx2 ( y ) Dx ( y )
Centrul
Vârsta ŷ x
clasei
< 25 20 794,5 6.100 78,1
25 − 30 27,5 901,5 9.825 99,1
30 − 35 32,5 944,5 9.875 99,4
35 − 40 37,5 1050,0 33.000 181,7
40 − 45 42,5 1077,5 43.575 208,8
45 − 50 47,5 1111,5 32.825 181,2
50 − 55 52,5 1141,5 49.450 222,4
> 55 60 1119,5 86.100 293,4
Centrul
Dy2 ( x ) Dy ( x )
Clasa de salarizare
x̂ y
(mii lei) clasei
< 800 700 25,7 58,23 7,6
800 − 900 850 29,6 43,11 6,6
900 − 1000 950 37,1 62,30 7,9
1000 − 1200 1100 41,8 58,50 7,7
1200 − 1500 1350 44,6 29,68 5,5
1500 − 2000 1750 45,1 43,31 6,6
> 2000 2200 48,0 42,34 6,5
y\x 0 1 2 3 4 f• j = f y
4 25 15 5 - - 45
5 10 20 10 5 - 45
6 5 10 15 5 - 35
7 - 10 25 10 - 45
8 - 5 15 35 5 50
9 - - 5 25 25 55
10 - - - 10 30 40
fi • = f x 40 60 75 90 60 n = 325
Figura 1
3. La două teste, opt studenŃi au obŃinut punctajele din tabel
Student 1 2 3 4 5 6 7 8
x Test 1 35 55 40 35 50 60 45 40
y Test 2 50 60 40 35 65 55 45 50
a) Să se calculeze coeficientul de corelaŃie şi să se interpreteze rezultatul.
b) Să se scrie ecuaŃia dreptei de regresie a lui y în raport cu x . Se justifică regresia
liniară?
4. Să se scrie ecuaŃia liniei de regresie a lui y în raport cu x pentru datele din tabel. Să
se calculeze coeficientul de corelaŃie.
y\x 20 25 30 35 40 fy
16 4 6 - - - 10
26 - 8 10 - - 18
36 - - 32 3 9 44
46 - - 4 12 6 22
56 - - - 1 5 6
fx 4 14 46 16 20 f • • = 100 = n
Răspuns. y x = 1,45 x − 10,36 , ryx = 0,76 .
5. Analog problemei 9.2. pentru datele din tabelul
y\x 18 23 28 33 38 43 48 fy
125 - 1 - - - - - 1
150 1 2 5 - - - - 8
175 - 3 2 12 - - - 17
200 - - 1 8 7 - - 16
225 - - - - 3 3 - 6
250 - - - - - 1 1 2
fx 1 6 8 20 10 4 1 50
Răspuns. y x = 4 x + 57,8 , x y = 0,19 y − 3,1 .
6. Asupra nivelului mediu al unui râu două staŃii hidrometrice fac 100 de
observaŃii de-a lungul unui an. Rezultatele sunt date în tabelul următor
y \ x 3,5 3,6 3,7 3,8 3,9 4 4,1 4,2 4,3 4,4 4,5 f• j
3,2 1 1 2
3,3 - 1 2 - 1 - - - - - - 4
3,4 - - 2 2 1 1 - - - - - 6
3,5 - - 3 5 2 1 1 1 - - - 13
3,6 - - 1 4 4 4 1 1 1 - - 16
3,7 - - 1 1 1 1 2 - - - - 17
2
3,8 - - - 1 1 1 3 - 1 - - 16
0
3,9 - 1 - - 1 1 1 - 1 - 1 17
2
4,0 - - - - - - - - - 1 1 2
4,1 - - - - - - - - - 2 3 5
4,2 - - - - - - - 1 - 1 - 2
fi• 1 2 2
1 3 9 8 3 3 4 5 100
3 2 9
Să se determine:
a) mediile şi dispersiile variabilelor x şi y ,
b) mediile condiŃionate ŷ x şi x̂ y
c) liniile de regresie y x şi x y ,
d) coeficientul de corelaŃie.
Răspuns.
a) x = 3,97 , σ 2x = 0,0435 , y = 0,0468 , σ2y = 0,216 2 .
b)
3, 3,
x 3,6 3,7 3,8 4,0 4,1 4,2 4,3 4,4 4,5
5 9
3, 3,
ŷ x 3,46 3,46 3,554 4,99 3,72 3,73 3,73 4,10 4,04
2 6
y 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4 4,1 4,2
x̂ y 3,55 3,72 3,81 3,86 3,9 3,67 4,02 4,029 4,03 4,45 4,3
c) bx / y = 0,88 , by / x = 0,95 .
d) ryx = 0,92 .