Sunteți pe pagina 1din 39

Universitate Spiru Haret

Facultatea de Matematica-Informatica

Statistica matematica

Disciplină obligatorie; Anul II, Sem. 2, ore săptămânal, învăŃământ de zi: 2 curs, 2
seminar, total ore semestru 56; 6 credite; examen.

I. CONłINUTUL TEMATIC AL DISCIPLINEI

1. Selectie: Selectie dintr-o populatie normala uni si bidimensionala; Selectie


dintr-o populatie finita.

2. Estimatie: Estimari corecte, absolut corecte, consistente, nedeplasate, de


dispersie minima, suficienta.

3. Metode de estimare: Metoda verosimilitatii maxime,Metoda celor mai


mici patrate, Metoda minimului χ 2 , Metoda momentelor.

4. Intervale de incredere: Aplicatii la repartitiile normala , uniforma, gama,


exponentiala, Weibull, binomiala si Poisson.

5. Verificarea ipotezelor statistice: Teste de tip Neyman-Pearson, Testul


raportului de verosimilitate.

6. Regresie si corelatie: Caracteristici marginale, Regresia liniara.

II. BIBLIOGRAFIE MINIMALĂ OBLIGATORIE

1. R. Trandafir, I. Duda, A. Baciu, R. Ioan Matematici pentru


economisti,vol II, Ed. FundaŃiei România de Mâine;
2. Craiu V. Statistica Matematica, Tipografia Univ Buc, 2000.

III. BIBLIOGRAFIE FACULTATIVA

1. Craiu V, Preda V, Probleme de statistica matematica. Estimatii.


Tipografia Univ Buc, 1992;
2. Mihai Gh., Craiu V., Tratat de statistica Matematica, vol I Ed
Academiei Bucuresti, 1976.
Teoria selecŃiei

Studierea concordanŃei dintre modelarea matematică a unor fenomene aleatoare de


masă şi fenomenele înseşi este caracterizată de apariŃia conceptului fundamental de
selecŃie, concept care stă la baza întregului edificiu al statisticii matematice

SelecŃii

Fie un experiment aleator căruia îi ataşăm variabila aleatoare (caracteristica) ξ . Dacă


repetăm experimentul de n ori în mod independent obŃinem un şir de valori de observaŃie ale
variabilei aleatoare ξ notate x1 ,..., xn .
DefiniŃie. MulŃimea valorilor de observaŃie ale variabilei aleatoare ξ având
funcŃia de repartiŃie F , se numeşte selecŃie de volum n efectuată asupra variabilei
aleatoare ξ (mai precis asupra valorilor variabilei ξ ) cu funcŃia de repartiŃie F .
Vom spune că o selecŃie este reprezentativă dacă toate valorile de selecŃie
x1 ,..., xn au aceeaşi probabilitate de a intra în componenŃa ei.

FuncŃia de repartiŃie de selecŃie

DefiniŃie. Dacă nx reprezintă numărul observaŃiilor în care a apărut o valoare a


caracteristicii ξ mai mică decât x vom numi funcŃie de repartiŃie de selecŃie, funcŃia
definită prin relaŃia
Fn* ( x ) =
nx
. (1.)
n
Exemplu. Se efectuează o selecŃie de volum n = 100 asupra unei variabile
30
aleatoare ξ care ne furnizează valorile 1 , 5 , 9 , 12 cu frecvenŃele = 0,3 ,
100
15 10 45
= 0,15 , = 0,1 , şi = 0,45 .
100 100 100
FuncŃia de repartiŃie va fi
0 pentru x < 1
0,3 pentru 1 ≤ x < 5

*
F100 ( ) 0, 45
x = pentru 5 ≤ x < 9 .
0,55 pentru 9 ≤ x < 12

1 pentru x ≥ 12
Legătura dintre funcŃia de repartiŃie teoretică şi funcŃia de repartiŃie de selecŃie este
dată de următoarea teoremă a lui V.I. Glivenko, care ne furnizează şi justificarea teoretică
a utilizării metodei selecŃiei.
Teorema . Dacă volumul selecŃiei n → ∞ mărimea
d n = sup Fn* ( x ) − F ( x ) (2.)
− ∞ < x < +∞
converge în probabilitate către zero.

Valori tipice de selecŃie


Valorile de selecŃie x1 ,..., xn conduc la o variabilă aleatoare n − dimensională,
(x1,..., xn ) , unde xi , 1 ≤ i ≤ n sunt variabile aleatoare independente având fiecare
aceeaşi funcŃie de repartiŃie. Valorile variabilelor x1 ,..., xn observate într-o selecŃie,
formează o valoare de observaŃie a variabilei aleatoare n − dimensionale ( x1 ,..., xn ) .

Momente de selecŃie.

Numim moment de selecŃie de ordinul r variabila aleatoare


1 n r
αr = ∑ xi .
n i =1
(3.)

În particular, valoarea medie de selecŃie este


1 n
x = α1 = ∑ xi .
n i =1
(4.)

Momentul centrat de selecŃie de ordinul r este


1 n
µr = ∑ ( xi − x ) .
r
(5.)
n i =1
Rezultă de aici dispersia de selecŃie
1 n
s2 = ∑ (xi − x )2 . (6.)
n i =1

În practică, calculul momentelor de selecŃie se face uneori pentru observaŃii grupate, toate
valorile dintr-un interval înlocuindu-se cu mijlocul intervalului. Un astfel
Teorema . Dacă repartiŃia teoretică are media m şi dispersia σ 2 , atunci media
σ2
de selecŃie are valoarea medie m şi dispersia .
n

Exemple.
1. Să se arate că dacă ξ este o variabilă aleatoare normală N m,σ 2 , atunci repartiŃia ( )
mediei de selecŃie x este de asemenea normală.
Răspuns. Fie n numărul probelor şi x media de selecŃie. Avem
 i t ∑ xk  n
n
 i nt x k 
ϕ x (t ) = M e ( )itx  n
= M  e k =1

 = ∏ M  e
 .

 k =1  
 
( )
n
, deci ϕ x (u ) = ∏ M e k . De la legea normală ştim că
t
Notăm u =
iux

n k =1

( )= e
σ 2u 2 nσ 2 u 2 σ 2t 2
mui − nmui − mti −
, deci ϕ x (u ) = e sau ϕ x (t ) = e
iux k 2 2 2n
Me . Aceasta este
 σ2 
funcŃia caracteristică a unei repartiŃii normale N  m,  deci funcŃia de repartiŃie
 n 
corespunzătoare este normală.
2. Fie ξ o variabilă aleatoare cu o repartiŃie Poisson de parametru λ . Să se determine
repartiŃia mediei de selecŃie.
Răspuns. Vom utiliza tot metoda funcŃiei caracteristice. Avem
 i t xk 
( )
n
ϕ x (t ) = M eitx = ∑ M  e n 

k =1  
( )
n
, ϕ x (u ) = ∑ M eiux = e , de unde revenind la variabila t ,
t
sau cu notaŃia u =
nu

n k =1
t

ϕ x (t ) = e
n
= e . Am obŃinut funcŃia caracteristică a repartiŃiei Cauchy, deci x este o
n t

variabilă aleatoare repartizată Cauchy.


x −m
Teorema . Momentele centrate ale variabilei tind către momentele

n
repartiŃiei normale când n → ∞ .

DemonstraŃie. Din
(xi − x )r = xir − Cr1x xir −1 + Cr2 x 2 xir − 2 − ... .
Teoria estimaŃiei

Să considerăm că avem o selecŃie dintr-o populaŃie dată a cărei funcŃie de repartiŃiei


teoretică are o formă matematică cunoscută, în care intră anumiŃi parametri cu valori
necunoscute. Există o infinitate de funcŃii de selecŃie (statistici) care pot fi propuse ca
estimaŃii pentru parametrii necunoscuŃi, dar trebuie alese acelea care dau cea mai bună
aproximare a parametrilor.
De exemplu, să presupunem că studiind un fenomen ajungem la
concluzia că repartiŃia lui este normală N m,σ 2 , deci ( )

(x−m) 2

f (x ) =
1 2σ 2
e .
σ 2π
Pentru aplicaŃii practice trebuie să determinăm valorile numerice ale celor doi
parametri m şi σ .
Determinarea valorilor parametrilor unei repartiŃii specificate se face cu ajutorul
unei selecŃii de volum n care conduce la valorile x1 ,..., xn legate de variabila studiată.
În cele ce urmează ne vom ocupa de repartiŃii specificate care depind de un singur
parametru. Deci funcŃia de repartiŃie teoretică conŃine un singur parametru necunoscut θ .
O selecŃie de volum n din colectivitate ne-a dat estimaŃia θ1* altă selecŃie de volum
n ne dă estimaŃia θ*2 etc. Repetând procedeul obŃinem estimaŃiile θ1* ,..., θ*r .
O estimaŃie θ* a lui θ poate fi privită ca o variabilă aleatoare cu valorile posibile
θ1* ,..., θ*r .

EstimaŃii consistente, corecte şi absolut corecte,


nedeplasate, deplasate

Fie θ un parametru al colectivităŃii generale (medie, dispersie, mediană etc.) şi


θ ( x1 ,..., xn ) o funcŃie de selecŃie.
*

DefiniŃie. Dacă θ* ( x1 ,..., xn ) converge în probabilitate către parametrul θ ,


spunem că θ* este o estimaŃie consistentă a lui θ .
DefiniŃie. Dacă
( ) ( )
M θ* ( x1 ,..., xn ) = θ , lim D 2 θ* ( x1 ,..., xn ) = 0 ,
n →∞
(7.)
spunem că θ* ( x1 ,..., xn ) este o estimaŃie corectă a parametrului θ .
Dacă
( ) ( )
M θ* ( x1 ,..., xn ) = θ + O(1) , lim D 2 θ* ( x1 ,..., xn ) = 0
n →∞
(8)
spunem că θ* ( x1 ,..., xn ) este o estimaŃie absolută corectă a parametrului θ .
Teorema Momentele de selecŃie sunt estimaŃii absolut corecte ale momentelor
teoretice.

Teorema Dispersia de selecŃie este o estimaŃie consistentă pentru dispersia


teoretică.
1 n
Se arată cu uşurinŃă că ~
s2 = ∑ (xi − x )2 este o estimaŃie consistentă,
n − 1 i =1
absolut corectă pentru dispersia teoretică.
Exemplu. Fie o schemă de tip Bernoulli cu două stări. În n observaŃii
independente evenimentul A apare cu probabilitatea p de α ori, 0 ≤ α ≤ n . Să se
estimeze p şi p 2 cu ajutorul lui α .
α α
Răspuns. Verificăm dacă este o estimaŃie a lui p . Avem M   = p ,
n n
 α  pq α
D2   = , deci este o estimaŃie absolut corectă a lui p .
n n n
 α  p  α  npq
De asemenea, avem M  = p− , D2  = , deci
 n +1 n +1  n + 1  (n + 1)
2

α α
→
p
p , dar nu este o estimaŃie absolut corectă a lui p , este numai o
n +1 n +1
estimaŃie corectă.
α
Deoarece este o estimaŃie absolut corectă pentru p este natural să încercăm să
n
α2  α2  pq
estimăm pe p2 prin 2
. Avem M  2  = p 2 + şi
n n  n
 α2  4 p 3q  1  α2
D 2  2  = + O 2  , deci 2 este o estimaŃie corectă pentru p 2 . Pentru a
n  n n  n
determina o estimaŃie absolut corectă observăm că
 α2  pq n − 1 2 p
M  2  = p 2 + = p + ,
n  n n n
α p  α2 α  n − 1 2
M  2  = , deci M  2 − 2  = p sau
n  n n n  n
n  α2 α 
M  2 − 2  = p 2 ,
n −1  n n 
 α2 − α   α2 − α  4 p 2q 1 α2 − α
de unde M   = p 2 , D  = + O  , deci este
 n (n − 1)   n(n − 1)  n n n(n − 1)
o estimaŃie absolut corectă a lui p 2 .
n 2
O estimaŃie absolut corectă pentru σ 2 este s unde s 2 este dispersia de
n −1
selecŃie.
( )
DefiniŃie. O estimaŃie θ* este nedeplasată dacă M θ * = θ . În caz contrar
avem o estimaŃie deplasată.
α
În exemplul anterior am văzut că este o estimaŃie absolut corectă a lui p . Să
n
trecem la estimarea dispersiei D 2 (ξ ) , ξ fiind variabila aleatoare bernoulliană care ia
valorile 1 şi 0 cu probabilităŃile p şi q = 1 − p . Dispersia de selecŃie este
1 n
s 2 = ∑ ( xi − x ) . Avem
2

n i =1
n −1 2
( )
M s 2 = D 2 (ξ ) − D 2 (ξ ) =
1
n n
D (ξ ) ,

deci s 2 este o estimaŃie deplasată. Vom lua ca estimaŃie a dispersiei D 2 (ξ ) , dispersia de


selecŃie modificată
n −1 2 1 n
~
s2 = s = ∑ ( xi − x )
2
(9.)
n n − 1 i=1
( )
s 2 = D 2 (ξ ) .
pentru care M ~

FuncŃii de estimaŃie eficiente. Metoda verosimilităŃii maxime

De multe ori o estimaŃie nedeplasată nu ne dă cea mai bună aproximare a


parametrului de estimat. Valorile posibile ale estimaŃiei lui θ pot fi mult împrăştiate în
( )
jurul valorii medii (dacă D 2 θ* este mare), iar estimaŃia calculată de o selecŃie dată
poate fi îndepărtată de valoarea medie a lui θ* , deci se face o eroare alegând θ* ca
estimaŃie pentru θ .
( )
Dacă θ* este o estimaŃie absolut corectă pentru parametrul θ > 0 şi M θ* < ∞ ,
atunci inegalitatea lui Cebîşev
D 2 (θ)
(
P θ* − θ ≥ ε < ) ε2
dă un criteriu pentru alegerea estimaŃiilor şi anume, alegem acea estimaŃie care are
dispersia minimă.
Fie f ( x, θ ) o familie de densităŃi de probabilitate ale unei repartiŃii specificate
continue, cu θ parametrul real necunoscut. Vom admite continuitatea funcŃiilor f ( x, θ )
şi existenŃa derivatelor acestor funcŃii în raport cu θ până la ordinele necesare calculelor.
Teorema (Rao-Cramer). Dacă θ* ( x1 ,..., xn ) este o estimaŃie absolut corectă a
parametrului θ , atunci
(
D 2 θ* ( x1 ,...xn ) ≥) 1
.
  ∂ ln f ( x, θ)  2  (10)
nM    

 ∂θ
 
Egalitatea are loc dacă şi numai dacă există o constantă k , ce depinde de n şi
θ , aşa încât, aproape sigur
∂ ln f ( xi , θ)
[ ]
n

∑ = k θ* ( x1 ,..., xn ) − θ .
i =1 ∂θ
DefiniŃie. O estimaŃie absolut corectă θ* ( x1 ,..., xn ) a parametrului θ se numeşte
eficientă dacă are dispersia minimă.
Dacă θ* este o funcŃie de estimaŃie absolut corectă, raportul
1
  ∂ ln f ( x, θ)  2 
nM    
 (11.)
 ∂θ
( )
en θ =
* 
D θ
2 *
( )

se numeşte eficienŃa lui θ .


( ) ( )
Se observă că 0 ≤ en θ* ≤ 1 . Dacă en θ* = 1 , estimaŃia este eficientă.
Exemplu. Caracteristica ξ a elementelor unei populaŃii are o repartiŃie normală
(
N m, σ 2 ) cu m cunoscut şi σ necunoscut. Considerăm ca estimaŃie a acestui
π n
∑ (xk − m) , unde variabilele aleatoare xi , 1 ≤ i ≤ n , sunt
1
parametru θ* =
n 2 k =1
independente şi au aceeaşi repartiŃie ca ξ . Să se determine eficienŃa lui θ* .
Răspuns. Avem
+∞ ( x − m )2
M (ξ − m ) =
1 − 2
σ 2π ∫ x − me
−∞
2 σ2
dx = σ
π
,

π π
( ) M ( xk − m ) =
n
1 2
M θ* =
n

2 k =1 2
⋅σ⋅
π
= σ,

π−2 2
D 2 (θ* ) = σ ,
2n
deci θ* este o estimaŃie absolut corectă a lui σ . EficienŃa sa este
σ2
n 1
e= = ≅ 0,876 , deci θ* nu este cel mai eficient estimator.
π−2 2 π−2
σ
2n
Teorema Două estimaŃii eficiente ale parametrului θ sunt egale aproape sigur.
Fie repartiŃia de tip continuu f ( x, θ ) unde θ poate lua orice valoare dintr-un
interval I . Valorile de selecŃie x1 ,..., xn obŃinute în urma a n extracŃii independente
din populaŃie sunt variabile aleatoare independente cu aceeaşi densitate de probabilitate
f ( x, θ) . Fiecare selecŃie ( x1 ,..., xn ) o considerăm ca un punct în spaŃiul de selecŃie
n − dimensional ℝ n , iar probabilitatea elementară a vectorului ( x1 ,..., xn ) este
P( x1 ,..., xn ; θ)dx1...dxn = f ( x1 , θ)... f (xn , θ)dx1...dxn . (12)
DefiniŃie. FuncŃia P : ℝ n × I → ℝ se numeşte funcŃie de verosimilitate.
DefiniŃie. EstimaŃia θˆ ( x1 ,..., xn ) se numeşte estimaŃie de verosimilitate dacă θ̂
este un punct de maxim pentru funcŃia de verosimilitate.
Rezultă că θ̂ este o soluŃie a ecuaŃiei
∂ ln P ( x1 ,..., xn ; θ) n ∂ ln f ( xi , θ)
=∑ = 0. (13.)
∂θ i =1 ∂θ
EcuaŃia (13.) se numeşte ecuaŃie de verosimilitate.
Teorema Orice estimaŃie eficientă a parametrului θ este o estimaŃie de
verosimilitate maximă.
Exemple.
α
1. RepartiŃia de tip Bernoulli. Am văzut că este o estimaŃie absolut corectă pentru
n
probabilitatea p . Să arătăm că ea este şi o estimaŃie eficientă.
Răspuns. Din teorema de mai sus se ştie că pentru orice estimaŃie absolut corectă θ*
avem inegalitatea
( )
D 2 θ* ≥
1
2
,
n
 ∂ ln pi 
n∑   pi ( p )
i =1  ∂p 
unde p1 ( p ) = p , p2 ( p ) = 1 − p .
n
 ∂ ln pi 
 pi = p 2 + (1 − p )
1 1 1
∑ 
i =1  ∂p  p 2
=
(1 − p ) pq
,

α
deci D 2 (θ* ) ≥
pq
. Minimul este atins pentru .
n n
La acelaşi rezultat se ajunge aplicând metoda verosimilităŃii maxime. Din
(
∂ ln p α q n−α )α n−α
= −
α
= 0 se obŃine p = .
∂α p q n

( x − m )2
2. RepartiŃia normală cu densitatea de probabilitate f ( x, m ) =
1 2 σ2
e .
σ 2π
a. Estimarea mediei.
Răspuns. Avem
m2 x2
ln f ( x, m ) = 2 x − 2 − 2 + ln
m 1
.
σ 2σ 2σ σ 2π
1 n
Din teorema 7.8. rezultă că θ* ( x1 ,..., xn ) = ∑ xi este o funcŃie de estimaŃie
n i =1
eficientă a lui m deoarece
m2 x2
ln f ( x, m ) = 2 ( x − m ) + 2 − 2 + ln
m 1
σ 2σ 2σ σ 2π
1 n
 1 n
 σ 2
şi M  ∑ xi  = m , D 2  ∑ xi  = . Rezultă că θ* este o estimaŃie absolut
 i =1 
n  i =1 
n n
corectă.
FuncŃia de verosimilitate este
n
∑ ( xi −m )2
− i =1
P( x1 ,..., xn ; m ) =
1 2σ2
e
σ n (2π )
n
2
n
iar din ecuaŃia verosimilităŃii maxime ln P = 0 rezultă ∑ (x
i =1
i − m ) = 0 sau

1 n
m= ∑ xi .
n i =1
b. Estimarea parametrului σ .
Răspuns. FuncŃia de verosimilitate este
n
∑ ( xi −m )2
− i =1
P ( x1 ,..., xn ; σ ) =
1 2 σ2
e
σ n (2π)
n
2

şi
n

∑ (x − m) .
1
ln P = − n ln σ − n ln 2π −
2

2σ 2
i
i =1
∂ ln P
EcuaŃia verosimilităŃii maxime, = 0, conduce la soluŃia
∂σ
1 n
σ= ∑ (xi − m )2 .
n i =1
λk
3. RepartiŃia Poisson; estimarea parametrului λ din f ( k ; λ ) = e − λ , k = 0,1,...
k!
pe baza unei selecŃii repetate de volum n .
Răspuns. Avem
n
∑ xi
λi =1
P( x1 ,..., xn ; λ ) = e − nλ n
.
∏x!
i =1
i

1 n
Din ecuaŃia verosimilităŃii maxime obŃinem λ = ∑ xi .
n i =1
1 n
Să arătăm că θ* ( x1 ,..., xn ) = ∑ xi este o estimaŃie eficientă pentru λ . Într-
n i =1
λ
( )
adevăr M θ* = λ , D 2 θ* = ( ) n
.
Minimul dispersiei pentru funcŃii de estimaŃie absolut corecte este
1
,
 ∂ ln f (k , λ ) 
n 2

n∑   f (k , λ )
k =0  ∂λ 
dar
 ∂ ln f (k , λ ) 
k −λ
 λe
2 2
n n
k
 f (k , λ ) = n∑  − 1
n
n∑  =
k =0  ∂λ  k =0  λ  k! λ
λ
deci, minimul dispersiei este .
n

Intervale de încredere

Vom analiza în continuare precizia estimaŃiilor. Să considerăm că avem densitatea


de repartiŃie f ( x, θ ) în care θ este un parametru necunoscut. În urma efectuării unei
selecŃii de volum n obŃinem două statistici, A( x1 ,..., xn ) , B ( x1 ,..., xn ) aşa încât
probabilitatea inegalităŃii
A( x1 ,..., xn ) ≤ θ ≤ B ( x1 ,..., xn ) (12.)
nu depinde de θ , adică
P( A( x1 ,..., xn ) ≤ θ ≤ B( x1 ,..., xn )) = δ , (13.)
unde δ nu depinde de θ . Am găsit un interval [ A, B ] care acoperă pe θ cu o
probabilitate δ . Cu cât intervalul [ A, B ] este mai mic şi δ mai apropiat de 1 avem o
indicaŃie mai precisă despre θ .
DefiniŃie. Intervalul [ A, B ] se numeşte interval de încredere, iar numărul δ se
numeşte prag de încredere al intervalului.
MulŃimea punctelor de selecŃie ( x1 ,..., xn ) pentru care A ≤ θ ≤ B , se numeşte
regiune de acceptare pentru θ .

1. Determinarea unui interval de încredere pentru parametrul m al


repartiŃiei normale N m, σ 2 ( )
Cazul I. Se cunoaşte dispersia σ 2 .

( x −m )2
f ( x; m, σ ) =
1 2 σ2
Avem e . Facem o selecŃie de volum n şi
σ 2π
x −m
considerăm funcŃia de variabilele de selecŃie (statistica) U ( x1 ,..., xn ; m ) = care
σ
n
ştim că este repartizată N (0,1) şi este descrescătoare în raport cu m gasim ca intervalul
de încredere este
σ σ
x − dα ≤ m ≤ x + dα (14.)
n n
Valoarea funcŃiei d α este dată în tabele, de exemplu, pentru α = 0,05 ,
d α = 1,96 ; α = 0,01 , d α = 2,576 ; α = 0,001 , d α = 3,291 etc.
~
s
Expresia d α x se numeşte eroare limită de sondaj pentru medie.
n

Cazul II – nu se cunoaşte σ 2

1 n
Calculăm dispersia de selecŃie ~
s2 = ∑ (xi − x )2 şi considerăm statistica
n − 1 i =1
x−m
t= ~
s (15.)
n
care are o repartiŃie Student cu n − 1 grade de libertate.
Intervalul de încredere este
~
s ~
s
x − tα ≤ m ≤ x + tα . (16.)
n n
Exemple.
1. Pe un eşantion format din 10.000 de indivizi din totalul populaŃiei unei zone de
700.000 de indivizi, s-a constatat că consumul mediu lunar pentru menaj este de
950.000 lei şi o abatere medie pătratică s = 700.000 . Să se determine un interval
de încredere pentru estimarea mediei de consum a întregii populaŃii.
Răspuns. Avem N = 700.000 , n = 10.000 , x = 950.000 , s = 700.000 ,
~
s ≅ s = 700.000 . Volumul eşantionului este mare, deci statistica
x−m x−m
t= ~ = este cu o repartiŃie normală centrală redusă.
s 7
n
La un prag de semnificaŃie δ = 0,95 , deci cu un risc α = 0,05 de a comite o
eroare asupra preciziei estimaŃiei avem
 ~
s ~
s 
P x − t α ≤ m ≤ x + tα  = 0,95 ,
 n n
unde din tabelul repartiŃiei normale avem t α = 1,96 pentru α = 0,05 . Luând t α ≈ 2
găsim 936.000 ≤ m ≤ 964.000 , deci în 95 de cazuri din 100 valoarea medie a
consumului este în acest interval.
ObservaŃie. Dacă dorim o precizie mai mare a estimaŃiei, de exemplu δ = 0,99
deci α = 0,01 , din tabele găsim t 0 ,01 = 2,58 şi 931.940 ≤ m ≤ 968.060 , deci în
99 la sută din cazuri consumul mediu este în acest interval. Deci, odată cu creşterea
coeficientului de încredere, intervalul de încredere se extinde simetric faŃă de media de
selecŃie x .
2. Într-o întreprindere, în cele 4 ateliere de fabricaŃie lucrează 2.000 de muncitori. Să
se determine un interval de încredere pentru media întreruperilor în timpul de lucru
în decurs de o zi, ştiind că în urma sondajului efectuat s-au obŃinut rezultatele:
Numărul Nrumăr mediu Abatere
Vololum
muncitorilor din de minute medie
Atelier sondaj
fiecare atelier întrerupere pătratică
I 600 50 30 9
II 700 50 20 7
III 300 50 40 10
IV 400 50 20 8
N = 2000 n = 200 x = 26
Răspuns.
18.000 + 14.000 + 12.000 + 8.000 52.000
x= = = 26
2.000 2.000
Vom estima media populaŃiei originare cu o siguranŃă probabilistă de 95% . Ştim că
~
sx ~
s
x − tα
≤ m ≤ x + tα x
n n
Avem t α = 1,96 pentru α = 0,05 , iar
1 4
~
s x2 = ∑ (xi − x )2 = 1 (16 + 36 + 196 + 36) = 284 = 1,43
199 i =1 199 199
~
sx
deci − 0,84 şi 25,835 ≤ m ≤ 26,165 .
n

2. Determinarea unui interval de încredere pentru dispersia


teoretică σ 2 a repartiŃiei normale N m, σ 2 ( )
Facem o selecŃie de volum n . Statistica
~
s2
U=
σ2 (17.)
n −1
este repartizată χ 2 de n − 1 grade de libertate.
n −1 n −1
Gasim intervalul de incredere: ~
s ≤σ≤~
s .
2 2
χ2 χ1
Exemple.
1. Să se determine un interval de încredere pentru parametrul σ cu un prag de
încredere de 98% ştiind că în urma a 25 de măsurători independente s-a obŃinut
media x = 18,2 şi dispersia ~
s 2 = 1,63 .
α
Răspuns. Avem α = 2% , deci α = 0,02 , = 0,01 . Numărul gradelor de libertate
2
este v = 24 . Avem χ12 = χ 2 α = 10,856 , χ 22 = χ 2α = 42,980 ,
1− ; 24 ; 24
2 2

1,63 ⋅ 24 1,63 ⋅ 24
≤σ≤ , deci 0,88 ≤ σ ≤ 1,896 .
42,980 10,856
2. Să se determine un interval de încredere pentru parametrul p al repartiŃiei binomiale.
Răspuns. [9] Vom determina intervalul de încredere prin metoda expusă la punctul 2. Fie
ξ o variabilă aleatoare care ia valorile 1 şi 0 cu probabilităŃile p respectiv q = 1 − p .
Dacă x1 ,..., xn este o selecŃie repetată de volum n asupra caracteristicii ξ ,
n
probabilitatea ca U ( x1 ,..., xn ) = ∑x i = k , 0 ≤ k ≤ n este C nk p k q n− k , deci
i =1
k
P (U ( x1 ,..., xn ) ≤ k ) = ∑ C ni p i q n−i = s1 (k , p )
i =0
n
P (U ( x1 ,..., xn ) ≥ k ) = ∑ C ni p i q n−i = s 2 (k , p )
i =k
Avem
ds1 (k , p )
[ ]
k
= − nq n−1 + ∑ iC ni p i −1q n−i − (n − i )Cni p k q n−i =
dp i =0

n!
=− p k q n −k < 0
k!(n − k − 1)!
Rezultă că s1 (k , p ) este strict descrescătoare în raport cu p şi strict crescătoare în
raport cu k . Analog s2 (k , p ) este strict descrescătoare în raport cu k şi strict
crescătoare în raport cu p .
Cerem ca s1 (k , p ) ≤ r (1 − δ ) şi s2 (k , p ) ≤ s (1 − δ ) cu s > 0 , r > 0 ,
r + s = 1 . Limitele intervalului de încredere pentru p se găsesc pentru valoarea
s1 (k , p ) = r (1 − δ )
observată a lui k din sistemul  în care prima ecuaŃie ne dă limita
s2 (k , p ) = s (1 − δ )
superioară, iar cealaltă limita inferioară a intervalului de încredere.
În unele cazuri putem determina intervale de încredere numai pentru selecŃii mari.
Pentru un studiu mai amplu se pot consulta [4], [7], [9], [16], [17], [20] etc.

TEST

1. Pentru o selecŃie de volum n = 41 se cunoaşte dispersia de selecŃie s 2 = 3 . Să


se determine dispersia de selecŃie modificată ~
s2.
n 2
Răspuns. ~
s2 = s = 3,075 .
n −1
2. Se fac cinci măsurători cu un aparat asupra lungimii unei bare şi se găsesc
rezultatele în mm: 92 ; 94 ; 103 ; 105 ; 106 . Să se determine valoarea medie a
lungimii barei, dispersia de selecŃie şi dispersia de selecŃie modificată.
Răspuns. x = 100 , s 2 = 34 , ~s 2 = 42,5 .
3. Dintr-o selecŃie ordonată de 20 piese a căror caracteristică este grosimea (în
mm) s-au obŃinut următoarele date
i xi i xi i xi i xi
1 10,5 6 10,6 11 10,6 16 10,9
2 10,8 7 10,9 12 11,3 17 10,8
3 11,2 8 11,0 13 10,5 18 10,7
4 10,9 9 10,3 14 10,7 19 10,9
5 10,4 10 10,8 15 10,8 20 11,0
Se cere:
a. Să se calculeze funcŃiile empirice de repartiŃie F20* (10 ) , F20* (10,5) , F20* (11)
b. Să se calculeze momentele centrate de ordinele 1, 2, 3.
Răspuns.
F20* (10 ) = 0 , F20* (10,5) = , F20* (11) = .
3 4
a.
20 5
4. RepartiŃia valorilor unei variabile observate pe baza a 50 observaŃii este dată de
tabelul:
xi 0 1 2 3 4 5 6 7
ni 3 8 5 10 8 6 7 3

Să se calculeze:
a. Valoarea medie a mărimii observate şi dispersia.
b. Să se determine moda variabilei (valoarea caracteristicii căreia îi corespunde
cea mai mare frecvenŃă).
c. Să se scrie funcŃia empirică de repartiŃie.
Răspuns.
a. x = 3,46 , s 2 = 3,93 .
b. moda = 3 .
5. Să se estimeze parametrul θ din densitatea de probabilitate f ( x; θ ) = θe − θx
dacă cinci observaŃii asupra lui x au dat valorile x1 = 0,7 ; x2 = 1,3 ;
x3 = 0,65 ; x4 = 0,8 ; x5 = 1,5
n
−θ ∑ xi
Răspuns. FuncŃia de verosimilitate este P ( x1 ,..., xn ; θ) = θ n e i =1
. EcuaŃia de maximă
∂ ln P n n
n
verosimilitate este = − ∑ xi = 0 , de unde θ = .
∂θ θ i =1 n

∑x
i =1
i

6. Dintr-o populaŃie generală se face o selecŃie de volum n = 10


xi -2 1 2 3 4 5
ni 2 1 2 2 2 1

Să se estimeze cu un prag de încredere δ = 0,95 valoarea medie a unei


caracteristici normal repartizate. Să se scrie intervalul de încredere.
Răspuns. x = 2 , s = 2,4 , t1−δ = 2,26 , 0,3 < m < 3,7 .
7. Se efectuează 12 măsurători independente asupra unei variabile aleatoare ξ
( )
repartizată normal N m, σ 2 , rezultatul măsurătorilor fiind în tabelul următor:
xi -0,5 -0,4 -0,2 0 0,2 0,6 0,8 1 1,2 1,5
ni 1 2 1 1 1 1 1 1 2 1

Să se determine o estimaŃie m ~ a valorii medii M (ξ ) şi să se determine


intervalul de încredere corespunzător probabilităŃii δ = 0,95 .
n
~=1
Răspuns. m
n
∑x
i =1
i
~ < 0,88 .
= 0,416 , s 2 = 0,522 , − 0,04 < m

8. Să se determine estimatorul de maximă verosimilitate pentru θ pe baza a n


observaŃii pentru densitatea de probabilitate f ( x, θ ) = (1 + θ )x θ , θ > 0 ,
0 ≤ x ≤ 1.
n
Răspuns. θˆ = − n
−1.
∑ ln x
i =1
i

Verificarea ipotezelor statistice

Pe lângă indicatorii variabilităŃii, volumul eşantionului este implicat în formularea


unor criterii de semnificaŃie statistică.
Pentru construirea unor astfel de criterii trebuie stabilită în primul rând o ipoteză de
lucru pe care în statistică o numim ipoteza diferenŃelor nule (notată H 0 ) şi care
postulează faptul că nu există nici o diferenŃă semnificativă între indicatorii de sondaj şi
cei teoretici (ai populaŃiei originare) sau între indicatorii de sondaj de la eşantioane
diferite.
În afară de această ipoteză avem şi ipoteze alternative care afirmă existenŃa unei
diferenŃe semnificative între indicatorii de sondaj şi cei teoretici sau între indicatorii de
sondaj de la eşantioane diferite.
De exemplu să considerăm o repartiŃie statistică de densitate f ( x, θ ) cu θ
parametru necunoscut. Ne propunem să verificăm ipoteza nulă.
H 0 : θ = θ0
contra alternativei
H1 : θ = θ1
sau a alternativelor
H1 : θ = θ1
H 2 : θ = θ2
.................
O astfel de verificare se face pe baza datelor de observaŃie deci pe baza unei selecŃii
x1 ,..., xn relativ la caracteristica ξ a cărei densitate de repartiŃie este f ( x; θ) .
Să considerăm cazul ipotezei simple
H 0 : θ = θ0
(18)
H1 : θ = θ1
Fie statistica U (x1 ,..., xn ) şi notăm cu U mulŃimea valorilor statisticii U aşa
încât că avem
P (U ∈ U ) = α (19)
dacă H 0 este adevărată. În spaŃiul de selecŃie mulŃimii U îi corespunde o mulŃime
W ⊂ ℝ n aşa încât
P(( x1 ,..., xn ) ∈ W H 0 ) = α (20)
cu α un număr ales de noi suficient de mic (de exemplu: 0,01 ; 0,05 ; 0,001 etc.). α
se numeşte prag de semnificaŃie, iar W , regiune critică.
Dacă ( x1 ,..., xn ) ∈ W respingem H 0 şi acceptăm H1 .
În luarea deciziei de admitere sau respingere a unei ipoteze se pot face două erori şi
anume:
1. Respingem H 0 deşi ea este adevărată. Aceasta este o eroare de gradul întâi şi
probabilitatea acestei erori este α dată de (19).
2. Acceptarea ipotezei H 0 deşi este falsă înseamnă a comite o eroare de gradul doi.
Notăm cu β probabilitatea acestei erori deci
P(( x1 ,..., xn ) ∉ W H1 ) = β (21)
cu β minim
Fixând α , β rezultă ca o consecinŃă şi reciproc.
În controlul statistic de calitate α se numeşte şi riscul furnizorului, iar β riscul
beneficiarului.
Probabilitatea de respingere a ipotezei H 0 ca funcŃie de θ se numeşte funcŃie de
putere a testului şi se notează
( )
π(θ) = P (x1 ,..., xn ) ∈ W θ . (22)
Rezultă de aici că
π(θ0 ) = α ,
(23)
π(θ1 ) = 1 − β .
Dintre toate mulŃimile W pentru care (20) au loc alegem una care serveşte ca bază
a testului şi anume aceea pentru care (21) este maximă. Ea se va numi cea mai bună
regiune critică iar testul bazat pe ea cel mai puternic test.
Determinarea regiuni critice revine la determinarea testului de putere maximă.
ExistenŃa ei este confirmată de
Lema Neyman-Pearson. Fie f ( x, θ ) o densitate de repartiŃie cu θ putând lua
două valorile θ0 şi θ1 . Cel mai puternic test pentru verificarea ipotezei
H 0 : θ = θ0
contra alternativei
H1 : θ = θ1
este determinat de regiunea critică
 n n

W = ( x1 ,..., xn ) ∏ f ( xi , θ1 ) ≥ k ∏ f ( xi , θ0 ) (24)
 i =1 i =1 
unde constanta k se deduce din egalitatea (20).
Din această lemă rezultă că regiunea critică este determinată de mulŃimea valorilor
(x1,..., xn ) pentru care
n

∏ f (x , θ ) i 1
i =1
n
≥k. (25)
∏ f (x , θ )
i =1
i 0

De exemplu, dacă avem o singură observaŃie x , regiunea critică este determinată


f ( x, θ1 )
de condiŃia ≥ k şi este o parte a dreptei reale.
f ( x, θ0 )

(
Teste relativ la parametrii repartiŃiei normale N m,σ 2 , )
Teste de semnificaŃie

Compararea unei medii de sondaj cu media cunoscută a populaŃiei


originare

Testul Z

Testul Z se aplică pentru verificarea ipotezei


H 0 : m = m0
cu alternativa
H1 : m = m1
(
pentru distribuŃia N m,σ 2
) cu σ 2
cunoscut.

Acest test se bazează pe statistica


x −m
Z=
σ (26)
n
care este distribuită normal N (0,1) .
Pentru determinarea regiuni critice W aşa încât să avem
P(Z ∈ W H 0 ) = α şi P(Z ∈ W H1 ) = 1 − β vom distinge următoarele cazuri:
I. m1 > m0 . Constituim regiunea critică astfel încât
 
 x −m  1
P ( Z ∈W H 0 ) = P  > Z α  = − Φ ( Zα ) = α (27)
 σ  2
 
 n 

Figura 8.1.

− Φ(Z α ) = α se deduce Z α din tabelele funcŃiei Laplace Φ(Z ) deci


1
Din
2
Z α = Z tab . Regiunea critică este
W = {Z ≥ Z α } . (28)
Deci
a) dacă Z calc > Z tab , atunci Z calc ∈ W şi respingem H 0 ,
b) dacă Z calc < Z tab , atunci Z calc ∈ W şi acceptăm H 0 ,
unde
x − m0
Z calc = .
σ (29)
n

II. m1 < m0 .
 
 x −m  1
P ( Z ∈W H 0 ) = P  < − Zα  = − Φ ( − Zα ) ,
 σ  2
 
 n 
x −m
unde Z α = Z tab şi Z calc = deci W = {Z < − Z α } (figura 2.)
σ
n
a) dacă Z calc < − Z tab , respingem H 0 ,
b) dacă Z calc > − Z tab , acceptăm H 0 .

Figura 2.

III. m1 ≠ m0 .

P(Z ∈ W H 0 ) = P( Z > Z α ) =
   
   
 x −m x −m
=P  < −Z α  ∪  > Zα   =
 σ   σ 
 n   n  

   
   
 x−m   x −m
=P < −Zα + P > Zα  = α
 σ   σ 
   
 n   n 
− Φ(− Z α ) + − Φ (Z α ) = α şi
1 1
deci
2 2
W = (− ∞,− Z α ) ∪ (Z α ,+∞ ) . (30)
Figura 3.

1 α
Z α = Z tab pentru Φ(Z ) = − .
2 2
a) dacă Z calc ∈ W , respingem H 0 ,
b) dacă Z calc ∉ W , acceptăm H 0 .
Exemplu. O maşină fabrică piese în serie. Ea a fost reglată astfel ca diametrul pieselor
să fie de 12,60 mm. Pe un eşantion de 100 de piese s-a obŃinut valoarea medie a
diametrelor x = 12,65 mm. Dacă σ 2 = 0,16 se cere:
a. Să se decidă dacă diametrele sunt semnificativ mai mari decât diametrul anunŃat
pentru α = 0,01 .
b. În aceleaşi condiŃii să se verifice dacă diametrele diferă semnificativ de valoarea
anunŃată.
Răspuns.
a. Verificarea ipotezei
H 0 : m = 12,60
cu alternativa
H1 = m > 12,60 .
12,65 − 12,60
Z calc = = 1,25 .
0,04
Regiunea critică este aceea pentru care Z ≥ Z α , unde Z α se determină din

egalitatea Φ (Z α ) = − α = 0,49 .
1
2
Din tabele rezultă Z α = 2,33 . Avem Z calc < Z α , deci acceptăm ipoteza H 0 .
b. Z calc = 1,25 , Z α = 2,33 , Z calc ∈ (− 2,33;2,33) deci acceptăm H 0 .
Testul „ t ”

Testul "t" se aplică pentru verificarea ipotezei


H 0 : m = m0
cu alternativa
H1 : m = m1
( )
pentru distribuŃia N m,σ 2 cu σ 2 necunoscut.
Statistica
x −m
t= ~
s (31)
n
are o distribuŃie Student cu n − 1 grade de libertate şi aici avem cele trei cazuri şi anume:
I. m1 > m0 . Regiunea critică se bazează pe testul unilateral dreapta şi anume
 
 
x−m
P(t ∈ W H 0 ) = P ~ > tα  = α ,
 (32)
 s 
 
 n 
W = {t > tα } . (33)
( )
În tabelele distribuŃiei Student se dau valorile P t > t0 = δ unde δ = 2α , astfel
că tα se calculează din tabele pentru δ = 2α , deci tcalc = t2 α .
a) dacă tcalc > t2 α = ttab , respingem H 0 ,
b) dacă tcalc < t2 α = ttab , acceptăm H 0 .
II. m1 < m0 . Regiunea critică este W = {t < −tα } .
a) dacă tcalc < −t2 α , respingem H 0 ,
b) dacă tcalc > −t2 α , acceptăm H 0 .
III. { }
m1 ≠ m0 . W = t t > tα pentru n − 1 grade de libertate şi α = δ .
a) dacă tcalc ∈ (− tα , tα ) , acceptăm H 0 ,
b) dacă tcalc ∉ (− tα , tα ) , respingem H 0 .
Exemplu. În condiŃiile exemplului anterior dacă volumul eşantionului este
n = 10 , x = 12,65 şi s 2 = 0,1584 să se verifice dacă diametrele diferă semnificativ
de cel anunŃat. α = 0,05 .
Răspuns. Nu cunoaştem σ deci îl vom estima cu
~ n 2 10
s2 = s = ⋅ 0,1584 = 0,176 .
n −1 9
x −m
Statistica t = ~ are o distribuŃie Student cu 9 grade de libertate şi
s
n
x − m 12,65 − 12,60 0,05
tcalc = ~ 0 = = = 0,461 . Din tabele găsim t0,05;9 = 2,262 ,
s 0,0176 0,13
n
deci tcalc ∈ (− 2,262;2,262 ) şi acceptăm ipoteza H 0 .

Compararea mediilor a două eşantioane mari.

Compararea se realizează prin testul „ Z ” pentru egalitatea mediilor a două


( ) ( )
populaŃii normale N m1 ,σ12 , N m2 ,σ 22 cu σ12 şi σ22 cunoscute
I. Ipoteza H 0 : m1 = m2 cu alternativa H1 : m1 < m2 . Se foloseşte statistica

Z=
(x1 − x2 ) − (m1 − m2 ) ∈ N (0,1) ,
σ12 σ 22
+
n1 n2
W = {Z < − Z α }, (34)
x1 − x2
Z calc = .
σ12 σ 22 (35)
+
n1 n2
a) dacă Z calc < − Z α , se respinge H 0 ,
b) dacă Z calc > − Z α , se acceptă H 0 .
II. Ipoteza H 0 : m1 = m2 cu alternativa H1 : m1 > m2 .
W = { Z > Zα } , (36))
deci pentru Z calc > Z α , respingem H 0 .
III. Ipoteza H 0 : m1 = m2 la alternativa H1 : m` ≠ m2 .
Regiunea de acceptare este
W C = (− Z α , Z α ) . (37)
ObservaŃie. Acest test (cazul III) se poate aplica şi în cazul în care volumul
selecŃiei este mare fără a ştii dacă distribuŃia este normală.
Exemplu. Într-un oraş s-a efectuat un sondaj privind cheltuielile lunare pentru
consumul alimentar. Sondajul a fost efectuat pe două eşantioane cuprinzând categorii
sociale diferite. S-au obŃinut rezultatele:
Volumul Media de consum Abaterea mediei
eşantion (lei) pătratică
Muncitori n1 = 327 x1 = 612.000 s1 = 104.000
FuncŃionari n2 = 286 x2 = 642.000 s2 = 118.000
Să se testeze dacă diferenŃa cheltuielilor medii lunare este semnificativă pentru cele
două categorii sociale
Răspuns. Testăm ipoteza H 0 : m1 = m2 la alternativa H1 : m1 ≠ m2 .
x1 − x2
Considerăm statistica Z = , dar necunoscând σ12 şi σ22 le vom
σ2
σ 2
1
+ 2
n1 n2
estima prin ~
s12 şi ~
s22 . Volumul eşantionului fiind mare putem considera că ~
s12 ≅ s12 şi
~
s22 ≅ s22 deci
612.000 − 642.000
Z calc = = 3,31 .
(109.000)2 + (118.000)2
327 286
La un prag de semnificaŃie α = 0,01 avem Z α = 2,33 , Z calc ∉ (− 2,33;2,33) ,
respingem H 0 şi acceptăm H1 , deci diferenŃa celor două medii este considerată
semnificativă.
ObservaŃie. În multe activităŃi de cercetare se admit următoarele criterii de
acceptare sau respingere a ipotezei diferenŃei nule.
- se acceptă H 0 şi se consideră diferenŃa nesemnificativă dacă Z calc < 1,96 pentru
α = 0,05 ,
- se respinge H 0 şi se consideră diferenŃa semnificativă dacă Z calc > 2,58
( α = 0,01 ; cazul nostru),
- ipoteza nu se acceptă şi nu se respinge dacă 1,96 < Z calc < 2,58 .

Compararea dispersiei de sondaj cu dispersia populaŃiei originare


(
considerată N m,σ 2 )
Trebuie verificată ipoteza
H 0 : σ 2 = σ02
contra alternativei
H1 : σ 2 = σ12 .
Cu ajutorul unui eşantion de volum n constituim statistica

U=
(n − 1)~
s2
(38)
σ2
care are o repartiŃie χ 2 cu n − 1 grade de libertate.
Ca şi în celelalte cazuri avem şi aici următoarele situaŃii
I. σ12 > σ02 . Se aplică testul χ 2 unilateral dreapta. Regiunea critică este
{ }
W = U > χ α2 , iar

{U (n − 1)~s 2 .
calc H 0 } = χ calc =
2
(39)
σ02
Dacă χ calc
2
> χ α2 , n −1 respingem ipoteza H 0 .
II. σ12 < σ02 . Se aplică testul χ 2 unilateral stânga. Regiunea critică este
{ }
W = U < χ12− α , n −1 , unde U calc este dat de (39).
III. σ12 ≠ σ02 . Regiunea de acceptare este
 
W C =  χ 2 α , χ 2α  (40)
 1− 2 , n −1 2 , n −1 
pentru aceeaşi statistică (39). Dacă U calc ∈ W C acceptăm ipoteza H 0 .
Exemplu. În vederea planificării producŃiei unui produs, o fabrică testează cererea
pe piaŃă a acestuia. Testarea a durat două luni. S-a obŃinut media de selecŃie x = 1.500
şi s = 105 . DistribuŃia cererii fiind normală să se arate dacă este corectă aprecierea că
dispersia ei este σ 2 = 5.000 la un prag de semnificaŃie α = 0,02 .
Răspuns. Verificăm ipoteza H 0 : σ 2 = 5.000 la alternativa H1 : σ 2 ≠ 5.000 .
Aplicăm testul χ 2 bilateral cu n − 1 = 7 grade de libertate. Din tabele reiese că
χ2 α = χ 02,99;7 = 1,239 , χ 2α = χ 02, 01;7 = 18,475 .
1− , 7 ,7
2 2
Avem
~ n 2
s2 = s = 12.600 ,
n −1
χ calc
2
=
(n − 1)~
s 2 7 ⋅ 12.600
= = 17,64 .
σ02 5.000
Regiunea de acceptare este W C = (1,239;18,475) şi χ calc
2
∈ W C , deci se acceptă
ipoteza H 0 .
Compararea a două proporŃii

Fie două eşantioane de volum n1 respectiv n2 din populaŃii diferite sau din aceeaşi
populaŃie. Aceste eşantioane ne dau proporŃiile p1 respectiv p2 de elemente posedând o
anumită caracteristică A . Problema care se pune este de a testa ipoteza
H 0 : p1 = p2
contra alternativei
H1 : p1 ≠ p2 .
În general, proporŃiile urmează lungi de repartiŃie binominale, dar presupunând că
volumele eşantioanelor sunt mari putem considera repartiŃiile proporŃiilor ca normale.
Statistica
p1 − p2
Z=
p1q1 p2 q2 (41)
+
n1 n2
are o repartiŃie N (0,1) .
Regiunea critică este
W = {Z > Z α } (42)
Exemplu. Ne propunem prin sondaj că constatăm calitatea unui produs
care provine de la două secŃii de fabricaŃie. De la prima secŃie s-a extras un eşantion
de 225 piese din care 200 au corespuns cerinŃelor pieŃei iar din piesele care provin de
la secŃia a doua s-a extras un eşantion de 300 piese dintre care 220 au fost
corespunzătoare. Să se testeze ipoteza unei diferenŃe nesemnificative între cele două
propoziŃii cu o eroare de 5% .
200 4 220 11
Răspuns. Avem p1 = = , p2 = = . Trebuie testată ipoteza
225 5 300 15
H 0 : p1 = p2 contra alternativei H1 : p1 ≠ p2 . Statistica (8.28.) ne dă Z calc = 4,1 ,
Z 0,05 = 1,96 , Z calc > Z α şi respingem H 0 .
Deci, există o diferenŃă semnificativă între cele două proporŃii şi nu trebuie atribuită
fluctuaŃiilor de sondaj.

PROBLEME PROPUSE

1. Durata de funcŃionare a unui tip de tub florescent de 40 w poate fi considerată o


variabilă aleatoare reprezentată normal de media m = 1.500 şi σ 2 = 200 2 . O
selecŃie de 50 de tuburi dau o durată medie de funcŃionare de x = 1.380 ore.
Se cere:
a) Să se verifice ipoteza H 0 : m = m0 = 1.500 contra alternativei
H1 : m = m1 = 1.400 pentru α = 0,01 .
b) Să se determină puterea testului pentru m1 = 1.400 .
Răspuns.
x −m
a) Z calc = = 4,23 , Z α = 0, 01 = 2,33 , Z calc > Z α şi se respinge H 0 .
σ
n
 
 
 m0 − m1 
π(m1 ) = Φ − Zα −
σ 
=

b)  
 n 

= Φ − 2,33 −
(1500 − 1400)5 2  = Φ(1,19) = 0,883
200 
 
2. Salariul mediu lunar dintr-o unitate de producŃie este 1.550.000 lei. Se face o
cercetare selectivă pe un eşantion de 25 salariaŃi şi se obŃine
25

∑x
i =1
i = 4.250.000 lei. Se ştie că salariul este o variabilă aleatoare normal
repartizată.
a) Cunoscând abaterea medie pătratică a salariaŃilor σ = 30.000 să se decidă
dacă salariul mediu este semnificativ mai mic decât cel anunŃat pentru
α = 0,01 .
b) aceeaşi întrebare ca la punctul a dacă σ = 30.000 nu se consideră realistă ci
25
se estimează pe baza datelor de selecŃie, unde ∑x
i =1
2
i = 5.600 ⋅ 106 .
Răspuns.
a) Verificăm H 0 : m = 1.550.000 contra alternativei H1 : m < 1.550.000 , cu
P (Z calc < − Z α ) , unde Z α = 0, 01 = 2,33 .
n

∑ (x − x)
1
Estimăm σ 2 cu ~
s2 =
2
b) i şi se aplică testul „ t ” pentru
n i =1

x − m0
P (tcalc < tα ) , unde tcalc = ~ pentru 24 grade de libertate
s
n
( t0 ,01; 24 = 2,492 ).
3. Ne propunem să controlăm prin sondaj exactitatea inventarierii făcută unui stoc
comercial care cuprinde mii de articole cu ajutorul unui eşantion de 500 de
articole ştiind că proporŃia erorii de inventariere acceptabilă este mai mică sau
egală cu 3% iar α = 0,05 .
Răspuns. N este foarte mare, n = 500 , p = 0,03 . Verificăm H 0 : p = 0,03 contra
alternativei H 1 : p > 0,03 . P (t > tα ) = α , t0 ,05 = 1,65 . N fiind foarte mare
regiunea critică este de forma f > I unde I este ales de aşa manieră ca
P( aleg H1 H 0 adevărată ) = P( f > I p = p0 ) = α .
f − p0
łinând seama că t= ∈ N (0,1) deducem
p0 (1 − p0 )
n
p0 (1 − p0 )
I = p0 + tα sau I = 0,043 , respingem H 0 , şi admitem că eroarea făcută
n
la inventariere este semnificativ superioară lui 3% .
4. Dintr-o populaŃie repartizată normal N (m,σ 2 ) s-a extras un eşantion de volum
n = 21 şi s-a obŃinut dispersia de selecŃie s 2 = 16,2 . Să se verifice ipoteza
reală H 0 : σ 2 = σ02 = 15 contra alternativei H1 : σ 2 ≠ 15 cu o eroare
α = 1% .

Răspuns. χ calc
2
=
(n − 1)s 2 = 21,6 ; χ 2 = 37,6 ; χ 2 < χ 2 şi admitem H .
α
σ02
0 , 01; 20 calc 0

5. Se admite un lot de piese dacă dispersia dimensiunilor pieselor nu este mai mare
ca 0,2 . În urma verificării unui eşantion de volum n = 121 de piese s-a
constatat că ~
s 2 = 0,3 . Se poate admite tot lotul la un prag de semnificaŃie
α = 0,01 ?

Răspuns. H 0 : σ 2 = σ02 = 0,2 ; H1 : σ 2 > 0,2 , χ obs


2
=
(n − 1)~s 2 = 180
σ02
χ 02, 01;120 = 158,85 şi se respinge H 0 .
(
6. O selecŃie de 16 valori dintr-o populaŃie normală N m,σ 2 a dat o medie )
16
x = 41,54 şi sumă a pătratelor abaterilor ∑ (x − x ) = 135 . Să se arate că
2
i
i =1
ipoteza unei medii de 43,5 pentru populaŃie nu este adevărată şi că limitele de
încredere pentru această medie sunt de 39,9 şi 43 la un prag de încredere de
95% .
1 16
x = 41,5 , ~
s2 = ∑ (xi − x ) = 9 , H 0 : m = 43,5 ,
2
Răspuns.
n − 1 n =1
x−m
tcalc = = 2,666 . Pentru 15 grade de libertate t0,05;15 = 2,131 , tcalc > tα ,
s
n
deci t cade în regiunea critică şi respingem H 0 . x cade în afara regiunii critice dacă
(41,5 − x ) n
< 2,131 , de unde 39,902 < x < 43,097 .
~
s
7. Dintr-o populaŃiei normală s-au extras două eşantioane de volum n1 = 40 ,
n2 = 50 şi s-au obŃinut mediile x1 = 130 , x2 = 140 . Cunoscând dispersiile
generale σ12 = 80 , σ 22 = 100 să se verifice ipoteza H 0 : x1 = x2 contra
alternativei H1 : x1 ≠ x2 .
x1 − x2
Răspuns. Z calc = = 5 ; Z α = 2,58 , Z calc > Zα şi se respinge H 0 .
σ 12 σ 22
+
n1 n2

REGRESIE ŞI CORELAłIE

Caracteristici marginale

Fie o populaŃie caracterizată simultan de două variabile x şi y. Fie x1 ,..., x n


valorile observate ale variabilei x şi y1 ,..., y m valorile observate ale variabilei y şi fie
f ij numărul unităŃilor populaŃiei care au valoarea xi a variabilei x şi y i pentru y.
Prezentarea generală a unei repartiŃii statistice cu două variabile este:
\ x
x1 x2 ... xi ... xn Total
y \
y1 f11 f 21 ... f i1 ... f n1 f •1
⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
yj f1 j f2 j ... f ij ... f nj f• j

⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ ⋮
ym f1m f 2m ... f im ... f nm f •m

Total f1• f 2• ... f i• ... f n• f ••


unde
n m
f • j = ∑ f ij şi f i• = ∑ f ij (18.)
i =1 j =1

şi se numesc repartiŃii marginale ale lui y, respectiv x.


Dacă variabilele x şi y sunt continue, rândurile se asociază la intervale, iar xi
respectiv y j vor fi centrele intervalelor.
Caracteristicile marginale ale lui x şi y (medie şi dispersie) sunt:
n
1
x=
f ••
∑x
i =1
i f i• ,
n
(19.)
∑ (x − x ) f i•
1
D ( x) =
2 2
i
f •• i =1
m
1
y=
f ••
∑y
j =1
j f •. j ,
2 (20.)
∑ (y − y) f• j
m
1
D ( y) =
2
j
f •• j =1
Din tabel observăm că pentru fiecare mărime x avem o repartiŃie y. O astfel de
repartiŃie se numeşte repartiŃie condiŃionată şi avem mediile condiŃionate:
m m

∑ y jf ij
j=1
∑y f
j=1
j ij

ŷ x = m
= (21.)
f i•
∑fj=1
ij

∑x f i ij
(22.)
x̂ y = i =1

f•j
VarianŃa lui y condiŃionată de x este:

∑ (y − yˆ x ) f ij
m
1
D x2 ( y ) =
2
j
f i• j =1
şi analog (23.)

D y2 ( x ) = ∑ (x − xˆ y ) f ij
1 2
i
f• j
Între caracteristicile condiŃionate şi cele marginale avem relaŃiile:
m
1
x=
f ••
∑ x̂
j=1
y ⋅ f•j
n
(24.)
1
y=
f ••
∑ ŷ
i =1
x i•f

deci, media marginală este media ponderată a mediilor condiŃionate.


Pentru dispersii, avem relaŃiile:

∑ (xˆ − x ) f• j
m m
D 2 (x ) = ∑ D y2 (x ) f • j +
1 1 2
y
f •• j =1 f •• j =1
n n
(25.)
D (y) = D ( y ) f i• + ∑ ( yˆ − y ) f i•
1 1
2

f ••

i =1
2
x
f •• i =1
x
2

Deci, dispersia marginală este suma dintre media ponderată a dispersiilor


condiŃionate şi dispersia ponderată a mediilor condiŃionate.
Ideea legăturii între variabilele observate în colectivităŃile statistice a condus la
construirea teoriei corelaŃiei statistice (studiată de matematicienii Galton şi Pearson) şi ea
include două probleme fundamentale:
1. problema regresiei, care constă în a descrie legea de variaŃie medie a unei
variabile în funcŃie de una sau mai multe variabile cunoscute;
2. problema corelaŃiei, care constă în caracterizarea intensităŃii legăturii cu ajutorul
unui coeficient numeric – coeficient de corelaŃie – independent de unităŃile de măsură ale
variabilelor corelate.
Dacă admitem această dependenŃă, problema se reduce la stabilirea ecuaŃiei de
regresie, care descrie relaŃia dintre variabila dependentă de cele independente.
O condiŃie necesară pentru un calcul statistic corect este omogenitatea datelor şi un
număr mare de observaŃii.
Caracterul omogen sau neomogen al colectivităŃii statistice poate fi sesizat
examinând diagrama de dispersare a unităŃilor observate în raport cu valorile variabilelor
corelate.
Pentru testarea caracterului omogen al unei colectivităŃi statistice se utilizează şi
coeficientul de variaŃie.
D s
V= = (26.)
x x
Cu cât nivelul acestui coeficient este mai apropiat de zero cu atât variaŃia este mai
mică, iar colectivitatea mai omogenă. Dacă acest coeficient este mai mic decât 35%
considerăm colectivitatea omogenă.

Regresia liniară
Fie o populaŃie caracterizată simultan de două variabile x şi y, pentru care calculăm
mediile condiŃionate ŷ x şi x̂ y . Dacă reprezentăm grafic pe un sistem de axe
rectangulare perechile de valori (x, yˆ x ) şi unim punctele obŃinute, avem o linie
poligonală numită linie de regresie a variabilei y în raport cu x. Analog, putem obŃine
linia de regresie a variabilei x în raport cu y.
Dacă variabilele x şi y sunt independente, linia de regresie a lui y în raport cu x este
paralelă la axa absciselor, iar cealaltă la axa ordonatelor.
Problema regresiei constă în a arăta în ce măsură se schimbă, în medie, variabila
dependentă y ca urmare a schimbării cu o unitate a variabilei independente. SoluŃia
trebuie căutată într-o funcŃie care să exprime o astfel de dependenŃă, numită funcŃie de
regresie (făcând abstracŃie de influenŃa altor factori), graficul acestei funcŃii fiind linia de
regresie teoretică.
Această funcŃie de modelare poate avea forme variate. În cazul nostru, admiŃând că
dependenŃa este liniară (extremităŃile segmentelor care reprezintă mediile condiŃionate se
găsesc pe o linie dreaptă), ecuaŃia acestei funcŃii liniare va fi de forma
y x = a + bx (27.)
unde y x este media condiŃionată teoretică a lui y în raport cu x, iar parametrii a şi b se
estimează prin metoda celor mai mici pătrate. Se determină a şi b aşa încât expresia:
n n
S = ∑ e i = ∑ (y i − ax i − b )
2

i =1 i =1

∂s ∂s
să fie minimă din = 0 şi =0.
∂a ∂b

Rezultă că a şi b sunt soluŃiile sistemului:


na + b∑ xf x = ∑ yf y
 (28.)
a ∑ xf x + b∑ x f x = ∑ xyf xy
2

sau
 n

 ∑ (xi − x )( yi − y )
a = i =1
n
 ( x i − x )2 (29.)
 ∑i =1

b = y − ax
Verificarea fidelităŃii ajustării de poate face cu ajutorul coeficientului de variaŃie al
ajustării
D y 1 Σ(ŷ − y x )2
CV = =
y y n
CorelaŃie. Curba de regresie nu ne dă nici o informaŃie asupra dispersiei.
Aplicabilitatea practică a ecuaŃiei de regresie depinde de gradul (intensitatea) de legătură
între variabile. În cazul unei legături slabe, ecuaŃia de regresie ori este puŃin sigură ori nu
are sens.
Coeficientul de corelaŃie măsoară gradul de legătură liniară între variabile. În cazul
a două variabile, este definit de relaŃia
Σ(x − x )(y − y )
ryx = (30.)
ns x s y
sau

ryx =
∑ (y − y )
x
2

(31.)
∑ (y − y ) 2

Între coeficientul de regresie a lui y în raport cu x şi coeficientul de corelaŃie există


legătura:
sy
b y x = ryx (32.)
sx
Coeficientul de corelaŃie r este cuprins între –1 şi +1, − 1 ≤ r ≤ 1 .
Dacă r > 0 , ambele variabile variază în acelaşi sens.
Dacă r < 0 , variabilele variază în sensuri opuse.
Dacă valoarea absolută a coeficientului de corelaŃie este mică, nu înseamnă că între
variabilele x şi y nu există o legătură, ea poate exista, dar nu de formă liniară.
Coeficientul de corelaŃie este direct proporŃional cu coeficientul de regresie.

TEST
1. Tabelul următor ilustrează distribuŃia lucrătorilor dintr-o uzină după vârstă ( x ) şi
remuneraŃia lunară ( y ).
25 − 30 − 35 − 40 − 45 − 50 −
y\x < 25 > 55 Total
30 35 40 45 50 55
> 800 207 121 38 17 10 2 7 3 405
800 −
302 461 513 103 86 6 10 2 1483
900
900 −
18 526 682 567 613 431 105 60 3003
1000
1000 −
- 111 342 298 416 486 226 37 1910
1200
1200 −
- 1 3 182 227 263 98 18 792
1500
1500 −
- - - 18 22 13 12 5 70
2000
> 2000 - - - 1 14 6 7 5 33
Total 527 1220 1578 1186 1388 1201 465 130 7695

Să se calculeze x , y , D 2 ( x ) , D 2 ( y ) şi x̂ y , ŷ x , Dy2 ( x ) , Dx2 ( y ) .

Răspuns. Din tabel observăm că pentru fiecare mărime a vârstei ( x ) avem o repartiŃie a
salariului ( y ). O astfel de repartiŃie se numeşte repartiŃie condiŃionată şi se notează ŷ x .
Avem
m m

∑ y j fij
j =1
∑y
j =1
j ij f
yˆ x = m
= . (a)
fi •
∑f
j =1
ij

Analog
n

∑x f i ij
(b)
xˆ y = i =1
f• j

VarianŃele lui y condiŃionată de x şi a lui x condiŃionată de y sunt

Dx2 ( y ) =
1 m
∑ (y j − yˆ x )2 fij ,
f i • j =1
(c)
∑ (x − xˆ y ) f ij .
n
D (x ) =
2 1 2
y i
f• j i =1

În cazul exemplului dat, de exemplu pentru salariul mediu pentru 25 − 30 ani


avem
207.700 + 302.850 + 18.950
yˆ x = = 794,5
527
şi analog celelalte. Avem următoarele rezultate:

Dx2 ( y ) Dx ( y )
Centrul
Vârsta ŷ x
clasei
< 25 20 794,5 6.100 78,1
25 − 30 27,5 901,5 9.825 99,1
30 − 35 32,5 944,5 9.875 99,4
35 − 40 37,5 1050,0 33.000 181,7
40 − 45 42,5 1077,5 43.575 208,8
45 − 50 47,5 1111,5 32.825 181,2
50 − 55 52,5 1141,5 49.450 222,4
> 55 60 1119,5 86.100 293,4

Centrul
Dy2 ( x ) Dy ( x )
Clasa de salarizare
x̂ y
(mii lei) clasei
< 800 700 25,7 58,23 7,6
800 − 900 850 29,6 43,11 6,6
900 − 1000 950 37,1 62,30 7,9
1000 − 1200 1100 41,8 58,50 7,7
1200 − 1500 1350 44,6 29,68 5,5
1500 − 2000 1750 45,1 43,31 6,6
> 2000 2200 48,0 42,34 6,5

Caracteristicile marginale sunt x = 37,4 , D 2 ( x ) = 84,22 , y = 11.008,6 ,


D 2 ( y ) = 36,350 .
2. Tabelul următor ilustrează notele ( y ) obŃinute de un eşantion de n = 325 elevi
la un test unde s-au dat patru probleme.

y\x 0 1 2 3 4 f• j = f y
4 25 15 5 - - 45
5 10 20 10 5 - 45
6 5 10 15 5 - 35
7 - 10 25 10 - 45
8 - 5 15 35 5 50
9 - - 5 25 25 55
10 - - - 10 30 40
fi • = f x 40 60 75 90 60 n = 325

a) Să se traseze linia de regresie a lui y în raport cu x (numărul de exerciŃii).


b) Să se scrie ecuaŃia dreptei de regresie.
Răspuns. Pornind de la tabelul de mai sus se obŃin:
y 4 5 6 7 8 9 10 Σ
yf y 180 225 210 315 480 495 400 2305
xyf xy 100 275 330 630 1280 1665 1500 5780
şi
x 0 1 2 3 4 Σ
xf x 0 60 150 270 250 720
2
x fx 0 60 300 810 960 2130
ŷ x 4,5 5,5 6,66 8,11 9,41
Avem x = 2,215 , y = 7,09 , y x = a + bx , unde sistemul (9.8) se scrie
325a + 720b = 2305

720a + 2130b = 5780
cu a = 4,13 şi b = 1,26 . Dreapta de regresie este
y = 4,13 + 1,26 x .
Coeficientul b = 1,26 ne arată că la o creştere cu o unitate a numărului de exerciŃii
se estimează că nota medie obŃinută creşte cu 1, 26 .
Pe graficul din figura 1 sunt trasate linia de regresie şi dreapta de regresie.
Verificarea fidelităŃii ajustării de poate face cu ajutorul coeficientului de variaŃie al
ajustării
Dy
CV = =
1 1
∑ ( yˆ − yx )2
y y n
0,2469
Pentru exemplu considerat, cum D y = = 0,0008 , de unde
325
0,0008
CV = ⋅ 100 = 0,0112 < 5% , deci regresia liniară se explică.
7,09

Figura 1
3. La două teste, opt studenŃi au obŃinut punctajele din tabel
Student 1 2 3 4 5 6 7 8
x Test 1 35 55 40 35 50 60 45 40
y Test 2 50 60 40 35 65 55 45 50
a) Să se calculeze coeficientul de corelaŃie şi să se interpreteze rezultatul.
b) Să se scrie ecuaŃia dreptei de regresie a lui y în raport cu x . Se justifică regresia
liniară?

4. Să se scrie ecuaŃia liniei de regresie a lui y în raport cu x pentru datele din tabel. Să
se calculeze coeficientul de corelaŃie.
y\x 20 25 30 35 40 fy
16 4 6 - - - 10
26 - 8 10 - - 18
36 - - 32 3 9 44
46 - - 4 12 6 22
56 - - - 1 5 6
fx 4 14 46 16 20 f • • = 100 = n
Răspuns. y x = 1,45 x − 10,36 , ryx = 0,76 .
5. Analog problemei 9.2. pentru datele din tabelul
y\x 18 23 28 33 38 43 48 fy
125 - 1 - - - - - 1
150 1 2 5 - - - - 8
175 - 3 2 12 - - - 17
200 - - 1 8 7 - - 16
225 - - - - 3 3 - 6
250 - - - - - 1 1 2
fx 1 6 8 20 10 4 1 50
Răspuns. y x = 4 x + 57,8 , x y = 0,19 y − 3,1 .
6. Asupra nivelului mediu al unui râu două staŃii hidrometrice fac 100 de
observaŃii de-a lungul unui an. Rezultatele sunt date în tabelul următor
y \ x 3,5 3,6 3,7 3,8 3,9 4 4,1 4,2 4,3 4,4 4,5 f• j
3,2 1 1 2
3,3 - 1 2 - 1 - - - - - - 4
3,4 - - 2 2 1 1 - - - - - 6
3,5 - - 3 5 2 1 1 1 - - - 13
3,6 - - 1 4 4 4 1 1 1 - - 16
3,7 - - 1 1 1 1 2 - - - - 17
2
3,8 - - - 1 1 1 3 - 1 - - 16
0
3,9 - 1 - - 1 1 1 - 1 - 1 17
2
4,0 - - - - - - - - - 1 1 2
4,1 - - - - - - - - - 2 3 5
4,2 - - - - - - - 1 - 1 - 2
fi• 1 2 2
1 3 9 8 3 3 4 5 100
3 2 9
Să se determine:
a) mediile şi dispersiile variabilelor x şi y ,
b) mediile condiŃionate ŷ x şi x̂ y
c) liniile de regresie y x şi x y ,
d) coeficientul de corelaŃie.
Răspuns.
a) x = 3,97 , σ 2x = 0,0435 , y = 0,0468 , σ2y = 0,216 2 .
b)
3, 3,
x 3,6 3,7 3,8 4,0 4,1 4,2 4,3 4,4 4,5
5 9
3, 3,
ŷ x 3,46 3,46 3,554 4,99 3,72 3,73 3,73 4,10 4,04
2 6

y 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4 4,1 4,2
x̂ y 3,55 3,72 3,81 3,86 3,9 3,67 4,02 4,029 4,03 4,45 4,3

c) bx / y = 0,88 , by / x = 0,95 .
d) ryx = 0,92 .

S-ar putea să vă placă și