Sunteți pe pagina 1din 10

CAP. I.

TESTARI DE IPOTEZE

Problema 1
Patronul unei firme de prestri servicii dorete s fluidizeze servirea clienilor i, pn n prezent,
el presupunea c timpul de servire a clienilor este normal distribuit, de medie 130 de minute i abatere
medie ptratic 15 minute. El este de acord cu abaterea medie ptratic, dar se ndoiete de faptul c
durata medie de servire a unui client este 130 minute. Pentru a studia aceast problem, nregistreaz
timpii de servire pentru 100 de clieni. Timpul mediu obinut n eantion este 120 minute. Poate
patronul s concluzioneze, la o probabilitate de 99%, c timpul mediu este diferit de 130 minute.
n aceast problem, parametrul ce ne intereseaz este timpul mediu n colectivitatea general i
ipotezele de testat sunt:

H 0 : 130,
H1 : 130.
Trebuie, aadar, s rspundem la ntrebarea: Este media de 120 minute suficient de diferit de
valoarea 130, pentru a ne permite s concluzionm c media populaiei nu este egal cu 130 minute?
Vom putea s respingem ipoteza nul dac media eantionului este suficient de diferit, relativ la
valoarea 130. Dar, interpretrile nu sunt evidente. Dac n eantion obineam media 1300 sau 1,3
atunci diferenele erau clare. De asemenea, dac media eantionului era 130,1 atunci egalitatea era i
ea evident.
Distribuia de eantionare a mediei x este normal sau aproximativ normal, cu media i
abaterea

medie

ptratic

s/ n .

Ca

rezultat,

putem

standardiza

calcula

x 130 x 130
.

1,5
15 / 100
Regiunea de respingere (critic) o putem specifica astfel:
Se respinge H0, dac z z 0.005 sau z z 0.005 .
n exemplul nostru, z / 2 z 0.005 2,575
z

120 130
6,67 .
1,5

Cum z 6,67 2,575 z 0.005 , rezult c sunt suficiente dovezi pentru a respinge ipoteza
nul H0 i a accepta ipoteza alternativ, aceea c timpul mediu de servire a unui client este diferit de
130 minute.

Problema 2

Conducerea unei companii apeleaz la 5 experi pentru a previziona profitul companiei n anul curent.
Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preurile anului anterior).

tiind c profitul companiei n anul anterior a fost de 2,01 mld. lei, sunt suficiente dovezi pentru a
concluziona c media previziunilor experilor este semnificativ mai mare dect cifra anului anterior
(pentru = 0,05)?
Media previziunilor experilor este x 2,63 mld. lei, cu dispersia:

2
x

n 1

2,203
0,5507 i abaterea medie ptratic: s x s x2 0,74 mld. lei.
4

Elementele procesului de testare a ipotezei statistice sunt:


H0: = 2,01,
H1: > 2,01 (test unilateral dreapta).

x
x
2,63 2,01

1,874 .
sx
sx n
0,74 / 5

n scopul folosirii statisticii t, vom face presupunerea c populaia general din care s-a extras
eantionul este normal distribuit. Cum t,n-1 = t0,05;4 = 2,132, regiunea critic este dat de t>t,n-1. Cum
t=1,874< t0,05;4=2,132, nu putem trage concluzia c media profitului previzionat de cei 5 experi pentru
anul curent este semnificativ mai mare dect profitul anului trecut, de 2,01 mld. lei.

Problema 3
Presupunem c pentru 100 de observaii asupra unei variabile aleatoare X s-a obinut media x 110 i
abaterea standard 60.
a) Testai ipoteza nul c =100, cu alternativa >100, utiliznd = 0,05.
b) Testai ipoteza nul c = 100, cu alternativa 100, utiliznd = 0,05. Comparai rezultatele
celor dou teste.
Rezolvare:
a) n = 100;

x 110 ;
sx = 60;
= 0,05.
Considerm:
H0: = 0=100,
H1: > 0=100.
Se aplic testul z unilateral dreapta:

x 0

P
z 1
s / n

Regiunea critic va fi dat de:

sx

x 0 z

z 0,05 1,645

0 z

sx
n

100

60
100

1,645 109,870

Cum x 110 > 109,870, suntem n regiunea critic deci se respinge H0.

b) H0: = 100;
H1: 100.
Se aplic testul z bilateral.

x 0
P z
z 1 ;

2
2 sx / n
z 0, 05 1,96 .
2

Limitele intervalului de ncredere sunt:

0 z
2

sx
n

z
2

sx
n

x 0 z

60
100

sx

1,96 11,76 ;

100 11,76 x 100 11,76;


88,24 x 111,76.
ntruct ne aflm n intervalul de ncredere, se accept ipoteza H0.
Problema 4
Un productor de detergeni industriali preambaleaz produsul la cutii ce trebuie s aib, n medie, 12 kg.
El dorete s verifice corectitudinea ambalrii i hotrte s organizeze un sondaj de n=100 observaii
(cutii), pentru care obine greutatea medie x 11,85 kg, cu o abatere medie ptratic sx=0,5 kg. S se
testeze ipoteza conform creia n medie cutiile au cte 12 kg, cu alternativa c greutatea este diferit
de 12 kg. (<12 kg sau >12 kg), pentru o probabilitate de 95%.
Rezolvare:
H0: 0 12 kg;
H1: 12 kg ( 12 kg sau 12 kg).

Testul statistic: z

x 0
x 0 11,85 12

3,0 .
sx
0,5 / 10
sx / n

Nivelul de ncredere: 1 - = 0,95.


Pragul de semnificaie: = 0,05, din care rezult /2 = 0,025 (deoarece avem test bilateral).
z / 2 z 0,025 1,96 .

Regiunea de respingere: z / 2 1,96 sau z / 2 1,96 .


Cum z calc z / 2 , rezult c ipoteza nul este respins i se accept ipoteza alternativ, aceea c n
cutii se afl o cantitate de detergeni semnificativ diferit de 12 kg.

Problema 5

ntr-o cercetare prin sondaj aleator privitoare la transportul n comun, au fost selectate 100 de persoane
pentru care s-a calculat valoarea medie a biletelor cumprate ntr-o lun pentru transport n comun
urban de 110 u.m, cu o abatere medie ptratic de 60 u.m.
a) Testai ipoteza nul, aceea conform creia valoarea medie a biletelor cumprate ntr-o lun, n
colectivitatea general, este 0 100 u.m, cu ipoteza alternativ 0 100 u.m, utiliznd un
nivel de ncredere 1 - = 0,95 (probabilitatea (1-)100 = 95%).
b) Testai ipoteza nul 0 100 u.m, cu ipoteza alternativ 0 100 u.m, cu aceeai
probabilitate. Interpretai rezultatele.

Rezolvare:
a) H0: 0 100 u.m
H1: 0 100 u.m.
Testul statistic: z

x 0
x 0 110 100

1,67
sx
60 / 10
sx / n

Nivelul de ncredere: 1 - = 0,95.


Pragul de semnificaie: = 0,05 (test unilateral dreapta)
z z 0,05 1,645

Cum z calc z , rezult c ipoteza nul este respins ( 0 100 u.m.) i se accept ipoteza
alternativ ( 0 100 u.m.).
b) H0: 0 100 u.m.;

H1: 0 100 u.m.


Test statistic: z

x 0
x 0 110 100

1,67 .
sx
60 / 10
sx / n

Nivelul de ncredere 1 - = 0,95.


Pragul de semnificaie = 0,05, din care rezult /2 = 0,025 (deoarece avem test bilateral).
z / 2 z 0,025 1,96

Cum z calc z / 2 , (1,67 < 1,96), rezult c se accept ipoteza nul (valoarea medie a biletelor
cumprate nu este semnificativ diferit de 100 u.m.).

CAP. 2. METODA ANALIZEI DISPERSIONALE ANOVA


Problema 1.

Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are
urmtoarele avantaje fa de vechiul produs: este mai practic de utilizat, are o calitate cel puin la fel
de bun i cost semnificativ mai mic.
Pentru a decide pe care dintre cele trei avantaje s-i axeze strategia de marketing, directorul
acestui departament a realizat un studiu n trei orae. n oraul A campania de publicitate s-a axat pe
uurina de utilizare a noului produs. n oraul B campania de publicitate s-a axat pe calitatea noului
produs. n oraul C campania de publicitate s-a axat pe preul mai mic al noului produs. n toate cele 3
orae s-a nregistrat numrul de buci vndute n 20 de sptmni.
Directorul de marketing ar dori s tie dac exist diferene semnificative ntre numrul de buci
vndute, n medie pe sptmn, n cele trei orae dup terminarea campaniei de publicitate.
In urma prelucrarii datelor si a aplicarii metodei analizei dispersionale, s-au obtinut urmatoarele rezultate:
ANOVA
Source of Variation
Between Groups
Within Groups

SS
57512.23
506983.5

df
2
57

Total

564495.7

59

MS
28756.12
8894.447

F
3.233

P-value
0.047

F crit
3.159

Identificarea metodei: Datele sunt cantitative i problema revine la a compara mediile celor trei
populaii. Ipotezele ce trebuie testate sunt: H0: 1 = 2 = 3 cu alternativa H1: cel puin dou medii sunt
diferite.
MSB=28756,12
SSW=506983,5
Completarea coloanei Df:
r-1=3-1=2
n-r=60-3=57
n-1=60-1=59
Completarea coloanei SS:
Stim ca MSB=SSB/(r-1), de unde derulta ca: SSB=MSB * (r-1) =28756,12 * 2 = 57512,23

SST=SSB+SSW=57512,23 + 506983,5 = 564495,7


Completarea coloanei MS:
MSW=SSW/(n-r) = 506983,5 / 57 = 8894,447
Fcalc= MSB/MSW=28756,12 / 8894,447 = 3,233
Cum Fcalc (3,233) >Fcrit (3,159), rezulta ca se respinge H0, se accepta H1, deci exista diferente semnificative
intre vanzarile medii din cele trei orase, asadar strategia de marketing aleasa a influentat semnificativ variatia
vanzarilor.
CAP. 3. REGRESIA LINIARA

Problema 1.
O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul unei locuine i
distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta, realizeaz un studiu, ntro anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt nregistrate date referitoare la
valoarea prejudiciului (mii Euro) i distana dintre incendiu i cea mai apropiat staie de pompieri (zeci km). In
urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:
Regression Statistics
Multiple R
R = 0,9609
R Square
R2 = 0,9234
Adjusted R Square
0,9175
Se=

Standard Error
Observations

raportul de corelaie
coeficientul de determinaie

MSE = 2,3163 abaterea standard a erorilor


n = 15

volumul eantionului

ANOVA
Regression
Residual
Total

df
k=1
n-k-1 = 13
n-1 = 14

Coefficients
Intercept
Distanta
(zeci km)

a = 10,2779
b = 4,9193

SS
SSR = 841,7664
SSE = 69,7509
SST = 911,5173

Standard
Error
sa =
1,4202
sb =
0,3927

MS
MSR = 841,7664
MSE = 5,3654

t Stat

F
Fcalc = 156,8861

P-value

Significance F
0,000000012

Lower 95%

Upper 95%

tcalc() = 7,2365

0,000007

Lim_inf() = 7,2096

Lim_sup() = 13,3462

tcalc() = 12,5254

0,000000012

Lim_inf() = 4,0708

Lim_sup() = 5,7678

a) Determinai modelul de regresie liniara in esantion si interpretai valorile coeficienilor modelului;


b) Testai validitatea modelului de regresie liniar la un prag de semnificaie () de 5% (pentru o probabilitate
de 95%, pentru care Fcritic=4,67);
c) Testati ipotezele referitoare la semnificaia parametrilor modelului de regresie, la un nivel de semnificaie de
5% (tcritic=2,16);
d) Determinai intervalele de ncredere 95% pentru parametrii modelului;
e) Calculati coeficientul de determinaie i interpretai rezultatul obinut;
f) Msurai intensitatea legturii dintre cele dou variabile folosind raportul de corelaie;
g) Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5 zeci de
kilometri.
REZOLVARE
a) Variabilele sunt:

X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat n zeci
de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f, Y f X , o funcie liniar

f x x . Modelul liniar de regresie este Y X .


Valorile coeficientilor sunt:

a 10,2779

b 4,9193

(se preiau don coloana Coefficients a ultimului tabel), sau cu functiile Excel:
intercept(valorile lui Y; valorile lui X), ce returneaza valoarea lui a.
slope(valorile lui Y; valorile lui X) ce returneaza valoarea lui b.
prin urmare dreapta de regresie este de ecuaie y a b x 10,2779 4,9193 x ,
ecuaia de regresie liniar n eantion este
iar valorile ajustate ale observaiilor

yi a b xi ei 10,2779 4,9193 xi ei , i 1,15 ,

yi , i 1,15 prin regresie sunt

y i a b xi 10,2779 4,9193 xi , i 1,15 .


Interpretarea valorilor coeficienilor
b arat c valoarea prejudiciului crete cu 4,9193 mii euro dac distana dintre incediu i staia de pompieri
crete cu o unitate, adic 10 km. In plus, pt. ca b>0, rezulta ca legatura dintre cele odua variabile este directa.
Daca b ar fi fost negativ (b<0), legatura era inversa.
a arat c valoarea prejudiciului este, n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng staia de
pompieri.
b) Validitatea modelului de regresie

Pentru testarea validitii modelului se formuleaz cele dou ipoteze:


H0: modelul de regresie nu este valid statistic,
cu alternativa
H1: modelul de regresie este valid statistic.

Statistica utilizat pentru a decide care dintre ipoteze se accept este Statistica F.
Pentru calculul statisticii Fcalc folosim tabelul ANOVA:

ANOVA
Regression
Residual
Total

df
k=1
n-k-1 = 13
n-1 = 14

SS
SSR = 841,7664
SSE = 69,7509
SST = 911,5173

MS
MSR = 841,7664
MSE = 5,3654

F
Fcalc = 156,8861

Significance F
0,000000012

Regula de decizie: dac

Fcalc Fcritic F ';k ,nk 1 , adic Fcalc se gsete n regiunea critic, atunci

respingem H0 i acceptm H1, adic modelul de regresie este valid statistic.


Cum Fcalc 156,89 4,667 Fcritic sau Significance F < 0.05 (F
critic se determina cu functia Excel
FINV(0.05;1;13)) se respingem ipoteza nul i concluzionm c modelul de regresie este valid statistic (modelul
este semnificativ statistic sau modelul este corect specificat).
Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia: 100SignificanceF%=99,999.>95%.

c) Testarea

semnificatiei

Y X :

parametrului

al

modelului

linear

de

regresie

H0: =0 (parametrul nu este semnificativ statistic)


H1: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)

t calc

a0 a
, deci t calc 7,237 , cu s =1,42. (t se gaseste in coloana t Stat
a
calc
sa
sa

din tabelul nr. 3. obtinut in Excel.


Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul este semnificativ statistic
(tcritic =2,16 este dat in textul problemei).
In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 i concluzionm ca este semnificativ statistic.
Probabilitatea maxima pt. care putem sustine ca este semnificativ statistic se determina cu relatia: 100-pvalue( )%=99,999.>95%.

Testarea

semnificaiei

Y X :

parametrului

al

modelului

linear

de

regresie

H0: =0 (parametrul nu este semnificativ statistic)


H1: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)

t calc

b0 b
b 4,9193

tcalc
12,56 , cu s =0,39. (t se gaseste in
,
deci
b
calc
sb
0,39
sb
sb

coloana t Stat din tabelul nr. 3. obtinut in Excel.


Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul este semnificativ statistic
(tcritic =2,16 este dat in textul problemei).
In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 i concluzionm ca este
semnificativ statistic.
Probabilitatea maxima pt. care putem sustine ca este semnificativ statistic se determina cu relatia: 100-pvalue( )%=99,999.>95%.

d) Intervalul de ncredere garantata cu probabilitatea: (1-)100% = 95% pentru


parametrul al modelului linear de regresie Y X , determinat pe baza
eantionului observat, este:

a t '
sa
;n k 1
2

limita inferioara a intervalului


de incredere (1-')100%
a parametrul ui

a t '
sa
;n k 1
2

limita superioara a intervalului


de incredere (1- ')100%
a parametrul ui

unde sa este eroarea standard a estimatorului a.

n cazul nostru, a=10,2779, sa=1,42, =0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul
2

[7,2; 13,3] acoper valoarea adevrat a parametrului cu probabilitatea 0,95, adic intervalul
de valori [7,2; 13,3] mii Eur acoper nivelul prejudiciului provocat de incendiu, dac acesta se
produce chiar lng staia de pompieri.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea
0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i
valoarea 0, atunci concluzionam c parametrul este nesemnificativ statistic (nu este
semnificativ diferit de 0).
Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de
regresie Y X , determinat pe baza eantionului observat, este:

b t '
sb
;n k 1
2

limita inferioara a intervalului


de incredere (1-')100%
a parametrul ui

b t '
sb
;n k 1
2

limita superioara a intervalului


de incredere (1- ')100%
a parametrul ui

unde sb este eroarea standard a estimatorului b.

n cazul nostru, b=4,9193, sb=0,39, =0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul [4,07; 5,76]
2

acoper valoarea adevrat a parametrului cu probabilitatea 0,95. Cu alte cuvinte, dac distana devine mai
mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul [4,07; 5,76] mii Eur,
cu o probabilitate de 0,95.

Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea


0, atunci putem spune c acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

e) Coeficientul de determinaie este R 0,9235 sau R 2 0,960982 0,9235 i arat c


92,35% (adic R2%) din variaia total a prejudiciului cauzat de incendii este explicat de
variaia variabilei independente (distana ntre locul incendiului i staia de pompieri).
Indicatorul se gaseste in primul tabel Excel, sub denumirea de R Square.
2

f). Intensitatea legturii dintre cele dou variabile folosind raportul de corelaie.

R 0,96097772

Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de Multiple R.
Se observa ca raportul de corelatie este egal cu coeficientul de corelatie liniara Pearson, asadar legatura
dintre cele doua variabile este liniara, iar legatura este puternica deoarece R are o valoare apropiata de 1.
In plus, in cazul legaturii liniare, este adevarata relatia:

R rxy
Unde rxy este coeficientul de corelatie liniara Pearson.
g). n modelul de regresie liniar

y i a b xi 10,2779 4,9193 xi , i 1,15 nlocuim pe xi cu valoarea

de 6,5, obinndu-se valoarea corespunztoare a lui Y:

y i 10,2779 4,9193 6,5 42,25

zeci mii euro.