Documente Academic
Documente Profesional
Documente Cultură
Aniela Danciu
pag. 1/8
15-Oct.-2011
yi
x i2
x iyi
320
600
1,080
1,680
2,560
3,600
4,800
6,380
8,640
29660 =
3.35
11.18
19.01
26.84
34.67
42.50
50.33
58.16
65.99
312.03
SSR
(i y)2
SSE
(yi i)2
980.73
551.62
245.13
61.26
0.00
61.36
245.34
551.94
981.15
3,678.53 =
(x i x)2
21.62
0.67
1.02
8.07
7.13
6.25
5.43
0.03
36.12
86.33
1600
900
400
100
0
100
400
900
1600
= 6000
Se cere:
a) sa se aprecieze forma si directia legaturii dintre cele doua variabile cu ajutorul metodei grafice;
b) sa se estimeze parametrii functiei de regresie;
c) sa se testeze validitatea modelului de regresie;
xi = variabila cauza
yi = variabila efect
i = 1, 9 = volumul esantionului
Notam xi variabila cauza exogena sau independenta si yi variabila efect (sau rezultativa) endogena,
dependenta.
Graficul utilizat pentru aprecierea legaturii e corelograma sau diagrama norului de puncte (scatter
plot).
pag. 2/8
15-Oct.-2011
80
70
60
50
40
distanta, m
30
1 cm OX = 20km/h
1 cm OY = 10 m
20
10
30
40
50
60
70
80
90
100
110
120
130
Unim primul cu ultimul punct. De pe grafic se observa ca intre cele 2 variabile exista o legatura
directa. Ecuatia este:
=abx
{ yy=abx
= eroarea
i=1
nab x i = yi
i=1
df
=0
da
<==
df
=0
db
i=1
a xi b x = xiy i
2
i
i=1
<==
i=1
i=1
{9a720b=312
720a 63600b=29660
==>
{a=27,97
b=0,783
xi=720
y i=312
x2i =63600
x2iyi2=29660
a s.n. termen liber, b s.n. coeficient de regresie si ne arata directia legaturii dintre y si x.
pag. 3/8
15-Oct.-2011
b = 0,783 > 0; la o crestere cu 1 km/h a vitezei (o crestere cu o unitate de masura a lui x) distanta
parcursa va creste cu 0,783 m (y va creste cu b unitati de masura).
c.)
Testarea validitatii modelului se face cu testul F (Fischer Snedecor), respectiv cu ajutorul tabelului
ANOVA (analiza de variatie)
Testarea validitatii
s2x
2
su
s x=
y iy2
SSR i=1
=
k
1
su =
yi y i 2
SSE
= i= 1
= dispersia erorilor
nk 1
911
y i yi 2=SSR=3678,53
==> s2x = 3678,53
yi y i 2=SSE=86,33
3. se stabileste regiunea critica si se formuleaza concluzii (daca se respinge sau se accepta ipoteza
alternativa)
Regiunea critica, Rc, reprezinta acele valori ale testului statistic pentru care ipoteza nula se respinge.
Rc e astfel aleasa (construita) incat probabilitatea ca valoarea testului sa se gaseasca in regiunea
critica, desi ipoteza nula e falsa, sa fie foarte mica, adica sa fie egala cu un numit prag de
semnificatie foarte mic (de ex. = 0,01; 0,05)
= P (resping H0 / desi H0 e adevarata);
P probabilitatea
df1 = n k 1;
nk1=7
pag. 4/8
nk1
1
7
5,58
15-Oct.-2011
3
4
5
6
7
Tabelul ANOVA (furnizat de excel pentru testarea validitatii modelului, 6 coloane si 3 randuri)
Sursa variatiei SS (sum of squares)
df
MS (mean of
squares)
Regression
SSR = 3678,53
K=1
(variatia datorata
factorului x)
nk1=7
datorata erorii)
totala)
s2x
Se compara cu
pragul de
s
semnificatie dat
in problema.
2
s u = 12,33
sig F model
Se compara cu F valid
s2u = SST / n-1 =
sig F > model
tabelat
invalid
471,1
2
u
s2x = 3678,53
SST = SSR +
SSE = 3764,86
n1=8
(suma celor doua)
(varianta totala)
df numitoare de dispersii
Significance F
(prag de semnificatie)
=298,33
MS = SS / df
La examen tabelul va fi completat si vor trebui interpretate rezultatele.
d.) Testarea semnificatiei parametrilor modelului
La nivelul esantionului modelul de regresie are forma:
yi = - 29,97 + 0,783 xi + i
(a = -29,97; b = 0,783)
t=
Z=
b0
sp
b0
sb
cum n = 9 ==> n < 30 ==> avem esantion de volum redus si pentru testare utilizam testul t
t=
pag. 5/8
b0 b 0,783
= =
=17,79
sb
sb 0,002
s 2u
2
b
s=
xi x
15-Oct.-2011
12,33
=
=0,002
6000
2
i=1
xi
720
i=1
=
=80 km/ h
x =
9
9
(A)
0,05/2 7
0,025
a0 a 27,97
= =
=15,62
sa
sa
3,2
sa =su
2
x
n
xi x 2
i=1
sa se ia din ANOVA
1 802
=12,33
=3,20
9 6000
- 2,998
unde a = -27,97
sa = 1,79
33,33 -22,61
pag. 6/8
15-Oct.-2011
Observatie: cand lower si upper au celasi semn pentru un parametru, respectivul parametru este
semnificativ statistic.
Tabelul din excel (tab. 3) pe baza caruia testam semnificatia parametrilor modelului:
Coefficient Standard
error
Intercept
-33,33
-22,61
a
=
sb
17,79
0,772
0,794
t a=
b = 0,783
sb = 0,044
t b=
coeficient
standard error
se compara cu tcrit
sau cu -tcrit
Pentru ca b >0
==> legatura
directa
Daca P value
Upper 5%
a
=
sa
15,62
sa = 1,79
(variabila x, viteza)
a = -27,97
(termenul liber)
x variable
Testul statistic
t=
Se compara cu
pragul de
semnificatie dat in
problema (5%)
Interval de
incredere; daca
upper si lower au
acelasi semn sunt
semnificative.
e.)
Intensitatea legaturii dintre doua sau mai multe variabile se poate aprecia cu ajutorul urmatorilor
indicatori:
(1) Raportul de corelatie R (multiple R) se poate utiliza pentru toate tipurile de legaturi si ne arata doar
intensitatea legaturii nu si directia ei. Directia se deduce doar din semnul lui b.
R [0, 1]
SSR
3678,53
=
=0,988
SST
3764,86
SSR
=0,97
= R square = grad de determinatie, [0, 1] si ne arata cat la suta din variatia lui
SST
y se datoreaza factorului x; in cazul nostru 97% din variatie (a lui y) se datoreaza lui x.
2
R=
1. Ipoteza nula, H0: raportul de corelatie la nivelul colectivitatii generale nu e semnificativa statistic
H1: raportul de corelatie la nivelul colectivitatii generale e semnificativa statistic.
2. Se stabileste testul statistic
pentru testarea semnificatiei raportului de corelatie se utilizeaza testul Fischer (testul F)
F=
R 2 nk 1
0,97 7
=
=226,33
2
k
10,97 1
1R
Fcalc = 226,33
==> Adevarat, ne gasim in regiunea critica, se respinge H 0 si se accepta H1 ==> raportul de corelatie
e semnificativ statistic.
Observatie: daca modelul este valid atunci si parametrul e semnificativ statistic si raportul de
pag. 7/8
15-Oct.-2011
n x i yi x i y i
r=
i=1
929660720312
[n x x ][ n y y ] [963600720 ][ 914584312 ]
2
i
2
i
=0,988
r [-1, 1]
daca:
r > 0 ==> legatura directa intre y si x
r < 0 ==> legatura inversa intre y si x
r = 0 ==> nu exista legatura intre y si x
r 1 ==> legatura foarte puternica intre y si x
cum r = 0,998 ==> intre y si x exista o legatura directa si foarte puternica
Observatie: daca | r | = R ==> legatura liniara a fost foarte bine aleasa.
Deoarece in cazul nostru r = R = 0,988 ==> legatura dintre y si x e o legatura liniara.
f.)
Previzionarea punctuala reprezinta valoarea previzionata obtinuta prin inlocuirea valorii date in
ecuatia de regresie (reprezinta previziune la nivelul esantionului)
xn+p = 130 km/h
n+p = -27,97 + 0,783xn+p = 73,82 m
(previzionare punctuala)
n+p= 73,82;
86,82
1 x x
1 13080
s2 yn p=su2 1 n np
=12,33 1
=18,827
n
9
6000
2
xi x
i= 1
su = su
se ia din ANOVA
daca su = 0 nu ar exista eroare, toate punctele s-ar gasi pe o dreapta de regresie ==> valorile reale
sunt egale cu valorile ajustate.
pag. 8/8
15-Oct.-2011