Documente Academic
Documente Profesional
Documente Cultură
Aniela Danciu
pag. 1/8
15-Oct.-2011
Viteza, km/h distanta, m 40 8 1,600 50 12 2,500 60 18 3,600 70 24 4,900 80 32 6,400 90 40 8,100 100 48 10,000 110 58 12,100 120 72 14,400 = 720 = 312 = 63600 =
SSR (i y)2
SSE (yi i)2 21.62 0.67 1.02 8.07 7.13 6.25 5.43 0.03 36.12 86.33
(x i x)2 1600 900 400 100 0 100 400 900 1600 = 6000
980.73 551.62 245.13 61.26 0.00 61.36 245.34 551.94 981.15 3,678.53 =
Se cere: a) sa se aprecieze forma si directia legaturii dintre cele doua variabile cu ajutorul metodei grafice; b) sa se estimeze parametrii functiei de regresie; c) sa se testeze validitatea modelului de regresie;
d) sa se testeze semnificatia parametrilor modelului pentru un prag de semnificatie = 5%; e) sa se aprecieze intensitatea legaturii dintre cele 2 variabile cu ajutorul unor indecsi adecvati si sa se
testeze semnificatia acestora, = 5%;
Notam xi variabila cauza exogena sau independenta si yi variabila efect (sau rezultativa) endogena, dependenta. Graficul utilizat pentru aprecierea legaturii e corelograma sau diagrama norului de puncte (scatter plot).
pag. 2/8
15-Oct.-2011
80 70 60 50 40 distanta, m 30 20 10 0
1 cm OX = 20km/h 1 cm OY = 10 m
30
40
50
60
70
80
90
100
110
120
130
Unim primul cu ultimul punct. De pe grafic se observa ca intre cele 2 variabile exista o legatura directa. Ecuatia este: =abx { yy=abx = valori ajustate (teoretice), rezulta din model; = eroarea
functii (ecuatii) de regresie liniara unifactoriala. b.) estimarea parametrului a si b ai functiei de regresie se face cu ajutorul celor mai mici patrate (MCMMP): Suma patratelor abaterilor valorilor reale yi de la valorile ajustate i este minima sau suma patratelor erorilor este minima. y i yi =minim= yi abx i =minim
i=1 i=1 n 2 n 2
adica cand derivatele in raport cu a si b se anuleaza (conf. teoriei lui Fermat) ==>
nab x i = yi
i=1 i=1 2 i n n n
<== <==
df =0 da df =0 db
a xi b x = xiy i
i=1 i=1 i=1
==>
{a=27,97 b=0,783
a s.n. termen liber, b s.n. coeficient de regresie si ne arata directia legaturii dintre y si x. daca b > 0 avem o legatura directa intre y si x (creste x, creste y)
daca b < 0 avem o legatura indirecta intre x si x (creste x, scade y) daca b = 0 nu exista legatura intre y si x (creste x, y = contant)
pag. 3/8
15-Oct.-2011
b = 0,783 > 0; la o crestere cu 1 km/h a vitezei (o crestere cu o unitate de masura a lui x) distanta parcursa va creste cu 0,783 m (y va creste cu b unitati de masura). c.) Testarea validitatii modelului de regresie La nivelul esantionului modelul de regresie are forma: y = 27,97 + 0,783x + a b La nivelul colectivitatii generale din care a fost extras esantionul modelul de regresie are forma: y = + x + u Testarea validitatii modelului se face cu testul F (Fischer Snedecor), respectiv cu ajutorul tabelului ANOVA (analiza de variatie) Testarea validitatii
s x=
SSR i=1 = k 1
n
k numarul factorilor de influenta din model (numarul de variabile cauza); k =1 depinde de un singur factor. SSR = sum of squares of regression (suma patratelor datorate factorului = varianta factoriala) k = numarul variabilelor cauza SSE = sum of squares of errors suma patratelor erorilor variana reziduala
su =
yi yi 2
y y i i 2=SSR=3678,53
yi y i 2=SSE=86,33
3. se stabileste regiunea critica si se formuleaza concluzii (daca se respinge sau se accepta ipoteza alternativa) Regiunea critica, Rc, reprezinta acele valori ale testului statistic pentru care ipoteza nula se respinge. Rc e astfel aleasa (construita) incat probabilitatea ca valoarea testului sa se gaseasca in regiunea critica, desi ipoteza nula e falsa, sa fie foarte mica, adica sa fie egala cu un numit prag de semnificatie foarte mic (de ex. = 0,01; 0,05) = P (resping H0 / desi H0 e adevarata); P probabilitatea
(1 )100 reprezinta probabilitatea cu care garantam rezultatele. Daca: Rc : Fcalc Fjkj n k 1 ==> respingem H0 si acceptam H1 df2 = ajkj; Fcalc = 298,33; df1 = n k 1; Fjkj n k 1 = F tabelat sau F critic k = 1 (un singur factor); nk1=7
pag. 4/8
15-Oct.-2011
k 1 2 3 4 5 6 7
nk1 1 2 3 4 5 6 7 5,58
Rc: 298,3 F0,05;1;7 F0,05;1;7 = 5,58 (se ia din tabel) ==> se respinge ipoteza H0 si se accepta H1 conform careia modelul este valid.
Tabelul ANOVA (furnizat de excel pentru testarea validitatii modelului, 6 coloane si 3 randuri) Sursa variatiei SS (sum of squares) Regression
(variatia datorata factorului x)
MS (mean of
squares)
F s2 x =298,33
Significance F
(prag de semnificatie)
SSR = 3678,53
s2x = 3678,53
Se compara cu pragul de s semnificatie dat in problema. s2u = 12,33 sig F model Se compara cu F valid s2u = SST / n-1 = sig F > model tabelat invalid 471,1
2 u
df numitoare de dispersii MS = SS / df
La examen tabelul va fi completat si vor trebui interpretate rezultatele. d.) Testarea semnificatiei parametrilor modelului La nivelul esantionului modelul de regresie are forma: yi = - 29,97 + 0,783 xi + i yi = + xi + ui Testarea semnificatiei parametrului 1. H0: = 0 ( nu e semnificativ statistic) H1: 0 ( e semnificativ statistic) = test bilateral (pentru ca e diferit de zero si nu mai mare sau mai mic) 2. se alege testul statistic daca n 30 se aleg testul Z aferent repartitiei normale sau functiei Gauss Laplace daca n < 30 atunci se utilizeaza testul t aferent repartitiei Student t= b0 sb Z= b0 sp (a = -29,97; b = 0,783)
cum n = 9 ==> n < 30 ==> avem esantion de volum redus si pentru testare utilizam testul t
pag. 5/8
15-Oct.-2011
t=
s=
2 b
s2 u x xi
i=1 n
xi
Se stabileste regiunea critica si se formuleaza concluziile Regiunea critica Rc: tcalc < t/2; n-k-1 (ramura cu ); pentru ca e test bilateral se imparte la 2 sau tcalc > t/2; n-k-1 (ramura cu +) n-k1 1 2 3 4 5 6 7 0,025 t/2; n-k-1 = t tabelat sau t critic = 2,998; tcalc = 17,79
0,05/2 7
(A)
==> testul este adevarat, ne gasim in regiunea critica ==> se respinge H0 si se | accepta H1 ==> parametrul e semnificativ statistic (pt = 5%). | | Deoarece parametrul e semnificativ statistic putem determina intervalul de | incredere pentru acesta. | lower (in excel) upper pt 5% | | b t/2; n-k-1 sb b + t/2; n-k-1 sb | 0,783 2,998 0,044 | 0,11 0,794 2,998 0,772
La nivelul esantionului = 0,783, la nivelul colectivitatii generale se situeaza intre 0,772 si 0,794 pentru = 5%. Daca modelul este valid obligatoriu si parametrul e semnificativ statistic. Testarea semnificatiei parametrului . H0: = 0 ( nu e semnificativ statistic) H1: 0 ( este semnificativ statistic) ==> test bilateral pentru ca n = 9 < 30, utilizam testul t t=
2
sa se ia din ANOVA
sa =su
1 n
x2
n
x x i 2
i=1
(A)devarat ==> ne gasim in regiunea critica ==> se respinge ipoteza nula si se accepta ipoteza alternativa conform careia e semnificativ statistic. Pentru ca parametrul este semnificativ statistic putem determina intervalul de incredere pentru acesta: unde a = -27,97 t/2; n-k-1 = 2,998 sa = 1,79
==>
33,33 -22,61
pag. 6/8
15-Oct.-2011
Observatie: cand lower si upper au celasi semn pentru un parametru, respectivul parametru este semnificativ statistic. Tabelul din excel (tab. 3) pe baza caruia testam semnificatia parametrilor modelului: Coefficient Standard error Intercept
(termenul liber)
Upper 5% -22,61
a = -27,97
sa = 1,79
-33,33
x variable
(variabila x, viteza)
b = 0,783
sb = 0,044
t b=
0,772
0,794
Daca P value
e.) Intensitatea legaturii dintre doua sau mai multe variabile se poate aprecia cu ajutorul urmatorilor indicatori:
(1) Raportul de corelatie R (multiple R) se poate utiliza pentru toate tipurile de legaturi si ne arata doar intensitatea legaturii nu si directia ei. Directia se deduce doar din semnul lui b.
R [0, 1] Daca R = 0 nu exista legatura intre variabile; Daca R 1, legatura este foarte puternica intre variabile. R=
2
SSR =0,97 = R square = grad de determinatie, [0, 1] si ne arata cat la suta din variatia lui SST y se datoreaza factorului x; in cazul nostru 97% din variatie (a lui y) se datoreaza lui x. R= Testarea raportului de corelatie la nvelul colectivitatii generale
1. Ipoteza nula, H0: raportul de corelatie la nivelul colectivitatii generale nu e semnificativa statistic
H1: raportul de corelatie la nivelul colectivitatii generale e semnificativa statistic. 2. Se stabileste testul statistic pentru testarea semnificatiei raportului de corelatie se utilizeaza testul Fischer (testul F) F= R 2 nk 1 0,97 7 = =226,33 2 k 10,97 1 1R
3. se stabileste regiunea critica si se formuleaza concluziile pentru testul F: Fcalc F, k, n-k-1 F, k, n-k-1 = Ftabelat = 5,58; Fcalc = 226,33
==> Adevarat, ne gasim in regiunea critica, se respinge H0 si se accepta H1 ==> raportul de corelatie e semnificativ statistic. Observatie: daca modelul este valid atunci si parametrul e semnificativ statistic si raportul de
pag. 7/8
15-Oct.-2011
corelatie e semnificativ statistic. (2) coeficientul de corelatie propus de Pearson notat cu r ce se poate utiliza doar in cazul in care vem legatura liniara intre variabile si pe baza lui putem deduce atat intensitatea legaturii cat si directia ei
n
n x i yi x i y i r=
i=1 2 i 2 i 2 i 2
[n x x ][ n y y ] [963600720 ][ 914584312 ]
2 2 i
929660720312
=0,988
r [-1, 1] daca: r > 0 ==> legatura directa intre y si x r < 0 ==> legatura inversa intre y si x r = 0 ==> nu exista legatura intre y si x r 1 ==> legatura foarte puternica intre y si x cum r = 0,998 ==> intre y si x exista o legatura directa si foarte puternica Observatie: daca | r | = R ==> legatura liniara a fost foarte bine aleasa. Deoarece in cazul nostru r = R = 0,988 ==> legatura dintre y si x e o legatura liniara. f.) Previzionarea punctuala reprezinta valoarea previzionata obtinuta prin inlocuirea valorii date in ecuatia de regresie (reprezinta previziune la nivelul esantionului) xn+p = 130 km/h n+p = -27,97 + 0,783xn+p = 73,82 m
(previzionare punctuala)
Previzionarea pe baza intervalului de incredere. n+p t/2; n-k-1 sn+p n+p n+p+ t/2; n-k-1 sn+p
60,81 86,82
n+p= 73,82;
2
Tabelul 1 din excel se refera la intensitatea legaturii dintre variabile: Multiple R, (R) = 0,988 R Square, (R2) = 0,97 [0, 1] Adjusted R Square (R2) = grad de determinatie ajustat = R Square impartit la gradele de libertate corespunzatoare. SSE SSE nk 1 SSEn1 R =1 =1 =1 SST SST SSTnk 1 n1
2
se ia din ANOVA
daca su = 0 nu ar exista eroare, toate punctele s-ar gasi pe o dreapta de regresie ==> valorile reale sunt egale cu valorile ajustate.
pag. 8/8
15-Oct.-2011