Sunteți pe pagina 1din 15

REGRESIE I CORELAIE Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele.

n acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor se realizeaz prin metodele de corelaie statistic. Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic. Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei) efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele: Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor
Nr. crt. 1 2 3 4 5
5

Cheltuieli publicitare (sute mii lei)

Valoarea ncasrilor (mil. lei)

xi
5 6 9 12 18

yi
25 30 35 45 65

x i2
25 36 81 144 324

xi y i
125 180 315 540 1170
5 5

y i2
625 900 1225 2025 4225

y i = 10 + 3 x
25 28 37 46 64
5

Total

xi = 50
i =1

y i = 200
i =1

xi2 = 610
i =1

xi y i = 2330 y i2 = 9000 y i = 200


i =1 i =1 i =1

Se cere: a) s se caracterizeze i s se msoare legtura dintre variabile; b) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie q = 0,05 . Sistemul de ecuaii normale devine:

Din rezolvarea sistemului rezult coeficienii: a = 10 i b = 3 . Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea ncasrilor crete cu trei milioane lei. Coeficientul de corelaie:
r= 5 2330 50 200 [5 610 (50 ) 2 ] [5 9000 ( 200 ) 2 ] = 0,995

0 5a + 5 b = 2 0 0 a 5 0 + 6 1b0= 2 3 3 0

arat c ntre cele dou caracteristici exist o legtur puternic. Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:
S b = 0,1741

tc =

b 0 3 = = 17 ,23 Sb 0,1741

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 > 2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul este:

3 2,353 0,1741 < < 3 + 2,353 0,1741 2,59 < < 3,4

Testarea termenului liber:


S a =1,9228

tc =

a 0 10 = = 5,20 Sa 1,9228

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 > 2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul este:
10 2,353 1,9228 < <10 + 2,353 1,9228 5,47 < <14 ,52

Testarea coeficientului de corelaie:


S r = 0,005 t c =
tc >tq

0,995 1 0,995 2

5 2 = 17 ,23

Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero , n care t q = 2,13 i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate. Intervalul de ncredere pentru coeficientul va fi:
0,995 2,13 0,005 < < 0,995 + 2,13 0,005 0,984 < <1

Pentru a rezolva n SPSS aceast problem se selecteaz: Analyze Regression Linear

Fig. 1 Selectarea variabilelor


Dependent din lista variabilelor se alege variabila dependent; Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de influen); Method: - se alege metoda de analiz: Enter se analizeaz variabilele global, ntr-un singur pas; Forward regresie pas cu pas ascendent; Backward regresie pas cu pas descendent; Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial; Remove sunt indicate variabilele eliminate din model; Statistics - conduce la ecranul:

Fig. 2 Selectarea parametrilor pentru coeficienii de regresie i analiza reziduurilor

Estimates calculul coeficienilor de regresie; Confidence intervals stabilirea intervalului de ncredere pentru coeficienii
de regresie pentru probabilitatea de 95%; Covariance matrix matricea de varian-covarian pentru coeficienii de regresie; Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2 ajustat, eroarea standard, analiz ANOVA; Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea corelaiilor; Part and partial correlations corelaii pariale; Collinearity diagnostics analiza colinearitii. Plots- reprezentri grafice Save - conduce la ecranul:

Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor reziduale Predicted Values Unstandardized se obin valorile variabilei dependente y i , calculate cu ajutorul coeficienilor de regresie (valorile ajustate); Standardized pentru valorile ajustate se calculeaz media i abaterea standard. Standardizarea const n mprirea abaterilor fa de medie la eroarea standard. Valorile standardizate au media 0 i abaterea standard 1; Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care observaia respectiv a fost ndeprtat y (i ) ; Residuals

Unstadardized valorile ei = y i y i ; Standardized valorile e i standardizate; Studentized valorile studentizate; Distances Mahalanobis msoar distana fiecrei valori a variabilei independente fa de media variabilei. O distan mare indic o valoare extrem; Cooks Leverage values contribuia unei observaii dat de valoarea hi (levierul); Influence statistics DfFit calculeaz valorile DFITS; Options conduce la ecranul:

Fig.4 Stabilirea criteriului de selectare a variabilelor Stepping Method Criteria Use probability of F o variabil este introdus n model dac nivelul de semnificaie pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai mare dect valoarea specificat n Removal; Use F value - o variabil este introdus n model dac valoarea calculat F este mai mare dect valoarea specificat n Entry i este scoas din model dac valoarea calculat F este mai mic dect valoarea specificat n Removal; Pentru exemplul de mai sus s-au obinut rezultatele:
Descriptive Statistics Mean 40,0000 10,0000 Std. Deviation 15,8114 5,2440 N 5 5

INCAS PUB

Correlations Pearson Correlation Sig. (1-tailed) N INCAS PUB INCAS PUB INCAS PUB INCAS 1,000 ,995 , ,000 5 5 PUB ,995 1,000 ,000 , 5 5

b Variables Entered/Removed

Model 1

Variables Entered PUBa

Variables Removed ,

Method Enter

a. All requested variables entered. b. Dependent Variable: INCAS

b Model Summary

Model 1

R R Square ,995 a ,990

Adjusted R Square ,987

Std. Error of the Estimate 1,8257

a. Predictors: (Constant), PUB b. Dependent Variable: INCAS


b ANOVA

Model 1

Regression Residual Total

Sum of Squares 990,000 10,000 1000,000

df 1 3 4

Mean Square 990,000 3,333

F 297,000

Sig. ,000a

a. Predictors: (Constant), PUB b. Dependent Variable: INCAS C o e ffic ie nats S ta n d a rd i ze d C o e fficie n ts Be ta ,9 9 5 t 5 ,2 0 1 1 7 ,2 3 4 Sig . ,0 1 4 ,0 0 0

U n sta n d a rd ize d C o e fficie n ts M odel 1 B Std . Erro r 1 0 ,0 0 0 1 ,9 2 3 3 ,0 0 0 ,1 7 4

(C o n sta n t) PUB

9 5 % C o n fid e n ce In te rva l fo r B Lower Upper Bo u n d Bound 3 ,8 8 1 1 6 ,1 1 9 2 ,4 4 6 3 ,5 5 4

a . D e p e n d e n t Va ria b le : IN C AS

Corelaia simpl curbilinie n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre caracteristica factorial aleas i cea rezultativ. Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului, s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile teoretice ale caracteristicii rezultative n funcie de factorul ales. Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de tricotaje i nivelul relativ al cheltuielilor de circulaie: Valoarea vnzrilor Nivelul relativ al (mil. lei) cheltuielilor de circulaie (%) x y 5,1 8 5,5 7,2 6,0 6,8 6,5 6,4 6,7 6 7,0 5,6 7,0 5 8,5 4,6 11,0 4,2 13,0 4,2 Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz: Analyze Regression Curve Estimation

Fig. 5 Selectarea opiunilor pentru regresia neliniar

Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat: Graphs Scatter
9

CHELT

4 4 6 8 10 12 14

VINZARI

Fig. 6 Legtura dintre cheltuieli i vnzri Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz, obinndu-se rezultatele:
Dependent variable.. CHELT Multiple R R Square ,85395 ,72923 Analysis of Variance: DF Regression Residuals F= 1 8 Sum of Squares 11,259261 4,180739 Signif F = ,0017 Mean Square 11,259261 ,522592 Method.. LINEAR

21,54502

-------------------- Variables in the Equation -------------------Variable VINZARI (Constant) B -,442581 9,176893 SE B Beta T Sig T ,0017 ,0000

,095350 -,853948 -4,642 ,762589 12,034

Dependent variable.. CHELT Multiple R R Square ,95148 ,90531

Method.. INVERSE

Analysis of Variance: DF Sum of Squares Regression Residuals F= 1 8 13,978011 1,461989 Mean Square 13,978011 ,182749

76,48762

Signif F = ,0000

-------------------- Variables in the Equation -------------------Variable VINZARI (Constant) B 33,109280 1,102268 SE B 3,785769 ,553896 Beta ,951479 T Sig T

8,746 ,0000 1,990 ,0818

The following new variables are being created: Name FIT_3 FIT_4 Label Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE
CHELT
9

5 Observed 4 Linear 3 4 6 8 10 12 14 Inverse

VINZARI

Fig. 7 Valorile observate comparate cu liniile de regresie


Modelul liniar a condus la funcia y = 9,176 0,442 x (coficientul b fiind negativ arat legtur invers ntre cele dou variabile), raportul de corelaie R de 0,8539 indic o legtur puternic iar valoarea F = 21,54 pentru care nivelul de semnificaie este 0,0017 (mai mic dect 0,05 ales pentru testarea modelului) arat c modelul este semnificativ. 2 ei = 4,18 .

Modelul hiperbolic a condus la funcia y = 1,1 + 33 ,1

0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. ei = 1,46 . Din aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou variabile.
2

1 , raportul de corelaie R este x

10

Regresia pas cu pas Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise regression), sau o combinaie a celor dou. Regresia pas cu pas ascendent Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare etap a variabilei explicative ce maximizeaz coeficientul de determinaie R2 al lui Y cu toate variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal al celei din urm s fie semnificativ. n prima etap se construiete tabelul R2(Y,Xj):
Variabile X1 . . Xp R2(Y,Xj) R2(Y,X1) . . R2(Y,Xp) Fj F1 . . Fp Nivel de semnificaie 1 . . p

Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales). n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu. Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai mare dect nivelul . Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au fost selecionate:
F j= S( X 1 ,..., X t , X j ) - S( X 1 ,..., X t ) ( ( y i - y )2 - S( X 1 ,..., X t , X j )) / (n - t - 2)

n care statistica: S(X1,...,Xk) reprezint suma ptratelor

( Y xi - Y )2
i= 1

explicat de

variabilele X1,...,Xk . Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt eliminate.

11

Valorile variabilelor nregistrate la 32 uniti turistice


Nr. turiti (mii pers.) X1 398 369 268 484 394 332 336 383 285 277 456 355 364 320 311 362 408 433 359 476 415 420 536 432 436 415 462 429 517 328 418 515 Zile - turiti X2 1080 1180 1290 1110 1460 1400 1360 1040 1050 1350 1280 1310 1200 1470 1430 1450 1310 1240 1060 1380 1480 1360 1110 1520 1230 1190 1120 1250 1420 1230 1350 1200 Pre mediu/zi (zeci mii lei) X3 56 59 56 57 59 60 59 60 63 62 64 64 63 65 67 66 66 67 68 71 69 69 73 73 73 74 73 74 74 52 68 78 Val. investiiilor (zeci mil. lei) X4 12 9 28 12 13 11 24 20 8 10 21 23 13 14 22 23 13 8 27 18 7 10 27 15 32 19 14 11 26 19 34 23 Clelt. publicit. (sute mii lei) X5 76 88 51 39 51 20 40 31 12 68 52 76 96 47 27 72 62 24 73 63 28 91 74 16 42 41 92 83 74 87 74 21 Val. ncas. (mil. lei) Y 5550 5439 4290 5502 4871 4708 4627 4110 4122 4842 5740 5094 5383 4888 4033 4941 5312 5139 5397 5149 5450 4989 5926 4703 5365 4630 5711 5095 6142 4787 5035 5288

Modelul estimat prin metoda celor mai mici ptrate este:


Y = 2879 ,9 + 5,52 X 1 + 0,166 X 2 8,18 X 3 4,99 X 4 + 8,52 X 5

Funcionarea procedurii se realizeaz astfel: Pas 1. Se calculeaz R 2 (Y , X j ), j =1, n precum i valorile F j pariale mpreun cu nivelul de semnificaie. Variabile X1 X2 X3 X4 X5 R2 (Y,Xj ) 0.500 0.017 0.102 0.003 0.227 Fj 30.024 0.515 3.400 0.083 8.801 Nivel de semnificaie 0.000 0.478 0.075 0.776 0.006

Variabila selecionat este X1.

12

2 Pas 2. Se calculeaz R (Y , X 1 , X j ) : Variabile R2 (Y,X1 ,Xj ) X2 0.502 X3 0.521 X4 0.503 X5 0.676

Fj 14.645 15.787 14.677 30.203

Nivel de semnificaie 0,717 0,268 0,687 0,000

Variabila selecionat este X5. Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde variabilei analizate (de exemplu, n modelul (Y , X 1 , X 4 ) 0,687 este nivelul de semnificaie pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05, variabila nu este reprezentativ pentru model). Pas 3. Se construiete tabelul: Variabile R2 (Y,X1 , X5 ,Xj ) X2 0.676 X3 0.683 X4 0.683 Fj 19.452 20.111 20.093 Nivel de semnificaie 0.917 0.426 0.432

Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul turitilor i cheltuielile publicitare.

Fig. 8 Alegerea metodei de selectare a variabilelor Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:

13

c Model Summary

Model 1 2

R ,707a ,822b

R Square ,500 ,676

Adjusted R Square ,484 ,653

Std. Error of the Estimate 370,47 303,56

a. Predictors: (Constant), Nr.turisti (mii pers.) b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)
c ANOVA

Model 1

Regression Residual Total Regression Residual Total

Sum of Squares 4120838,0 4117531,9 8238369,9 5566130,7 2672239,2 8238369,9

df

Mean Square 1 4120838,0 30 137251,064 31 2 2783065,3 29 92146,180 31

F 30,024

Sig. ,000a

30,203

,000b

a. Predictors: (Constant), Nr.turisti (mii pers.) b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)
a Coefficients

Unstandardized Coefficients Model 1 B 3005,872 5,205 2628,463 4,948 8,568 Std. E rror 382,457 ,950 327,543 ,781 2,163

Standardiz ed Coefficients Beta ,707 t 7,859 5,479 8,025 ,672 ,420 6,334 3,960 Sig. ,000 ,000 ,000 ,000 ,000

(Constant) Nr.turisti (mii pers.) (Constant) Nr.turisti (mii pers.) chelt. publ.(sute mii lei)

95% Confidence Interval for B Lower Upper Bound Bound 2224,790 3786,953 3,265 1958,562 3,350 4,143 7,145 3298,365 6,545 12,993

a. Dependent Variable: valoarea incas. (mil lei)

14

c Excluded Variables

Model 1

zile-turisti pret mediu / zi (zeci mii lei) val. invest. (zeci mil lei) chelt. publ.(sute mii lei) zile-turisti pret mediu / zi (zeci mii lei) val. invest. (zeci mil lei)

Beta In -,048 a -,184 -,054 ,420


a

t -,365 -1,129 -,407 3,960 ,105 -,807 -,797

Sig. ,717 ,268 ,687 ,000 ,917 ,426 ,432

Partial Correlation -,068 -,205 -,075 ,592 ,020 -,151 -,149

Collinearity Statistics Tolerance ,986 ,624 ,978 ,993 ,967 ,611 ,972

,012b -,110 -,086


b

a. Predictors in the Model: (Constant), Nr.turisti (mii pers.) b. Predictors in the Model: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)

15

S-ar putea să vă placă și