Documente Academic
Documente Profesional
Documente Cultură
n acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor se realizeaz prin metodele de corelaie statistic. Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic. Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei) efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele: Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor
Nr. crt. 1 2 3 4 5
5
xi
5 6 9 12 18
yi
25 30 35 45 65
x i2
25 36 81 144 324
xi y i
125 180 315 540 1170
5 5
y i2
625 900 1225 2025 4225
y i = 10 + 3 x
25 28 37 46 64
5
Total
xi = 50
i =1
y i = 200
i =1
xi2 = 610
i =1
Se cere: a) s se caracterizeze i s se msoare legtura dintre variabile; b) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie q = 0,05 . Sistemul de ecuaii normale devine:
Din rezolvarea sistemului rezult coeficienii: a = 10 i b = 3 . Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea ncasrilor crete cu trei milioane lei. Coeficientul de corelaie:
r= 5 2330 50 200 [5 610 (50 ) 2 ] [5 9000 ( 200 ) 2 ] = 0,995
0 5a + 5 b = 2 0 0 a 5 0 + 6 1b0= 2 3 3 0
arat c ntre cele dou caracteristici exist o legtur puternic. Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:
S b = 0,1741
tc =
b 0 3 = = 17 ,23 Sb 0,1741
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 > 2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul este:
3 2,353 0,1741 < < 3 + 2,353 0,1741 2,59 < < 3,4
tc =
a 0 10 = = 5,20 Sa 1,9228
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 > 2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de zero. Intervalul de ncredere pentru coeficientul este:
10 2,353 1,9228 < <10 + 2,353 1,9228 5,47 < <14 ,52
0,995 1 0,995 2
5 2 = 17 ,23
Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero , n care t q = 2,13 i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate. Intervalul de ncredere pentru coeficientul va fi:
0,995 2,13 0,005 < < 0,995 + 2,13 0,005 0,984 < <1
Dependent din lista variabilelor se alege variabila dependent; Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de influen); Method: - se alege metoda de analiz: Enter se analizeaz variabilele global, ntr-un singur pas; Forward regresie pas cu pas ascendent; Backward regresie pas cu pas descendent; Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial; Remove sunt indicate variabilele eliminate din model; Statistics - conduce la ecranul:
Estimates calculul coeficienilor de regresie; Confidence intervals stabilirea intervalului de ncredere pentru coeficienii
de regresie pentru probabilitatea de 95%; Covariance matrix matricea de varian-covarian pentru coeficienii de regresie; Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2 ajustat, eroarea standard, analiz ANOVA; Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea corelaiilor; Part and partial correlations corelaii pariale; Collinearity diagnostics analiza colinearitii. Plots- reprezentri grafice Save - conduce la ecranul:
Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor reziduale Predicted Values Unstandardized se obin valorile variabilei dependente y i , calculate cu ajutorul coeficienilor de regresie (valorile ajustate); Standardized pentru valorile ajustate se calculeaz media i abaterea standard. Standardizarea const n mprirea abaterilor fa de medie la eroarea standard. Valorile standardizate au media 0 i abaterea standard 1; Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care observaia respectiv a fost ndeprtat y (i ) ; Residuals
Unstadardized valorile ei = y i y i ; Standardized valorile e i standardizate; Studentized valorile studentizate; Distances Mahalanobis msoar distana fiecrei valori a variabilei independente fa de media variabilei. O distan mare indic o valoare extrem; Cooks Leverage values contribuia unei observaii dat de valoarea hi (levierul); Influence statistics DfFit calculeaz valorile DFITS; Options conduce la ecranul:
Fig.4 Stabilirea criteriului de selectare a variabilelor Stepping Method Criteria Use probability of F o variabil este introdus n model dac nivelul de semnificaie pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai mare dect valoarea specificat n Removal; Use F value - o variabil este introdus n model dac valoarea calculat F este mai mare dect valoarea specificat n Entry i este scoas din model dac valoarea calculat F este mai mic dect valoarea specificat n Removal; Pentru exemplul de mai sus s-au obinut rezultatele:
Descriptive Statistics Mean 40,0000 10,0000 Std. Deviation 15,8114 5,2440 N 5 5
INCAS PUB
Correlations Pearson Correlation Sig. (1-tailed) N INCAS PUB INCAS PUB INCAS PUB INCAS 1,000 ,995 , ,000 5 5 PUB ,995 1,000 ,000 , 5 5
b Variables Entered/Removed
Model 1
Variables Removed ,
Method Enter
b Model Summary
Model 1
Model 1
df 1 3 4
F 297,000
Sig. ,000a
a. Predictors: (Constant), PUB b. Dependent Variable: INCAS C o e ffic ie nats S ta n d a rd i ze d C o e fficie n ts Be ta ,9 9 5 t 5 ,2 0 1 1 7 ,2 3 4 Sig . ,0 1 4 ,0 0 0
(C o n sta n t) PUB
a . D e p e n d e n t Va ria b le : IN C AS
Corelaia simpl curbilinie n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre caracteristica factorial aleas i cea rezultativ. Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului, s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile teoretice ale caracteristicii rezultative n funcie de factorul ales. Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de tricotaje i nivelul relativ al cheltuielilor de circulaie: Valoarea vnzrilor Nivelul relativ al (mil. lei) cheltuielilor de circulaie (%) x y 5,1 8 5,5 7,2 6,0 6,8 6,5 6,4 6,7 6 7,0 5,6 7,0 5 8,5 4,6 11,0 4,2 13,0 4,2 Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz: Analyze Regression Curve Estimation
Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat: Graphs Scatter
9
CHELT
4 4 6 8 10 12 14
VINZARI
Fig. 6 Legtura dintre cheltuieli i vnzri Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz, obinndu-se rezultatele:
Dependent variable.. CHELT Multiple R R Square ,85395 ,72923 Analysis of Variance: DF Regression Residuals F= 1 8 Sum of Squares 11,259261 4,180739 Signif F = ,0017 Mean Square 11,259261 ,522592 Method.. LINEAR
21,54502
-------------------- Variables in the Equation -------------------Variable VINZARI (Constant) B -,442581 9,176893 SE B Beta T Sig T ,0017 ,0000
Method.. INVERSE
Analysis of Variance: DF Sum of Squares Regression Residuals F= 1 8 13,978011 1,461989 Mean Square 13,978011 ,182749
76,48762
Signif F = ,0000
-------------------- Variables in the Equation -------------------Variable VINZARI (Constant) B 33,109280 1,102268 SE B 3,785769 ,553896 Beta ,951479 T Sig T
The following new variables are being created: Name FIT_3 FIT_4 Label Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE
CHELT
9
VINZARI
0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. ei = 1,46 . Din aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou variabile.
2
10
Regresia pas cu pas Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise regression), sau o combinaie a celor dou. Regresia pas cu pas ascendent Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare etap a variabilei explicative ce maximizeaz coeficientul de determinaie R2 al lui Y cu toate variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal al celei din urm s fie semnificativ. n prima etap se construiete tabelul R2(Y,Xj):
Variabile X1 . . Xp R2(Y,Xj) R2(Y,X1) . . R2(Y,Xp) Fj F1 . . Fp Nivel de semnificaie 1 . . p
Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales). n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu. Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai mare dect nivelul . Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au fost selecionate:
F j= S( X 1 ,..., X t , X j ) - S( X 1 ,..., X t ) ( ( y i - y )2 - S( X 1 ,..., X t , X j )) / (n - t - 2)
( Y xi - Y )2
i= 1
explicat de
variabilele X1,...,Xk . Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt eliminate.
11
Funcionarea procedurii se realizeaz astfel: Pas 1. Se calculeaz R 2 (Y , X j ), j =1, n precum i valorile F j pariale mpreun cu nivelul de semnificaie. Variabile X1 X2 X3 X4 X5 R2 (Y,Xj ) 0.500 0.017 0.102 0.003 0.227 Fj 30.024 0.515 3.400 0.083 8.801 Nivel de semnificaie 0.000 0.478 0.075 0.776 0.006
12
Variabila selecionat este X5. Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde variabilei analizate (de exemplu, n modelul (Y , X 1 , X 4 ) 0,687 este nivelul de semnificaie pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05, variabila nu este reprezentativ pentru model). Pas 3. Se construiete tabelul: Variabile R2 (Y,X1 , X5 ,Xj ) X2 0.676 X3 0.683 X4 0.683 Fj 19.452 20.111 20.093 Nivel de semnificaie 0.917 0.426 0.432
Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul turitilor i cheltuielile publicitare.
Fig. 8 Alegerea metodei de selectare a variabilelor Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:
13
c Model Summary
Model 1 2
R ,707a ,822b
a. Predictors: (Constant), Nr.turisti (mii pers.) b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)
c ANOVA
Model 1
df
F 30,024
Sig. ,000a
30,203
,000b
a. Predictors: (Constant), Nr.turisti (mii pers.) b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)
a Coefficients
Unstandardized Coefficients Model 1 B 3005,872 5,205 2628,463 4,948 8,568 Std. E rror 382,457 ,950 327,543 ,781 2,163
Standardiz ed Coefficients Beta ,707 t 7,859 5,479 8,025 ,672 ,420 6,334 3,960 Sig. ,000 ,000 ,000 ,000 ,000
(Constant) Nr.turisti (mii pers.) (Constant) Nr.turisti (mii pers.) chelt. publ.(sute mii lei)
95% Confidence Interval for B Lower Upper Bound Bound 2224,790 3786,953 3,265 1958,562 3,350 4,143 7,145 3298,365 6,545 12,993
14
c Excluded Variables
Model 1
zile-turisti pret mediu / zi (zeci mii lei) val. invest. (zeci mil lei) chelt. publ.(sute mii lei) zile-turisti pret mediu / zi (zeci mii lei) val. invest. (zeci mil lei)
Collinearity Statistics Tolerance ,986 ,624 ,978 ,993 ,967 ,611 ,972
a. Predictors in the Model: (Constant), Nr.turisti (mii pers.) b. Predictors in the Model: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei) c. Dependent Variable: valoarea incas. (mil lei)
15