Sunteți pe pagina 1din 5

Capitolul 8

Analiza de regresie
n urma parcurgerii acestui capitol:

vei cunoate rolul i importana analizei de regresie vei putea executa analiza de regresie n SPSS i interpreta corect rezultatul final

Aspecte teoretice - recapitulare


Analiza de regresie studiaz legtura dintre o variabil dependent i una sau mai multe variabile independente, prin intermediul unei ecuaii de regresie. n cadrul cursului de fa vom discuta doar despre regresia liniar, a c rei ecuaie are forma!
y = b$ + b# x# + b" x " + ... + bk x k + e

unde! % % % % % & este variabila dependent 'numit i cauzat sau endogen() x#, *, x+ sunt variabilele independente 'numite i cauzale sau exogene() b$ este aa%numitul ,termen liber-) b#, *, b+ sunt coeficienii 'sau parametrii( de regresie) e este numit variabil rezidual sau de perturbaie. Apariia sa n modelele de regresie se datoareaz faptului c relaia dintre variabila dependent i cele independente nu este una strict, determinist, ci una statistic. Pentru fiecare unitate din eantion, variabila rezidual se calculeaz ca diferen ntre valoarea real 'sau observat( a lui & i cea calculat 'sau estimat( prin ecuaia de regresie de mai sus. .ariabila e ,colecteaz- aadar influenele tuturor factorilor necunoscui sau nt/mpltori, dificil de estimat, precum i erorile de msurare.

0oate variabilele care intervin ntr%o analiz de regresie sunt variabile cantitative 'metrice(. 1ac exist o singur variabil independent n model, vorbim de o regresie simpl, iar dac intervin dou sau mai multe variabile independente avem de% a face cu o regresie multipl. 2ezultatele cele mai importante ale unei analize de regresie sunt!

% %

% %

coeficienii 'sau parametrii de regresie(. Acetia ne arat cu c/t se modific variabila dependent n urma modificrii cu o unitate a uneia din variabilele independente. coeficientul de corelaie multipl 'notat 2"(, care ne arat procenta3ul din variaia lui & care este ,explicat- de influena variabilelor independente. 1e pild, o valoare a lui 2" de $.4$ ne indic faptul c evoluia variabilei & este determinat n proporie de 4$5 de variabilele independente x#, *, x+, iar restul de #$5 se explic prin alte influene, neluate n considerare n model. valoarea testului F. Acest test verific existena unei dependene liniare ntre variabila y i variabilele independente. n cazul n care testul F este nesemnificativ, leg tura ar putea s nu fie liniar . valoarea testelor de semnificaie pentru coeficienii de regresie. 1ac parametrul de regresie al uneia din variabilele independente nu difer semnificativ de $, este posibil ca variabila respectiv s fie redundant.

ntr%o serie de situaii particulare, pot fi introduse n modelel de regresie i anumite variabile calitative 'nemetrice(, i anume variabilele de tip dummy. 6 variabil dumm& este o variabil care poate lua doar dou valori 'da7nu, brbai7femei, mediu urban7mediu rural etc.(, notate convenional cu # i $. 1esigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dumm&, dar acest lucru ar duce la o serie de inconveniente. 6 asemenea variabil poate fi utilizat ntr%o ecuaie de regresie n acelai mod ca o variabil cantitativ .

Analiza de regresie n SPSS


n exemplul de analiz de regresie ce urmeaz vom folosi tot baza de date Employee data.sav. 8a variabil dependent vom considera salariul actual 'salary(, iar ca variabile independente salariul de nceput ' salbegin(, vec9imea n banc 'jobtime( i nivelul de educaie 'educ(. Pentru a rula analiza de regresie vom apela comanda! Analyze > Regression > Linear n c/mpul Dependent introducem variabila salary, iar n c/mpul ndependent!s" introducem cele trei variabile independente. Apsm OK pentru a rula analiza. :at tabelele de output care ne intereseaz!
Model Summary Model R R Square Adjusted R Std. Error Square of the Estimate 1 .895 .801 .800 $7, ! .00 a "redi#tors$ %&o'sta't(, Edu#atio'al )e*el %years(, Mo'ths si'#e +ire, ,e-i''i'- Salary . /e0e'de't 1aria.le$ &urre't Salary

n acest tabel ne este prezentat un sumar al analizei. 8ea mai interesant pentru noi este penultima coloan, unde putem vedea coeficientul de corelaie

multipl, egal cu $.;$ pentru aceast analiz. Aceasta nseamn c salariul curent al unui lucrtor este determinat n proporie de ;$5 de cele trei variabile independente i n proporie de "$5 de alte influene, neluate n calcul aici.
A231A Model Sum of df Mea' 4 Si-. Squares Square 1 Re-ressio' 110!59 9!55 5 5 815651! 69.705 .000 9.565 ! .508 Residual 67!7 80109 !70 58! 1678.9 .817 69 7otal 15791 !95!5 !75 .5!0 a "redi#tors$ %&o'sta't(, Edu#atio'al )e*el %years(, Mo'ths si'#e +ire, ,e-i''i'- Salary . /e0e'de't 1aria.le$ &urre't Salary

Acest tabel ne prezint rezultatele analizei A<6.A pentru modelul nostru de regresie. 1up cum spuneam n seciunea anterioara, testul F ne arat dac ipoteza relaiei liniare ntre variabilele noastre este corect. 2egula de decizie este simpl! ipoteza relaiei liniare este corect dac valoarea factorului ,Sig.- din ultima coloan este mai mic dec/t nivelul de semnificaie ales de noi '$.$=(. n caz contrar, va trebui s lum n considerare construirea unui alt tip de relaii 'neliniar( ntre variabilele n cauz.
&oeffi#ie'ts 8'sta'dar Sta'dardi9 di9ed ed &oeffi#ie't &oeffi#ie't s s Model , Std. Error ,eta 1 %&o'sta't( : 565 . 1 1998 .506 ,e-i''i'- 1. 89 .058 .779 Salary Mo'ths 155.701 55.055 .096 si'#e +ire Edu#atio' 9 .107 157.96! .1 5 al )e*el %years( a /e0e'de't 1aria.le$ &urre't Salary t Si-.

: .175 69.609 !.!!6 .118

.000 .000 .000 .000

1in acest tabel ne intereseaz cu precdere dou coloane! cea a coeficienilor 'a treia( i cea a valorii testelor de semnificaie pentru coeficieni 'ultima(. Aici putem observa c toi coeficienii sunt semnificativi 'valorile factorilor ,Sig.- sunt mai mici dec/t $.$=(. >cuaia noastr de regresie se scrie astfel! salary # $%&&'()*+, - %)('& . salbegin - %**)/+% . jobtime - &(()%+/ . educ - e Pe baza acestei ecuaii putem face diverse analize asupra variabilei dependente 'salariul curent(, n funcie de ceea ce ne intereseaz mai mult. Astfel, putem constata c!

% %

dac doi lucrtori au aceeai vec9ime n banc i acelai nivel de educaie, dar unul i%a nceput slu3ba cu un salariu cu #$$$ de dolari mai mare, acesta din urm va avea acum 'n medie( un salariu anual cu #?;4 dolari mai mare dec/t cellalt) un lucrtor care are o vec9ime mai mare cu #$ luni dec/t cellalt va avea un salariu cu cca #==@ de dolari mai mare, dac toate celelalte 'salariul iniial i nivelul de educaie( sunt aceleai) orice an n plus adugat la nivelul de educaie se traduce ntr%un spor mediu de salariu de cca 4?? dolari.

Residuals Statisti#s Mi'imum Ma;imum Mea' Std. /e*iatio' "redi#ted 1alue $1 , 6.55 $1!5,555. 9 $5!,!19.57 $15,600.51 Residual :$69,580. 5 $!9,618.!1 $.00 $7,780.06 Std. "redi#ted :1.1 8 7.698 .000 1.000 1alue Std. Residual :5.79! .515 .000 .998 a /e0e'de't 1aria.le$ &urre't Salary 2 !7! !7! !7! !7!

S introducem acum n nodelul nostru o variabil de tip dummy. Pentru aceasta vom transforma prin recodificare variabila gender n variabila dumm& gendum, care are valorile # pentru brbai i $ pentru femei. Apoi vom rula din nou analiza de regresie, introduc/nd variabila gendum alturi de cele dou variabile independente iniiale. 0abelele de output sunt urmtoarele!
Model Summary Model R Square Adjusted R Std. Error Square of the Estimate 1 .89 .806 .800 $7, 51. 8 a "redi#tors$ %&o'sta't(, <E2/8M, Mo'ths si'#e +ire, Edu#atio'al )e*el %years(, ,e-i''i'- Salary . /e0e'de't 1aria.le$ &urre't Salary R

A231A Model

Sum of df Mea' 4 Si-. Squares Square 1 Re-ressio 110 0076 ! 67 50181 !7!.7!6 .000 ' ! 90.851 176.708 Residual 67515770 ! 9 586!6581. 7!5.509 5!7 7otal 15791 !9 !75 5!5 .5!0 a "redi#tors$ %&o'sta't(, <E2/8M, Mo'ths si'#e +ire, Edu#atio'al )e*el %years(, ,e-i''i'- Salary . /e0e'de't 1aria.le$ &urre't Salary

&oeffi#ie'ts 8'sta'dar di9ed &oeffi#ie't Sta'dardi9 ed &oeffi#ie't t Si-.

s Model , Std. Error %&o'sta't( : 56! .686 19!55.868 ,e-i''i'1. 5 .0 1 Salary Mo'ths 151.156 55.097 si'#e +ire Edu#atio' 9!6.15 158.68 al )e*el %years( <E2/8M 1565.787 797.55!

s ,eta :5.995 .7 5 .089 .159 .059 67.1!5 !.507 5.956 1. 5 .000 .000 .000 .000 .097

1in punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o mbuntire! 2" este acelai. :poteza liniaritii modelului se verific 'tabelul al doilea(, n sc9imb coeficientul variabilei gendum nu este semnificativ 'tabelul al treilea, coloana ,Sig.-, ultimul r/nd(. 1ac acceptm totui variabila gendum ca variabil independent, putem deduce din valoarea coeficientului su c brbaii au n medie un salariu cu cca #A"? dolari mai mare dec/t femeile.
Rezumat

Analiza de regresie studiaz legtura dintre o variabil dependent i una sau mai multe variabile independente, prin intermediul unei ecuaii de regresie. n cadrul cursului de fa am discuta doar despre regresia liniar . >lementele cele mai importante
care trebuie luate n discuie la interpretarea unei analize de regresie sunt! coeficientul de determinare, analiza de varian i coeficienii de regresie.

Teste de control #. 2ealizai o analiz de regresie multipl , cu variabile numerice, pe o baz de date la alegere. ". 2ealizai o analiz de regresie multipl , care sa includ cel puin o variabil de tip dumm&, pe o baz de date la alegere.