Sunteți pe pagina 1din 34

Regresia multipl

Ce vom nva n acest capitol:


Ce este analiza de regresie multipl?
Rolul important pe care l are computerul n analiza regresiei
multiple.
Cum pot fi utilizate distribuiile t i F pentru testarea
semnificaiei relaiilor n analiza regresiei multiple.
Conceptul de multicolinearitate.
Utilizarea variabilelor fictive n analiza de regresie.
Ce se nelege prin funcii curbilinii de regresie i un model
liniar generalizat.
Cum poate fi utilizat analiza de regresie multipl n analiza
varianei.
Cuprins
Modelul de regresie multipl
Problema Butler Trucking
Construirea ecuaiei estimate a regresiei
Testarea semnificaiei relaiei
Determinarea acceptabilitii modelului
Utilizarea variabilelor calitative
Stabilirea situaiilor n care trebuie s tergem sau s
adugm variabile
Estimare i predicie
Funcii curbilinii de regresie
Regresia multipl ca instrument de analiz a varianei
Am discutat deja asupra modului n care poate fi utilizat analiza de
regresie pentru a construi ecuaii matematice care s ateste
legtura dintre dou variabile. Reamintim faptul c variabila care
urmeaz a fi explicat, sau asupra creia urmeaz a fi efectuate
predicii, poart numele de variabil dependent; variabila care
urmeaz a fi utilizat pentru predicii, sau observat, poart numele
de variabil independent. Vom continua studiul analizei de regresie
lund n considerare situaia care implic dou sau mai multe
variabile independente i artnd modul n care tehnicile regresiei
pot fi adaptate la modelul relaiei curbilinii. Studiul modelelor de
regresie care implic mai mult de o variabil independent este
numit analiza regresiei multiple.
15. 1. Modelul regresiei multiple
Considerm o situaie care se refer la vnzarea unui nou produs (y)
ntr-o anumit regiune. Presupunem c avem motive s considerm
c vnzrile au legtur cu dimensiunea populaiei (
1
x ) i cu
repartizarea venitului mediu (
2
x ) al locuitorilor din regiune, prin
urmtorul model de regresie:
+ + +
2 2 1 1 0
x x y
(15. 1)
Relaia din (15. 1.) este un model de regresie multipl implicnd
dou variabile independente. Notm c dac 0
2
, atunci
2
x nu
este n relaie cu y i deci modelul de regresie multipl se reduce n
acest caz la un model de regresie cu o sigur variabil
independent i are astfel forma:
+ +
1 1 0
x y
.
Modelul de regresie multipl (15.1.) poate fi extins la cazul a p
variabile independente doar prin adugarea mai multor termeni.
Cazul general este descris de relaia (15.2.):
Modelul de regresie multipl
+ + + + +
p p 2 2 1 1 0
x ... x x y
(15. 2)
Notm c dac
0 ...
p 4 3

, atunci (15.2.) se reduce la
modelul de regresie cu dou variabile independente, din (15.1.).
Toate presupunerile pe care le-am fcut asupra termenului eroare n
cazul regresiei simple le vom pstra i n analiza regresiei multiple:


este o variabil aleatoare normal distribuit, care ia valori
pozitive i negative i reflect erorile, sau deviaiile dintre
valoarea lui y i valoarea rezultat din calcul prin nlocuirea lui
x corespunztor n
+ + + + +
p p 2 2 1 1 0
x ... x x
.
Eroarea are media egal cu zero:
( ) 0 M
.
Eroarea are dispersia
2
, care rmne aceeai indiferent de
valorile variabilelor independente p 2 1
x , ... , x , x
.
Valorile erorilor sunt independente.
Utiliznd presupunerea 2, putem aplica valoarea medie n ambii
membri din (15.2.) i obinem ecuaia multipl a regresiei din
(15.3.):
( )
p p 2 2 1 1 0
x ... x x y M + + + +
(15.3.)
Aceast ecuaie arat relaia dintre valorile variabilelor
independente i media variabilei dependente. Pentru a ptrunde
mai profund n forma pe care ne-o ofer (3), considerm pentru
moment urmtoarea ecuaie de regresie pentru dou variabile
independente:
( )
2 2 1 1 0
x x y M + +
(15.4.)
Graficul acestei ecuaii este un plan n spaiul tridimensional. Figura
15.1. arat o astfel de reprezentare grafic pentru
1
x i
2
x pe
axele orizontale, iar y pe axa vertical. Notm c este diferena
dintre valoarea efectiv a lui y i valoarea medie a lui y,
( ) y M
, unde

1 1
x x i

2 2
x x .
Figura 1. Reprezentarea grafic a ecuaiei de regresie pentru
analiza regresiei multiple n cazul a dou variabile
n analiza de regresie termenul de variabil rspuns este
utilizat adesea n locul termenului de variabil dependent. Mai
departe, pentru c ecuaia de regresie multipl genereaz un plan,
sau o suprafa, graficul ei este cunoscut sub numele de suprafa
de rspuns.
n capitolul anterior am utilizat metoda celor mai mici ptrate
pentru a construi estimatori pentru
0

i
1
pentru modelul de
regresie liniar simpl. n analiza de regresie multipl metoda celor
mai mici ptrate se utilizeaz ntr-o manier similar pentru a
construi estimatori pentru parametrii
0

,
1
, ... , p

. Aceti
estimatori i vom nota cu
0

,
1

, ... respectiv p

. Ecuaia estimat
corespunztoare modelului de regresie multimpl este urmtoarea:
Ecuaia estimat a regresiei
p p 2 2 1 1 0
x

... x

x

y + + + +
(5)
n acest punct vom ncepe s vedem similaritile ntre conceptele
specifice analizei de regresie multipl i cele ale capitolului anterior.
Vom extinde conceptele specifice regresiei simple la cazul care
implic dou sau mai multe variabile independente. n seciunea
urmtoare vom aplica aceste concepte problemei companiei BT.
2. Problema Companiei BT
BT este o companiei independent localizat n sudul
Californiei. Cea mai mare parte a afacerilor BT implic distribuie n
acest perimetru.
Pentru a dezvolta un program de management mai bun, se
impune construcia unei ecuaii estimate de regresie care va ajuta
la efectuarea de predicii relativ la timpul zilnic total de lucru pentru
oferii companiei. Iniial se crede c timpul de lucru este n relaie
strns cu numrul de kilometri care trebuie parcuri. A fot ales
aleator un eantion pentru 10 zile de munc. Datele obinute sunt
trecute n Tabelul 1, iar diagrama scatter corespunztoare este
reprezentat n Figura 2.
Ziua Mile parcurse Timpul cltoriei
(ore)
1 100 9,3
2 50 4,8
3 100 8,9
4 100 5,8
5 50 4,2
6 80 6,8
7 75 6,6
8 80 5,9
9 90 7,6
10 90 6,1
Tabelul 1. Date preliminare pentru problema companiei BT
Diagrama scatter arat faptul c numrul de km parcuri
1
x
i timpul ct dureaz cltoria y apar ca fiind n relaie pozitiv:
odat cu creterea lui
1
x se nregistreaz i o cretere a lui y. Dup
observarea diagramei scatter, managerul companiei emite ipoteza
funcionalitii urmtorului model de regresie:
+ +
1 1 0
x y
Figura 2. Diagrama scatter pentru datele preliminare din problema
companiei BT
Notm c asta nu este nimic altceva dect modelul de regresie
liniar simpl n care am nlocuit cu
1
x pe x. Ca rezultat al acestei
schimbri de notaie, vom utiliza
i 1
x pentru a desemna observaia
cu numrul i a variabilei independente
1
x . Tabelul 2 arat aplicarea
formulelor pe care le ofer metoda celor mai mici ptrate i pe care
le-am ntlnit deja n capitolul referitor la regresia liniar simpl,
pentru calculul coeficienilor
0

i
1

. Dup efectuarea rotunjirilor,


ecuaia estimat a regresiei care arat relaia dintre timpul de
cltorie i i numrul milelor parcurse este dat de
1
x 067 , 0 13 , 1 y +
.
Ziua (i)
i 1
x - milele
parcurse
i
y - timpul
de
deplasare
(ore)
i 1
x
i
y
2
i 1
x
1 100 9,3 930 10000
2 50 4,8 240 2500
3 100 8,9 890 10000
4 100 5,8 580 10000
5 50 4.2 210 2500
6 80 6,8 544 6400
7 75 6,6 495 5625
8 80 5,9 472 6400
9 90 7,6 684 8100
10 90 6,1 549 8100
Total 815 66 5594 69625
Tabelul 2. Calculul prin metoda celor mai mici ptrate pentru
modelul care implic doar o singur variabil independent
6 , 6
10
66
y , 5 , 81
10
815
x
1

( )
0671 . 0
815
10
1
69625
66 815
10
1
5594
x
n
1
x
y x
n
1
y x

2
2
n
1 i
i
n
1 i
2
i
n
1 i
i
n
1 i
i
n
1 i
i i
1

,
_






1314 , 1 5 , 81 0671 , 0 6 , 6 x

1 1 0

Mile
parcurse
(
i 1
x )
Timpul de
deplasare (
i
y )
Timpul de
deplasare
estimat (
i
y
)
Erorile
i
y -
i
y
(
i
y -
i
y
)
2
100 9,3 7,830 1,470 2,1609
50 4,8 4,480 0,320 0,1024
100 8,9 7,830 1,070 1,1449
100 5,8 7,830 -2,030 4,1209
50 4.2 4,480 -0,280 0,0784
80 6,8 6,490 0,310 0,0961
75 6,6 6,155 0,445 0,1980
80 5,9 6,490 -0,590 0,3481
90 7,6 7,160 0,440 0,1936
90 6,1 7,160 -1,060 1,1236
Suma ptratelor erorilor SSE 9,5669
Tabelul 3. Calculul erorilor i al mrimii SSE pentru problema Butler
Trucking, utiliznd
1
x 067 , 0 13 , 1 y +
Astfel, coeficientul de determinare este:
6 , 0
24
4331 , 14
SST
SSR
R
2

Deoarece 6 , 0 R
2
, concluzionm c 60% din variaiile n nivelul
timpului de cltorie este explicat de relaia cu numrul de mile
parcurse. Se observ c 40% din variaie este nc neexplicat iar
analiza rezidual care este reprezentat n Figura 3 arat aceast
problem i, mai mult, pune ntrebarea dac modelul utilizat este
adecvat contextului.
Cutnd posibile alternative, managementul firmei sugereaz
c poate numrul de livrri ar putea fi de ajutor la estimarea
timpului de cltorie i deci la mbuntirea modelului de regresie.
Datele care cuprind i numrul de livrri sunt prezentate n Tabelul
4 unde prin
i 2
x am notat numrul livrrilor efectuate n ziua i.
Ziua
(i)
Mile parcurse
(
i 1
x )
Numr livrri
(
i 2
x )
Timpul de
deplasare (
i
y )
1 100 4 9,3
2 50 3 4,8
3 100 4 8,9
4 100 2 5,8
5 50 2 4.2
6 80 1 6,8
7 75 3 6,6
8 80 2 5,9
9 90 3 7,6
10 90 2 6,1
Tabelul 4. Date pentru problema companiei BT cu numrul de mile
parcurse (
i 1
x ) i numrul de livrri (
i 2
x ) ca variabile independente
Considernd numrul de livrri incluse ca o a doua variabil
independent, se obine umtorul model de regresie mulipl:
+ + +
2 2 1 1 0
x x y
(6)
Am notat:
1
x = numrul de mile parcurse;
2
x = numrul de livrri;
y = timpul de cltorie. Aa cum am artat n seciunea 1, pe baza
presupunerii c valoarea medie a termenului eroare este zero acest
model implic fptul c valoarea ateptat a lui y este n relaie cu
1
x i
2
x dup cum urmeaz:
( )
2 2 1 1 0
x x y E + +
(7)
Desigur, valorile parametrilor
2 1 0
, ,
nu vor fi cunoscute n
practic deci avem nevoie de estimarea acestora utiliznd datele
statistice din Tabelul 4. Ecuaia estimat a regresiei este de forma:
2 2 1 1 0
x

x

y + + . (8)
n seciunea urmtoare vom vedea cum putem determina valorile
corespunztoare pentru
2 1 0

,

.
3. Construcia ecuaiei estimate a regresiei
n Capitolul 14 am prezentat formule pentru estimarea lui
1 0

,

pentru modelul de regresie + +


1 1 0
x

y
. n cazul general
al regresiei multiple prezentarea obinuit a formulelor de calcul al
coeficienilor ecuaiei estimate a regresiei imlic utilizarea algebrei
matriceale i aceasta depete scopurile prezentului text. Totui,
pentru cazul special n care discutm dou variabile putem arta ce
se ntmpl. n aceast se ciune ne vom ocupa cu determinarea lui
2 1 0

,

pentru situaie a dou variabile independente pe care o


presupune problema BT.
n seciunea anterioar am artat c prin includerea efectului
numrului de livrri obinem urmtoarea ecuaie estimat a
regresiei:
2 2 1 1 0
x

x

y + + ,
unde
1
x = numrul de mile parcurse;
2
x = numrul de livrri.
Utiliznd aceste notaii, valoarea prezis pentru observaia cu
numrul i este:
i 2 2 i 1 1 0 i
x

x

y + +
unde
i 1
x = valoarea cu numrul i a lui
1
x ,
i 2
x = valoarea cu
numrul i a lui
2
x , iar
i
y
este valoarea prezis pentru timpul de
cltorie exprimat n ore atunci cnd
1
x =
i 1
x i
2
x =
i 2
x . Pentru
cazul a dou variabile, reziduurile se definesc dup cum urmeaz:
Reziduul pentru observaia i = ( )
i 2 2 i 1 1 0 i i i
x

x

y y y + + (9)
Metoda celor mai mici ptrate determin valorile
2 1 0

,

care
minimizeaz suma ptratelor reziduurilor. Astfel, trebuie s alegem
2 1 0

,

astfel nct s satisfac urmtorul criteriu:


( ) [ ]
2
i 2 2 i 1 1 0 i
x

x

y min + +
(10)
Utiliznd calcul diferenial poate fi artat c valorile
2 1 0

,

care
minimizeaz (10) trebuie s satisfac urmtoarele trei ecuaii,
numite ecuaii normale.
Ecuaiile normale cazul a dou variabile
( ) ( )

+ +
i 2 i 2 1 i 1 0
y

n (11)
( ) ( ) ( )

+ +
i i 1 2 i 2 i 1 1
2
i 1 0 i 1
y x

x x

x (12)
( ) ( ) ( )

+ +
i i 2 2
2
i 2 1 i 2 i 1 0 i 2
y x

x x

x (13)
Pentru a aplica ecuaiile normale trebuie s utilizm mai nti datele
pentru a determina valorile coeficienilor lui
2 1 0

,

i valorile din
partea dreapt a acestor ecuaii. Datele necesare pentru problema
BT se afl n Tabelul 5.
i
y
i 1
x
i 2
x
2
i 1
x
2
i 2
x
i 1
x
i 2
x
i 1
x
i
y
i 2
x
i
y
9,3 100 4 10000 16 400 930 37,2
4,8 50 3 2500 9 150 240 14,4
8,9 100 4 10000 16 400 890 35,6
5,8 100 2 10000 4 200 580 11,6
4.2 50 2 2500 4 100 210 8,4
6,8 80 1 6400 1 80 544 6,8
6,6 75 3 5625 9 225 495 19,8
5,9 80 2 6400 4 160 472 11,8
7,6 90 3 8100 9 270 684 22,8
6,1 90 2 8100 4 180 549 12,2
66,0 815 26 69625 76 2165 5594 180,6
Tabelul 5. Calculul coeficienilor pentru ecuaia normal a regresiei
Utiliznd informaiile din Tabelul 5 putem face nlocuirile n ecuaiile
normale i obinem:
66

26

815

10
2 1 0
+ + (14)
5594

2165

69625

815
2 1 0
+ + (15)
6 , 180

76

2165

26
2 1 0
+ + (16)
Prin rezolvarea acestui sistem de ecuaii obinem soluia:
7639 , 0

, 0562 , 0

, 0367 , 0

2 1 0

n consecin, ecuaia estimat a regresiei pentru problema BT
este:
2 1
x 7639 , 0 x 0562 , 0 0367 , 0 y + + .
Not asupra interpretrii coeficienilor:
Putem face acum o observaie n legtur cu relaia dintre ecuaia
estimat a regresiei n care numrul de km parcuri apare ca unic
variabil independent i cea care conine numrul de livrri ca a
doua variabil independent. Valoarea lui
1

nu este aceeai n
cele dou cazuri. n regresia liniar simpl l interpretm pe
1

ca
fiind cantitatea cu care se modific y ca urmare a modficrii cu o
unitate a variabilei independente. n cazul regresiei multiple,
interpretarea trebuie sa se modifice cumva. n regresia multipl
interpretm coeficienii dup cum urmeaz:
i

reprezint
modificarea care apare la y ca urmare a modificrii cu o unitate a
variabilei independente
i
x , cnd toate celelalte variabile
independente sunt meninute constante. De exemplu, n problema
BT sunt implicate dou variabile independente i 0562 , 0

1
.
Aadar, timpul de cltorie este de ateptat s nregistreze o
cretere cu 0,0562 ore ca urmare a creterii cu o unitate a
numrului de km parcuri, numrul de livrri rmmnd constant.
Similar, din 7639 , 0

2
aflm c durata cltoriei va fi de ateptat s
se majoreze cu 0,7639 ore dac numrul de livrri crete cu 1 i
numrul de km parcuri rmne neschimbat.
Exerciii
Exerciiul 1. Un magazin de pantofi a construit urmtoarea
ecuaie estimat a regresiei, care arat relaia dintre
vnzri, investiia n inventar si cheltuielile cu reclama:
2 1
x 8 x 10 25 y + +
unde
1
x = cheltuielile cu reclama (mii USD);
2
x = vnzri
(mii USD).
a) Estimai vnzrile dac exist 15.000 USD investii n
inventar i un buget pentru reclam de 10.000 USD.
b) Interpretai parametrii acestei ecuaii a regresiei.
Exerciiul 2. Proprietarul unui cinematograf ar dori sa
investigheze efectul pe care l are reclama televizat asupra
ncasrilor sptmnale pentru anumite filme care
beneficiaz de promoii speciale. Se cunosc urmtoarele
date istorice:
ncasri sptmnale (mii USD) Reclam televizat (mii USD)
96 5
90 2
95 4
92 2.5
95 3
94 3,5
94 2,5
94 3
a) Pe baza acestor date, construii o ecuaie estimat a
regesiei care atar relaia dintre ncasrile
sptmnale i cheltuielile cu reclama televizat.
b) Estimai venitul sptmnal pentru 3500 USD cheltuii
pentu reclam televizat.
Exerciiul 3. Considerm posibilitatea incorporrii efectului
reclamei n ziare alturi de cel al reclamei televizate asupra
ncasrilor sptmnale. Se cunosc urmtoarele date
istorice:
ncasri sptmnale
(mii USD)
Reclam n ziar (mii
USD)
Reclam
televizat (mii
USD)
96 1,5 5
90 2 2
95 1,5 4
92 2,5 2.5
95 3,3 3
94 2,3 3,5
94 4,2 2,5
94 2,5 3
Am notat
1
x = cheltuielile cu reclama n ziar (mii USD);
2
x
= cheltuielile cu reclama televizat (mii USD).
a) Scriei ecuaiile normale care trebuie rezolvate pentru
a gsi
2 1 0

,

.
b) Rezolvai aceste ecuaii i determinai ecuaia estimat
a regresiei pentru ncasrile sptmnale n funcie de
cheltuielile cu cele dou tipuri de reclam.
c) Coeficientul care corespunde cheltuielilor cu reclama
televizat este acelai pentru Exerciiul 2a i Exerciiul
3b? Interpretai rezultatul n fiecare dintre cele dou
cazuri n parte.
Exerciiul 4. Compania H consider c nivelul vnzrilor
pentru un anumit prodsu depinde de preul acestuia i d
preul produselor similare oferite de concuren. Vom nota
cu y cantitatea vndut (mii USD),
1
x = preul produsului
concurent (USD);
2
x = preul produsului companiei H (USD).
Se dorete estimarea ecuaiei de regresie care pune n
legtur nivelul vnzrilor cu cele dou preuri. Datele
urmtoare aduc informaii din zece orae diferite.
Preul prodsului
concurent
Preul produsului
companiei H
Cantitatea
vndut
120 100 102
140 110 100
190 90 120
130 150 77
155 210 46
175 150 93
125 250 26
145 270 69
180 300 65
150 250 85
a) Scriei ecuaiile normale.
b) Rezolvai ecuaiile normale entru a obine valorile
parametrilor din ecuaia estimat a regresiei.
c) Prognozai cantitatea vndut ntr-un ora unde preul
produsului Companiei H este 160 USD iar al
competitorilor este 170 USD.
d) Interpretai parametrii ecuaiei estimate a regresiei.
15.5. Determinarea acceptabilitii modelului
Testele pe care le-am discutat n cursul anterior ar trebui s fie
utilizate doar atunci cnd ipotezele referitoare la termenul eroare
sunt ndeplinite. Aceste ipoteze sunt importante pentru c ele stau
de fapt la baza testelor pe care le-am prezentat anterior. Analiza
rezidual ne va permite s judecm n ce msur sunt ndeplinite
aceste ipoteze i, de asemenea, n ce msur modelul pe care l-am
ales ca s descrie datele pe care le-am avut la dispoziie este
corespunztor sau nu. Se poate ntmpla ca datele s fie descrise
mai bine pe baza unui alt tip de model, a unei alte funcii dect cea
liniar, iar analiza rezidual ne ajut s stabilim dac lucrul acesta
se ntmpl sau nu.
Analiza rezidual
2 1
x 7639 , 0 x 0562 , 0 0367 , 0 y + +
Analiza rezidual din regresia multipl este similar cu aceea din
regresia care implic o singur variabil independent. Una dintre
cele mai obinuite reprezentri care poate fi utilizat pentru
examinarea ipotezelor legate de termenul eroare este
reprezentarea reziduurilor n raport cu valorile
i
y
. (n analiza de
regresie este de asemenea des ntlnit examinarea reprezentrii
reziduurilor n raport cu oricare dintre variabilele independente ale
modelului.) Figura urmtoare arat acest tip de analiz a
reziduurilor pentru problema BT, pentru care ecuaia estimat a
regresiei este
0367 , 0 y
+
1
x 0562 , 0 +
2
x 7639 , 0 + . Prin compararea
acestei reprezentri grafice cu acelea care sunt tipice unor reziduuri
care arat c modelul este relevant, putem concluziona c n figura
de mai jos nu nregistrm niciun fel de anomalii care s ne spun c
erorile nu ar ndeplini ipotezele.
Analiza reziduala - BT.spo
Figura 6. Reprezentarea reziduurilor n raport cu valorile
i
y

pentru problema BT
Prin urmare, vom concluziona c ipotezele modelului apar a fi
ndeplinite i deci concluziile statistice pe care le-am enunat ca
urmare a testrii semnificaiei sunt justificate.
Intensitatea relaiei
n acest moment putem spune c am concluzionat asupra faptului
c ipotezele modelului sunt corespunztoare i c ecuaia estimat
a regresiei
0367 , 0 y
1
x 0562 , 0 +
2
x 7639 , 0 + este statistic
semnificativ. Aceasta nseamn c exist o relaie semnificativ
ntre
1
x ,
2
x i y i c ecuaia estimat a regresiei poate fi utilizat
pentru predicii asupra valorilor y. Acum, am dori s calculm o
valoare care s indice o msur a intensitii relaiei, sau a bunei
potriviri a ecuaiei de regresie cu datele observate.
n cazul modelului liniar unifactorial, am utilizat coeficientul de
determinare
2
r
pentru a evalua intensitatea relaiei de regresie i l-
am calculat dup formula:
SPT
SPR
r
2
.
n analiza regresiei multiple se calculeaz o cantitate similar pe
care o numim coeficient de determinare multipl:
Coeficientul de determinare multipl
SPT
SPR
R
2

(21)
Atunci cnd este nmulit cu 100, acest coeficient de determinare
multipl reprezint procentul din variaia lui y care poate fi explicat
de ecuaia estimat a regresiei. n cazul problemei firmei de
curierat, gsim
7896 , 0
0000 , 24
9499 , 18
R
2

Prin urmare, 78,96% din variaia lui y este explicat de relaia cu
numrul de kilometri parcuri de o main i cu numrul de livrri.
Dac ne referim la prima seciune discutat pentru acest model, se
observ c atunci cnd am luat n calcul ca variabil independent
doar numrul de kilometri parcuri de o main coeficientul de
determinare a fost 6 , 0 r
2
. Prin urmare, procentul care explic
variabilitatea a crescut de la 60% la 78,96%. n general, este
adevrat c procentul corespunztor lui
2
R va crete pe msur ce
n ecuaia de regresie se adaug noi variabile independente, pentru
c adugarea de variabile face ca erorile de predicie s fie din ce n
ce mai mici deci se reduce valoarea lui SPE. Din cauza relaiei SPT =
SPR + SPT, atunci cnd SPE devine din ce n ce mai mic, SPR devine
din ce n ce mai mare i atunci raportul prin care este definit
2
R ,
anume
SPT
SPR
R
2
, va crete.
Muli analiti recomand ajustarea valorii
2
R pentru numrul de
variabile independente, pentru a evita supraestimarea impactului pe
care l are adugarea de alte variabile independente la explicarea
variabilitii lui y. Acest aa zis coeficient ajustat de determinare
se calculeaz astfel:
Coeficientul ajustat de determinare multipl
( )
1 p n
1 n
R 1 1 R
2 2
a


(22)
unde n este numrul de observaii, iar p este numrul de variabile
independente.
Pentru problema BT, obinem:
( ) 7295 , 0
1 2 10
1 10
7896 , 0 1 1 R
2
a


Att valoarea
2
R , ct i valoarea
2
a
R sunt oferite de SPSS.
Exerciii
10. Referitor la datele din Exerciiul 8:
a) Calculai
2
R
b) Calculai
2
a
R
c) Modelul explic o mare parte din variabilitatea datelor?
11. Referitor la datele din Exerciiul 5:
a) Pentru ecuaia estimat de regresie, calculai
2
R
b) Calculai
2
a
R
c) Modelul explic o mare parte din variabilitatea datelor?
15.6. Utilizarea variabilelor calitative
Pn acum, variabilele pe care le-am utilizat n construcia
modelului care exprim timpul total de lucru au fost variabile
cantitative, adic variabile care se msoar n termeni de valori
numerice (numr de km parcuri, sau numr de livrri). Frecvent,
totui, suntem n situaia s inserm n astfel de modele variabile
care nu pot fi msurate n termeni de valori numerice. Ne vom referi
la astfel de variabile ca la variabile calitative. De exemplu, s
presupunem c suntem interesai s estimm nivelul vnzrilor unui
produs care se comercializeaz att n sticle, ct i n pachete. n
mod evident, variabila independent tipul de recipient ar putea
influena variabila dependent nivel al vnzrilor, dar natura
containerului este o variabil calitativ pe care nu o putem msura
pe baza a ct de mult?; aceste variabile se utilizeaz ca s descrie
atribute care sunt sau nu sunt prezente.
S vedem acum modul n care putem utiliza variabilele calitative
pentru problema firmei de curierat. Presupunem c managerul
firmei bnuiete c tipul mainii utilizate este de asemenea
important n stabilirea timpului de lucru pentru un angajat. Acest
tip de main este un exemplu de variabil calitativ. Tabelul 9
arat mulimea extins de date pentru problema firmei BT, n care
am adugat variabila independent tipul de main ca fiind a treia
variabil independent. Pentru a incorpora efectul variabilei
calitative n model, vom defini urmtoarea variabil x
3
:

'

van pentru , 1
scuter pentru , 0
x
3
n analiza de regresie, o astfel de variabil poart fir numele de
variabil dummy, fie de variabil indicator.
Tabel 15.9. Datele pentru problema firmei de curierat, care
includ tipul mainii utilizate
Ziua (i) Numr
km
parcuri
(x
1
)
Numr de
livrri (x
2
)
Tipul
mainii (x
3
)
Timp de
lucru (y
ore)
1 100 4 Van 1 9,3
2 50 3 Scute
r
0 4,8
3 100 4 Van 1 8,9
4 100 2 Scute
r
0 5,8
5 50 2 Scute
r
0 4,2
6 80 1 Van 1 6,8
7 75 3 Van 1 6,6
8 80 2 Scute
r
0 5,9
9 90 3 Scute
r
0 7,6
10 90 2 Van 1 6,1
Prin adugarea acestei a treia variabile la funcia anterioar de
regresie folosit pentru estimarea timpului de lucru, obinem:
( )
3 3 2 2 1 1 0
x x x y E + + +
(1)
Se poate observa c atunci cnd x
3
0, corespunztor situaiei n
care maina este un scuter, ecuaia de regresie se reduce la
( )
2 2 1 1 0
x x y E + +
(2)
Dac, dimpotriv, dorim s vedem timpul de lucru atunci cnd
maina utilizat este un van, avem x
3
1 i prin urmare ecuaia de
regresie folosit este:
( )
3 2 2 1 1 0
x x y E + + +
(3)
Dac facem diferena ntre (3) i (2), deducem c
3

este de fapt
diferena n timpul de lucru care se datoreaz folosirii unui van n loc
de un scuter. Pornind de la (1), obinem ecuaia estimat a regresiei
pentru situaia n care lum n considerare variabila calitativ:
3 3 2 2 1 1 0
x b x b x b b y + + +
Ca de obicei, valoarea
3
b
este estimatorul lui
3

care rezult din


metoda celor mai mici ptrate.
Soluia problemei BT
Ecuaia estimat a regresiei care rezult prin utilizarea SPSS este:
3 2 1
x 9 , 0 x 71 , 0 x 046 , 0 522 , 0 y + + +
Se observ, aadar c
9 , 0 b
3

. Aadar, cea mai bun estimare a
diferenei ntre timpul ateptat de lucru care provine din utilizarea
unor tipuri deferite de main este de 0,9 ore, adic 54 de minute.
Pentru a testa semnificaia variabilei
3
x
n contextul n care
variabilele
2 1
x , x sunt date vom stabili ipotezele:
o : H
0 : H
3 1
3 0

Utilizm
05 , 0
i
6 1 p n
grade de libertate i oblinem din tabel
valoarea lui t ca fiind
447 , 2 t
025 , 0

. Din datele rezultate din analiza
computerizat, deducem c
7 , 1 528 , 0 / 9 , 0 s / b
3
b 3

. Deoarece 1,7
2,447, nu putem respinge ipoteza nul i trebuie s concluzionm
c tipul mainii nu este, de fapt, un factor semnificativ n estimarea
timpului de lucru, odat ce numrul de kilometri parcuri i numrul
de livrri au fost luate n calcul. Concluzia final este nu c tipul
mainii nu este semnificativ n sine, ci c el nu mai este semnificativ
odat ce au fost luate n calcul celelalte dou elemente. Acesta este
un aspect deosebit de important, care va fi discutat n continuare.
Exerciii
12. Urmtorul model de regresie a fot propus pentru a
estima nivelul vnrilor la un fast food:
x x x y
3 3 2 2 1 1 0
+ + + +
. Semnificaia variabilelor este
urmtoarea:
1
x este numrul de competitori pe raz de 1
km;
2
x este populaia pe raz de un km, exprimat n mii de
persoane;
3
x
ia valoarea 1 dac exist o fereastr special
pentru maini (drive up window) i ia valoarea 0 dac
aceast fereastr nu exist; y este nivelul vnzrilor,
exprimat n mii euro.
Dup nregistrarea de date efective de la 20 de fast-fooduri,
a fost construit urmtoarea ecuaie estimat a regresiei:
3 2 1
x 3 , 15 x 8 , 6 x 2 , 4 1 , 10 y + +
a) Care este nivelul vnzrilor care se atribuie ferestrei
pentru maini?
b) Estimai nivelul vnzrilor pentru un punct fast food
cu doi competitori i populaie de 3000 de locuitori pe
raz de 1 km i fr fereastr pentru maini.
c) Estimai nivelul vnzrilor pentru un punct fast food
cu doi competitori i populaie de 3000 de locuitori pe
raz de 1 km i cu fereastr pentru maini.
13. Pentru a investiga relaia dintre timpul petrecut de o
main n service pentru reparaii i timpul care a trecut de
la reparaia precedent exprimat n luni (1) i natura
defeciunii, care poate fi mecanic sau electric (2), au fot
culese urmtoarele date:
Timpul pentru
reparaii (ore)
Timpul trecut de la
precedenta
solicitare de
service (luni)
Tipul defeciunii
2,9 2 Electric
3 6 Mecanic
4,8 8 Electric
1,8 3 Mecanic
2,9 2 Electric
4,9 7 Electric
4,2 9 Mecanic
4,8 8 Mecanic
4,4 4 Electric
4,5 6 Electric
Ignorai acum tipul defeciunii. Construii un model liniar
simplu pentru a estima durata reparaiei, pe baza numrului
de luni de la ultima solicitare se service.
14. Ecuaia pe care ai construit-o la exerciiul anterior ofer
o bun aproximare a datelor observate? Explicai.
15 + 16. Aceast poblem este o extensie a problemei
descrise la Exerciiul 13. n ncercarea de a incorpora
posibilele efecte ale tipului de defeciune, a fost adugat
urmtoarea variabil dummy:

'

mecanic , 0
electric , 1
x
2
Odat adugat aceast variabil, ecuaia de regresie
devine de forma
( )
2 2 1 1 0
x x y E + +
, unde
1
x este numrul
de luni care au trecut de la precedenta solicitare de service,
iar y este timpul necesar pentru reparaii, exprimat n ore.
Care este interpretarea lui
2
n aceast ecuaie de
regresie?
Ecuaia estimat de regresie n acest caz este:
2 1
x 2627 , 1 x 3876 , 0 9305 , 0 y + +
17. Pentru un nivel de semnificaie
05 , 0
, testai dac
ecuaia de regresie construit n exerciiile 15 + 16 indic o
relaie semnificativ ntre variabila dependent i variabilele
independente.
18. Considera c ecuaia pe care ai construit-o la
Exerciiile 15 + 16 este mai potrivit dect cea pe care ai
construit-o la exerciiul 13? Explicai.
19. Utilizai ecuaia estimat a regresiei din exerciiul 16
pentru a determina n medie cu ct difer timpul de service
pentru o main care are o defeciune electric, fa de o
main cu o defeciune mecanic.
15.7. Stabilim cnd s adugm i cnd s tergem variabile
n seciunea 15.4. am discutat asupra utilizrii unui test F pentru a
determina dac este sau nu avantajos s adugm o anumit
variabil, sau un grup de variabile, ntr-un model de regresie
multipl. Acest test se bazeaz pe determinarea gradului n care
suma ptratelor erorilor se reduce ca urmare a adugrii uneia sau
mai multor variabile independente n model. Vom ilustra mai nti
utilizarea testului n cazul problemei BT, stabilind dac adugarea
variabilei
2
x la modelul iniial cu o singur variabil (numrul de km
parcuri) a fost sau nu avantajoas.
Cu numrul de km parcuri ca unic variabil independent ,
metoda celor mai mici ptrate conduce la urmtoarea ecuaie
estimat a regresiei:
1
x 067 , 0 13 , 1 y +
Tabelul 15.3. arat calculul reziduurilor i valoarea SPE pentru
aceast ecuaie. Vedem din acest tabel c SPE 9,5669
Odat ce am adugat
2
x , numrul de livrri, ca a doua variabil
independent a modelului, am obinut ecuaia estimat a regresiei
ca fiind:
2 1
x 7639 , 0 x 0562 , 0 0367 , 0 y + + .
Din Tabelul 15.6. se observ c n acest caz SPE 5,0501. n mod
evident, prin adugarea celei de-a doua variabile s-a obinut o
reducere a valorii SPE. ntrebarea creia dorim s i rspundem este
urmtoarea: Prin adugarea variabilei
2
x s-a obinut o reducere
semnificativ a valorii SPE, sau puteam s meninem modelul cu o
singur variabil?
Pentru aceast seciune, vom utiliza notaia SPE (
1
x ) pentru a
desemna suma ptratelor erorilor pentru modelul cu o singur
variabil i notaia SPE (
1
x ,
2
x ) pentru suma ptratelor erorilor
pentru modelul cu dou variabile. Deci, reducerea care s-a
nregistrat prin trecerea de ma modelul unifactorial la modelul
bifactorial este
SPE (
1
x
,
2
x
) - SPE (
1
x
) 9,5669 5,0501 4,5168
Aplicm acum testul F pentru a stabili dac aceast reducere este
semnificativ. Numrrorul statisticii F pe care o utilizm este
reducerea care s-a nregistrat n valoarea SPE, mprit la numrul
de variabile adugate la modelul iniial. n cazul de fa, a fost
adugat o singur variabil i ca atare numitorul utilizat este 1:
( ) ( )

1
x , x SPE x SPE
2 1 1
4,5168
Numrtorul este, aadar, o msur a reducerii SPE per variabil
adugat n model.
Numitorul statisticii F este media MPE a ptratelor erorilor pentru
modelul care include toate variabilele. n cazul nostru, aceasta
corespunde modelului care include att variabila
1
x , ct i variabila
2
x i deci valoarea p este 2:
( )
7214 , 0
7
0501 , 5
1 p n
x , x SPE
MPE
2 1

Urmtoarea statistic F ofer baza de testare a semnificaiei


adugrii celei de-a doua variabile n model:
( ) ( )
( )
1 2 10
x , x SPE
1
x , x SPE x SPE
F
2 1
2 1 1

(15.26)
Numrul de grade de libertate de la numrtorul testului F este egal
cu numrul variabilelor adugate n model, iar numrul gradelor de
libertate de la numitor este 10 2 1.
Pentru problema firmei de curierat, obinem prin calcul direct:
26 , 6
7
0501 , 5
1
5168 , 4
F
Pe de alt parte, din tabele obinem la un nivel de semnificaie
05 , 0
:
59 , 5 F
05 , 0

Pentru c
59 , 5 F 26 , 6 F
05 , 0
>
, respingem ipoteza nul cum c
2
x nu
este statistic semnificativ. Cu alte cuvinte, adugarea lui
2
x n
model a condus la o scdere semnificativ a erorii de estimare
(exprimat c sum a ptratelor erorilor) pe care am fi fcut-o prin
utilizarea unei singure variabile i anume a lui
1
x .
Atunci cnd dorim s testm semnificaia adugrii unei singure
variabile independente unui model deja existent, rezultatul pe care
l-am obinut pe baza testului F se poate obine i pe baza testului t
pe care l-ai nvat n Seciunea 15.4. ntr-adevr, statistica pe care
tocmai am calculat-o este ptratul statisticii t pe care o utilizm ca
s stabilim dac un anumit parametru este nul.
Pentru c testul t este echivalent cu testul F doar pentru o singur
variabil independent suplimentar, detaliile cu privire la utilizarea
lui pentru parametrii individuali sunt clare. Dac un parametru
individual nu este semnificativ, atunci variabila corespunztoare
poate fi eliminat din model. Totui, pe baza acestui test nu putem
elimina dect o singur variabil: dac o variabil este eliminat,
cealalt variabil care nu a fost iniial semnificativ, poate deveni.
Revenim la ntrebarea legat de cte variabile putem aduga astfel
nct rezultatul s fie ntr-adevr o reducere semnificativ a sumei
ptratelor erorilor.
Cazul general:
Considerm urmtorul model de regresie multipl care implic un
numr de q variabile independente:
x ... x x y
q q 2 2 1 1 0
+ + + + +
(15.27)
Dac adugm variabilele 1 q
x
+ , 2 q
x
+ , ..., p
x
, vom obine un model
care implic p variabile independente:
x ... x x
x ... x x y
p p 2 q 2 q 1 q 1 q
q q 2 2 1 1 0
+ + + + +
+ + + + +
+ + + +
(15.28)
Pentru a testa dac adugarea acestor variabile este statistic
semnificativ, fixm ipoteza nul i pe cea alternativ astfel:
0 ... : H
p 2 q 1 q 0

+ +
: H
1
cel puin unul dintre coeficieni este diferit de zero
Urmtoarea statistic ofer baza de testare a semnificaiei statistice
a variabilelor adugate n model:
( ) ( )
( )
1 p n
x ..., , x , x , x ..., , x , x SPE
q p
x ..., , x , x , x ..., , x , x SPE x ..., , x , x SPE
F
p 2 q 1 q q 2 1
p 2 q 1 q q 2 1 q 2 1

+ +
+ +
(15.29)
S facem observaia c pentru cazul particular n care q este 1,
(15.29) se reduce la (15.26).
Exerciii
20. ntr-o analiz de regresie care implic 27 de observaii, a
fost obinut urmtoarea ecuaie estimat a regresiei:
3 2 1
x 8 , 5 x 1 , 12 x 3 , 2 3 , 16 y + +
De asemenea, au fost obinute urmtoarele erori standard:
53 , 0 s
1
b

,
15 , 8 s
2
b

,
30 , 1 s
3
b

. La un nivel de semnificaie
05 , 0
, testai urmtoarele ipoteze:
a)
0 : H
1 0

versus
0 : H
1 1

b)
0 : H
2 0

versus
0 : H
2 1

c)
0 : H
3 0

versus
0 : H
3 1

d) Gsii vreuna dintre cele trei variabile care s poat fi
eliminat din model? De ce da, sau de ce nu?
21. ntr-o analiz de regresie care implic 30 de observaii, a
fost obinut urmtoarea ecuaie estimat a regresiei:
4 3 2 1
x 7 , 2 x 6 , 7 x 3 , 2 x 8 , 3 6 , 17 y + + +
.
Pentru acest model, SPT 1805 i SPR 1705.
a) Calculai
2
R
b) Calculai
2
a
R
c) Testai semnificaia relaiei dintre variabile la un nivel
de semnificaie
05 , 0
22. Referitor la Exerciiul 21: variabilele
1
x i
4
x au fost
elimitate din model i a fost obinut urmtoarea ecuaie
estimat a regresiei:
3 2
x 1 , 8 x 6 , 3 1 , 11 y +
Pentru acest model, SPT 1805 i SPR 1705.
a) Calculai
( )
4 3 2 1
x , x , x , x SPE
b) Calculai ( )
4 2
x , x SPE
c) Utilizai testul F i un nivel de semnificaie
05 , 0

pentru a stabili dac
1
x i
4
x contribuie semnificativ la
model.
15.8. Estimare i predicie
Estimarea valorii medii a lui y i predicia unei valori individuale y n
regresia multimpl sunt similare acelora din regresia simpl, care
implic doar o variabil independent. Reamintim mai nti faptul c
n Capitolul 14 am artat c estimatorul valorii ateptate a lui y
pentru o anumit valoare x a fost acelai ca i estimatorul valorii
individuale y. Am folosit ca estimator pe
x b b y
1 0
+
.
n regresia multipl utilizm aceeai procedur. Mai exact, nlocuim
valorile lui p 2 1
x ..., , x , x
n ecuaia estimat a regresiei i utilizm
valoarea care rezult pentru p p 1 1 0
x b ... x b b y + + +
ca estimator. n
cazul problemei firmei de curierat dorim s face cteva estimri
astfel:
o S estimm valoarea medie a timpului de lucru pentru
toate mainile care parcurg 50 de km i au de fcut
dou livrri.
o S estimm timpul de lucru pentru o anumit main
care parcurge 50 de km i are de fcut dou livrri.
Pe baza ecuaiei de regresie pe care am determinat-o anterior i
nlocuind valorile 50 x
1
i 2 x
2
obinem:
3745 , 4 2 7639 , 0 50 056 , 0 0367 , 0 y + +
Deci estimatorul timpului de lucru pentru ambele situaii este de
aproximativ 4,4 ore.
Pentru a construi un interval de estimare pentru valoarea medie a
lui y i pentru o valoare individual y, utilizm aceeai procedur ca
i n cazul regresiei simple. Formulele care sunt implicate aici sunt
dincolo de scopurile propuse pentru acest material. Cu toate
acestea, pachetele computerizate pentru regresia multipl ofer
adesea informaii despre intervalele de ncredere odat ce valorile
pentru p 2 1
x ..., , x , x
sunt specificate. n Tabelul 15.10. sunt indicate
intervalele de ncredere 95% pentru problema firmei de curierat,
pentru valori precizate ale variabilelor
1
x i
2
x . Trebuie s
observm c intervalele de estimare pentru valori individuale ale lui
y sunt mai mari dect cele pentru valoarea medie a timpului de
lucru. Aceasta reflect faptul c pentru valori date ale lui
1
x i
2
x
putem prognoza cu mai mult precizie timpul mediu de lucru pentru
toate mainile care se ncadreaz n acele condiii, dect n cazul
unei singure maini.
Tabelul 15.10. Intervale de ncredere 95% pentru problema
firmei de curierat
Valoare
a lui
1
x
Valoare
a lui
2
x
Valoarea ateptat
a lui y
Valoarea
individual a lui y
Limita
inferioar

Limita
superioar

Limita
inferioar

Limita
superioar

50 2 3,0841 5,6649 1,9869 6,7621


50 3 3,7127 6,5642 2,6750 7,6018
80 1 3,9907 6,7097 2,9006 7,6926
80 2 5,2984 6,8226 3,9120 8,2091
100 2 6,0774 8,2916 4,8908 9,4782
100 4 7,4853 9,9394 6,3584 11,0662
Exerciii:
23. Referitor la ecuaia de regresie din Exerciiul 22, fie
10 x
2
i
20 x
3

. Estimai valoarea lui y.
24. Urmtoarea ecuaie estimat a regresiei a fost
construit pentru a prognoza vnzrile anuale realizate de
angajaii unui departament de vnzri:
2 1
x 15 x 8 160 y + + ,
unde
1
x numrul de ani de experien n domeniu i 1 x
2

dac respectivul angajat a urmat cursuri de pregtire
specific, iar 0 x
2
altfel.
a) Estimai nivelul anual al vnzrilor pentru un angajat
care are trei ani de experien n domeniu i care nu a
urmat niciun curs de pregtire n domeniu.
b) Estimai nivelul anual al vnzrilor pentru un angajat
care are doi ani de experien n domeniu i care a
urmat cursuri de pregtire n domeniu.
c) Care este nivelul ateptat de cretere a vnzrilor ca
rezultat al urmrii unui curs de pregtire n domeniu?
15.9. Funcii curbilinii de regresie
Ca ilustrare a unei situaii care implic o ecuaie de regresie care nu
indic o relaie liniar, s analizm problema unui fabricant de
materiale de construcii. Conducerea firmei a studiat nivelul
vnzrilor unui anumit produs n sensul relaiei particulare care se
stabilete ntre dimensiunea comenzii pe care o realizeaz anual un
acelai client i numrul de solicitri pe care fabricantul le primete
anual.
A fost selectat aleator un eantion provenind de la apte clieni, iar
datele rezultate sunt cele din Tabelul 15.11. i respectiv din Figura
15.8.
Tabelul 15.11. Dimensiunea comenzilor solicitate anual i
numrul de comenzi, pentru problema ofertantului de
materiale de construcii
Numr de comenzi
(x)
Vnzri anuale (mii
lei)
2 12
3 17
4 16
5 24
6 26
7 34
8 46
Figura 15.8. Diagrama scatter pentru datele din Tabelul
5.11.
Conform reprezentrii din Figura 15.8. apare ca fiind rezonabil s
considerm c relaia dintre x i y poate fi aproximat printr-o linie
dreapt. Calculul unei astfel de ecuaii estimate a regresiei conduce
la urmtoarele rezultate:
x 21 , 5 07 , 1 y +
, cu 91 , 0 r
2
.
Dac realizm un test F de semnificaie pentru
05 , 0
, obinem
concluzia c x i y sunt ntr-adevr n relaie. Lista reziduurilor care
corespund acestei regresii este reprezentat n Tabelul 15.12. i
respectiv n Figura 15.9.
Tabelul 15.12. Reziduurile pentru ecuaia estimat a
regresiei
x 21 , 5 07 , 1 y +
Clien
t
Variabila
x
Variabila
y
Valoarea estimat
y
Reziduul
y y
1 2 12 9,35 2,65
2 3 17 14,56 2,44
3 4 16 19,77 - 3,77
4 5 24 24,98 - 0,98
5 6 26 30,19 - 4,19
6 7 34 35,40 - 1,40
7 8 46 40,61 5,39
Figura 15.8. Reprezentarea reziduurilor pentru ecuaia
estimat a regresiei
x 21 , 5 07 , 1 y +
Din analiza Tabelului 15.12. se poate observa c exist ceva
deranjant n modul n care sunt distribuite reziduurile negative:
patru astfel de valori una dup alta, ceea ce nseamn c modelul
liniar cumva supraestimeaz variabila dependent pentru aceste
valori. Mai mult, reprezentarea reziduurilor din Figura 15.8. nu arat
c punctele ar fi aleator distribuite de o parte i de alta a liniei
orizontale pe msur ce valorile lui
y
cresc. Cu toate c relaia dintre
cele dou variabile s-a dovedit a fi intens i statistic semnificativ, putem
s ncepem s ne ntrebm dac ipoteza pe care am impus-o, anume c
relaia dintre variabile ar fi una liniar este ntr-adevr corect. Din modul
n care arat diagrama scatter pe care am reprezentat-o n Figura 15.8. ne
putem gndi c poate o relaie neliniar este mult mai apropiat de
realitate.
S presupunem acum c ipoteza iniial este aceea a unei relaii ntre x i
y de tipul
x y
2
1 0
+ + .
La prima vedere, acesta pare a fi un model complet diferit de cel pe
care l-am studiat anterior. Totui, dac nlocuim
2
x
cu o variabil pe
care o notm cu z, putem rescrie modelul de regresie astfel:
z y
1 0
+ +
Aceast nou form de model sugereaz c pentru estimarea
coeficienilor si putem utiliza aceeai procedur ca i n cazul
anterior, n care variabila independent era notat cu x. Vom rescrie
formulele pe care le putem utiliza acum, n care singura modificare
fa de cazul deja studiat al regresiei cu o singura variabil
independent va fi notaia diferit a acesteia: z n loc de x.
( )
2
i
2
i
i i i i
1
z
n
1
z
y z
n
1
y z
b

(15.30)
z b y b
1 0

(15.31.)
Pentru problema ofertantului de materiale de construcii, avem
2
i i
x z . Singura diferen care apare n calculul coeficienilor este c
va trebui s folosim valorile
2
x
n loc de valorile x.
Calculul coeficienilor
0
b
i
1
b este rezumat n Tabelul 15.13.
Tabelul 15.13. Calculul coeficienilor ecuaiei estimate a
regresiei pentru
2
1 0
x b b y +
Clientul x
z
2
x
y zy
2
z
1 2 4 12 48 16
2 3 9 17 153 81
3 4 16 16 256 256
4 5 25 24 600 625
5 6 36 26 936 1296
6 7 49 34 1666 2401
7 8 64 46 2944 4096
Totaluri 35 203 175 6603 8771
29
7
203
n
z
z
i


25
7
175
n
y
y
i


( )
5298 , 0
203
7
1
8771
175 203
7
1
6603
z
n
1
z
y z
n
1
y z
b
2
2
i
2
i
i i i i
1



6358 , 9 29 5298 , 0 25 b
0

Rotunjind valorile rezultate la doar dou zecimale i apoi nlocuind z
cu
2
x
, obinem urmtoarea ecuaie estimat a regresiei:
2
x 53 , 0 64 , 9 y +
Aceast ecuaie indic o relaie curbilinie (ptratic) ntre x i y. O
reprezentare grafic a reziduurilor pentru acest nou model este
prezentat n Figura 15.10. Acum se pare c tiparul neobinuit care
aprea mai devreme a fost eliminat. Se poate arta c relaia dintre
y i
2
x
este statistic semnificativ i c n acest caz coeficientul de
determinare este 0,97.
Figura 15.10. Reprezentarea reziduurilor pentru ecuaia de
regresie
2
x 53 , 0 64 , 9 y +
Pe baza acestei analize, recomandm ca pentru perspectiva
efecturii unor predicii s fie utilizat ecuaia estimat a regresiei
2
x 53 , 0 64 , 9 y + . Cu toate acestea, trebuie spus c nu recomandm
ca acest model s fie utilizat pentru efectuarea de predicii n afara
intervalului de valori pe care le-am observat pentru x.
Modelul liniar general
Modelul de regresie multipl cu p variabile independente poate fi
generalizat pentru a include funcii curbilinii pentru unele dintre
variabilele independente. Un model general de regresie care include
p variabile independente poate fi scris astfel:
x ... z z y
p p 2 2 1 1 0
+ + + + +
(15.32.)
n (15.32.), fiecare dintre variabilele z este o funcie de alte variabile
x. Ce mai simplu caz este acela n care
i i
x z pentru toate cele p
valori posibile ale lui i. Exist, desigur, i situaii mai complexe. Un
exemplu ar putea fi acela pentru care p 2,
1 1
x z
i
2
1 2
x z .
Modelul se scrie, n acest caz, astfel:
x x y
2
1 2 1 1 0
+ + +
Multe alte modele pot fi imaginate pentru a ncerca descrierea
relaiei dintre variabile pentru diferitele situaii practice. n analiza
de regresie, (15.32.) este cunoscut sub numele de model statistic
liniar. Termenul liniar face referire aici la faptul c toi coeficienii
p 2 1 0
..., , , ,
ai modelului au exponent 1 i nu are legtur cu
faptul c relaia dintre variabile este liniar.
Modelele n care coeficienii p 2 1 0
..., , , ,
ai modelului au
exponeni diferii de 1 sunt cunoscute sub numele de modele
statistice neliniare. Chiar i n aceste cazuri se poate uneori s le
transformm n modele statistice liniare care s ne permit s
aplicm tehnicile de calcul de la modelul liniar. De exemplu, s
considerm urmtoarea ecuaie neliniar de regresie:
x
1 0
) y ( E (15.33.)
Prin logaritmare n ambii membri ai ecuaiei, obinem:
( )
1 0
log x log ) y ( E log +
(15.34.)
S notm acum ( ) ) y ( E log y
,
0 0
log
i
1 1
log
. Ecuaia de
regresie devine:
x y
1 0
+
. Este limpede c acum pot fi utilizate
formulele pentru regresia liniar simpl pentru a determina
estimatori pentru
0

i
1

, iar ecuaia estimat a regresiei va fi:


x b b y
1 0
+
(15.35.)
Pentru a obine predicii pentru variabila dependent original,
anume y, dat fiind o valoare a lui x, va trebui ca mai nti s
nlocuim valoarea x n (15.35.) i s determinm astfel
y
. Aplicnd
inversa funciei logaritm lui
y
vom obine valoarea cutat pentru
y, sau pentru valoarea ei medie.
n ncheierea acstei seciuni dorim s clarificm faptul c exist
multe modele neliniare care nu pot fi transformate n modele liniare
echivalente. Aceste modele au, ns, aplicabilitate limitat n
domeniul economiei i al afacerilor. Instrumentul matematic necesar
studiului acestor modele depete scopurile prezentului material.
Exerciii
25. Poliia rutier realizeaz un studiu cu privire la relaia
dintre fluena traficului n zone aglomerate i viteza cu care
se circul. Se presupune c urmtorul model este o ipotez
corespunztoare pentru a descrie aceast relaie:
x y
1 0
+ +
, unde y reprezint fluena traficului i este
exprimat n vehicule pe or, iar x este viteza vehiculelor i
este exprimat n km pe or. Urmtoarele date au fost
obinute la orele de vrf n ase zone aglomerate din ora:
Fluena traficului
(y)
Viteza autovehiculelor
(x)
1256 35
1329 40
1226 30
1335 45
1349 50
1124 25
a) Construii o ecuaie estimat a regresiei pentru aceste
date.
b) Testai relaia pe care ai obinut-o, la un nivel de
semnificaie de 0,01.
26. Referitor la problema anterioar, statisticienii sugereaz
utilizarea urntoarei ecuaii de regresie:
2
2 1 0
x b x b b y + +
.
a) Utilizai datele de la Ecerciiul 25 pentru a determina
parametrii acestei ecuaii estimate a regresiei.
b) Testai, la un nivel de semnificaie de 0,01,
semnificaia relaiei pe care ai obinut-o.
c) Estimai fluena traficului exprimat n vehicule pe or,
dac viteza de cirsulaie este de 38 km/or.
27. Urmtoarea ecuaie de regresie a fost construit pentru
a descrie relaia care se stabilete ntre nivelul vnzrilor
(mii lei) i dimensiunea magazinului (10.000 mp):
2
x 10 x 100 150 y +
. Ecuaia a fost construit pe baza datelor
provenite dintr-un eantion format cu 10 magazine. Au fost
obinute, de asemenea, valorile: 168000 SPT i 140000 SPR .
a) Calculai
2
R i
2
a
R
b) Testai semnificaia statistic a relaiei la un nivel de
semnificaie de 0,05.
15.10. Regresia multipl i analiza varianei
n seciunea 15.6. am discutat utilizarea variabilelor dummy n
analiza de regresie multipl. n aceast seciune artm cum pot
utilizarea variabilelor dummy ntr-o ecuaie de regresie cu mai multe
variabile poate oferi o alt abordare pentru rezolvarea problemelor
de analiz a varianei. Ne vom referi la exemplul GMAT din Capitolul
al 13 lea.
Reamintim c obiectivul studiului GMAT a fost s stabilim dac cele
trei programe de pregtire (o sesiune recapitulativ de trei ore; un
program de recapitulare de o zi i un curs de 10 sptmni) sunt
diferite n modul n care se reflect n punctajul obinut de ctre
studeni la examenul final. Am avut la dispoziie date de selecie
provenite de la studeni care au urmat cele trei programe de
pregtire i ne-am referit la cele trei populaii corespunztoare.
ncepem abordarea cu ajutorul analizei de regresie prin definirea a
dou variabile dummy care vor indica populaia din care a fost
selectat fiecare dintre eantioane. Pentru c n problema GMAT
exist trei populaii, avem nevoie de doar dou variabile dummy. n
general, n problem dac exist k populaii, atunci avem nevoie de
doar k 1 variabile dummy. n Tabelul 15.14. definim
1
x i
2
x .
Tabelul 15.14. Variabilele dummy pentru problema GMAT
1
x
2
x Aceste valori sunt utilizate ori de cte ori:
0 0 Observaia este asociat programului de 3 ore
1 0 Observaia este asociat programului de o zi
0 1 Observaia este asociat programului de 10
sptmni
Putem utiliza variabilele dummy
1
x i
2
x pentru a pune n relaie
punctajul obinut de fiecare student cu tipul de program pe care l-a
urmat. Vom nota cu E(y) valoarea ateptat a punctajului GMAT, iar
aceast valoare este:
( )
2 2 1 1 0
x x y E + +
Astfel, dac suntem interesai s tim care este punctajul ateptat
pentru un student care a urmat un program de pregtire de 3 ore,
nu avem dect s nlocuim valorile variabilelor independente n
ecuaia de regresie:
( )
0 2 1 0
0 0 y E + +
Aadar, putem interpreta valoarea lui
0

ca fiind valoarea ateptat


a punctajului pe care l obine un student care a urmat un program
de pregtire de 3 ore. n continuare, s vedem care este forma
ecuaiei estimate a regresiei pentru fiecare dintre celelalte
programe. Pentru programul de o zi, 1 x
1
i 0 x
2
. Atunci:
( )
1 0 2 1 0
0 1 y E + + +
Similar, pentru programul de 10 sptmni, avem 0 x
1
i 1 x
2
.
Atunci:
( )
2 0 2 1 0
1 0 y E + + +
Observm c
1 0
+
este valoarea ateptat a punctajului pe care l
obine un student care a urmat un program de pregtire de o zi, iar
2 0
+
este valoarea ateptat a punctajului pe care l obine un
student care a urmat un program de pregtire de zece sptmni.
Dorim acum s estimm aceti coeficieni i s construim ecuaia
estimat a regresiei care ne va ajuta s determinm punctajul
ateptat pentru orice program de pregtire. Eantionul de 15
observaii care a provenit de la cei 5 studeni pentru fiecare din cele
trei programe este n Tabelul 15.15. i a fost prelucrat cu ajutorul
unui soft special de analiz a datelor.
Rezultatele acestei analize au condus la urmtoarele valori pentru
estimatorii celor trei coeficieni:
509 b
0

, 17 b
1
i 43 b
2
. n
consecin, cea mai bun estimare pentru valorile ateptate ale
punctajelor celor trei programe este nregistrat n tabelul urmtor:
Tipul programului Estimatorul lui E(y)
3 ore de
recapitulare
509 b
0

Program de o zi 526 17 509 b b
1 0
+ +
Curs de 10
sptmni
552 43 509 b b
2 0
+ +

Tabelul 15.15. Datele iniiale pentru problema GMAT
Observaia
1
x
2
x
y
3 ore recapitulare 0 0 49
1
0 0 57
9
0 0 45
1
0 0 52
1
0 0 50
3
Program de o zi 1 0 58
8
1 0 50
2
1 0 55
0
1 0 52
0
1 0 47
0
Curs de 10
sptmni
0 1 53
3
0 1 62
8
0 1 50
2
0 1 53
7
0 1 56
1
Trebuie s observm c aceste cele mai bune estimri pe care le-
am obinut pe baza analizei de regresie coincid cu valorile medii din
fiecare eantion pe care le-am gsit atunci cnd am aplicat
procedura ANOVA i anume: 509 x
1
, 526 x
2
,
552 x
3

.
S vedem cum putem utiliza rezultatele pe care le-am obinut din
analiza datelor de regresie pentru a efectua testarea ANOVA asupra
diferenei de medii pentru cele trei programe. S observm mai
nti c, dac nu exist diferene ntre medii, atunci:
E(y) pentru programul de o zi E(y) pentru programul de 3 ore 0
E(y) pentru programul de 10 sptmni - E(y) pentru programul de 3
ore 0
Pentr c E(y) pentru programul de o zi 1 0
+
, E(y) pentru
programul de 3 ore 0

i E(y) pentru programul de 10 sptmni


2 0
+
, diferenele de mai sus se rescriu astfel:
E(y) pentru programul de o zi E(y) pentru programul de 3 ore
1

E(y) pentru programul de 10 sptmni - E(y) pentru programul de 3


ore
2

Deci, ajungem la concluzia c nu exist diferene ntre medii n cazul


n care 0
1
i 0
2
. Aadar, ipoteza nul pe care trebuie s o
avem n vedere este:
0 : H
2 1 0

S reamintim din Seciunea 15.4. c dac dorim s testm
semnificaia relaiei de regresie prin acest tip de ipotez, avem de
comparat valoarea raportului MPR/MPE cu valoarea critic a lui F
care are ca numr de grade de libertate la numrtor i la numitor,
acelai numr de grade de libertate pe care le au SPR i SPE,
respectiv. n cazul nostru, SPR are dou grade de libertate i SPE are
12 grade de libertate. Prin urmare, valorile MPR i MPE sunt
urmtoarele:
2345
2
4690
2
SPR
MPR
(SPSS)
2165
12
25980
12
SPE
MPE (SPSS)
Prin urmare, valoarea calculat a lui F este 2345/2145, adic
1,0831. La un nivel de semnificaie egal cu 0,05 valoarea critic a lui
F cu dou grade de libertate la numrtor i 12 grade de libertate la
numitor este 3,89. Pentru c valoarea calculat a lui F este mai mic
sau egal cu valoarea critic a lui F, nu putem respinge ipoteza nul
0 : H
2 1 0

, ceea ce nseamn c nu putem concluziona c ar
exista diferene ntre rezultatul celor trei programe de pregtire.