Sunteți pe pagina 1din 5

1

Regresie Liniara Simpla si Multipla



In multe alte domenii se ntlnesc deseori situaii care presupun luarea unor decizii, care necesit
prognoze sau care pun n eviden nevoia de a cunoate modul n care depind unele de altele
anumite mrimi importante.
Se consider c ntre variabilele Y i X
1
, X
2
, X
n
exist o interdependen, n sensul c Y este
influenat de X
1
, X
2
, X
n
. Metoda regresiei conduce la obinerea unei expresii analitice a unei
funcii de regresie care sintetizeaz forma i sensul variaiei lui Y sub influena factorilor Xi
(i=1..n). Variabila Y se numete variabil dependent (sau variabila de rspuns), iar variabilele
X1, X2, Xn se numesc variabile independente sau variabila predictor.
Regresia liniar simpl este realizata n cazul n care o linie dreapt este folosit pentru a
aproxima relaia dintre o singur variabil predictor i o singura variabil de rspuns
(dependent). Dac se consider doua sau mai multe variabile predictor, se obine un model de
regresie multipl.
REGRESIE LINIARA SIMPLA 1.
Dac ntre variabilele X i Y exist o legtur de form liniar, metoda regresiei permite
estimarea:

(1)
Relaia (1) este denumita ecuaia estimat a regresiei, unde:
este valoarea prezis (estimat) a variabilei dependente;

este termenul liber al dreptei de regresie, locul pe ordonata unde dreapta de regresie se
intersecteaz cu axa y;

este panta dreptei de regresie;


se numesc coeficieni de regresie


Linia adevarata de regresie este data de ecuaia:

(2)
Relatia (2) este denumita ecuatia regresiei, unde este termenul de eroare. S presupunem c
avem n observaii pentru modelul dat de ecuatia (2):

(3)
pentru . Reziduurile

sunt estimri ale termenilor de eroare

.
2

Desigur, cutam sa minimizam suma totala a erorilor de predicie. Regresia in sensul celor mai
mici ptrate funcioneaz prin alegerea liniei de regresie care minimizeaz suma ptratelor
reziduurilor peste toate punctele de date. Exista metode alternative de alegere a liniei care
aproximeaz cel mai bine relaia liniar ntre variabile, cum ar fi regresia median, dar metoda
celor mai mici ptrate ramane metoda cea mai comuna.
Linia celor mai mici patrate este aceea linie care minimizeaza suma erorilor patratice (sum of
squared errors)

(4)

(5)

(6)
Suntem interesati in valorile pentru estimrile

, astfel egalnd ecuatiile 5 si 6 cu zero avem:


Si rezolvand ecuaiile avem:


unde n este numrul total de observaii, este media variabilei predictor, iar este media
variabilei rspuns.
REGRESIE LINIARA MULTIPLA 2.
O regresie liniara multipla de m variabile independente are ecuatia estimat a regresiei de
forma:


Modelul de regresie multipl este o extensie direct a modelului de regresie liniar simpl.
Coeficieni regresiei

sunt determinai prin minimizarea sumei erorilor patratice.


3

CALITATEA UNUI MODEL DE REGRESIE 3.
Pentru caracterizarea funciei de regresie (calitatea funciei de regresie) se pot folosi indicatorii
descrii in continuare.
3.1 COEFICIENTUL DE CORELAIE
O msur comuna folosita pentru a cuantifica relaia liniar ntre dou variabile este coeficientul
de corelaie. Acest coeficient este dat de relaia:


Acest coeficient ia valori in intervalul [-1;1]. Interpretarea acestui coeficient este urmatoarea:
Valori ale lui r apropiate de 1 indica faptul ca variabilele sunt corelate pozitiv.
o la cresterea valorii lui x vom avea o crestere a valori lui y
Valori ale lui r apropiate de -1 indica faptul ca variabilele sunt corelate negativ.
o o crestere a valori lui x este asociata cu o descrestere a valorii lui y
Valori apropiate de zero indica faptul ca variabilele sunt necorelate
3.2 COEFICIENTUL DE DETERMINARE
Coeficientul de determinare (notat r
2
) masoara cat de bine aproximarea liniara produsa de
regresie se potrivete de fapt cu datele observate. Considernd SSR (sum of squares regression)
si SST (sum of squares total)


coeficientul de determinare este dat de relaia

(8)
Coeficientul de determinare ia valori in intervalul [0;1]. Valori ale lui r
2
apropiate de 1 denota o
potrivire foarte bun a ecuaiei regresiei cu datele; valori aproape de zero denot o potrivire
extrem de slab. Valoarea maxima a lui r
2
este produsa n cazul n care regresia este o potrivire
perfecta pentru setul de date.
3.3 EROAREA STANDARD
Eroarea standard (s) este o msur a preciziei estimrilor produse de regresie. Valori mici ale lui
s sunt de dorit. s este data de relaia:
4



DESFURAREA LUCRRII 4.
Setul de date cereale conine informaii nutriionale pentru 77 de cereale pentru micul dejun.
Incarcati acest set de date in mediul de lucru Matlab.
1) Scrieti o functie Matlab pentru calculul coeficienilor unei regresii liniare simple.
2) Folosind drept variabila dependenta (y) valorile din evaluator si ca variabila
independenta (x) valorile din zahar desenati cu ajutorul functiilor scatter si plot atat
punctele din setul de date cat si dreapta de regresie. Indiciu:
figure, scatter(cereale.zahar, cereale.evaluator);
hold on
x = min(cereale.zahar):max(cereale.zahar);
y=b0+b1*x;
plot(x,y);
hold off
3) Calculati parametri de calitate ai modelului de regresie folosind funciile:
regstats(cereale.evaluator,cereale.zahar,'linear'); %(selectati R square statistic si Mean
square error)
r = corr(cereale.evaluator,cereale.zahar); % calculeaza coeficientul de corelaie
Notati rezultatele.
4) Repetai paii de la punctele 2) si 3) pentru cazul in care variabila independenta este data
de fibre si apoi de grsimi.
5) Calculai coeficienii unei regresii liniare multiple pentru cazul in care folosim drept
variabila dependenta (y) valorile din evaluator si ca variabile independente cantitatea de
zahar si grsimi a cerealelor. Se poate folosi funcia matlab regstats si se vor selecta
coefficients.
regstats(cereale.evaluator,[cereale.zahar cereale.grasimi],'linear');
6) Reprezentati punctele datelor de regresie cat si planul regresiei pentru punctul 5. Indicu:
x1= cereale.zahar;
x2= cereale.grasimi;
y = cereale.evaluator;
figure, scatter3(x1,x2,y,'filled');
hold on
x1fit = min(x1):1:max(x1);
x2fit = min(x2):1:max(x2);
[X1FIT,X2FIT] = meshgrid(x1fit,x2fit);
YFIT = beta(1) + beta(2)*X1FIT + beta(3)*X2FIT; % beta= coeficienti regresiei
mesh(X1FIT,X2FIT,YFIT);
5

hold off
xlabel('Zahar')
ylabel('Grasimi')
zlabel('Evaluator')
7) Calculati parametri de calitate a modelului de regresie de la punctul 5) folosind functia
regstats. Notati rezultatele.
8) Reluati punctele 5), 6) si 7) pentru in care folosim drept variabila dependenta (y) valorile
din evaluator si ca variabile independente cantitatea de zahar si fibre a cerealelor.