Sunteți pe pagina 1din 5

Regresie Liniara Simpla si Multipla

DEPI-IIIB-LAB

In multe domenii se întâlnesc situaţii care presupun luarea unor decizii, care necesită prognoze
sau care pun în evidenţă nevoia de a cunoaşte modul în care depind unele de altele anumite mărimi
importante.

Se consideră că între variabilele Y şi X1, X2, …Xn există o interdependenţă, în sensul că Y este
influenţat de X1, X2, …Xn. Metoda regresiei conduce la obţinerea unei expresii analitice a acestei
dependente ( a unei funcţii de regresie) care sintetizează forma şi sensul variaţiei lui Y sub influenţa
factorilor Xi (i=1..n). Variabila Y se numeşte variabilă dependentă (sau variabila răspuns), iar
variabilele X1, X2, …Xn se numesc variabile independente sau variabile predictor.

Regresia liniară simplă este realizata în cazul în care o linie dreaptă este folosit pentru a aproxima
relația dintre o singură variabilă independenta predictor și o singura variabilă de răspuns
(dependentă). Dacă se consideră doua sau mai multe variabile predictor, se obţine un model de
regresie multiplă.

REGRESIE LINIARA SIMPLA


Dacă între variabilele X şi Y există o legătură de formă liniară, metoda regresiei permite estimarea:

𝑦̂ = 𝑏0 + 𝑏1 𝑥 (1)

Relația (1) este denumita ecuația estimată a regresiei, unde:

• 𝑦̂ este valoarea prezisă (estimată) a variabilei dependente;


• 𝑏0 este termenul liber al dreptei de regresie, locul pe ordonata unde dreapta de regresie se
intersectează cu axa y;
• 𝑏1 este panta dreptei de regresie;
• 𝑏0 , 𝑏1 se numesc coeficienți de regresie

Linia adevarata de regresie este data de ecuația:

y = b0 + b1 x +  (2)

Relatia (2) este denumita ecuatia regresiei, unde 𝜀 este termenul de eroare. Să presupunem că avem
n observații pentru modelul dat de ecuatia (2):

yi = b0 + b1 xi + i (3)

1
pentru 𝑖 = 1, 𝑛. Reziduurile (𝑦𝑖 − 𝑦̂) sunt estimări ale termenilor de eroare 𝜀𝑖 .

Desigur, căutam sa minimizam suma totala a erorilor de predicție. Regresia in sensul celor mai
mici pătrate funcționează prin alegerea liniei de regresie care minimizează suma pătratelor
reziduurilor peste toate punctele de date. Exista metode alternative de alegere a liniei care
aproximează cel mai bine relația liniară între variabile, cum ar fi regresia mediană, dar metoda
celor mai mici pătrate ramane metoda cea mai comuna.

Linia celor mai mici patrate este aceea linie care minimizeaza suma erorilor patratice (sum of
squared errors)

SSE = 1 i2 = i =1 ( yi − b0 − b1 xi )
n n 2
(4)

SSE
= −2 i =1 ( yi − b0 − b1xi )
n
b0 (5)

SSE
= −2 i =1 xi ( yi − b0 − b1xi )
n
b1 (6)

Suntem interesati in valorile pentru estimările 𝑏0 , 𝑏1 , astfel egalând ecuatiile 5 si 6 cu zero avem:
𝑛

∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 ) = 0
𝑖=1

∑ 𝑥𝑖 (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 ) = 0
𝑖=1

Si rezolvand ecuațiile avem:

∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − [(∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 )] /𝑛


𝑏1 =
∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2 /𝑛

𝑏0 = 𝑦 − 𝑏1 𝑥

unde n este numărul total de observații, 𝑥 este media variabilei predictor, iar 𝑦 este media
variabilei răspuns.

REGRESIE LINIARA MULTIPLA


O regresie liniara multipla de „m” variabile independente are ecuatia de forma:

𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑚 𝑥𝑚

2
Modelul de regresie multiplă este o extensie directă a modelului de regresie liniară simplă.
Coeficienți regresiei 𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑚 sunt determinați prin minimizarea sumei erorilor patratice.

CALITATEA UNUI MODEL DE REGRESIE


Pentru caracterizarea funcţiei de regresie (calitatea funcţiei de regresie) se pot folosi indicatorii
descriși in continuare.

3.1 COEFICIENTUL DE CORELAȚIE


O măsură comuna folosita pentru a cuantifica relația liniară între două variabile este coeficientul
de corelație. Acest coeficient este dat de relația:

∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑟= (7)
√[∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 ] [∑𝑛𝑖=1(𝑦𝑖 − 𝑦)2 ]

Acest coeficient ia valori in intervalul [-1;1]. Interpretarea acestui coeficient este urmatoarea:

• Valori ale lui r apropiate de 1 indica faptul ca variabilele sunt corelate pozitiv.
o la cresterea valorii lui x vom avea o crestere a valori lui y
• Valori ale lui r apropiate de -1 indica faptul ca variabilele sunt corelate negativ.
o o crestere a valori lui x este asociata cu o descrestere a valorii lui y
• Valori apropiate de zero indica faptul ca variabilele sunt necorelate

3.2 COEFICIENTUL DE DETERMINARE


Coeficientul de determinare (notat r2) masoara cat de bine aproximarea liniara produsa de regresie
se potrivește de fapt cu datele observate. Considerând SSR (sum of squares regression) si SST
(sum of squares total)

𝑆𝑆𝑅 = ∑(𝑦̂ − 𝑦)2

𝑆𝑆𝑇 = ∑(𝑦 − 𝑦)2

coeficientul de determinare este dat de relația


𝑆𝑆𝑅
𝑟 2 = 𝑆𝑆𝑇 (8)

Coeficientul de determinare ia valori in intervalul [0;1]. Valori ale lui r2 apropiate de 1 denota o
potrivire foarte bună a ecuației regresiei cu datele; valori aproape de zero denotă o potrivire extrem
de slabă. Valoarea maxima a lui r2 este produsa în cazul în care regresia este o potrivire perfecta
pentru setul de date.

3.3 EROAREA STANDARD

3
Eroarea standard (s) este o măsură a preciziei estimărilor produse de regresie. Valori mici ale lui s
sunt de dorit. s este data de relația:

∑𝑛 (𝑦𝑖 − 𝑦̂𝑖 )2
𝑠 = √ 𝑖=1
𝑛−𝑚−1

DESFĂȘURAREA LUCRĂRII
Setul de date cereale conține informații nutriționale pentru 77 branduri de cereale pentru micul
dejun , avand ca variabile independente continutul de zahar, grasimi si fibre, iar ca variabila de
iesire (y) ratingul (adica succesul de vanzare al produsului). Incarcati acest set de date in mediul
de lucru Matlab.

1) Scrieti o functie MATLAB ( o denumiti regresie) pentru calculul coeficienților unei


regresii liniare simple.
2) Folosind drept variabila dependenta (y) ratingul, denumit evaluator si ca variabila
independenta (x) concentratia de zahar, aplicati functia regresie definita la punctul 1 si
reprezentati cu ajutorul functiilor scatter si plot din MATLAB atat punctele din setul de
date cat si dreapta de regresie.
Indicatie pentru grafic:
figure, scatter(cereale.zahar, cereale.evaluator);
hold on
x = min(cereale.zahar):max(cereale.zahar);
y=b0+b1*x;
plot(x,y);

hold off

3) Calculati parametrii de calitate ai modelului de regresie folosind funcțiile


MATLAB:
regstats(cereale.evaluator,cereale.zahar,'linear'); %(selectati R square statistic si Mean
square error)
r = corr(cereale.evaluator,cereale.zahar); % calculeaza coeficientul de corelație
Notati rezultatele si fotografiati sau salvati graficul (print screen).
4) Repetati pasii de la punctele 2) si 3) pentru cazurile cand variabila independenta este
concentratia de grăsimi si respectiv de fibre.
5) Calculati coeficientii unei regresii liniare multiple (duble) pentru cazul cand variabila
dependenta (y) este ratingul din evaluator si variabilele independente sunt concentratiile
de zahar si de grăsimi ale cerealelor. Se va utiliza funcția regstats din MATLAB si se va
selecta din coloana afisata pe ecran obiectul coefficients.
regstats(cereale.evaluator,[cereale.zahar cereale.grasimi],'linear');
6) Reprezentati punctele datelor de regresie multiple, cat si planul regresiei pentru punctul 5.

4
Indicatie:
x1= cereale.zahar;
x2= cereale.grasimi;
y = cereale.evaluator;
figure, scatter3(x1,x2,y,'filled');
hold on
x1fit = min(x1):1:max(x1);
x2fit = min(x2):1:max(x2);
[X1FIT,X2FIT] = meshgrid(x1fit,x2fit);
YFIT = beta(1) + beta(2)*X1FIT + beta(3)*X2FIT; % beta= coeficientii regresiei
mesh(X1FIT,X2FIT,YFIT);
hold off
xlabel('Zahar')
ylabel('Grasimi')
zlabel('Evaluator')
7) Calculati parametrii de calitate a modelului de regresie de la punctul 5) folosind functia
regstats. Notati rezultatele.
8) Reluati punctele 5), 6) si 7) pefolosind drept variabila dependenta (y) ratingul din
evaluator si ca variabile independente concentratiile de zahar si fibre ale cerealelor.

S-ar putea să vă placă și