Documente Academic
Documente Profesional
Documente Cultură
DEPI-IIIB-LAB
In multe domenii se întâlnesc situaţii care presupun luarea unor decizii, care necesită prognoze
sau care pun în evidenţă nevoia de a cunoaşte modul în care depind unele de altele anumite mărimi
importante.
Se consideră că între variabilele Y şi X1, X2, …Xn există o interdependenţă, în sensul că Y este
influenţat de X1, X2, …Xn. Metoda regresiei conduce la obţinerea unei expresii analitice a acestei
dependente ( a unei funcţii de regresie) care sintetizează forma şi sensul variaţiei lui Y sub influenţa
factorilor Xi (i=1..n). Variabila Y se numeşte variabilă dependentă (sau variabila răspuns), iar
variabilele X1, X2, …Xn se numesc variabile independente sau variabile predictor.
Regresia liniară simplă este realizata în cazul în care o linie dreaptă este folosit pentru a aproxima
relația dintre o singură variabilă independenta predictor și o singura variabilă de răspuns
(dependentă). Dacă se consideră doua sau mai multe variabile predictor, se obţine un model de
regresie multiplă.
𝑦̂ = 𝑏0 + 𝑏1 𝑥 (1)
y = b0 + b1 x + (2)
Relatia (2) este denumita ecuatia regresiei, unde 𝜀 este termenul de eroare. Să presupunem că avem
n observații pentru modelul dat de ecuatia (2):
yi = b0 + b1 xi + i (3)
1
pentru 𝑖 = 1, 𝑛. Reziduurile (𝑦𝑖 − 𝑦̂) sunt estimări ale termenilor de eroare 𝜀𝑖 .
Desigur, căutam sa minimizam suma totala a erorilor de predicție. Regresia in sensul celor mai
mici pătrate funcționează prin alegerea liniei de regresie care minimizează suma pătratelor
reziduurilor peste toate punctele de date. Exista metode alternative de alegere a liniei care
aproximează cel mai bine relația liniară între variabile, cum ar fi regresia mediană, dar metoda
celor mai mici pătrate ramane metoda cea mai comuna.
Linia celor mai mici patrate este aceea linie care minimizeaza suma erorilor patratice (sum of
squared errors)
SSE = 1 i2 = i =1 ( yi − b0 − b1 xi )
n n 2
(4)
SSE
= −2 i =1 ( yi − b0 − b1xi )
n
b0 (5)
SSE
= −2 i =1 xi ( yi − b0 − b1xi )
n
b1 (6)
Suntem interesati in valorile pentru estimările 𝑏0 , 𝑏1 , astfel egalând ecuatiile 5 si 6 cu zero avem:
𝑛
∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 ) = 0
𝑖=1
∑ 𝑥𝑖 (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 ) = 0
𝑖=1
𝑏0 = 𝑦 − 𝑏1 𝑥
unde n este numărul total de observații, 𝑥 este media variabilei predictor, iar 𝑦 este media
variabilei răspuns.
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑚 𝑥𝑚
2
Modelul de regresie multiplă este o extensie directă a modelului de regresie liniară simplă.
Coeficienți regresiei 𝑏0 , 𝑏1 , 𝑏2 , … , 𝑏𝑚 sunt determinați prin minimizarea sumei erorilor patratice.
∑𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑟= (7)
√[∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 ] [∑𝑛𝑖=1(𝑦𝑖 − 𝑦)2 ]
Acest coeficient ia valori in intervalul [-1;1]. Interpretarea acestui coeficient este urmatoarea:
• Valori ale lui r apropiate de 1 indica faptul ca variabilele sunt corelate pozitiv.
o la cresterea valorii lui x vom avea o crestere a valori lui y
• Valori ale lui r apropiate de -1 indica faptul ca variabilele sunt corelate negativ.
o o crestere a valori lui x este asociata cu o descrestere a valorii lui y
• Valori apropiate de zero indica faptul ca variabilele sunt necorelate
Coeficientul de determinare ia valori in intervalul [0;1]. Valori ale lui r2 apropiate de 1 denota o
potrivire foarte bună a ecuației regresiei cu datele; valori aproape de zero denotă o potrivire extrem
de slabă. Valoarea maxima a lui r2 este produsa în cazul în care regresia este o potrivire perfecta
pentru setul de date.
3
Eroarea standard (s) este o măsură a preciziei estimărilor produse de regresie. Valori mici ale lui s
sunt de dorit. s este data de relația:
∑𝑛 (𝑦𝑖 − 𝑦̂𝑖 )2
𝑠 = √ 𝑖=1
𝑛−𝑚−1
DESFĂȘURAREA LUCRĂRII
Setul de date cereale conține informații nutriționale pentru 77 branduri de cereale pentru micul
dejun , avand ca variabile independente continutul de zahar, grasimi si fibre, iar ca variabila de
iesire (y) ratingul (adica succesul de vanzare al produsului). Incarcati acest set de date in mediul
de lucru Matlab.
hold off
4
Indicatie:
x1= cereale.zahar;
x2= cereale.grasimi;
y = cereale.evaluator;
figure, scatter3(x1,x2,y,'filled');
hold on
x1fit = min(x1):1:max(x1);
x2fit = min(x2):1:max(x2);
[X1FIT,X2FIT] = meshgrid(x1fit,x2fit);
YFIT = beta(1) + beta(2)*X1FIT + beta(3)*X2FIT; % beta= coeficientii regresiei
mesh(X1FIT,X2FIT,YFIT);
hold off
xlabel('Zahar')
ylabel('Grasimi')
zlabel('Evaluator')
7) Calculati parametrii de calitate a modelului de regresie de la punctul 5) folosind functia
regstats. Notati rezultatele.
8) Reluati punctele 5), 6) si 7) pefolosind drept variabila dependenta (y) ratingul din
evaluator si ca variabile independente concentratiile de zahar si fibre ale cerealelor.