Sunteți pe pagina 1din 8

Regresia liniar

1. Intoducere Fiind dat o funcie y(x) pentru care se cunoate un eantion de volum n (sunt cunoscute n perechi de valori (xi,yi), i=1,,n), se dorete a se estima comportamentul acestei funcii i pentru alte valori ale variabilei x. Aceast prognoz se efectueaz utiliznd ecuaia ce descrie legtura dintre cele dou seturi de date (xi,yi), i=1,,n. n acest context, se consider una dintre variabile (x) ca variabil independent sau variabil predictor, iar cealalt variabil (y) ca variabil dependent sau variabil rspuns. Legtura dintre cele dou variabile este descris de o ecuaie liniar, denumita ecuaia de regresie, creia i corespunde geometric dreapta de regresie. Ca metodologie, n cazul variabilelor numerice, variabila dependent se distribuie pe axa ordonatelor, n timp ce variabila independent se distribuie pe axa absciselor. Modul de prezentare al legturii liniare dintre dou variabile, n general numerice, atunci cnd aceasta exist, se numete metoda regresiei liniare (regresia liniar). Ecuaia dreptei de regresie se poate scrie sub forma , unde: este valoarea estimat a variabilei rspuns, b0 se numeste interceptor, b1 este panta dreptei de regresie, b0 i b1 poart numele de coeficieni de regresie. Un exemplu de regresie liniar este prezentat n figura 1

Figura 1: Regresie liniar pentru estimarea valorii nutritive (Rating) a cerealelor (ca alimente pentru micul dejun) n funcie de continutul de zahr 2. Metoda celor mai mici ptrate Ecuaia dreptei de regresie se stabilete pe baza metodei celor mai mici ptrate, metod ce va fi discutat n continuare. Pentru a putea reprezenta adevrata legtur liniar, aceea care este valabil pentru ntreaga plaj de valori posibile, deci pentru ntreaga p opulaie, nu doar pentru un eantion considerat, este necesar introducerea unui termen de eroare,

Termenii eroare sunt necesari pentru a modela factorul de nedeterminare. Aceti termeni eroare reprezinta diferena dintre valoarea real a variabilei rspuns i valoarea estimat a acestuia . Ideea de baz urmrit de metoda celor mai mici ptrate este determiarea coeficienilor de regresie b0 i b1 prin minimizarea erorii ptratice totale (Sum of Squared Errors = SSE) a populaiei p, . Expresia detaliat a erorii ptratice totale este

Minimizarea SSE implic calcularea derivatelor de ordinul I a SSE

si egalarea lor cu zero

Prin rezolvarea sistemului de ecuaii, rezulta

, unde n este numrul total de observaii, este valoarea medie a variabilei predictor i este valoarea medie a variabilei rspuns. 3. Evaluarea calitatii regresiei Suma erorilor ptratice, , reprezint o msur globl a erorii de predicie ca urmare a ecuaiei de regresie estimate. Altfel spus, SSE reprezint suma distanelor de la valorile variabilei rspuns la dreapta de regresie. O alt msur, care caracterizeaz setul de date este suma total a distanelor dintre valorile variabilei rspuns i media acestor valori (Sum of Squares Total SST). O alt modalitate de reprezentare a SST este n funcie de variana variabilelor rspuns, iar o alt reprezentare se poate face n funcie de deviaia standard:

Toate aceste msuri (SST, variana i deviaia standard) sunt msuri ce caracterizeaz doar variabilitatea variabilei rspuns.

Daca dorim sa comparam ct de bine poate aproxima un set de date o dreapta de regresie fata de aproximarea mai grosiera data de o dreapt medie, de cele mai multe ori performanele dreptei de regresie sunt mult mai bune (SSE are valori mult mai mici dect SST). Pentru a evalua aceasta comparatie de mai sus (cum aproximeaz un set de date o dreapta de regresie fa de o dreapt medie), este util expresia SSR Sum of Squares Regression:

Se poate demonstra c:

Practic, SSR arat cu ct se mbuntete acurateea prediciei atunci cnd avem n vedere i informaia furnizat de variabilele predictor. Sau, altfel spus, SSR msoar acea poriune a variabiltii variabilei rspus, de care este rspunztoare legtura liniar dintre rspuns i predictor. Cu toate acestea, se poate demonstra c nu toate punctele de date se regsesc exact pe dreapta de regresie, ceea ce nseamn c rmne n continuare un anumit grad de variabilitate ce nu poate fi exprimat de regresie. Deci, SSE poate fi privit ca o modalitatea de a msura variabilitatea din y ce provine din restul surselor (incluznd erori aleatoare) dup ce a fost luat n calcul acea poriune de variabilitate din y de care rspunde x. Coeficientul de determinare msoar ct de bine se potrivete regresia ca o aproximare a relaiei liniare dintre predictori i variabilele rspuns: Cu alte cuvinte, poate fi interpretat ca proporia de variabilitate din variabila y ce poate fi exprimat de relaia liniar dintre variabilele predictor i variabilele rspuns. Valoarea maxim ( 1 ) a lui este caracteristic situaiei n care regresia se potrivete perfect la setul de date (toate punctele cad pe dreapta de regresie), iar erorile reziduale ar fi nule , adica SSE=0.

Valoarea minim ( zero ) a lui este caracteristic situaiei n care regresia nu aduce nicio mbuntire fa de aproximarea cu o dreapt medie (SSE=SST). Eroarea standard de estimare, s msoar acurateea cu care regresia se potrivete la setul de date. Pentru a determina eroarea standard de estimare este necesar s calculam eroarea ptratic medie (Mean Squared Error MSE) , unde m indic numrul de predictori folosii, m = 1 fiind cazul regresiei liniare simple. Eroarea standard de estimare

O alt msur folosit pentru a cuantifica legtura liniar dintre dou variabile este coeficientul de corelaie, r definit ca , unde sx i sy reprezint deviaiile standard ale setului de variabile predictor i ale variabilelor rspuns. Avnd n vedere c coeficientul de determinare este ptratul coeficientului de corelaie i c primul poate lua valori nte 0 i 1, coeficientul de corelaie poate lua valori ntre -1 i 1. n plus, semnificaia uzual a valorilor coeficientului de corelaie este urmtoarea: Valori mai mari dect 0.7 indic faptul c variabilele sunt puternic corelate in sens pozitiv (cand x creste si y creste) Valori ntre 0.33 i 0.7 indic faptul c variabilele sunt slab corelate Valori ntre 0.33 i -0.33 indic faptul c variabilele nu sunt corelate Valori ntre -0.33 i -0.7 indic faptul c variabilele sunt slab corelate dar ntr-un sens negativ. Valori mai mici dect -0.7 indic faptul c variabilele sunt puternic corelate dar ntr-un sens negativ ( cand x creste, y scade).

4. Rezultate experimentale Pentru exemplul prezentat mai departe a fost ales setul de date Cereals i s-a dorit aproximarea variabilei rspuns Rating (Valoarea nutritiva) pe baza variabilei predictor Sodium. Tabelul 1. Tabelul pe baza cruia s-a determinat dreapta de regresie (folosind coloanele Sodium i Rating)

Obiectivele urmrite: 1. Calcularea coeficienilor b0 i b1 ai regresiei b0 = 44.7731 b1 = -0.0102

Fig. 2. Reprezentarea Rating-ului cerealelor n funcie de coninutul de sodiu 2. Calcularea SST sst = 5.7371e+003 3. Calcularea SSR ssr = 6.2527 Se poate observa c aceast valoare este mai mic dect suma total a erorilor ceea ce nseamn c o proporie mic din variabilitatea total a setului de date va fi justificat de legtura liniar dintre cele dou variabile Sodium i Rating.

5. Calcularea coeficientului de determinare r2 r2 = 0.0011 Aa cum era de ateptat s-a obinut o valoare mic a coeficientului de determinare, deci, aa cum se poate observa i pe grafic, dreapta de regresie se potrivete destul de puin cu setul de date. 5. Calcularea erorii medii standard s s = 20.9961 6. Pentru a avea o evaluare i mai bun a relaiei dintre variabilele predictor i cele rspuns, am calculate i coeficientului de corelatie r r = -0.0330 Conform interpretarilor cunoscute, aceast valoare indic faptul c ntre variabilele predictor i cele rspuns exist o corelaie negativ slab.

S-ar putea să vă placă și