Sunteți pe pagina 1din 13

Analiza modelelor de regresie

Tabelul ANOVA (analiza


dispersionala)
 Teste de semnificaţie pentru modelul de regresie
 Acest test se bazează de definirea următoarelor sume:
 SST (suma totală a pătratelor)
 SSR (suma pătratelor regresiei)
 SSE (suma pătratelor erorilor)
Definitii
 regresia liniară definim variaţia totală în m observaţii ca sumă a
pătratelor între răspunsuri yj şi media tuturor răspunsurilor .
m
SST   y
j1
j y 
2

SSR dă variabilitatea în răspunsul y – explicitată de ecuaţia modelului


m
SSR   ŷ j  y 
2

j1

SSE este suma patratelor rezidualelor


m
SSE   y j  ŷ j 
2

j1
Grade de libertate
 SST = SSR + SSE
 SSR = SST – SSE

 Gradele de libertate: pentru SST numarul de grade de libertate


este m – 1 m – numărul de date (se pierde un grad de libertate
pentru că s-a făcut media)
 Numărul gradelor de libertate pentru modelul asociat lui SSR este
egal cu numărul de coeficienţi, fără termenul liber, n.

 Numarul de grade de libertate pentru SSE se poate găsi prin:


 SST = m – 1
 SSR = n
 SSE = SST – SSR = m – 1 – n = m – (n + 1) = m – p
m este nr de experimente, n este nr de variabile independente, p este
numarul de coeficienti, p=n+1
Test de semnificatie a modelului
Ipoteza nulă pentru ecuaţia de regresie:

H0: b1 = b2 =… = bn = 0

HA: bi  0 (cel puţin un i = 1, … n)

Dacă H0 este respinsă rezultă că există cel puţin o variabilă


independentă care contribuie la modelul de regresie şi putem
trage concluzia că există o relaţie între răspunsul y şi cel puţin
unul din factori (variabilă independentă).
Testul F de semnificatie
SSR  SSR MSR SSR / n SSR / n
F0    
SSE  SSE MSE SSE /(m  n  1) SSE /(m  p )
Dacă F0 > Fcrit H0 se respinge si se accepta HA, adica exista cel putin
un coeficient diferit de zero si modelul este semnificativ

Fcrit = Fn,m-p,1-

 ia valori 0,10; 0,05; 0,01. Descreşterea lui  indică o încredere mai mare
în model. Valorile critice pentru F, Fcrit (distribuţia Fisher) cresc pentru  mai
mici şi ele descresc de asemenea cu creşterea gradelor de libertate SSE
(descreşterea numărului de coeficienţi)
Ca urmare, creşterea numărului de coeficienţi (creşte SSR şi descreşte SSE)
pentru un număr dat de experimente poate duce la o scădere a lui MSR şi
creştere a lui MSE până la o valoare unde F0 < Fcrit şi modelul nu mai este
semnificativ.
Tabelul ANOVA

Sursa Suma  Pătratul mediu F0 p-value


dispersiei pătratelor
Regresie SSR n MSR = SSR/n MSR/MSE
Residual (erori) SSE m  n1 SSE
MSE 
p mp
Total SST m–1

Fcrit se citeste din tabelul distributie Fisher, de regula la un =0,05.


p-value este valoarea cea mai mica a lui  pentru care, in conditiile
studiului dat, modelul este semnificativ. De regula p-value este calculat
automat de softul de regresie si daca p-value este mai mic decat 0,05
modelul este semnificativ.
Coeficient de determinare

 Coeficientul de determinare
2SSR SSE
R   1 0 < R2 < 1
SST SST
Atenţie. Cu creşterea numărului de termeni într-un model liniar se
măreşte R2. Aceasta nu implică neapărat un model adecvat şi capabil de o
bună predicţie

Pentru corelaţia liniara simpla R2 este chiar patratul coeficientului de


corelare intre X si Y
În corelaţia liniara multipla dă corelaţia între valorile observate şi cele
prezise de model
Analiza coeficientilor modelelor de
regresie
Dispersia coeficientilor

Coeficientii de regresie calculati prin metoda celor mai mici patrate sunt
estimatii ale coeficientilor adevarati ai modelului.
Daca coeficientii adevarati se noteaza cu i atunci estimatiile ( valorile
calculate din date) se noteaza cu ̂ i
Variabila aleatoare ̂ i are media i
dispersia
 SSE  C00 C01  C1n 
 m  p  Cii 
 C11


MSE
    
  T

1
C  X X 
Cii

 
 2  C 
  

Disp  ii C
 0n  Cnn 
experimentala

a lui Y
Matricea de varianta covarianta
 În general ̂i are media i şi dispersia ce depinde de σ2 (dacă îl
cunoaştem) sau de SSE/(m-p), dacă nu cunoaştem σ2.

Dˆ    X  X 
2 T 1

Matricea de varianta - covarianta


D(ˆ ) mSSE
p
 X  X 
T 1

Matricea de intercorelare a coeficientilor

D(ˆ ) k ,m
rk,m 
D(ˆ )  D(ˆ )
m,m k ,k

Daca rm,k >0.95 coeficientul βm, este intercorelat cu coeficientul βk


Intervale de incredere

Utilizarea statisticilor Z si T

ˆ i  i ˆ i  i
Z → N(0,1)
T → Tm-p
  Cii MSE  Cii

ˆ i  z1  / 2   2  Cii  i  ˆ i  z1  / 2   2  Cii

ˆ i  t m p,1  / 2  MSE  Cii  i  ˆ i  t m p,1  / 2  MSE  Cii

Tinv(alfa, m-p)
Ipoteze şi testarea semnificaţiei coeficienţilor
individuali

 H0: i = 0
 HA: i  0
ˆ i
Testul Student T
MSE  Cii

Daca: T > t m-p,1-/2 sau T < -t m-p,1-/2

se respinge H0 – coeficientul este semnificativ

Daca dispersia experimentala este cunoscuta se utilizeaza testul Z

ˆi Coeficientul este


Z Daca: Z > z 1-/2 sau Z < z1- /2
2
  Cii semnificativ
Exemplu tabel ANOVA in EXCEL
nr experim, k t, C durata stationare, min randam, %
1 20 50 65
2 25 55 68
3 30 60 70 y  58.80714  0.904286  x1  0.24  x2
4 35 70 75
5 40 80 77 R 2  0.962
6 45 90 78
7 50 100 79

SUMMARY OUTPUT

Regression Statistics
Multiple R 0,980908003
R Square 0,962180511
Adjusted R Square 0,943270767
Standard Error 1,300412023
Observations 7

ANOVA
df SS MS F Significance F
Regression 2 172,0928571 86,04643 50,88279 0,001430314
Residual 4 6,764285714 1,691071
Total 6 178,8571429

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 58,80714286 3,191028959 18,4289 5,1E-05 49,94740777 67,66687794 49,94740777 67,66687794
X1 0,904285714 0,376253687 2,403394 0,074083 -0,140364156 1,948935585 -0,14036416 1,948935585
X2 -0,24 0,217600551 -1,10294 0,331947 -0,844157237 0,364157237 -0,84415724 0,364157237

S-ar putea să vă placă și