Sunteți pe pagina 1din 25

Modelul multifactorial

Partea a II-a
Ce vom învăţa în acest curs:

• Cum interpretăm coeficienții unei ecuații de regresie multiplă?


• Testul F pentru testarea semnificaţiei statistice
• Testul t pentru testarea semnificaţiei statistice
Recapitulare:
• Problema firmei de curierat
• Ecuaţia estimată a regresiei liniare
ŷ = 1,10 + 0,065 x₁
• Coeficientul de determinare 0,666
• 66,6 % din variațiile timpului de lucru pot fi explicate prin
distanța parcursă de șoferi
Recapitulare:

• Problema firmei de curierat


• Ecuaţia estimată a regresiei cu două variabile explicative
ŷ = -0.87466+ 0,05931 x₁ + 0.85179 x₂
Interpretarea coeficienților
• În modelul de regresie simplă, coeficientul lui x1 se traduce ca
magnitudinea modificării variabilei dependente, atunci când
valoarea lui x1 crește cu o unitate.
• În cazul regresiei multiple, semnificația acestui coeficient este
aceeași, cu condiția ca restul de variabile incluse în model să
se mențină constante.
Mai exact:
• ŷ(x1, x2) = -0.87466+ 0,05931 x₁ + 0.85179 x₂
• ŷ(x1+1, x2) = -0.87466+ 0,05931 (x₁ + 1) + 0.85179 x₂

• Pentru a izola coeficientul lui x1, vom calcula diferența: ŷ(x1+1, x2) -
ŷ(x1, x2)
Ce obținem?
• -0.87466+ 0,05931 (x₁ + 1) + 0.85179 x₂ - (-0.87466+ 0,05931
x₁ + 0.85179 x₂) =

• -0.87466+ 0,05931 (x₁ + 1) + 0.85179 x₂ +


+0.87466 - 0,05931 x₁ - 0.85179 x₂

• ŷ(x1+1, x2) - ŷ(x1, x2) = 0,05931 (deci, coeficientul lui x1)


Observații
• Coeficientul primei variabile înseamnă, deci, că atunci când distanța
parcursă crește cu un km, timpul mediu estimat petrecut în trafic
crește cu 0.05931 ore (adică 3.56 minute)

• Coeficientul celei de-a doua variabile se interpretează similar: atunci


când numărul de livrări crește cu o unitate, timpul mediu estimat
petrecut în trafic crește cu 0.85179 ore (adică 51.1 minute)
Înapoi la Testul F

• Ecuaţia de regresie
M(y) = β₀ + β₁ x₁ + β₂ x₂

• Cel mai potrivit test cu ajutorul căruia determinăm dacă există o


relaţie semnificativă între x₁, x₂ şi y este Testul F

• Vom relua raționamentul pe care l-am aplicat în cazul modelului


cu o singură variabilă independentă.
Testul F - continuare
• Ipoteze:
H0: β1 = β2 = 0
H1: cel puţin unul dintre parametrii β1 şi β2 este nenul

• Dacă resping H0, atunci există o relaţie semnificativă între x₁,


x₂ şi y
• Aşadar, pentru a determina dacă există o relaţie semnificativă
în cazul regresiei multiple, folosim Testul F
Ne amintim că:
𝑆𝑃𝑅
. 𝑀𝑃𝑅 𝑛𝑢𝑚𝑎𝑟 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒
𝐹= =
𝑀𝑃𝐸 𝑆𝑃𝐸
𝑛−𝑘−1
2
 

SPE =   y i − y i 
 
2
 

SPT =   i
y − y 

SPT = SPR + SPE
Notaţiile

• n este dimensiunea eşantionului, în cazul nostru 10


• k reprezintă numărul de variabile independente din model, în
cazul nostru 2
• Deci, n – k – 1 = 7
În cazul problemei firmei de curierat:

• SPE = 2.541628
• SPT = 22.208
• SPR = 22.208 – 2.541628 = 19.66637
• MPE = SPE/(10 – 2 – 1) = 0.363089
• MPR = SPR/2 = 9.833185
• Valoarea statisticii F, calculată ca raport între MPR şi MPE, este
27.08
Testul F - continuare

• Vrem să testăm la un prag de semnificaţie α = 0,05


• Pentru “k = 2” grade de libertate la numărător şi “n-k-1 = 7” grade de
libertate la numitor, avem: Fα = F0,05 = 4,74
• Dacă F < Fα atunci acceptăm ipoteza H0; în caz contrar respingem
ipoteza H0
• 27,08 > 4,74, deci resping H0; există o relaţie semnificativă între y şi
variabilele independente
O altă abordare
• O abordare mai rapidă și cumva mai directă este legată de valoarea p
aferentă statisticii F, pe care v-o pune la dispoziție softul de analiză
statistică.

• Pe slide-ul următor se regăsește acest output.


Modelul de regresie cu două variabile
Cum procedați
• Observați că:
• F-statistic = 27.08
• p-value = 0.0005071

• Probabilitatea să putem observa (obține din calcul) o valoare a


statisticii F egală cu 27.07 în condițiile în care acceptăm că relația
dintre variabile nu există (ipoteza nulă!), este p-value = 0.0005071
• Dacă acest p – value este mai mic de 0.05 (sau orice alt prag decideți
să acceptați), respingem ipoteza nulă și acceotăm că relația există, la
un prag de semnificație de 0.05
Testul F generalizat
În cazul testului F, procedăm la fel indiferent de numărul
variabilelor independente din model
Observații importante
• Testul F indică faptul că relația dintre variabilele alese este statistic
semnificativă.
• Totuși, testul F afirmă că relația dintre y și GRUPUL variabilelor
independente este statistic semnificativă.
• NU ni se dau informații despre relația care se stabilește între y și
fiecare dintre variabilele independente.
Testul t pentru semnificaţia parametrilor individuali

• Folosind testul F am determinat că măcar unul din parametrii


ecuaţiei este diferit de zero – dar nu ştim exact care din ei.
• Parametrii individuali β1 şi β2 sunt fiecare statistic semnificativi?
Sau ne putem renunta la unul dintre ei?
• Testul t
Ipoteze şi condiţii:

H 0 :  i = 0

H 1 :  i  0
bi
• Dacă  t atunci accept ipoteza Ho
s bi

bi
• Dacă  t atunci resping ipoteza Ho
s bi
Observaţie:

• Pentru determinarea lui sbi nu mai este nevoie să efectuăm


toate calculele.
• Aceste valori se găsesc în outputul pe care vi-l pune la
dispoziție softul de analiză pe care îl utilizați, în cazul nostru R.
Testăm
• Se consideră același prag de semnificaţie cu care ne-am
obișnuit, α = 0,05
• Din tabelul distribuţiei t, pentru n-k-1 grade de libertate avem tα
= t0,025 = 2,365
• De asemenea, în ceea ce ne oferă R găsim:
• b1 = 0.05931; b2 = 0.85179
• Sb1 = 0.01040; Sb2 = 0.23247
Valorile t aferente variabilelor sunt:
• Pentru variabila explicativă “Distanță”:
• tb1 = b1/sb1 = 5.705

• Pentru variabila explicativă “Număr de livrări”:


• tb2 = b2/sb2 = 3.664
Concluzie test t
• - 2,365 < 5.705 < 2.365 (fals), resping H0, deci β1 diferit de 0
• - 2.365 < 3.664 < 2.365 (fals), resping H0, deci β2 diferit de 0

• Am văzut că ambele variabile explicative sunt statistic


semnificative

S-ar putea să vă placă și