Documente Academic
Documente Profesional
Documente Cultură
Regression Statistics
Multiple R ….
R Square ….
Adjusted R Square ….
Standard Error 2,3163
Observations n=15
ANOVA
df SS MS F Significance F
Regression … ….. …. …. 0,000000012
Residual … … …..
Total … 911,5173
Răspuns:
Variabila independentă (sau variabila cauzală sau explicativă) (X) este distanța dintre locul incendiului
și cea mai apropiată stație de pompieri.
Variabila dependentă (sau variabila efect sau explicată) (Y) este valoarea prejudiciului.
Variabila X se gaseste intotdeauna sub cuvantul Intercept.
Răspuns:
Testarea validității modelului de regresie se poate face prin două metode:
1. Prin compararea valorii calculate a testului F (Fcalc) cu valoara critică (Fcrit):
- Dacă Fcalc > Fcrit , atunci se respinge ipoteza nulă H0, se acceptă ipoteza alternativă H1, și deci
modelul de regresie este valid.
- Dacă Fcalc ≤ Fcrit , atunci se acceptă ipoteza nulă H0, și deci modelul de regresie nu este valid.
2. Prin compararea valorii Significance F (Sig. F) cu nivelul de semnificație α=0.05:
- Dacă Significance F < α, se accepta H1, si deci modelul este valid.
- Dacă Significance F ≥ α, se accepta H0, si deci modelul nu este valid.
ANOVA
df SS MS=SS/df F Significance F
0,000000012<0.05,
se accepta H1,
Regression k=1 SSR=841.7664 MSR=841.7664 Fcalc=156.8861 model valid
Residual n-k-1=13 SSE=69.7509 MSE=5.3654
Total n-1=14 SST=911,5173 1-alfa
= 0.95 (vezi Lower si Upper din tabelul 3)
Alfa = 0.05 (5%)
Coloana df:
k=1
n-k-1=15-1-1=13
n-1=14
Std. Error (Tabel 1) = 𝒔𝒆 = √𝑴𝑺𝑬 = 𝟐. 𝟑𝟏𝟔𝟑
MSE = (2.3163)^2= 5,3654
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−𝑘−1
𝑆𝑆𝑅
𝑀𝑆𝑅 = = 841.7664
𝑘
𝑀𝑆𝑅 841.7664
𝐹𝑐𝑎𝑙𝑐 = = = 156,8861
𝑀𝑆𝐸 5.3654
e) Probabilitatea maximă pentru care putem afirma că modelul este valid, la un nivel de semnificație de
5%, este .....................
Răspuns: Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia:
100-Significance F%= 100-0.000000012*100=100-0.0000012=99.9999988%>95%
F.DIST.RT(156.8861,1,13) – determinarea lui Significance F
Răspuns:
Intensitatea legăturii dintre cele două variabile este măsurată cu ajutorul raportul de corelaţie.
R = 0,9609 (radical din R^2)
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”.
Dacă R→ 1 legătura dintre cele două variabile este puternică
Dacă R→ 0 legătura dintre cele două variabile este slabă
Dacă R→ 0.5 legătura dintre cele două variabile este moderată
Intre 0 si 0.2 – nu exista legatura semnificativa
Intre 0.2 si 0.4 – legatura slaba
Intre 0.4 si 0.6 – legatura de intensitate medie
Intre 0.6 si 0.8 – legatura puternica
Intre 0.8 si 1.0 – legatura foarte puternica (de tip determinist)
În cazul nostru valoarea este foarte apropiată de 1, deci între variabile există o legătură foarte puternică.
h) Raportul de corelație la nivelul populației totale (R(P)) este/nu este semnificativ statistic deoarece:
1. Fcalc ≤ Fcrit
2. Significance F ≥ α
3. Significance F < α
4. Fcalc > Fcrit
Răspuns:
Semnificația statistică a raportului de corelație se testează în același mod ca și validitatea modelului:
Se formulează ipotezele:
H0: R(P) = 0 (R(P) nu este semnificativ statistic)
H1: R(P) > 0 (R(P) este semnificativ statistic)
Unde R(P) reprezintă raportul de corelaţie în populaţia totală, iar R este raportul de corelaţie în eşantion.
unde rxy reprezintă coeficientul de corelaţie liniară Pearson în eşantion. În cazul legăturii liniare, raportul
de corelatie este egal cu coeficientul de corelatie liniara Pearson (în expresie absolută), adică
R = rxy
Cum R = 0,9609 şi b1>0 rezultă că rxy = +0,9609, indicând o legătură directă şi foarte puternică între
variabile.
Matricea devine, așadar:
Distanţa (X) Valoarea prejudiciului (Y)
Distanţa (X) 1
Valoarea prejudiciului (Y) 0,9609 1
j) Modelul de regresie liniara in esantion este:
c1. 𝑦̂𝑖 = 10,2779 + 4,9193 ⋅ 𝑥𝑖 , i = 1,15
c2. 𝑦̂𝑖 = 4,9193 + 10,2779 ⋅ 𝑥𝑖 , i = 1,15
c3. 𝑦̂𝑖 = 1.4202 + 0.3927 ⋅ 𝑥𝑖 , i = 1,15
c4. 𝑦̂𝑖 = −12,4376 + 4,9193 ⋅ 𝑥𝑖 , i = 1,15
Răspuns:
Standard P-value
Coefficients Error t Stat (Sig.) Lower 95% Upper 95%
Intercept b0 = 10.2779 𝑠𝑏0 =1,4202 7,2365 0,000007 … …
Distanta
(zeci km) b1 = 4,9193 𝑠𝑏1 =0,3927 …. 0,000000012 … …
yˆi = b0 + b1 xi
unde b0 este estimatorul parametrului Intercepție (Intercept) 𝛽0
iar b1 este estimatorul parametrului Pantă (Slope) 𝛽1
Valorile celor doi estimatori se găsesc în coloana Coefficients a tabelului 3, rezultă că:
b0 =? și b1 = 4,9193
𝛽0
𝑏0 𝑏0
𝑡𝑐𝑎𝑙𝑐 = = = 7,2365
𝑠𝑏0 1,4202
𝑏0 = 10.2779
m) Parametrul Intercept (𝛽0 ) este/nu este semnificativ statistic, la un nivel de semnificatie α = 0.05 (5%),
valoarea critica
deoarece:
f1. |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| > 𝑡𝑐𝑟𝑖𝑡
f2. |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| < 𝑡𝑐𝑟𝑖𝑡
f3. P-value(𝛽0 ) > 0.05
f4. P-value(𝛽0 ) < 0.05
f5. 𝐿𝑜𝑤𝑒𝑟(𝛽0 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ) sunt pozitive, avand acelasi semn.
F6. 𝐿𝑜𝑤𝑒𝑟(𝛽0 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ) au semne opuse.
Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟎 :
Ipotezele testate:
H0: 𝛽0 = 0 (parametrul 𝛽0 nu este semnificativ statistic);
H1: 𝛽0 ≠ 0 (parametrul 𝛽0 este semnificativ statistic);
1. Prin compararea valorii calculate a testului t (𝒕𝒄𝒂𝒍𝒄 (𝜷𝟎 )) cu valoarea critică (tcrit=2.16).
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| > 𝑡𝑐𝑟𝑖𝑡 , se respinge H0, se acceptă H1, deci parametrul 𝛽0 este semnificativ
statistic.
- Dacă |𝑡𝑐𝑎𝑙𝑐 (𝛽0 )| ≤ 𝑡𝑐𝑟𝑖𝑡 , se acceptă H0, deci parametrul 𝛽0 nu este semnificativ statistic.
3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟎 (𝐿𝑜𝑤𝑒𝑟(𝛽0 )
si 𝑈𝑝𝑝𝑒𝑟(𝛽0 ))
- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl cuprinde
pe 0, 𝛽0 = 0 și deci 𝛽0 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci intervalul
nu îl cuprinde pe 0, 𝛽0 ≠ 0 și deci 𝛽0 este semnificativ statistic
o) Probabilitatea maxima pt. care putem sustine ca 0 este semnificativ statistic este .........
Răspuns:
Probabilitatea maxima pt. care putem sustine ca 𝛽0 este semnificativ statistic se determina cu relatia:
100-Pvalue( 0 )%=100-0.000007*100=100-0.0007=99.9993>95%.
T.DIST.2T(7.2365,13) – determinarea lui pvalue
p) Probabilitatea maxima pt. care putem sustine ca 𝛽1 este semnificativ statistic este .........
Răspuns:
Probabilitatea maxima pt. care putem sustine ca 𝛽1 este semnificativ statistic se determina cu relatia:
100-Pvalue(𝛽1 )%= 100-0.000000012*100=100-0.0000012=99.9999988>95%.
Răspuns:
Valorile celor doua limite ale intervalului pentru un anumit parametru se interpreteaza numai daca
parametrul respectiv este semnificativ statistic.
s) Dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci km, atunci nivelul
prejudiciului ar fi .........
În modelul de regresie liniară yˆ i = b0 + b1 xi = 10,2779 + 4,9193 xi , i = 1,15 înlocuim pe xi cu
valoarea de 6,5, obţinându-se valoarea corespunzătoare a lui Y:
Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = 0,9234 coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error Se= MSE = 2,3163 abaterea standard a erorilor
Observations n = 15 volumul eşantionului
ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 = Lower(β0) = Upper(β0) =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 7,2096 13,3462
Distanta sb1 = Lower(β1) = Upper(β1) =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 4,0708 5,7678
Problema 2. Un profesor de statistică vrea să afle dacă există o relaţie între punctajele studenţilor
săi la testul de statistică, timpul petrecut în cluburi (număr zile) şi cunoştinţele de matematică ale
studenţilor. Pentru 20 de studenţi selectaţi aleator s-au înregistrat valorile următoarelor variabile:
- Timpul petrecut în club, de regulă, pe lună (zile)
- Nota de promovare a examenului de matematică (puncte)
- Punctajul obţinut la testul de statistica (puncte)
În urma prelucrării datelor, în ipoteza unei legături liniare, s-au obţinut următoarele rezultate SPSS:
Model Summary
1 Se=√MSE=6,58
ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression 2729,25 … … …. 0,000002
1 Residual ….. … …
Total ….. …
Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients
Răspuns:
2 Variabile independente (sau variabile cauzale sau explicative sau exogene):
X1 – variabila independenta: Nr. zile in club
X2 – variabila independenta: Nota matematica
1 Variabilă dependent (sau variabiă effect, explicate sau endogenă):
Y – variabila dependenta: Punctajul la statistica
Cele doua variabile independente pot fi gasite in tabelul “Coefficients”, sub cuvantul
“Constant” (in SPSS) sau “Intercept” (in Excel).
𝛽0
𝑏0 𝑏0
𝑡𝑐𝑎𝑙𝑐 = = = 3.49
𝑠𝑏0 10.736
tcrit = ?
T.INV.2T(0.05,17)
tcrit = 2.11
6,70 = b2 + 2.11 * 1.159
b2 = 4.25
n-k-1=20-2-1=17
Răspuns: c2.
d) Completați afirmațiile:
1. Dacă numarul zilelor petrecute in club creste cu 1 zi, punctajul la statistica scade in medie
cu …… puncte (cu conditia ca nota la mate sa ramana constanta)
2. Dacă nota la mate creste cu 1 punct, punctajul la statistica creste in medie cu …… puncte.
(cu conditia ca nr. de zile petrecut in club sa ramana constant)
3. Între nota la mate și punctajul la statistică există o legătură directă/inversă (b2>0)
4. Între numărul de zile petrecut în club și punctajul la statistică există o legătură
directă/inversă. (b1<0)
Afirmația 1) se referă la interpretarea estimatorului pantă b1, deci se completează cu valoarea
absolută a acestuia (2.87).
Afirmația 2) se referă la interpretarea estimatorului pantă b2, deci se completează cu valoarea
acestuia (4.25).
Afirmația 3): b2>0, rezulta ca legatura dintre Y si X2 este directa
Afirmația 4): b1<0, rezulta ca legatura dintre Y si X1 este inversa
e) Parametrul de tip Slope (𝛽1) este/nu este semnificativ statistic, la un nivel de semnificatie α =
0.05 (5%), deoarece:
e1. |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| > 𝑡𝑐𝑟𝑖𝑡
e2. |𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| < 𝑡𝑐𝑟𝑖𝑡
e3. P-value(𝛽1 ) > 0.05
e4. P-value(𝛽1 ) < 0.05
e5. 𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ) sunt pozitive, avand acelasi semn.
e6. 𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ) au semne opuse.
Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟏 :
Ipotezele testate:
H0: 𝛽1 = 0 (parametrul 𝛽1 nu este semnificativ statistic);
H1: 𝛽1 ≠ 0 (parametrul 𝛽1 este semnificativ statistic);
2. Prin compararea valorii P-value sau Sig. (𝜷𝟏 ) cu nivelul de semnificație alfa (α =
0.05):
- Dacă P-value(𝛽1) < α, atunci parametrul 𝛽1 este semnificativ statistic.
- Dacă P-value(𝛽1) ≥ α, atunci parametrul 𝛽1 nu este semnificativ statistic
3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟏
(𝐿𝑜𝑤𝑒𝑟(𝛽1 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽1 ))
- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl
cuprinde pe 0, 𝛽1 = 0 și deci 𝛽1 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci
intervalul nu îl cuprinde pe 0, 𝛽1 ≠ 0 și deci 𝛽1 este semnificativ statistic
𝑏1 −2.87
𝑡𝑐𝑎𝑙𝑐 (𝛽1 ) = = = −2
𝑠𝑏1 1.435
|𝑡𝑐𝑎𝑙𝑐 (𝛽1 )| = 2< tcrit =2,11
P-value(𝛽1)= 0,062>0.05
𝐿𝑜𝑤𝑒𝑟(𝛽1 ) = -5,90<0
𝑈𝑝𝑝𝑒𝑟(𝛽1 ) = 𝑏1 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1 = −2.87 + 2.11 ∙ 1.435 = 0,16>0
Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients
Având în vedere aceste trei metode de testare a semnificației parametrului 𝛽1, rezultă că sunt
indeplinite conditiile din afirmațiile e2, e3 și e6 si deci acestea sunt adevărate.
f) Parametrul Slope (𝛽2) este/nu este semnificativ statistic, la un nivel de semnificatie α = 0.05
(5%), valoarea critica
( tcrit =2,11 ), deoarece:
Răspuns:
Testarea semnificației statistice a parametrului 𝜷𝟐 :
Ipotezele testate:
H0: 𝛽2 = 0 (parametrul 𝛽2 nu este semnificativ statistic);
H1: 𝛽2 ≠ 0 (parametrul 𝛽2 este semnificativ statistic);
3. Prin analiza semnelor celor două limite ale intervalului de încredere pentru 𝜷𝟐
(𝐿𝑜𝑤𝑒𝑟(𝛽2 ) si 𝑈𝑝𝑝𝑒𝑟(𝛽2 ))
- Dacă limitele au semne opuse (una este negativă, cealaltă pozitivă) atunci intervalul îl
cuprinde pe 0, 𝛽2 = 0 și deci 𝛽2 nu este semnificativ statistic.
- Dacă limitele au același semn (ambele sunt negative sau ambele sunt pozitive) atunci
intervalul nu îl cuprinde pe 0, 𝛽2 ≠ 0 și deci 𝛽2 este semnificativ statistic
Coefficientsa
Model Unstandardized Standardized t Sig. 95,0% Confidence Interval for B
Coefficients Coefficients
𝑏2 4.25
𝑡𝑐𝑎𝑙𝑐 (𝛽2 ) = = = 3.66
𝑠𝑏2 1.159
P-value(𝛽2)= 0,002<0.05
𝐿𝑜𝑤𝑒𝑟(𝛽2 ) = b2 - tcrit * sb2 = 4.25 – 2.11 * 1.159 = 1.8 > 0
𝑈𝑝𝑝𝑒𝑟(𝛽2 ) = 6.7 > 0
Având în vedere aceste trei metode de testare a semnificației parametrului 𝛽2, rezultă că sunt
indeplinite conditiile din afirmațiile f1, f4 și f5 si deci acestea sunt adevărate.
g) In cazul testarii semnificatiei parametrului Slope (Pantă) 𝛽1 , ipotezele testate sunt:
1. H0: 𝛽1 = 0 (parametrul 𝛽1 nu este semnificativ statistic); H1: 𝛽1 ≠ 0 (parametrul 𝛽1 este
semnificativ statistic);
2. H0: 𝛽1 ≠ 0 (parametrul 𝛽1 nu este semnificativ statistic); H1: 𝛽1 = 0 (parametrul 𝛽1 este
semnificativ statistic);
3. H0: 𝛽1 = 0 (parametrul 𝛽1 este semnificativ statistic); H1: 𝛽1 ≠ 0 (parametrul 𝛽1 nu este
semnificativ statistic);
Punctaj statistica (Y) Nr. zile in club (X1) Nota matematica (X2)
Punctaj statistica (Y) 1
Nr. zile in club (X1) r(X1,Y)=-0,787 1
Nota matematica (X2) 0,859 -0,742 1
Completati afirmatiile:
1) Intre punctajul la statistica si nota la mate exista o legatura …….
2) Intre punctajul la statistica si timpul petrecut in club exista o legatura …….
3) Intre nota la mate si timpul petrecut in club exista o legatura ………
Raspuns:
Pe diagonala principala se completeaza cu valoarea 1, deoarece semnifica corelatia perfecta a
fiecarei variabile cu ea insasi.
rYX1 = -0,787 indica o legatura inversa si puternica intre punctajul la statistica si timpul petrecut in
club.
rYX2 = +0,859 indica o legatura directa si foarte puternica intre punctajul la statistica si nota la
matematica.
rX1 X2 = -0,742 indica o legatura inversa si puternica intre nota la matematica si timpul petrecut in
club.
k)Punctajul la statistica pe care l-ar putea obtine un student care petrece in club 6 nopti si a
promovat examenul de matematica cu nota 6 este ……. puncte
Raspuns:
În modelul de regresie liniară yˆ i = b0 + b1 x1i + b2 x2i adica yˆ i = 37,46 − 2,87 x1i + 4,25 x2 i
înlocuim pe x1i cu valoarea de 6, si pe x2i cu valoarea de 6, obţinându-se valoarea corespunzătoare
a lui Y:
𝑦̂𝑖 = 37,46 − 2,87 ⋅ 6 + 4,25 ⋅ 6 = 45,74 puncte la statistica. (!!!!)
MSE=SSE/(n-k-1)
SSE=MSE • (n-k-1)=43.3•17=736.1
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 0.887 0.7876 …. Se=√MSE=6,58
ANOVAa
Model Sum of Squares df Mean Square F Sig.
Regression SSR=2729,25 k=2 MSR=1364.62 F_calc=31.51 ,000002
1 Residual SSE=736.1 n-k-1=17 MSE=43.3
Total SST=3465.35 n-1=19
m) …..% din variatia punctajelor la testul de statistica este explicat de modelul de regresie.
R 2 %= ?
R2%= SSR/SST*100=2729.25/(2729.25+736.1)*100=2729.25/(3465.35)*100=78.76%
Interpretare R2: 78.76% din variatia totala a punctajului la statistica este explicata de timpul
petrecut in club si de nota la matematica (este explicat de modelul de regresie)
n) Dacă dorim să masuram intensitatea legaturii dintre cele trei variabile putem folosi
………………………………. Valoarea acestuia este egala cu …………………….. si arata ca
…………………………………………..
Indicatorul la nivelul populației totale este/nu este semnificativ statistic deoarece ……………
Raspuns:
Intrucat: |Coef_std (Nota mate)| = 0.611 > |Coef_std (Nr.zile club)|=0.333 rezulta ca nota la
mate a influentat mai puternic punctajul obtinut la testul de statistica decat timpul petrecut in
club.