Sunteți pe pagina 1din 5

27.04.

2020

CURS DE STATISTICĂ – REGRESIA ȘI CORELAȚIA (Aplicație)

În vederea realizării unui studiu privind profilul antreprenorului din domeniul turismului şi legătura dintre
vârsta acestuia şi sustenabilitatea afacerilor, pentru 9 regiuni turistice s-au înregistrat vârsta medie a
antreprenorilor la înfiinţarea propriilor afaceri (ani) şi rata de închidere a afacerilor (%). Datele se prezintă
astfel:

Vârsta medie a antreprenorilor (ani) 27 44 32 35 40 25 45 27 28


Rata de închidere a afacerilor (%) 7 4 6 4 3 8 2 10 9

În urma prelucrării datelor, în ipoteza unei legături liniare, s-au obţinut următoarele rezultate:

c. Estimați rata de închidere a afacerilor pentru o regiune în


care vârsta medie a antreprenorilor este de 30 de ani.
d. Ştiind că:
Vârsta (ani) Rata închidere afaceri (%)
Standard
deviation sx = 7,71 sy = 2,80
analizaţi sensul şi intensitatea legăturii dintre variabile,
utilizând coeficientul de corelație liniară Pearson.
Construiți matricea de corelație.
a. Caracterizaţi relaţia dintre cele două variabile, e. Arătați dacă există o legătură semnificativă între
utilizând graficul alăturat. variabile, folosind regula empirică
b. Alegeţi ecuaţia de regresie liniară cea mai f. Calculați și interpretați covarianța.
adecvată şi interpretaţi valorile coeficienţilor b0 şi g. Analizaţi sensul şi intensitatea legăturii dintre cele
b1: două variabile, utilizând coeficienții de corelaţie a
i) ŷi = 122,65 - 0,08 xi ii) ŷi = 16,87 - 0,33 xi rangurilor Spearman și Kendall.

iii) ŷi = 124,36 + 8,33 xi iv) ŷi = - 5,15 + 0,49 xi

Rezolvare:

a. Cele două variabile analizate sunt:


- X = variabila cauzală (sau independentă): vârsta antreprenorilor
- Y = variabila rezultativă (sau dependentă): rata de închidere a afacerilor
n = 9 (volumul eşantionului)
(xi, yi), 𝑖 = ̅̅̅̅̅
1, 𝑛 = valorile (pereche) ale celor două variabile (valori observate)
Graficul se numeşte corelogramă. Pe baza acestuia se poate analiza:
- Existența legăturii
- Direcția (sensul) legăturii
- Forma legăturii
b0
Corelograma - Varsta vs.
Rata de închidere a afacerilor
12
i) ŷi = 122,65 - 0,08 xi
10
ii) ŷi = 16,87 - 0,33 xi
8
iii) ŷi = 124,36 + 8,33 xi
6
iv) ŷi = - 5,15 + 0,49 xi
4

0
0 10 20 30 40 50

Concluzie: ……………………………………………………….

b. Modelul de regresie liniară simplă (unifactorială) este:

𝒚 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 + 𝒆𝒊
unde:

𝒆𝒊 =eroarea (determinată de influența factorilor aleatori)


𝒃𝟎 = intercepția / termenul liber al modelului (punctul de intersecție al dreptei de regresie cu axa
OY)
𝒃𝟏 = panta dreptei de regresie
Dacă 𝒃𝟏 > 𝟎 atunci legătura dintre X și Y este directă
Dacă 𝒃𝟏 < 𝟎 atunci legătura dintre X și Y este inversă
Dacă 𝒃𝟏 = 𝟎 atunci nu există legătura liniară între X și Y (variabile independente)
Ecuația de regresie liniară în eșantion:
ŷi = b0 + b1 xi
̂𝒊 este valoarea ajustată/teoretică/estimată a lui Y
Unde 𝒚

̂𝒊
𝒆𝒊 = 𝒚 𝒊 − 𝒚

Conform graficului, cea mai potrivită ecuaţie de regresie liniară este varianta iv):
ŷi = 16,87 - 0,33 xi
b0 = 16,87 (deoarece punctul de intersectie a dreptei de regresie cu axa Oy este mai mare decat 12)
b1 = -0,33 (deoarece panta dreaptei de regresie este negativa, legatura dintre variabile fiind una
inversa).
Varianta iv) este singura care indeplineste cumulativ cele doua conditii.

Interpretarea coeficientilor b0 şi b1:

Interpretarea lui b0:


b0 reprezintă valoarea medie a lui Y, atunci când X ia valoarea 0.
Valoarea lui b0 nu se interpreteaza, deoarece X (varsta antreprenorilor) nu poate fi 0 ani.

Interpretarea lui b1:


- Semnul lui b1:
b1<0, rezulta legatura inversa (valorile celor doua variabile se modifica in sensuri opuse)
- Valoarea lui b1:
b1 arată cu câte u.m. se modifică, în medie, Y, dacă X se modifică cu 1 u.m.
Dacă vârsta antreprenorilor crește cu 1 an, se estimează că rata de închidere a afacerilor scade, în
medie, cu 0,33%.

c. Se folosește ecuația: ŷi = 16,87 - 0,33 xi , în care se consideră: xi =30


ŷi = 16,87 - 0,33 · 30 = 6,97 %
Observație:

d. Coeficientul de corelatie liniara Pearson este un indicator al corelatiei parametrice care


permite identificarea directiei (sensului) si masurarea intensitatii legaturii dintre variabile.
𝑠 7,71
𝑟𝑥𝑦 = 𝑏1 ∙ 𝑠𝑥 = (−0,33) ∙ = −0,9 𝑟𝑥𝑦 ∈ [−1, 1]
𝑦 2,8

Interpretare:
- Semnul arată direcția/sensul legăturii:
o Dacă 𝑟𝑥𝑦 > 𝟎 atunci legătura dintre X și Y este directă
o Dacă 𝑟𝑥𝑦 < 𝟎 atunci legătura dintre X și Y este inversă
o Dacă 𝑟𝑥𝑦 = 𝟎 atunci nu există legătura liniară între X și Y (variabile independente)

- Valoarea absolută arată intensitatea legăturii:


o |𝑟𝑥𝑦 | → 0 atunci legătura este slabă
o |𝑟𝑥𝑦 | → 1 atunci legătura este puternică
o |𝑟𝑥𝑦 | → 0,5 atunci legătura este moderată
Concluzie:
𝑟𝑥𝑦 <0, deci corelatia dintre variabile este inversă
|𝑟𝑥𝑦 | → 1 deci corelatia este una puternică
Matricea de corelatie:
Varsta Rata de
antreprenorilor inchidere
Varsta
1 -0,9
antreprenorilor
Rata de inchidere 𝑟𝑥𝑦 = -0,9 1

e. Regula empirica: daca |𝑟𝑥𝑦 | ≥ 2⁄√𝑛, atunci există o legătură semnificativă între variabile.
Cum 2⁄√𝑛 = 2⁄√9 = 0,67, iar |𝑟𝑥𝑦 | = 0,9, rezulta ca există o legătură semnificativă între variabile,
conditia anterioara fiind indeplinita.

∑(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦̅)


f. Covarianța: 𝑐𝑜𝑣 (𝑥, 𝑦) =
𝑛−1
𝑐𝑜𝑣(𝑥,𝑦)
Dar: 𝑟𝑥𝑦 = ⇒ 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑟𝑥𝑦 ∙ 𝑠𝑥 ∙ 𝑠𝑦 = (−0,9) ∙ 7,71 ∙ 2,8 = −19,43
𝑠𝑥 ∙𝑠𝑦
Interpretare: cov(x,y)<0 rezultă – legătură inversă între variabile

g. Coeficienții de corelație a rangurilor Spearman și Kendall – sunt indicatori ai corelației


neparametrice.

1. Coeficientul de corelație a rangurilor Spearman:


Se acorda fiecarei regiuni ranguri, in functie de valorile celor doua variabile X, Y (𝑅𝑖𝑋 , 𝑅𝑖𝑌 ),
de la minim la maxim. (vezi coloanele corespunzatoare 2 si 3 din tabelul urmator)

Vârsta medie a Rata de închidere a 𝑅𝑖𝑋 𝑅𝑖𝑌 di 𝑑𝑖2


antreprenorilor (ani) afacerilor (%)
0 1 2 3 4 5

27 7 2,5 6 -3,5 12,25


44 4 8 3,5 4,5 20,25
32 6 5 5 0 0
35 4 6 3,5 2,5 6,25
40 3 7 2 5 25
25 8 1 7 -6 36
45 2 9 1 8 64
27 10 2,5 9 -6,5 42,25
28 9 4 8 -4 16
Total (suma) 0 222

Se calculează diferențele de rang 𝑑𝑖 = 𝑅𝑖𝑋 - 𝑅𝑖𝑌 (vezi coloana 4), apoi pătratele diferențeleor
rangurilor (vezi coloana 5).
Se calculează coeficientul Spearman cu relația:
6∙∑ 𝑑𝑖2 6∙222 1332
𝑟𝑠 = 1 − =1− =1− = −0,85 𝑟𝑥𝑦 ∈ [−1, 1]
𝑛∙(𝑛2 −1) 9∙(92 −1) 720
Interpretare: 𝑟𝑠 <0, deci legătura dintre variabile este inversă
|𝑟𝑠 | → 1 deci legătura este una puternică
2. Coeficientul de corelație a rangurilor Kendall:

- Se acordă fiecărei regiuni ranguri, în funcție de valorile celor două variabile X, Y (𝑅𝑖𝑋 , 𝑅𝑖𝑌 ),
de la minim la maxim. (vezi coloanele corespunzătoare 2 și 3 din tabelul urmator)
- Se ordoneaza crescator perechile de ranguri, dupa 𝑅𝑖𝑋 , apoi se refac perechile (vezi coloanele
4 si 5)
- Pentru 𝑅𝑖𝑌 se calculeaza: pi = numarul de ranguri superioare rangului curent, situate dupa acesta
(coloana 6), si qi = numarul de ranguri inferioare rangului curent, situate dupa acesta (coloana
7)

Vârsta medie a Rata de închidere a 𝑅𝑖𝑋 𝑅𝑖𝑌 𝑅𝑖𝑋 𝑅𝑖𝑌 (x) pi qi


antreprenorilor (ani) afacerilor (%) ↑
0 1 2 3 4 5 6 7

27 7 2,5 6 1 7 2 6
44 4 8 3,5 2,5 6 2 5
32 6 5 5 2,5 9 0 6
35 4 6 3,5 4 8 0 5
40 3 7 2 5 5 0 4
25 8 1 7 6 3,5 0 2
45 2 9 1 7 2 1 1
27 10 2,5 9 8 3,5 0 1
28 9 4 8 9 1 0 0
Total (suma) 5 30

Se calculeaza coeficientul Kendall cu relatia:


2 ∙ (∑ 𝑝𝑖 − ∑ 𝑞𝑖 ) 2 ∙ (5 − 30) −50
𝑟𝐾 = = = = −0,69
𝑛 ∙ (𝑛 − 1) 9 ∙ (9 − 1) 72
cu 𝑟𝐾 ∈ [−1, 1]
Interpretare: 𝑟𝐾 <0, deci legătura dintre variabile este inversă
|𝑟𝐾 | ≈ 0,7 deci legătura este destul de puternică

S-ar putea să vă placă și