Sunteți pe pagina 1din 7

Curs: Conf.univ.dr.

Codruța MARE
Seminar: Asist.univ.drd. Alexandra-Anca PURCEL (orar consultații: Joi, 11:20-12:50)
Notă finală: examen (80%) + seminar* (20%)
*Compunere notă seminar: două teste pe parcursul semestrului (fiecare test fiind format din
10 întrebări iar fiecare întrebare valorând un punct; astfel rezolvarea corectă a celor 10
întrebări va conduce la nota 10 pe respectivul test, rezolvarea corectă a 9 întrebări la nota 9,
etc.) + activitatea de la seminar care poate îmbunătății nota de la teste (două steluțe de la
seminar echivalează o întrebare de la test).
Bibliografie: cartea de statistică descriptivă a catedrei + oricare altă sursă conexă relevantă.

Statistică Descriptivă—Seminar VIII

Analiza legăturii dintre variabilele statistice (CAP. III)

A. Variabile calitative
-pentru studiul legăturii se folosește testul 𝜒 2
Fie X și Y doua variabile calitative
formulăm: (1) ipoteza nulă (𝐻0 ): ∄ legătură între variabilele X, Y
(2) ipoteza alternativă (𝐻1 ): ∃ legătură între variabilele X, Y

Y/X 𝒙𝟏 𝒙𝟐 ⋯ 𝒙𝑹 Total
𝒚𝟏 𝑁11 𝑁12 ⋯ 𝑁1𝑅 𝑵𝟏•
𝒚𝟐 𝑁21 𝑁22 ⋯ 𝑁2𝑅 𝑵𝟐•
⋯ ⋯ ⋯ ⋯ ⋯ ⋯
𝒚𝑳 𝑁𝐿1 𝑁𝐿2 ⋯ 𝑁𝐿𝑅 𝑵𝑳•
Total 𝑵•𝟏 𝑵•𝟐 ⋯ 𝑵•𝑹 N

2

(𝑁𝑖𝑗 −𝑁𝑖𝑗 )
Calculăm: 𝜒 =
2 ∑𝑅𝑖=1 ∑𝐿𝑗=1 ∗ , unde
𝑁𝑖𝑗

𝑁𝑖• ∙ 𝑁•𝑗
𝑁𝑖𝑗∗ =
𝑁
Interpretări:
(1) 𝜒 2 = 0 => 𝑎𝑐𝑐𝑒𝑝𝑡ă𝑚 𝐻0 => ∄ legătură între variabile
(2) 𝜒 2 > 0 => 𝑟𝑒𝑠𝑝𝑖𝑛𝑔𝑒𝑚 𝐻0 (𝑎𝑐𝑐𝑒𝑝𝑡ă𝑚 𝐻1 ) => ∃ legătură între variabile

1
Pentru a testa intensitatea legăturii folosim:
(a) Coeficientul de contingență a lui Pearson

𝜒2
𝐶=√ ∈ [0; 1)
𝑁 + 𝜒2

dacă:
(1) 𝐶 = 0 (𝜒 2 = 0) => ∄ 𝑙𝑒𝑔ă𝑡𝑢𝑟ă
(2) 𝐶 ∈ [0; 0.3) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑠𝑙𝑎𝑏ă (𝑔𝑟𝑎𝑑 𝑚𝑖𝑐 𝑑𝑒 𝑎𝑠𝑜𝑐𝑖𝑒𝑟𝑒)
(3) 𝐶 ∈ [0.3; 0.7) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒 (𝑔𝑟𝑎𝑑 𝑚𝑒𝑑𝑖𝑢 𝑑𝑒 𝑎𝑠𝑜𝑐𝑖𝑒𝑟𝑒)
(3) 𝐶 ∈ [0.7; 1) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑝𝑢𝑡𝑒𝑟𝑛𝑖𝑐ă (𝑔𝑟𝑎𝑑 𝑚𝑎𝑟𝑒 𝑑𝑒 𝑎𝑠𝑜𝑐𝑖𝑒𝑟𝑒)

(b) Coeficientul de contingență a lui Ciuprov

𝜒2
𝐶=√ ∈ [0; 1)
𝑁 ∙ √(𝐼 − 1)(𝐽 − 1)

unde: I-nr. de linii, J-nr. de coloane.


Avem aceleași interpretări ca și la coeficientul de contingență a lui Pearson.

Ex.1: Se cunoaște distribuția unui eșantion de societăți în funcție de variabilele statistice:


X: forma de proprietate
Y: rentabilitatea acțiunilor
Y/X publică privată mixtă Total
f. mare 2 5 10 17
mare 3 4 8 15
medie 1 6 2 9
mică 12 5 3 20
Total 18 20 23 N=61

a.) Stabiliți dacă există legătură între cele două variabile.


b.) În cazul în care există legătură, precizați intensitatea ei.

2
Rezolvare:

a.)
𝑅 𝐿 2
2
(𝑁𝑖𝑗 − 𝑁𝑖𝑗∗ )
𝜒 = ∑∑
𝑁𝑖𝑗∗
𝑖=1 𝑗=1
(2 − 5.02)2 (5 − 5.57)2 (10 − 6.41)2 (3 − 4.43)2
= + + +
5.02 5.57 6.41 4.43
(4 − 4.92) 2 (8 − 5.66) 2 (1 − 2.66) 2 (6 − 2.95)2
+ + + +
4.92 5.66 2.66 2.95
(2 − 3.39)2 (12 − 5.90)2 (5 − 6.56)2 (3 − 7.54)2
+ + + + = 19.66
3.39 5.90 6.56 7.54
> 0 => 𝑟𝑒𝑠𝑝𝑖𝑛𝑔𝑒𝑚 𝐻0 (𝑎𝑐𝑐𝑒𝑝𝑡ă𝑚 𝐻1 ) => ∃ legătură între variabile


17 ∙ 18
𝑁11 = = 5.02
61

17 ∙ 20
𝑁12 = = 5.57
61

17 ∙ 23
𝑁13 = = 6.41
61

15 ∙ 18
𝑁21 = = 4.43
61

15 ∙ 20
𝑁22 = = 4.92
61

15 ∙ 23
𝑁23 = = 5.66
61

9 ∙ 18
𝑁31 = = 2.66
61

9 ∙ 20
𝑁32 = = 2.95
61

9 ∙ 23
𝑁33 = = 3.39
61

20 ∙ 18
𝑁41 = = 5.90
61

20 ∙ 20
𝑁42 = = 6.56
61

20 ∙ 23
𝑁43 = = 7.54
61

3
b.)

𝜒2 19.66
𝐶= √ = √ = 0.49 ∈ [0.3; 0.7)
𝑁 + 𝜒2 61 + 19.66

=> 𝑎𝑣𝑒𝑚 𝑙𝑒𝑔𝑎𝑡𝑢𝑟𝑎 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒 (𝑔𝑟𝑎𝑑 𝑚𝑒𝑑𝑖𝑢 𝑑𝑒 𝑎𝑠𝑜𝑐𝑖𝑒𝑟𝑒)

𝜒2 19.66
𝐶=√ =√ = 0.36 𝜖[0.3; 0.7)
𝑁 ∙ √(𝐼 − 1)(𝐽 − 1) 61 ∙ √(4 − 1)(3 − 1)

=> 𝑎𝑣𝑒𝑚 𝑙𝑒𝑔𝑎𝑡𝑢𝑟𝑎 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒 (𝑔𝑟𝑎𝑑 𝑚𝑒𝑑𝑖𝑢 𝑑𝑒 𝑎𝑠𝑜𝑐𝑖𝑒𝑟𝑒)

B. Variabile ordinale
-sunt variabile calitative, dar în plus permit clasificări (unitătile statistice pot fi ierarhizate).
-legătura dintre variabilele ordinale se numește corelația rangurilor.

Ex.1: Într-un sondaj de piață efectuat pe 8 produse, s-au obținut următoarele rezultate în
funcție de variabilele: X-calitatea produsului, Y-prețul produsului, Z-renumele firmei
producătoare.
a.) Care este legătura dintre calitate și preț?
b.) Caracterizați nivelul corelației dintre cele trei variabile statistice.

X Y Z
𝑃1 𝑃6 𝑃8
𝑃2 𝑃7 𝑃5
𝑃3 𝑃4 𝑃2
𝑃4 𝑃8 𝑃4
𝑃5 𝑃1 𝑃1
𝑃6 𝑃2 𝑃3
𝑃7 𝑃3 𝑃7
𝑃8 𝑃5 𝑃6

4
Rezolvare:
a.)
P 𝑃1 𝑃2 𝑃3 𝑃4 𝑃5 𝑃6 𝑃7 𝑃8
rang X 1 2 3 4 5 6 7 8
rang Y 5 6 7 3 8 1 2 4
𝑑𝑖 -4 -4 -4 1 -3 5 5 4
rang Z 5 3 6 4 2 8 7 1
𝑆𝑖 11 11 16 11 15 15 16 13

𝑃 = 3 + 2 + 1 + 2 + 0 + 2 + 1 + 0 = 11
𝑄 = 4 + 4 + 4 + 2 + 3 + 0 + 0 + 0 = 17

𝑃 − 𝑄 11 − 17
𝐾= = = −0.21 < 0 => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑖𝑛𝑣𝑒𝑟𝑠ă
𝑃 + 𝑄 11 + 17
|0.21| ∈ (0; 0.3) => 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑠𝑙𝑎𝑏ă

6 ∙ ∑𝑛𝑖=1 𝑑𝑖2 6 ∙ (16 + 16 + 16 + 1 + 9 + 25 + 25 + 16)


ղ=1− 2
=1− = −0.48
𝑛 (𝑛 − 1) 8(64 − 1)

• Coeficientul de corelație simplă a rangurilor al lui Kendall.


𝑃−𝑄
𝐾= ,
𝑃+𝑄
unde:
𝑛

𝑃 = ∑ 𝑝𝑖
𝑖=1
𝑛

𝑄 = ∑ 𝑞𝑖
𝑖=1

𝑝𝑖 − 𝑛𝑟. 𝑟𝑎𝑛𝑔𝑢𝑟𝑖𝑙𝑜𝑟 𝑚𝑎𝑖 𝑚𝑎𝑟𝑖 𝑑𝑒𝑐â𝑡 𝑖 𝑎𝑓𝑙𝑎𝑡𝑒 𝑙𝑎 𝑑𝑟𝑒𝑎𝑝𝑡𝑎 𝑙𝑢𝑖 𝑖.


𝑞𝑖 − 𝑛𝑟. 𝑟𝑎𝑛𝑔𝑢𝑟𝑖𝑙𝑜𝑟 𝑚𝑎𝑖 𝑚𝑖𝑐𝑖 𝑑𝑒𝑐â𝑡 𝑖 𝑎𝑓𝑙𝑎𝑡𝑒 𝑙𝑎 𝑑𝑟𝑒𝑎𝑝𝑡𝑎 𝑙𝑢𝑖 𝑖.

5
Interpretări:
(1) 𝐾 < 0 => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑖𝑛𝑣𝑒𝑟𝑠ă (𝑋 𝑐𝑟𝑒ș𝑡𝑒 => 𝑌 𝑠𝑐𝑎𝑑𝑒)
(2) 𝐾 = 0 => ∄ 𝑙𝑒𝑔ă𝑡𝑢𝑟ă î𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒
(3) 𝐾 > 0 => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑑𝑖𝑟𝑒𝑐𝑡ă (𝑋 𝑐𝑟𝑒ș𝑡𝑒 => 𝑌 𝑐𝑟𝑒ș𝑡𝑒)

Intensitatea legăturii:
(1) |𝐾| ∈ (0; 0.3) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑠𝑙𝑎𝑏ă
(2) |𝐾| ∈ [0.3; 0.7) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒
(3) |𝐾| ∈ [0.7; 1) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑝𝑢𝑡𝑒𝑟𝑛𝑖𝑐ă

Obs: Se poate utiliza și un alt coeficient (Spearman).


Este recomanadat să se utilizeze când avem de-a face cu două sau mai multe ranguri egale:
6 ∙ ∑𝑛𝑖=1 𝑑𝑖2
ղ=1− ,
𝑛 (𝑛 2 − 1)
unde:
𝑑𝑖 = 𝑟𝑎𝑛𝑔 𝑋 − 𝑟𝑎𝑛𝑔 𝑌
𝑛 = 𝑛𝑟. 𝑑𝑒 𝑢𝑛𝑖𝑡ăț𝑖 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑒
Interpretare: Idem Kendall.

b.)
𝑆𝑖 = 𝑟𝑎𝑛𝑔 𝑋 + 𝑟𝑎𝑛𝑔 𝑌 + 𝑟𝑎𝑛𝑔 𝑍
11 13 15 16
𝑆: ( )
3 1 2 2
𝑆̅ = 13.5
∑(𝑆𝑖 − 𝑆̅)2 ∙ 𝑁𝑖
𝜎𝑆2 (𝑒𝑓𝑒𝑐𝑡𝑖𝑣ă) = = 4.5
𝑁
𝑚 2 (𝑛 2 − 1)
𝜎𝑆2 (𝑚𝑎𝑥𝑖𝑚ă) = = 47.25
12

4.5
𝐾= = 0.095 => 𝑙𝑒𝑔𝑎𝑡𝑢𝑟𝑎 𝑑𝑖𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑠𝑙𝑎𝑏𝑎
47.25

6
• Coeficientul de corelație multiplă a rangurilor al lui Kendall.
𝜎𝑆2 (𝑒𝑓𝑒𝑐𝑡𝑖𝑣ă)
𝐾= ,
𝜎𝑆2 (𝑚𝑎𝑥𝑖𝑚ă)
unde:
∑(𝑆𝑖 − 𝑆̅)2 ∙ 𝑁𝑖
𝜎𝑆2 (𝑒𝑓𝑒𝑐𝑡𝑖𝑣ă) =
𝑁
𝑚 2 (𝑛 2 − 1)
𝜎𝑆2 (𝑚𝑎𝑥𝑖𝑚ă) =
12
𝑚 = 𝑛𝑟. 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑒.
Interpretare: Idem Kendall simplu.

Exercițiu recapitulativ: Pentru un grup de țări se cunosc:


-valoare PIB/loc: 9.5; 10.7; 8.3; 7.9; 12.8. (u.m)
-cost mediu lunar/angajat: 103; 100; 97; 73; 85. (u.m)

a.) Determinați valoarea medie a PIB/loc în eșantionul analizat.


b.) Este reprezentativ PIB/loc mediu pentru cele 5 țări?
c.) Dacă adaugăm 3 (u.m) la PIB-ul/loc a fiecărei țări cum se va modifica PIB-ul/loc mediu?
d.) Care este costul mediu lunar/angajat înregistrat de cele mai multe țări din eșantion? Care
este valoarea ce divide eșantionul în două părți egale?
e.) Calculați decila 3 și 7 pentru variabila cost mediu lunar/angajat.
f.) Folosind valorile quartile să se studieze structura țărilor în raport cu PIB/loc.
g.) Carcaterizați corelația rangurilor construind câte un clasament pentru fiecare țară.
(hint: pentru PIB/loc utilizați principiul maximizării, iar pentru costul mediu lunar/angajat
principiul minimizării).

S-ar putea să vă placă și