Sunteți pe pagina 1din 19

1. Corela ţ ia parametrică

2. Corela ţ ia neparametrică (asocierea)

Corelaț ia vs. asocierea

Legătura în care atât caracteristica factorială, cauză (x) cât şi caracteristica rezultativă, efect (y) sunt caracteristici numerice, se numeşte şi corelaţie.

În cazul variabilelor categoriale (nominale) mai corect ar fi de utilizat noțiunea de asociere. Totuși în literatură se utilizează și termentul corelație neparametrică.

Corelaț ia ș i regresia

Parametrul ”b” din cadrul modelului de regresie reprezintă un fel de ”corelație absolută”. Adică el de asemenea reflectă legătura între x și y, indicând cu câte unități se va modifica y dacă x se modifică cu o unitate.

Coeficientul de corelație este însă o măsură relativă, sau mai exact, standardizată. Este un fel de ”cu câte procente se va modifica y dacă x se modifică cu 1%”. Aceasta îl face asemănător cu coeficientul de elasticitate, doar că ultimul se calculează în baza a 2 puncte situate pe linia examinată, iar coeficientul de corelație – în baza norului de puncte.

Indicatori de măsurare a legăturii statistice parametrice:

Indicatorii folosiţi pentru a măsura intensitatea legăturii sunt:

covarianţa

coeficientul de corelaţie simplu (Pearson)

coeficientul de corelaţie parţial

raportul de corelaţie.

coeficientul de determinație

Exemplu: Tabelul 1de calcul (date din tema 5)

Nr.

x

y

x

2

y

2

x x

i

2

x x

i

y

xy

 

1 12,3

1860

 

151,29

3459600

-5,7

32,49

 

22878

1449

 

2 12,5

1210

 

156,25

1464100

-5,5

30,25

 

15125

1474

 

3 1730

14

   

196

2992900

-4

 

16

24220

1664

 

4 14,3

1980

 

204,49

3920400

-3,7

13,69

 

28314

1702

 

5 14,8

1900

 

219,04

3610000

-3,2

10,24

 

28120

1765

 

6 16,5

1880

 

272,25

3534400

-1,5

2,25

 

31020

1980

 

7 16,7

1740

 

278,89

3027600

-1,3

1,69

 

29058

2005

 

8 1500

18

   

324

2250000

0

 

0

27000

2170

 

9 3120

19

   

361

9734400

1

 

1

59280

2296

 

10 2190

20

   

400

4796100

2

 

4

43800

2423

 

11 20,2

2130

 

408,04

4536900

2,2

4,84

 

43026

2448

 

12 20,5

1990

 

420,25

3960100

2,5

6,25

 

40795

2486

 

13 2880

22

   

484

8294400

4

 

16

63360

2676

 

14 24,3

3100

 

590,49

9610000

6,3

39,69

 

75330

2967

 

15 24,9

3340

 

620,01

11155600

6,9

47,61

 

83166

3043

Total

270

32550

 

5086

76346500

0

226

 

614492

32549

Exemplu: Tabelul 2de calcul

Nr.

x xy y

i

i

y y

i

2

y y

i

2

y

i

2

y

i

y y

i

y

i

y

2

1

 

-23430,8

-310

96100

-721,2

520086,2

411,17

169058,3

2

 

-21049,8

-960

921600

-695,9

484221,1

-264,14

69767,3

3

 

-8097,6

-440

193600

-506,1

256137,2

66,1

4369,21

4

 

-6408,97

-190

36100

-468,2

219164,4

278,15

77365,75

5

 

-4146,07

-270

72900

-404,9

163935,9

134,89

18195,85

6

 

-427,095

-290

84100

-189,8

36031,6

-100,18

10035,03

7

 

-278,039

-430

184900

-164,5

27066,8

-265,48

70478,04

8

 

0

-670

448900

-0,1

 

0,0

 

-669,94

448819,6

9

 

126,45

950

902500

126,5

15989,6

823,55

678234,6

10

 

1011,84

20

 

400

253,0

63988,8

-232,96

54270,36

11

 

1346,778

-40

1600

278,3

77428,6

-318,26

101290,7

12

 

1976,375

-180

32400

316,2

99995,1

-496,22

246229,33

13

 

8095,68

710

504100

506,0

256015,8

204,02

41624,16

14

 

31630,95

930

864900

797,0

635129,3

133,05

17701,5

15

 

41556,86

1170

1368900

872,9

761884,6

297,14

88292,77

Total

 

21906,57

0

5713000

-0,9

 

3617075,0

0,9

2095733

3.1 Covarianţa

Covarianţa este indicatorul cu ajutorul căruia se calculează legătura dintre o caracteristică factorială (x) şi o caracteristică rezultativă (y).

cov x, y

x

x



y

y

21906,6 /15

1460,4

 

n

Se întâlnesc următoarele situaţii:

Dacă legătura este directă atunci indicatorul are valoare pozitivă

Dacă legătura este de tip invers, atunci indicatorul are valoare negativă.

Covarianţa este nulă dacă variabilele sunt independente.

Fiind un indicator absolut, poate lua valori oricât de mari în valoare absolută, ceea ce o face greu de interpretat şi comparat. Din

şi

acest

motiv,

covarianţa

indică

direcţia

legăturii,

dar

nu

intensitatea ei.

3.2 Coeficientul de corelaţie r (Pearson)

Coeficientul de corelaţie simplă măsoară intensitatea legăturii dintre două variabile x i şi y i .

Pentru serii simple, coeficientul de corelaţie este:

r y

x

x



y

y

 

n

xy

 

x

y

n

x

2

x

2

n

y

2

y

 

x

n  

x

y

Pentru datele sistematizate prin:

grupare simplă, coeficientul de corelaţie se calculează astfel:

 

x

i

x



y

i

y n

i

 

n i

x y n

i

i

i

x n

i

i

y n

i

i

 

r

y

x

n 

i

x

y

 

   

n

i

x

i

2

n

i

 

x n

i

i

2

n

i

y

i

2

n

i

y n

i

i

gruparea combinată, coeficientul de corelaţie este:



n

ij

x y n

i

j

ij

x n

i

i

y n

j

j

 
r  y x
r
y
x
   



n

ij

x

i

2

n

i

x n

i

i

2



n

ij

y

j

2

n

j

y n

j

j

   

Semnificaţia coeficientul de corelaţie

Semnifica ţ ia coeficientul de corela ţ ie

Semnificaţia coeficientul de corelaţie

Coeficientul de corelaţie poate lua valori cuprinse între – 1

şi +1, adică satisface inegalitatea: .

1

 

r

y

x

1

•  Când r y x • r Când y x 
• 
Când
r
y
x
• r
Când
y
x 

0

1

legătura este apreciată ca slabă

legătura este apreciată ca puternică

Dacă ia valori pozitive ia valori negative

Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, deci în cazul legăturilor neliniare este puţin semnificativ, pentru aceasta se foloseşte raportul de corelaţie.

legătura este directă, dacă

legătura este inversă.

r

y

x

0

r

y

x

0

Semnificaţia coeficientul de corelaţie (Cohen)

Corela ţ ia

Negativă

Positivă

Lips ă

0.09 pân ă la 0.00 0.0 pân ă la 0.09

Slab ă

0.30 pân ă la 0.10 0.10 pân ă la 0.30

Medie

0.50 pân ă la 0.30 0.30 pân ă la 0.50

Puternică

1.00 pân ă la 0.50 0.50 pân ă la 1.00

Exemplu de calcul (în baza datelor din tema 6)

Vom utiliza formula pentru cazul seriilor simple, coeficientul de corelaţie este:

 

x

x



y

y

n

xy

 

x

 

y

x

n  

x

y

 

n

x

2

x

2

n

y

2

y

 

15

614492

270

32550

 

x

 

15

5086

270

2

15

76346500

 

32550

2

r y

r y

0,7957

0,80

Această valoare a lui r y/x indică o legătură directă, de o intensitate puternică

3.3 Raportul de corelaţie

Raportul de corelaţ ie este un indicator relativ, utilizat atât pentru mă surarea intensităţ ii legăturii dintre variabile, cât şi în validarea modelelor de regresie. Raportul de corelaţ ie se calculează ca:

R

n    2  y  y i i  1 n 
n
2
y
 y
i
i
 1
n
2
y
 y
i
i
 1

  n   2  y y i i i  1 1
 n 
 2
 y
y i
i
i  1
1 
 n 
 2
y
i  y
i  1

sau

R

2  y / x 2  y
2
y / x
2
y

2  e 1  2  y
2
e
1
2
y

Raportul de corelaţie ia valori cuprinse între 0 (nu există legătură între variabile) şi 1 (când valorile observate se situează exact pe linia de regresie, deci legătura este perfectă). Cu cât valoarea indicatorului este mai apropiată de 1, cu atât legătura dintre variabile este mai puternică. Valori apropiate de 0 ne indică legături de intensitate slabă între variabile. Raportul de corelaţie este nul dacă toate mediile condiţionate

(adică

y

i ) sunt egale între ele.

Raportul de corelaţie

Raportul de corelaţie ia valori cuprinse între 0 şi 1, adică

satisface inegalitatea:

Semnul

raportului

de

corelaţie

este

dat

de

semnul

coeficientului

de

regresie

(b)

din

cadrul

funcţiei

de

regresie.

Raportul de corelaţie măsoară intensitatea legăturilor indiferent de forma de legătură (directă sau indirectă).

Egalitatea r= R este un test de liniaritate pentru model

0

R

y

x

1

Exemplu:

Pe baza datelor din exemplul de regresie liniară putem calcula şi testa:

Raportul de corelaţie

R

2095732 52 , 1  5713000
2095732 52
,
1
5713000

0 6332 ,
0 6332
,

0 796

,

,

ceea ce ne arată o legătură destul de puternică între variabile. Deoarece R r 0,80 putem vorbi despre o formă liniară a regresiei

3.4 Coeficientul de determinaţie, R 2

Coeficientul de determina ţie arată propor ţ ia din varia ţia total ă a variabilei dependente explicată de varia ţ ia variabilei dependente şi este p ătratul raportului de corela ţ ie.

R

2

 2   y  y i  3617075 i   y 2
2
 
y
 y
i 
3617075
i
 y
2
5713000
 
 y
i 
i

0,633

ceea ce înseamn ă că intensitatea legăturii dintre cele dou ă variabile este mare, iar 63,3% din varia ţia volumului vânză rilor se datorează publicităţ ii.

Testarea coeficientului de corelaţie r

Semnifica ţ ia coeficientului de corelaţ ie ( r) poate fi testată utilizând testul t . Ipotezele testate sunt:

H 0 : r = 0 ( nu este semnificativ statistic) H 1 : r0 ( este semnica v sta s c)

t calc

r r n  2 0,8  13   s 2 2 1 
r
r
n
 2
0,8
 13
s
2
2
1
r
1
 0,8
r

4,8

Compară m valoarea calculată a testului cu valoarea teoretică corespunzătoare unui nivel de semnifica ţ ie şi n 2 (adică 15 2)grade de libertate şi in nivel de semnifica ţ ie de 0,05, preluată din tabelul repartiţ iei Student t tab =2,160. Dacă t calc > t tab , adică 4,8 >2,16, atunci coeficientul de corelaţ ie este semnificativ statistic.

Testarea semnificaţiei raportului de corelaţie, R

se face utilizând statistica F:

 

n

k

 

1

R

2 15

1

 

1

0,796

2

F calc

 

22,4

 

k 1

R

2 1 1

0,796

2

unde k reprezintă numărul variabilelor independente (=1 în cazul examinat variabila „cheltuieli publicitare”). Valoarea teoretică pentru un prag de semnificaţie = 0,05 şi 1 grade de libertate la numărător, respectiv 13 grade de libertate – la numitor, preluată din tabelul repartiţiei Fisher

este. Fα;k;n-k-1 =4,7

Întrucât Fcalc> Fα;k;n-k-1 - se respinge H0 şi se acceptă ipoteza conform căreia variabila X are o influenţă semnificativă asupra variabilei rezultative Y .

Coeficientul de corelaţie parţială

Corelatia dintre doua variabile poate induce uneori în eroare si poate fi dificil de interpretat atunci când între cele doua variabile exista o a treia, eventual responsabila ş i ea de evoluţia variabilei dependente .

Următoarele exemple reflectă astfel de situa ţii:

Dependenţa vânză rilor magazinelor concurente de mă rimea bugetului publicitar (variabila a treia, care va fi fixată sau ”înghe ţată ” – nivelul preţurilor la produse)

Dependenţa vânză rilor magazinelor concurente de mă rimea suprafe ţei comerciale (variabila fixată – fluxul de trecători din zonă )

Dependenţa cotei de pia ţă de numă rul de vânzători angaja ţi (variabila– cheltuieli de promovare)

Dependenţa calităţii percepute de către consumatori de nivelul preţurilor mă rcilor (variabila a treia – notorietatea mă rcii)

Coeficientul de corelaţie parţială

Simbolul folosit pentru coeficientul de corelatie partiala este r 12.3 care semnifica o corelatie între variabilele 1 si 2 când variabila 3 este mentinuta constanta (se pot mentine oricâte variabile, simbolul devenind r 12.345).

Formula de clacul a lui r12.3 este:

r 12 .3

r  r  r 12 13 23 1 r 2 1 r 2 
r
 r
 r
12
13
23
1
r
2
1
r
2
13 
23

Testarea semnifica ţ iei coeficientului de corela ţ ie par ţ ial ă se efectuează în mod similar cu testul de corela ţ ie obi şnuit (Pearson). Adică utilizând testul t, dup ă formula indicată mai sus.

Coeficientul de corelaţie parţială: exemplu

S ă examin ă m cazul corela ţ iei între volumul vânză rilor firmelor dintr o ramură şi num ă rul de agenţ i comerciali (vânzători). Putem considera aceasta o corelatie falsa, verificând această ipoteză prin introducerea factorului ”remunerare”. Când efectul acestei ultime variabile este înlaturat, corelatia dintre variabilele amintite poate scade sau chiar dispare. Vom nota variabilele dupa cum urmeaza:

1= vânză rile; 2=num ă rul de agenţ i; 3= remunerarea medie a unui vânzător. Coeficientii de corelatie simpli dintre cele trei variabile au urmatoarele valori: r12= 0,80; r13= 0,90; r23= 0,88.

 

r

12 .3

0,04

1  0 .90 2  1  0,88 2

1

0 .90

2

1  0 .90 2  1  0,88 2
1  0 .90 2  1  0,88 2

1

0,88

2

0,80

0,90

0,88

Coeficientul de corelaţie parţială: exemplu

Observam ca am obtinut un coeficient de corelatie între volumul vânză rilor si numarul de vânzători aproape de zero în situatia în care influenta remuneră rii a fost eliminată . Initial însa, exista tenta ţ ia sa se creadă ca între cele doua variabile exista o legatura puternica (r12= 0,80). Astfel, semnul si marimea unei corelatii partiale dintre doua variabile poate fi diferita de corelatia directa (simpla) dintre aceleasi doua variabile.

2. Corela ţ ia neparametrică

4 Metode neparametrice de măsurare a intensităţii legăturilor dintre fenomene

Metodele neparametrice se folosesc în următoarele cazuri:

când variabilele sunt calitative sau cantitative, sau o variabilă este calitativă şi alta cantitativă;

dacă fenomenele sunt asimetrice;

dacă nu se cunoaşte forma de distribuţie.

4.1 Coeficientul de asociere Q (Yule)

Coeficientul de asociere se foloseşte pentru măsurarea intensităţii legăturilor statistice dintre doi indicatori economici, exprimaţi prin două caracteristici nenumerice alternative. Tabelul de asociere se prezintă astfel:

Valorile

Valorile caracteristicii y i

Total

caracteristicii x i

y

1

y

2

x

1

n

11

n

12

n 11 + n 12

x

2

n

21

n

22

n 21 + n 22

Total

n 11 + n 21

n 12 + n 22

n

4.1 Coeficientul de asociere Q (Yule)

Valoarea numerică a coeficientului de asocierese determină cu formula propusă de Yule:

Q

n

11

n

22

n

12

n

21

n

11

n

22

n

12

n

21

Coeficientul de asociere propus de Yule poate lua valori cuprinse între – 1 şi +1. Se pot întâlni următoarele cazuri:

Q = 0 – între x i şi y i nu există asociere;

Q 0 – între x i şi y i asocierea este slabă sau poate lipsi;

Q 1 – între x i şi y i asocierea este puternică;

Q = 1 – între x i şi y i asocierea este perfectă;

Q > 0 – între x i şi y i există o asociere directă;

Q < 0 – între x i şi y i există o asociere inversă.

Coeficientul de asociere Q (Yule): exemplu

În rezultatul unei cercetări de marketing pe un eşantion de 600 de persoane cu privire la atitudinea consumatorilor potenţiali (separat din mediul urban şi rural) faţă de marca de încălţăminte “Zorile” au fost obţinute următoarele rezultate:

Atitudinea, yi

Mediul, xi

Total

urban

rural

Favorabilă

110

160

270

Nefavorabilă

160

170

330

Total

270

330

600

Coeficientul de asociere Q (Yule) : rezolvare

Valoarea numerică a coeficientului de asocierese este:

Q

110

170

160

160

 0,16

110

170

160

160

Concluzie:

Q < 0 – între x i şi y i există o asociere inversă.

Q 0 – între x i şi y i asocierea este slabă sau poate lipsi;

4.2 Coeficientul de contingenţă Qc

Coeficientul de contingenţă se determină cu ajutorul relaţiei:

Q

c

 

n

11

n

22

n

12

n

21

n

11

n

12

n

21

n

22

n

11

n

21

n

12

n

22

Are acelaşi interval de valori şi aceiaşi semnificaţie ca şi coeficientul de asociere.

Coeficientul de contingenţă Qc: exemplu

Să determinăm coeficientul de contingenţă în baza datelor din exemplul precedent:

Q

 

110

170

160

160

 0,08

 
 

270

330

270

330

 

Concluzie:

Q < 0 – între x i şi y i există o asociere inversă.

Q 0 – între x i şi y i asocierea este chiar mai slabă decât în cazul coeficientului Yule (practic lipseşte);

4.3 Coeficientul de asociere V al lui Cramer

Rezultatele unui studiu realizat la nivelul unui e şantion reprezentativ de 1.000 persoane şi urm ă rind identificarea opiniilor consumatorilor referitoare la un nou serviciu lansat de curând pe pia ţă şi a modului în care acestea sunt influen ţate de vârstă , au fost urm ătoarele:

Aprecieri

 

Grupe de vârstă

Total

Sub 30

31-55

Peste 55

Favorabile

250

200

150

600

Nefavorabile

50

150

200

400

Total

300

350

350

1000

S ă se m ă soare şi să se evalueze intensitatea rela ţ iei dintre vârstă şi opiniile responden ţ ilor fa ţă de noul serviciu.

4.3 Coeficientul de asociere V al lui Cramer

Utilizarea Coeficientului V este condi ţionată de existenţa a cel pu ţin 3 categorii (nivele) pentru una dintre cele 2 variabile (tabelul de contingen ţă trebuie s ă aib ă o dimensiune mai mare de 2 x 2 rânduri coloane). Coeficientul poate obține valori de la zero la 1 ș i se calculează cu formula:

V =

2  c N ( k  1)
2
c
N
(
k 
1)

V =

112,09 1000(2 1) 
112,09
1000(2 1)

0,335

X 2 valoarea calculată rezultată a testului X 2 ; N dimensiunea eş antionului cercetă rii; k valoarea minim ă dintre numă rul de rânduri ş i cel de coloane ale tabelului de contingen ţă . Având în vedere valoarea obţinută a lui V, rela ţia de asociere dintre cele 2 variabile (vârsta ş i aprecierile fa ţă de noul serviciu) poate fi apreciată ca având o intensitate relativ medie.

4.4 Coeficienţii de corelaţie a rangurilor

Coeficientul de corela ţ ie al rangurilor se folose şte în cazurile când caracteristicile de ordin calitativ sau cantitativ pot fi ordonate (ierarhizate), şi anume:

dou ă caracteristici calitative (ordonarea preferin ţ ei brandurilor de către b ă rba ţi şi femei)

o caracteristică cantitativă şi una calitativă (consumul de zah ă r în

mediul rural şi urban).

dou ă caracteristici cantitative (distribu ţ ia că rora este diferită de ce normal ă )

4.4 Coeficienţii de corelaţie a rangurilor

În aceste situaţii, pentru măsurarea legăturii dintre cele două caracteristici se impune parcurgerea următorului algoritm.

1. se ordonează perechile de date, crescător sau descrescător după caracteristica factorială;

2. se acordă rangul de mărime în funcţie de variaţia fiecărei caracteristici:

3. rangul pentru x – R x = I, II, …N sau 1, 2, …, n

4. rangul pentru y – R y = I, II, …N sau 1, 2, …, n

5. se determină diferenţa de rang pentru fiecare pereche de valori , adică

6. se stabileşte numărul de ranguri superioare fiecărui rang considerat al variabilei rezultative (y) şi se notează cu „P”;

7. se stabileşte numărul de ranguri inferioare fiecărui rang considerat al variabilei rezultative (y) şi se notează cu Q;

8. se calculează scorul „S”; S = P – Q;

D i

R R

x

i

y

i

4.4 Coeficienţii de corelaţie a rangurilor În practica statistică corelaţia neparametrică se măsoară cu ajutorul
4.4 Coeficienţii de corelaţie a rangurilor
În practica statistică corelaţia neparametrică se măsoară cu
ajutorul coeficienţilor de rang Spearman şi Kendall.
• Coeficientul lui Spearman se determină cu relaţia:
2
6
D
i
• Coeficientul Kendall se determină cu relaţia:
S
i
C
K
unde:
n
este
numărul
total
de
perechi
ale
celor
două
caracteristici.

C

S

1

 

nn

2 1

0,5n

2

n

Coeficienii de corelaţie a rangurilor:

Spirman (Cs) şi Kendall (Ck): exemplu

Legătura dintre volumul de produc ţ ie şi volumul activelor la un num ă r de zece întreprinderi similare se prezintă astfel:

Întreprin-

Volumul de producţie (mln. lei), x i

Volumul activelor (mln. lei) – y i

derea

A

402.9

1513

B

267.2

771

C

506.3

2098

D

674.6

2593

E

507.9

1437

F

716.4

3594

G

267.1

1075

H

455.3

1307

I

424.7

1486

J

385.7

1107

De determinat intensitatea legăturii între aceste dou ă variabile utilizând coeficien ţ ii Spirman şi Kendall

Coeficienii de corelaţie a rangurilor:

Spirman (Cs): şi Kendall (Ck) exemplu

Societatea

Rx i

Ry i

d

i

Rx Ry

i

i

d

2

i

P

i

Q

i

S i = P i

       

Q

i

F

1

1

 

0

 

090

 

9

D

2

2

 

0

 

080

 

8

E

3

6

 

-3

9

4

3

1

C

4

3

 

1

 

160

 

6

H

5

7