Sunteți pe pagina 1din 6

Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem.

1)

Seminar 2 (Tema 2)
Corelație (parametrică și neparametrică)

BREVIAR TEORETIC

A. CORELAŢIA PARAMETRICA

COEFICIENTUL DE CORELAŢIE LINIARĂ PEARSON este un indicator al corelaţiei utilizat pentru a măsura
intensitate şi sensul dintre două variabile numerice, cu distribuţie normală, între care există o legătură liniară.
Coeficientul de corelaţie liniară Pearson se obţine prin standardizarea covarianţei, adică prin raportarea acesteia la
produsul abaterilor standard ale celor două variabile:
n

s  ( x  x)( y i i  y)
  1, 1
cov( x, y )
rxy   xy  i 1
sx  s y sx  s y n 2 
n
2
 ( xi  x)   ( yi  y ) 
 i1   i1 
Semnul coeficientului indică direcţia legăturii, iar valoarea lui indică intensitatea legăturii:
Prin transformări elementare se obţine o formulă de calcul mai rapid:
n n n
n x y x y
i 1
i i
i 1
i
i 1
i
.
rxy 
 n  n 
2 
n  n 
2

 
n x 2  
i   x  i
 n
 
y i2  
  y  i


 i 1  i 1    i 1  i 1  
Determinarea coeficientului de corelaţie liniară Pearson se poate realiza folosind EXCEL, funcţia CORREL (ARRAY 1,
ARRAY 2).

B. CORELAŢIA NEPARAMETRICA

1. COEFICIENTUL DE ASOCIERE YULE


În cazul variabilelor alternative (binare), pe baza datelor sistematizate într-un tabel de asociere de forma:
Clasele lui Y
Clasele lui X TOTAL
Y (y1) nonY (y2)
X (x1) n11 n12 n1. = n11 + n12
nonX (x2) n21 n22 n2. = n21 + n22
TOTAL n.1 = n11 + n21 n.2 = n12 + n22 n.. = n11 + n12+n21+n22
se pot formula următoarele aprecieri:
 asociere puternică între variabile se remarcă în cazul concentrării frecvenţelor pe una dintre diagonalele tabelului;
 dacă toate unităţile statistice sunt dispuse doar pe diagonala principală (n11 şi n22), vorbim de o asociere perfectă pozitivă;
 dacă unităţile statistice sunt dispuse pe diagonala secundară (n21 şi n12), vorbim de o asociere perfectă negativă;
 Dacă variabilele statistice nu sunt asociate (sunt independente), atunci frecvenţele de pe aceeaşi linie şi frecvenţele de
pe aceeaşi coloană se află în acelaşi raport:
n11 n12
 , adică n11n22  n12 n21  0 .
n21 n22
Pentru măsurarea intensităţii şi a sensului legăturii dintre două variable binare se utilizează COEFICIENTUL DE
ASOCIERE YULE, notat cu Q, măsoară intensitatea asocierii dintre două variabile alternative şi are următoarea formulă
de calcul:
n n  n21n12
Q  11 22
n11n22  n21n12
Acest indicator ia valori cuprinse în intervalul  1, 1 ; el ia valoarea 0 când n11 n22 = n21 n12, deci există o
independenţă între variabile. O valoare apropiată de +1 ne arată o asociere pozitivă; iar o valoare apropiată de –1, o
asociere negativă.

2. CORELATIA RANGURILOR
În cazul variabilelor:
- care nu au o distribuţie gaussiană
- pentru care nu se poate preciza tipul distribuţiei, volumul eşantionului fiind redus
- nenumerice, măsurate pe scala ordinală şi care nu au un număr mare de valori egale intre ele, putem folosi
coeficientul de corelaţie a rangurilor Spearman (rs)
1
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)

- nenumerice, măsurate pe scala ordinală, ale căror ranguri egale depăşeşte 25% din numărul lor este indicată
folosirea coeficientul de corelaţie a rangurilor Kendall (rk)
- Cei doi coeficienţi fac parte din categoria metodelor neparametrice (libere de distribuţie)

Rangurile reprezintă numere de ordine acordate unităţilor statistice, în funcţie de valoarea înregistrată pentru
fiecare variabilă în parte. Aceste ranguri permit ordonarea unităţilor statistice în funcţie de criteriile studiate.
Rangurile sunt de la 1 (unitatea cu performanţa cea mai ridicată ori cu valoarea cea mai mare a variabilei), până la
n (unitatea cu performanţa cea mai scăzută).
Dacă mai multe unităţi statistice au aceeaşi variantă/valoare a unei variabile, atunci se acordă media rangurilor
succesive.
Pentru determinarea rangurilor se poate utiliza funcţia RANK.AVG din Excel.

2.1 Coeficientul de corelaţie a rangurilor Spearman ( rs ) se determină cu formula:


6 d i2
rs  1 
 
,
n n2 1
unde d i  rxi  ryi reprezintă diferenţa dintre rangurile perechi acordate aceleiaşi unităţi statistice.
Coeficientul ia valori cuprinse în intervalul [-1, 1]; valorile apropiate de ±1 indică o corelaţie puternică între variabile,
iar valori apropiate de zero indică o corelaţie slabă între variabile.
Coeficientul de corelaţie a rangurilor Spearman se bazează pe analiza concordanţei rangurilor acordate pentru fiecare din cele n
unităţi statistice, după variabila X şi după variabila Y.
Dacă există o legătură directă perfectă, atunci fiecărui rang i, i  1, n după variabila X îi va corespunde acelaşi rang i, după
variabila Y şi diferenţa din rangurile acordate aceleiaşi unităţi statistice va fi nulă: di  rxi  ryi  0
Dacă legătura nu este perfectă, rangurile nu sunt identice şi, atunci di  rxi  ryi  0 .

2.2 Coeficientul de corelaţie a rangurilor Kendall ( rk ) se determină cu formula:


n n
2S
rk  , unde S  P  Q, P   pi , Q   qi
nn  1 i 1 i 1
Acest indicator se utilizează în cazul în care se presupune o relaţie de tip cauză-efect între două variabile. Se
notează cu Y variabila efect şi cu X variabila cauză.
Mărimile p i şi qi se determină pe baza rangurilor acordate unităţilor statistice în funcţie de valorile variabilei Y
( ryi ), valori dispuse corespunzător ordonării crescătoare a unităţilor statistice în funcţie de valorile variabilei X ( rxi )
p i reprezintă numărul rangurilor superioare fiecărui rang ryi , de la el în jos;
qi reprezintă numărul rangurilor inferioare fiecărui rang ryi , de la el în jos.
Acest indicator ia valori cuprinse în intervalul [-1, 1], iar interpretarea acestora este similară cu cea a valorilor
coeficientului de corelaţie a rangurilor Spearman.
Pentru determinarea acestui coeficient se ordonează crescător unităţile statistice după rangurile acordate variabilei
X şi se înscriu, în paralel, rangurile acordate după variabila Y.
Dacă legătura este perfectă şi directă, atunci şi rangurile acordate după variabila Y sunt ordonate crescător şi:
n 1
nn  1
P  i  , Q  0 , deci rk  1 .
i 1 2
nn  1
Dacă legătura este perfectă şi inversă, atunci P  0, Q  şi rk  1 .
2
Pentru acelaşi set de date coeficientul de corelaţie a rangurilor Kendall are o valoare mai mică decât coeficientul
2
de corelaţie a rangurilor Spearman şi, pentru un număr mare de unităţi statistice (n) avem relaţia rk  rs .
3

2
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)

Aplicatii rezolvate

1. În urma unei cercetări statistice privind intenţia de vot, realizată pe un eşantion aleator de 1495 cetăţeni cu drept de vot
din statul Virginia, s-a obţinut următoarea distribuţie a alegătorilor în funcţie de gen şi opinia Pro sau Contra faţă de
candidata Hillary Clinton:
Opinia Total
Genul
Pro Contra
feminin 475 180 655
masculin 310 530 840
Total 785 710 1495
Pentru a analiza legătura existentă între genul persoanei şi intenţia de vot utilizăm:
coeficientul de asociere Yule, calculat cu relaţia:
n11n22  n21n12 475  530  310  180
Q   0.637
n11n22  n21n12 475  530  310  180

2. Pentru un eşantion de 7 studenţi au fost înregistrate date referitoare la calificativul obţinut la testul de absolvire al unui
curs intensiv de programare a calculatoarelor şi nota obţinută la examenul de Informatică:
Nr. crt. Calificativ Nota
1. foarte bine (90-100 puncte) 8
2. Bine (70-90 puncte) 6
3. Bine (70-90 puncte) 8
4. foarte bine (90-100 puncte) 10
5. Bine (70-90 puncte) 9
6. Suficient (50-70 puncte) 5
7. Insuficient (sub 50 puncte) 7

Determinaţi sensul şi intensitatea legăturii dintre variabilele calificativ şi notă folosind indicatori adecvaţi.
Rezolvare:
Variabila “calificativ” este o variabilă calitativă, măsurată pe scala ordinală şi considerată a fi variabilă cauză,
notată X.
Variabila “nota” este o variabilă cantitativă, măsurată pe scala de raport şi considerată a fi variabilă efect Y.
Asocierea dintre o variabilă numerică şi una nenumerică, dar măsurată pe scala ordinală, se poate analiza folosind
cei doi coeficienţi ai corelaţiei rangurilor, Sperman şi Kend
all.
Ierarhizăm unităţile statistice (cei şapte studenţi) acordând ranguri valorilor celor două variabile ( rxi şi ryi ) şi
calculăm pătratul diferenţelor rangurilor ( d i2 ) conform tabelului de mai jos:
Calificativ Nota rxi ry i
X  Y  rxi ry i d i2 pi ( ryi ) q i ( ry i )
ordonat corespunzător
foarte bine
8 1,5 3,5 4 1,5 1 6 0
(90-100 puncte)
Bine
6 4 6 2 1,5 3,5 3 1
(70-90 puncte)
Bine
8 4 3,5 0,25 4 2 4 0
(70-90 puncte)
foarte bine
10 1,5 1 0,25 4 3,5 3 0
(90-100 puncte)
Bine
9 4 2 4 4 6 1 1
(70-90 puncte)
Suficient
5 6 5 1 6 5 1 0
(50-70 puncte)
Insuficient
7 7 7 0 7 7 0 0
(sub 50 puncte)
Total - - - d
i
i
2
 11.5 P=18 Q=2

Coeficientul de corelaţie a rangurilor Spearman este:

3
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)

6 d i2 6  11.5
rs  1   1  0,79 .

n n 1 2
 7  48
Coeficientul de corelaţie a rangurilor Kendall este:
2S 2 16
rk    0.76 .
nn  1 7  6
Valorile celor doi coeficienţi arată o asociere, o legătură puternică şi directă între calificativul obţinut şi nota la examen.

Aplicatii propuse

1. Un analist de marketing urmăreşte în 5 luni efectul reclamelor asupra veniturilor din vânzări. El înregistrează
cheltuielile cu reclama (X) (miloane RON) şi veniturile din vânzări (Y) (sute milioane RON). În urma prelucrării
datelor obţine:

   
xi  15; yi  10; xi2  55; xi yi  37;
i

yi2  30 i  1,5 .  
i i i i
În ipoteza unei dependenţe liniare, coeficientul de corelaţie este: a) 0.70; b) 0.56; c) 0.68; d) 0.82; e) 0.77.

2. Dacă coeficientul de corelaţie liniară Pearson are valoarea −0.93, atunci legatura dintre cele două variabile este:
a) directă, liniară şi puternică;
b) liniară şi slabă;
c) liniară, inversă şi puternică;
d) neliniară și de intensitate medie;
e) neliniară și slabă.

3. Coeficientul de corelaţie liniară Pearson se utilizează pentru studiul legăturii dintre:


a) două variabile numerice, cu distribuţie normală, între care există legătură neliniară;
b) doua variabile nenumerice măsurate pe scala ordinală;
c) două variabile calitative măsurate pe scala nominală;
d) două variabile numerice, cu distribuţie normală, între care există legătură liniară.

4. Alegeţi variantele corecte dintre cele de mai jos referitoare la coeficientul de corelaţie liniară Pearson:
a) o valoare pozitivă arată legătură liniară inversa între două variabile;
b) o valoare pozitivă şi apropiată de 1 arată legătură directă şi puternică între două variabile;
c) o valoarea de 0,85 indică o legătură mai puternică decât o valoare de −0.85;
d) o valoare egală cu 1 arată legatură slabă şi inversă între cele două variabile.

5. Coeficientul de corelaţie Spearman se utilizeazăa pentru analiza legăturii dintre:


a) două variabile alternative;
b) două variabile măsurate pe scala nominală;
c) o variabilă numerică şi o variabilă nenumerică măsurată pe scala ordinală;
d) două variabile numerice, indiferent de forma legăturii sau tipul distribuţiei;
e) niciun răspuns corect.

6. Alegeţi variantele corecte dintre cele de mai jos referitoare la coeficientul de corelaţie Sperman:
a) o valoare pozitivă arată legătură inversa între două variabile numerice;
b) o valoare pozitivă şi apropiată de 1 arată legătură directă şi puternică între două variabile numerice;
c) o valoarea de 0.85 indică o legătură mai puternică decât o valoare de −0,85;
d) o valoare egală cu 1 arată legatură slabă şi inversă între cele două variabile;
e) niciun răspuns corect.

7. Legătura dintre două variabile numerice se analizează grafic cu ajutorul:


a) diagramei de structură;
b) corelogramei;
c) cronogramei;
d) histogramei;
e) poligonului frecvenţelor.

8. Semnul coeficientului de corelaţie


a) este minus când legătura dintre variabile este slabă;
b) este determinat de abaterile medii pătratice ale variabilelor x şi y;
4
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)

c) indică direcţia schimbării unei variabile când cealaltă variabilă se modifică;


d) este minus când descreşterea lui x este însoţită de descreşterea lui y;
e) este plus când valorile lui y sunt mai mari decât media.
f) niciun răspuns corect

9. Dacă valoarea coeficientului de corelaţie Pearson este 0, atunci:


a) y descreşte când x creşte;
b) schimbările variabile y explică schimbările variabilei x;
c) toate perechile (xi, yi) se află pe o linie dreaptă;
d) nu există legătură între x şi y;
e) legătura dintre x şi y, dacă există vreuna, nu este liniară;
f) niciun răspuns corect.

10. Pentru mai multe familii din mediul rural s-au cules şi prelucrat date privind consumul de gaze naturale şi consumul
de energie electrică. În urma prelucrării datelor, s-a obţinut r = 0,883. Atunci, concluzia este:
a) utilizatorii tind să substituie o formă de energie cu alta;
b) legătura dintre cele două variabile nu este de tip liniar;
c) nu există legătură statistică între cele două variabile;
d) familiile care au consumuri mici de energie electrică, au şi consumuri mici de gaze naturale;
e) dacă am construi diagrama de împrăştiere, am constata o împrăştiere a punctelor pe întregul grafic;
f) niciun răspuns corect.

11. Variabilele X și Y, măsurate pe 64 de unități statistice, au un coeficient de corelație de 0.4.Variabilele X și Z,


măsurate pe aceleași unități, au un coeficient de corelație de −0.6. Acest lucru arată că:
a) corelația dintre X și Y este mai puternică, deoarece este pozitivă;
b) corelația dintre X și Y este mai puternică, deoarece | − 0.6| > 0.4;
c) cele două corelații sunt la fel de puternice, deoarece 1.0 − 0.6 = 0.4;
d) variabilele nu sunt corelate, deoarece coeficienții sunt < 1;
e) nu putem spune care corelație este mai puternică, fără informații adiționale;
f) nici unul din răspunsurile de mai sus nu este corect.

12. Un analist de marketing urmăreşte timp de 5 luni consecutive efectul reclamelor asupra veniturilor din vânzări pentru
o firmă de produse cosmetice. El înregistrează cheltuielile cu reclama (X) (zeci mii euro) şi veniturile din vânzări (Y)
(sute mii euro). În urma prelucrării datelor obţine: suma totală cheltuită cu reclama în cele 5 luni este 15; veniturile
totale din vânzări obţinute în perioada analizată sunt egale cu 10; suma pătratelor cheltuielilor cu reclama este 55;
suma pătratelor veniturilor este egală cu 30; suma produselor dintre cheltuielile cu reclama şi veniturile din vânzări
pentru cele 5 luni este egală cu 37.
În ipoteza unei dependenţe liniare, coeficientul de corelaţie liniară Pearson este:
0,70; b) 0,56; c) 0,68; d) 0,82; e) 0,77; f) niciun răspuns corect.

13. Despre recolta medie la hectar la o anumită cultură şi suprafaţa cultivată, pentru 30 de judeţe se cunosc datele:
Suprafaţa cultivată (ha) Recolta medie la hectar (q/ha)
Sub 13 13 şi peste 13
Sub 20.000 10 5
20.000 şi peste 20.000 3 12
Coeficientul de asociere are valoarea : a) -0.70; b) 0.78; c) 0.59; d) -0.62; e) 0.82.

14. O firmă de asigurări doreşte să cunoască măsura în care mărimea unei familii influenţează cheltuielile lunare pentru
servicii medicale ale acesteia. Pentru un eşantion format din 5 dintre clienţii firmei au fost înregistrate date referitoare
la mărimea familiei (număr de membri) şi cheltuielile lunare (Eur) în scop medical ale unei familii. Datele înregistrate
sunt:
Mărimea familiei clientului (nr. membri) 5 1 4 5 2
Cheltuieli medii lunare in scop medical (eur) 51 22 29 49 25
Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.

15. Directorul Departamentului de Marketing al unei companii producătoare de obiecte electrocasnice doreşte să
stabilească o legătură între volumul vânzărilor companiei şi preţul unui bun asemănător, produs de un competitor de
pe piaţă. În acest scop selectează 5 produse pentru care înregistrează următoarele date:
Preţul la competitor (unităţi monetare) 10 15 16 21 14
Volumul vânzărilor (număr bucăţi) 52 61 62 68 48
5
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)

Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.

16. Un fermier este interesat să cunoască legătura între temperaturile, în grade Celsius, din luna martie şi producţia unei
livezi cu cireşi, în sute kilograme. Pentru aceasta, consideră temperaturile medii ale lunii martie din ultimii 5 ani şi
producţia obţinută:
Temperatura (C) 12 11 10 14 8
Producţia (sute kg) 15 10 6 19 5

Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.

17. Pentru un magazin de mobilă se cunosc numărul de spoturi publicitare difuzate şi numărul de vizitatori (mii pers.)
Nr. spoturi publicitare 7 5 1 8 10 2 6 7
Nr. vizitatori (mii pers.) 42 32 10 40 61 8 35 34
a) să se reprezinte grafic datele;
b) să se măsoare intensitatea legăturii dintre variabile folosing o metodă de corelaţie neparametrică;

18. Pentru un magazin se cunosc vanzarile de camasi barbatesti si profitul obtinut pentru 8 zile consecutive:
Profit (unitati monetare) 30 42 10 62 12 30 21 58
Numar de camasi vandute ( zeci bucati) 3 4 1 6 1 2 2 5
a) Sa se reprezinte grafic datele;
b) Sa se caracterizeze intensitatea legaturii folosind un indicator adecvat.

19. Pentru 10 magazine s-au înregistrat suprafaţa comercială şi valoarea vânzărilor:


Supr. com. (mp) 825 740 1000 625 995 842 813 765 780 990
Val. vânz. (mil. RON) 23 25 33 15 37 29 18 16 20 30
Pentru analiza dependenţei dintre variabile s-a calculat coeficientul de corelaţie a rangurilor Spearman, a cărui valoare
este: a) 0,85; b) 0,74; c) 0,78; d) 0,82; e) 0,91.

20. Pentru 8 agenţii de turism s-au înregistrat date referitoare la numărul de pachete turistice în zone exotice vândute si
profitul (mii Euro), din luna august a anului 2014:
Numărul pachete turitice vândute 15 14 18 12 13 14 16 20
Profit (mii Euro) 3 2,5 4,5 2 2 3,5 4 5
a) Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele două variabile;
b) Măsuraţi intensitatea legăturii dintre variabile folosind coeficientul de corelaţie a rangurilor Kendall.

S-ar putea să vă placă și