Documente Academic
Documente Profesional
Documente Cultură
1)
Seminar 2 (Tema 2)
Corelație (parametrică și neparametrică)
BREVIAR TEORETIC
A. CORELAŢIA PARAMETRICA
COEFICIENTUL DE CORELAŢIE LINIARĂ PEARSON este un indicator al corelaţiei utilizat pentru a măsura
intensitate şi sensul dintre două variabile numerice, cu distribuţie normală, între care există o legătură liniară.
Coeficientul de corelaţie liniară Pearson se obţine prin standardizarea covarianţei, adică prin raportarea acesteia la
produsul abaterilor standard ale celor două variabile:
n
s ( x x)( y i i y)
1, 1
cov( x, y )
rxy xy i 1
sx s y sx s y n 2
n
2
( xi x) ( yi y )
i1 i1
Semnul coeficientului indică direcţia legăturii, iar valoarea lui indică intensitatea legăturii:
Prin transformări elementare se obţine o formulă de calcul mai rapid:
n n n
n x y x y
i 1
i i
i 1
i
i 1
i
.
rxy
n n
2
n n
2
n x 2
i x i
n
y i2
y i
i 1 i 1 i 1 i 1
Determinarea coeficientului de corelaţie liniară Pearson se poate realiza folosind EXCEL, funcţia CORREL (ARRAY 1,
ARRAY 2).
B. CORELAŢIA NEPARAMETRICA
2. CORELATIA RANGURILOR
În cazul variabilelor:
- care nu au o distribuţie gaussiană
- pentru care nu se poate preciza tipul distribuţiei, volumul eşantionului fiind redus
- nenumerice, măsurate pe scala ordinală şi care nu au un număr mare de valori egale intre ele, putem folosi
coeficientul de corelaţie a rangurilor Spearman (rs)
1
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)
- nenumerice, măsurate pe scala ordinală, ale căror ranguri egale depăşeşte 25% din numărul lor este indicată
folosirea coeficientul de corelaţie a rangurilor Kendall (rk)
- Cei doi coeficienţi fac parte din categoria metodelor neparametrice (libere de distribuţie)
Rangurile reprezintă numere de ordine acordate unităţilor statistice, în funcţie de valoarea înregistrată pentru
fiecare variabilă în parte. Aceste ranguri permit ordonarea unităţilor statistice în funcţie de criteriile studiate.
Rangurile sunt de la 1 (unitatea cu performanţa cea mai ridicată ori cu valoarea cea mai mare a variabilei), până la
n (unitatea cu performanţa cea mai scăzută).
Dacă mai multe unităţi statistice au aceeaşi variantă/valoare a unei variabile, atunci se acordă media rangurilor
succesive.
Pentru determinarea rangurilor se poate utiliza funcţia RANK.AVG din Excel.
2
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)
Aplicatii rezolvate
1. În urma unei cercetări statistice privind intenţia de vot, realizată pe un eşantion aleator de 1495 cetăţeni cu drept de vot
din statul Virginia, s-a obţinut următoarea distribuţie a alegătorilor în funcţie de gen şi opinia Pro sau Contra faţă de
candidata Hillary Clinton:
Opinia Total
Genul
Pro Contra
feminin 475 180 655
masculin 310 530 840
Total 785 710 1495
Pentru a analiza legătura existentă între genul persoanei şi intenţia de vot utilizăm:
coeficientul de asociere Yule, calculat cu relaţia:
n11n22 n21n12 475 530 310 180
Q 0.637
n11n22 n21n12 475 530 310 180
2. Pentru un eşantion de 7 studenţi au fost înregistrate date referitoare la calificativul obţinut la testul de absolvire al unui
curs intensiv de programare a calculatoarelor şi nota obţinută la examenul de Informatică:
Nr. crt. Calificativ Nota
1. foarte bine (90-100 puncte) 8
2. Bine (70-90 puncte) 6
3. Bine (70-90 puncte) 8
4. foarte bine (90-100 puncte) 10
5. Bine (70-90 puncte) 9
6. Suficient (50-70 puncte) 5
7. Insuficient (sub 50 puncte) 7
Determinaţi sensul şi intensitatea legăturii dintre variabilele calificativ şi notă folosind indicatori adecvaţi.
Rezolvare:
Variabila “calificativ” este o variabilă calitativă, măsurată pe scala ordinală şi considerată a fi variabilă cauză,
notată X.
Variabila “nota” este o variabilă cantitativă, măsurată pe scala de raport şi considerată a fi variabilă efect Y.
Asocierea dintre o variabilă numerică şi una nenumerică, dar măsurată pe scala ordinală, se poate analiza folosind
cei doi coeficienţi ai corelaţiei rangurilor, Sperman şi Kend
all.
Ierarhizăm unităţile statistice (cei şapte studenţi) acordând ranguri valorilor celor două variabile ( rxi şi ryi ) şi
calculăm pătratul diferenţelor rangurilor ( d i2 ) conform tabelului de mai jos:
Calificativ Nota rxi ry i
X Y rxi ry i d i2 pi ( ryi ) q i ( ry i )
ordonat corespunzător
foarte bine
8 1,5 3,5 4 1,5 1 6 0
(90-100 puncte)
Bine
6 4 6 2 1,5 3,5 3 1
(70-90 puncte)
Bine
8 4 3,5 0,25 4 2 4 0
(70-90 puncte)
foarte bine
10 1,5 1 0,25 4 3,5 3 0
(90-100 puncte)
Bine
9 4 2 4 4 6 1 1
(70-90 puncte)
Suficient
5 6 5 1 6 5 1 0
(50-70 puncte)
Insuficient
7 7 7 0 7 7 0 0
(sub 50 puncte)
Total - - - d
i
i
2
11.5 P=18 Q=2
3
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)
6 d i2 6 11.5
rs 1 1 0,79 .
n n 1 2
7 48
Coeficientul de corelaţie a rangurilor Kendall este:
2S 2 16
rk 0.76 .
nn 1 7 6
Valorile celor doi coeficienţi arată o asociere, o legătură puternică şi directă între calificativul obţinut şi nota la examen.
Aplicatii propuse
1. Un analist de marketing urmăreşte în 5 luni efectul reclamelor asupra veniturilor din vânzări. El înregistrează
cheltuielile cu reclama (X) (miloane RON) şi veniturile din vânzări (Y) (sute milioane RON). În urma prelucrării
datelor obţine:
xi 15; yi 10; xi2 55; xi yi 37;
i
yi2 30 i 1,5 .
i i i i
În ipoteza unei dependenţe liniare, coeficientul de corelaţie este: a) 0.70; b) 0.56; c) 0.68; d) 0.82; e) 0.77.
2. Dacă coeficientul de corelaţie liniară Pearson are valoarea −0.93, atunci legatura dintre cele două variabile este:
a) directă, liniară şi puternică;
b) liniară şi slabă;
c) liniară, inversă şi puternică;
d) neliniară și de intensitate medie;
e) neliniară și slabă.
4. Alegeţi variantele corecte dintre cele de mai jos referitoare la coeficientul de corelaţie liniară Pearson:
a) o valoare pozitivă arată legătură liniară inversa între două variabile;
b) o valoare pozitivă şi apropiată de 1 arată legătură directă şi puternică între două variabile;
c) o valoarea de 0,85 indică o legătură mai puternică decât o valoare de −0.85;
d) o valoare egală cu 1 arată legatură slabă şi inversă între cele două variabile.
6. Alegeţi variantele corecte dintre cele de mai jos referitoare la coeficientul de corelaţie Sperman:
a) o valoare pozitivă arată legătură inversa între două variabile numerice;
b) o valoare pozitivă şi apropiată de 1 arată legătură directă şi puternică între două variabile numerice;
c) o valoarea de 0.85 indică o legătură mai puternică decât o valoare de −0,85;
d) o valoare egală cu 1 arată legatură slabă şi inversă între cele două variabile;
e) niciun răspuns corect.
10. Pentru mai multe familii din mediul rural s-au cules şi prelucrat date privind consumul de gaze naturale şi consumul
de energie electrică. În urma prelucrării datelor, s-a obţinut r = 0,883. Atunci, concluzia este:
a) utilizatorii tind să substituie o formă de energie cu alta;
b) legătura dintre cele două variabile nu este de tip liniar;
c) nu există legătură statistică între cele două variabile;
d) familiile care au consumuri mici de energie electrică, au şi consumuri mici de gaze naturale;
e) dacă am construi diagrama de împrăştiere, am constata o împrăştiere a punctelor pe întregul grafic;
f) niciun răspuns corect.
12. Un analist de marketing urmăreşte timp de 5 luni consecutive efectul reclamelor asupra veniturilor din vânzări pentru
o firmă de produse cosmetice. El înregistrează cheltuielile cu reclama (X) (zeci mii euro) şi veniturile din vânzări (Y)
(sute mii euro). În urma prelucrării datelor obţine: suma totală cheltuită cu reclama în cele 5 luni este 15; veniturile
totale din vânzări obţinute în perioada analizată sunt egale cu 10; suma pătratelor cheltuielilor cu reclama este 55;
suma pătratelor veniturilor este egală cu 30; suma produselor dintre cheltuielile cu reclama şi veniturile din vânzări
pentru cele 5 luni este egală cu 37.
În ipoteza unei dependenţe liniare, coeficientul de corelaţie liniară Pearson este:
0,70; b) 0,56; c) 0,68; d) 0,82; e) 0,77; f) niciun răspuns corect.
13. Despre recolta medie la hectar la o anumită cultură şi suprafaţa cultivată, pentru 30 de judeţe se cunosc datele:
Suprafaţa cultivată (ha) Recolta medie la hectar (q/ha)
Sub 13 13 şi peste 13
Sub 20.000 10 5
20.000 şi peste 20.000 3 12
Coeficientul de asociere are valoarea : a) -0.70; b) 0.78; c) 0.59; d) -0.62; e) 0.82.
14. O firmă de asigurări doreşte să cunoască măsura în care mărimea unei familii influenţează cheltuielile lunare pentru
servicii medicale ale acesteia. Pentru un eşantion format din 5 dintre clienţii firmei au fost înregistrate date referitoare
la mărimea familiei (număr de membri) şi cheltuielile lunare (Eur) în scop medical ale unei familii. Datele înregistrate
sunt:
Mărimea familiei clientului (nr. membri) 5 1 4 5 2
Cheltuieli medii lunare in scop medical (eur) 51 22 29 49 25
Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.
15. Directorul Departamentului de Marketing al unei companii producătoare de obiecte electrocasnice doreşte să
stabilească o legătură între volumul vânzărilor companiei şi preţul unui bun asemănător, produs de un competitor de
pe piaţă. În acest scop selectează 5 produse pentru care înregistrează următoarele date:
Preţul la competitor (unităţi monetare) 10 15 16 21 14
Volumul vânzărilor (număr bucăţi) 52 61 62 68 48
5
Econometrie – seminar, Facultatea de Marketing, ASE, anul II, 2017-2018 (Sem. 1)
Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.
16. Un fermier este interesat să cunoască legătura între temperaturile, în grade Celsius, din luna martie şi producţia unei
livezi cu cireşi, în sute kilograme. Pentru aceasta, consideră temperaturile medii ale lunii martie din ultimii 5 ani şi
producţia obţinută:
Temperatura (C) 12 11 10 14 8
Producţia (sute kg) 15 10 6 19 5
Utilizând Excel reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
utilizati un indicator adecvat pentru masurarea intensitatii legaturii.
17. Pentru un magazin de mobilă se cunosc numărul de spoturi publicitare difuzate şi numărul de vizitatori (mii pers.)
Nr. spoturi publicitare 7 5 1 8 10 2 6 7
Nr. vizitatori (mii pers.) 42 32 10 40 61 8 35 34
a) să se reprezinte grafic datele;
b) să se măsoare intensitatea legăturii dintre variabile folosing o metodă de corelaţie neparametrică;
18. Pentru un magazin se cunosc vanzarile de camasi barbatesti si profitul obtinut pentru 8 zile consecutive:
Profit (unitati monetare) 30 42 10 62 12 30 21 58
Numar de camasi vandute ( zeci bucati) 3 4 1 6 1 2 2 5
a) Sa se reprezinte grafic datele;
b) Sa se caracterizeze intensitatea legaturii folosind un indicator adecvat.
20. Pentru 8 agenţii de turism s-au înregistrat date referitoare la numărul de pachete turistice în zone exotice vândute si
profitul (mii Euro), din luna august a anului 2014:
Numărul pachete turitice vândute 15 14 18 12 13 14 16 20
Profit (mii Euro) 3 2,5 4,5 2 2 3,5 4 5
a) Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele două variabile;
b) Măsuraţi intensitatea legăturii dintre variabile folosind coeficientul de corelaţie a rangurilor Kendall.