Sunteți pe pagina 1din 6

CORELAȚIE probleme rezolvate

Probleme corelaţie

O firmă de asigurări doreşte să cunoască măsura în care mărimea unei familii influenţează cheltuielile lunare
pentru servicii medicale ale acesteia. Pentru un eşantion format din 5 dintre clienţii firmei au fost înregistrate
date referitoare la mărimea familiei (număr de membri) şi cheltuielile lunare (Eur) în scop medical ale unei
familii. Datele înregistrate sunt:

Mărimea familiei clientului (nr. membri) 5 1 4 5 2


Cheltuieli medii lunare in scop medical (eur) 51 22 29 49 25

I. Reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
II. Calculaţi şi interpretaţi coeficientul de corelaţie Pearson
III. Calculaţi şi interpretaţi coeficientul de corelaţie Spearman
IV. Utilizaţi un indicator adecvat pentru măsurarea intensităţii legăturii și motivați alegerea făcută.
V. Ce tip de date avem în problemă?

I) Reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile.
Vom nota cu X variabila care reprezintă numărul de membri din familia clientului. Vom reprezenta această
variabilă pe axa absciselor (Ox).
Vom nota cu Y variabila care reprezintă Cheltuieli medii lunare în scop medical. Vom reprezenta această
variabilă pe axa ordonatelor (Oy)

Graficul ne arată o legătură liniară directă puternică între cele 2 variabile.

Punctele nu se unesc. Se recomandă trasarea unei linii imaginare care sa vă permită identificarea tipului de
legătură.

Alte exemple de legături dintre variabile ilustrate de corelogramă sunt prezentate la sfârșitul materialului.

II) Calculaţi şi interpretaţi coeficientul de corelaţie Pearson

Cea mai simplă formulă pentru coeficientul de corelaţie liniară al lui Pearson este
𝑛 ∑𝑛𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ⋅ ∑𝑛𝑖=1 𝑦𝑖
𝑟𝑥𝑦 = ∈ [−1,1]
2 2
√[𝑛 ⋅ ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 ) ] ⋅ [𝑛 ⋅ ∑𝑛𝑖=1 𝑦𝑖2 − (∑𝑛𝑖=1 𝑦𝑖 ) ]

5∙688−17∙176 448
𝑟𝑥𝑦 = = = 0,8965
√(5∙71−172 )(5∙6952−1762 ) 499,7439
CORELAȚIE probleme rezolvate

Calculele sunt detaliate în tabelul de mai jos:

i 𝑥𝑖 𝑦𝑖 𝑥𝑖 ⋅ 𝑦𝑖 𝑥𝑖2 𝑦𝑖2
1 5 51 255 25 2601
2 1 22 22 1 484
3 4 29 116 16 841
4 5 49 245 25 2401
5 2 25 50 4 625
Totaluri 17 176 688 71 6952

Rezultă că între cele 2 variabile există o legătură liniară directă (deoarece coeficientul are semnul +) şi
foarte puternică (deoarece valoarea coeficientului este apropiată de 1).

III) Calculaţi şi interpretaţi coeficientul de corelaţie Spearman


Vom construi un tabel pentru a calcula coeficientul de corelaţie Spearman
Acest tabel va conţine valorile variabilelor X si Y, Rangurile acordate valorilor variabilelor X şi Y, diferențele
di şi pătratele acestora.
Mai întâi vom acorda numere de ordine (ranguri) tuturor valorilor variabilei X. Vom începe cu cea mai mică
valoare. Dacă mai multe unităţi au aceeaşi valoare, se acordă media rangurilor succesive.

Atenție: Există și o a doua metodă de acordare a rangurilor începând cu cea mai mare valoare. În cazul în care
ați folosit această metoda la curs, puteți să o folosiți și aici. Rezultatele vor fi identice.

Care este cea mai mică valoare a variabilei X? Valoarea 1. Îi vom atribui rangul 1.
Care este următoarea valoare a variabilei X? Valoarea 2. Îi vom atribui rangul 2.
Care este următoarea valoare a variabilei X? Valoarea 4. Îi vom atribui rangul 3.
Care este următoarea valoare a variabilei X? Valoarea 5. Această valoare apare de 2 ori. Aceste 2 valori de 5 ar
trebui să primească rangurile 4 şi 5, dar fiecare va primi media rangurilor 4 şi 5, adică rangul 4,5.

În mod similar se acordă ranguri pentru valorile variabilei Y.

i 𝑥𝑖 𝑦𝑖 𝑅𝑥𝑖 𝑅𝑦𝑖 𝑑𝑖 = 𝑅𝑥𝑖 − 𝑅𝑦𝑖 𝑑𝑖2


1 5 51 4,5 5 0,5 0,25
2 1 22 1 1 0 0
3 4 29 3 3 0 0
4 5 49 4,5 4 0,5 0,25
5 2 25 2 2 0 0
Totaluri 17 176 0,50
6 ∑ 𝑑𝑖2 6∙0,5 3
𝑟𝑠 = 1 − =1− = 1− = 1 − 0,025 = 0,975
𝑛(𝑛2 −1) 5∙(25−1) 120

Rezultă că între cele 2 variabile există o legătură liniară directă (deoarece coeficientul are semnul +) şi
foarte puternică (deoarece valoarea coeficientului este foarte apropiată de 1).

IV) Utilizaţi un indicator adecvat pentru măsurarea intensităţii legăturii și motivați alegerea făcută.

Deoarece numărul de observaţii este foarte mic (5) iar discrepanţele sunt relativ mari între cele două variabile,
înseamnă că cel mai potrivit indicator pentru măsurarea intensităţii legăturii dintre variabilele X şi Y este
Coeficientul Spearman. Calculul și interpretarea coeficientului de corelație neparametrică Spearman este
detaliată la punctul anterior.
CORELAȚIE probleme rezolvate
V) date bivariate (2 serii simple)

In Excel, corelograma se poate realiza prin selectarea zonei în care avem datele, efectuând clic pe pictograma
Scatter, accesibilă în tabul Insert.

Modalității de realizare in Excel

Folosind funcția CORREL: =CORREL(array1, array2), unde array 1 este zona de date pentru variabila x, iar
array 2 este zona de date pentru variabila x

Folosind modulul Data Analysis,

1) se alege Correlation din meniul Data


Analysis

2) Se selectează zona de date, bifând


căsuța Labels in first row în cazul în care zona
de date selectată conține numele variabilelor
(procedură recomandată)
3) se selectează modalitatea de amplasare
a rezultatelor (ex. New worksheet ply, care
generează o nouă foaie de calcul în fișierul în
care sunt datele), după care se efectuează clic
pe OK
CORELAȚIE probleme rezolvate
Rezultatul se prezintă sub forma unei matrici cu 1 pe diagonală, valoarea coeficientului
apărând la intersecția celor 2 variabile de sub
diagonala principală.

Exemplu coeficient de asociere.

Notă: o altă notație întâlnită la curs este n11 pentru a, n12 pentru b, n21 pentru c și n22 pentru d.

Exemple de legături dintre variabile

Interpretare corelograma, preluată din Statistică Aplicată, Daniela Ioana Manea, Ed. Meteor Press,
2017, pg 86-88.
CORELAȚIE probleme rezolvate
CORELAȚIE probleme rezolvate

S-ar putea să vă placă și