Documente Academic
Documente Profesional
Documente Cultură
Probleme corelaţie
O firmă de asigurări doreşte să cunoască măsura în care mărimea unei familii influenţează cheltuielile lunare
pentru servicii medicale ale acesteia. Pentru un eşantion format din 5 dintre clienţii firmei au fost înregistrate
date referitoare la mărimea familiei (număr de membri) şi cheltuielile lunare (Eur) în scop medical ale unei
familii. Datele înregistrate sunt:
I. Reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile;
II. Calculaţi şi interpretaţi coeficientul de corelaţie Pearson
III. Calculaţi şi interpretaţi coeficientul de corelaţie Spearman
IV. Utilizaţi un indicator adecvat pentru măsurarea intensităţii legăturii și motivați alegerea făcută.
V. Ce tip de date avem în problemă?
I) Reprezentaţi grafic datele şi analizaţi existenţa, sensul şi forma legăturii dintre cele două variabile.
Vom nota cu X variabila care reprezintă numărul de membri din familia clientului. Vom reprezenta această
variabilă pe axa absciselor (Ox).
Vom nota cu Y variabila care reprezintă Cheltuieli medii lunare în scop medical. Vom reprezenta această
variabilă pe axa ordonatelor (Oy)
Punctele nu se unesc. Se recomandă trasarea unei linii imaginare care sa vă permită identificarea tipului de
legătură.
Alte exemple de legături dintre variabile ilustrate de corelogramă sunt prezentate la sfârșitul materialului.
Cea mai simplă formulă pentru coeficientul de corelaţie liniară al lui Pearson este
𝑛 ∑𝑛𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ⋅ ∑𝑛𝑖=1 𝑦𝑖
𝑟𝑥𝑦 = ∈ [−1,1]
2 2
√[𝑛 ⋅ ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 ) ] ⋅ [𝑛 ⋅ ∑𝑛𝑖=1 𝑦𝑖2 − (∑𝑛𝑖=1 𝑦𝑖 ) ]
5∙688−17∙176 448
𝑟𝑥𝑦 = = = 0,8965
√(5∙71−172 )(5∙6952−1762 ) 499,7439
CORELAȚIE probleme rezolvate
i 𝑥𝑖 𝑦𝑖 𝑥𝑖 ⋅ 𝑦𝑖 𝑥𝑖2 𝑦𝑖2
1 5 51 255 25 2601
2 1 22 22 1 484
3 4 29 116 16 841
4 5 49 245 25 2401
5 2 25 50 4 625
Totaluri 17 176 688 71 6952
Rezultă că între cele 2 variabile există o legătură liniară directă (deoarece coeficientul are semnul +) şi
foarte puternică (deoarece valoarea coeficientului este apropiată de 1).
Atenție: Există și o a doua metodă de acordare a rangurilor începând cu cea mai mare valoare. În cazul în care
ați folosit această metoda la curs, puteți să o folosiți și aici. Rezultatele vor fi identice.
Care este cea mai mică valoare a variabilei X? Valoarea 1. Îi vom atribui rangul 1.
Care este următoarea valoare a variabilei X? Valoarea 2. Îi vom atribui rangul 2.
Care este următoarea valoare a variabilei X? Valoarea 4. Îi vom atribui rangul 3.
Care este următoarea valoare a variabilei X? Valoarea 5. Această valoare apare de 2 ori. Aceste 2 valori de 5 ar
trebui să primească rangurile 4 şi 5, dar fiecare va primi media rangurilor 4 şi 5, adică rangul 4,5.
Rezultă că între cele 2 variabile există o legătură liniară directă (deoarece coeficientul are semnul +) şi
foarte puternică (deoarece valoarea coeficientului este foarte apropiată de 1).
IV) Utilizaţi un indicator adecvat pentru măsurarea intensităţii legăturii și motivați alegerea făcută.
Deoarece numărul de observaţii este foarte mic (5) iar discrepanţele sunt relativ mari între cele două variabile,
înseamnă că cel mai potrivit indicator pentru măsurarea intensităţii legăturii dintre variabilele X şi Y este
Coeficientul Spearman. Calculul și interpretarea coeficientului de corelație neparametrică Spearman este
detaliată la punctul anterior.
CORELAȚIE probleme rezolvate
V) date bivariate (2 serii simple)
In Excel, corelograma se poate realiza prin selectarea zonei în care avem datele, efectuând clic pe pictograma
Scatter, accesibilă în tabul Insert.
Folosind funcția CORREL: =CORREL(array1, array2), unde array 1 este zona de date pentru variabila x, iar
array 2 este zona de date pentru variabila x
Notă: o altă notație întâlnită la curs este n11 pentru a, n12 pentru b, n21 pentru c și n22 pentru d.
Interpretare corelograma, preluată din Statistică Aplicată, Daniela Ioana Manea, Ed. Meteor Press,
2017, pg 86-88.
CORELAȚIE probleme rezolvate
CORELAȚIE probleme rezolvate