Sunteți pe pagina 1din 34

Catedra de medicină socială și management „Nicolae Testemițanu”

CORELAȚIE ȘI REGRESIE

Galina OBREJA
conferențiar universitar

1
CUPRINS
1. Corelația: direcția și gradul de asociere.
2. Coeficientul de corelație r (Pearson).
3. Coeficientul de corelație a rangurilor (Spearman).
4. Condiții de aplicare și interpretarea coeficienților de corelație.
5. Reprezentarea grafică și analiza graficelor corelației (scatterplot).
6. Coeficientul de determinare (r2).
7. Regresia liniară simplă și multiplă și regresia logistică.
8. Teste de semnificație pentru coeficientul de corelație r.

2
CORELAȚIA – DEFINIȚIE
➢ Corelația este un termen general folosit pentru a defini legătura dintre
variabile.
➢ În sens larg, legătura de corelație înseamnă o legătură statistică fie între
variabile cantitative, fie între variabile calitative, fie între ambele tipuri de
variabile.
➢ În sens restrâns, corelația este o măsură a gradului de asociere sau de legătură
reciprocă dintre două (sau mai multe) variabile cantitative.
➢ O legătură de corelație nu înseamnă o legătură de cauzalitate dintre cele două
variabile!

3
Clasificarea legăturilor de corelație dintre
variabile:
După forma După direcția
După numărul
legăturii de legăturii de
variabilelor corelate
corelație corelație

Legături Legături
simple multiple (între Lineară Nelineară Directă Indirectă
(între 2 3 și > (rectilinie) (curbilinie) (pozitivă) (negativă)
variabile) variabile)
COEFICIENTUL DE CORELAȚIE PEARSON (r)

5
COEFICIENTUL DE CORELAȚIE
➢ Corelația se măsoară prin coeficientul de corelație.
➢ Cel mai des folosit coeficient de corelație este coeficientul de
corelație Pearson, care măsoară legătura liniară dintre 2 variabile.
➢ Coeficientul de corelație Pearson:
– este un coeficient de corelație simplă;
– este folosit pentru a indica gradul de asociere (legătura) liniară între 2 variabile;
– măsoară intensitatea (puterea) și direcția legăturii de corelație între 2 variabile.

6
DIRECȚIA LEGĂTURII DE CORELAȚIE
➢ Corelațiile liniare pot fi:
– directe (pozitive (+))
– inverse (negative (-))
➢ Corelațiile directe (pozitive) se stabilesc între fenomene
care evoluează în aceeași direcție.
➢ Corelațiile inverse (negative) se stabilesc între fenomene
care evoluează în sens opus.

7
INTENSITATEA LEGĂTURII DE CORELAȚIE

➢ Valoarea coeficientului de corelație (r) variază între „+1” și


„-1”.
➢ O valoare a lui r apropiată de +1 denotă o legătură pozitivă
foarte puternică (perfectă) între cele 2 variabile.
➢ O valoare a lui r apropiată de -1 denotă o legătură negativă
foarte puternică (perfectă) între cele 2 variabile.
➢ O valoare a lui r = 0 denotă lipsa asocierii dintre cele 2
variabile.

8
CRITERIILE PENTRU INTERPRETAREA
INTENSITĂȚII LEGĂTURII DINTRE 2 VARIABILE
➢ O valoare a lui r = ±1 denotă o corelație perfectă între 2
variabile.
➢ O valoare a lui r cuprinsă între ±0,7 și ±0,99 denotă o
corelație puternică între 2 variabile.
➢ O valoare a lui r cuprinsă între ±0,3 și ±0,69 denotă o
corelație medie între 2 variabile.
➢ O valoare a lui r cuprinsă între ±0,1 și ±0,29 denotă o
corelație slabă între 2 variabile.

9
Exemplu de calcul a coeficientului de corelație Pearson
TAs,
Vârsta, ( )
Variabile: ID
ani (X)
mmHg
(Y)
- vârsta și tensiunea 1
2
24
29
112
104
-12.3
-7.3
-4.75
-12.75
151.29
53.29
22.56
162.56
58.43
93.08
arterială sistolică (TAs) 3 35 134 -1.3 17.25 1.69 297.56 -22.43
4 23 116 -13.3 -0.75 176.89 0.56 9.98
5 35 144 -1.3 27.25 1.69 742.56 -35.42
6 37 117 0.7 0.25 0.49 0.06 0.18
7 58 127 21.7 10.25 470.89 105.06 222.43
8 21 99 -15.3 -17.75 234.09 315.06 271.58
9 36 119 -0.3 2.25 0.09 5.06 -0.67
10 44 120 7.7 3.25 59.29 10.56 25.03
11 42 134 5.7 17.25 32.49 297.56 98.33
12 25 113 -11.3 -3.75 127.69 14.06 42.38
13 59 130 22.7 13.25 515.29 175.56 300.78
14 40 107 3.7 -9.75 13.69 95.06 -36.08
15 54 119 17.7 2.25 313.29 5.06 39.83
16 47 119 10.7 2.25 114.49 5.06 24.08
17 32 111 -4.3 -5.75 18.49 33.06 24.73
18 39 109 2.7 -7.75 7.29 60.06 -20.93
19 22 104 -14.3 -12.75 204.49 162.56 182.33
20 24 97 -12.3 -19.75 151.29 390.06 242.93
Total 726 2335 2648.2 2899.75 1520.50
36.3 116.75
10
COEFICIENTUL DE CORELAȚIE PEARSON

➢ Coeficientul de corelație Pearson (r) = raportul dintre


covariația seriilor și produsul deviațiilor lor standard.
➢ Coeficientul de corelație (r):
Σ 𝑋𝑖 −𝑋ത 𝑌𝑖 −𝑌ത ) 1520.50
r= = = 0.55
2648.2 2899.75
Σ 𝑋𝑖 −𝑋ത ² 𝑌𝑖 −𝑌ത )²

Interpretare: Există o legătură de corelație lineară directa de intensitate


medie între vârstă și tensiunea arterială sistolică.

11
COEFICIENTUL DE DETERMINARE
➢ Pătratul coeficientului de corelație (r²) reprezintă coeficientul de
determinare între cele 2 variabile și are valori între 0 și 1.
➢ Coeficientul de determinare (r²) indică proporția din dispersia totală a
unei variabile (y) care poate fi explicată de dispersia valorilor celeilalte
variabile (x) (%).
r = 0,55
r² = 30%

Interpretare: 30% din dispersia totală a tensiunii arteriale sistolice


poate fi explicată de dispersia valorilor vârstei.

12
REPREZENTAREA GRAFICĂ A CORELAȚIEI

13
CORELOGRAMA
X – variabila independentă sau Y
explicativă (argument)
Y – variabila dependentă sau efectul
(funcție, răspuns) (Y depinde de X)

Variabila dependentă
160
TAS (mmHG) (variabila dependentă)

140

120

100

80

60

40
Variabila independentă
X
20

0
0 10 20 30 40 50 60 70
Vârsta (ani) (variabila independentă)
14
CORELOGRAMA (сont.)
Corelație pozitivă: norul Corelație negativă:
de puncte se împrăștie norul de puncte se
din colțul din stânga jos împrăștie din colțul din
până în colțul din dreapta stânga sus până în colțul
sus. din dreapta jos.

Corelație lineară, pozitivă Corelație lineară, negativă

Сorelație nulă Corelație nelineară


15
TESTUL DE SEMNIFICAȚIE PENTRU
COEFICIENTUL DE CORELAȚIE r

16
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE
CORELAȚIE r

➢ Etapa 1. Formulați ipoteza nulă și ipoteza alternativă:


H₀ = 0 (nu există corelație în populația statistică)
H₁ ≠ 0 (există corelație în populația statistică)
➢ Etapa 2. Folosiți următorul test t bilateral pentru a testa
ipoteza:
𝑟
t= 𝑛 2
1−𝑟 2

17
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE
r (cont.)
➢ Etapa 3. Selectați nivelul de semnificație (α) care va servi drept criteriu
de respingere sau acceptare a ipotezei nule:
α = 0,05
➢ Etapa 4. Determinați valoarea critică a testului (valoarea la care trebuie
să ajungă testul pentru a fi declarat semnificativ).
a) Calculați gradele de libertate:
GL = n-2 = 20-2 = 18
b) Determinați valoarea critică a lui t din tabelul valorilor lui t
conform pragului de semnificație:
La intersecția gradelor de liberate 18 și a nivelului de semnificație
α = 0,05, valoarea critică a lui t = 2,1.
18
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE
r (cont.)

➢ Etapa 5. Calculați testul statistic indicat la pasul 2 pentru a găsi


valoarea observată a lui t:
𝑟 0.55
t= 𝑛 2= 20 2 = 2.76
1−𝑟 2 1−0.552

19
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE r
(cont.)

➢ Etapa 6. Comparați valoarea observată a lui t (etapa 5) cu valoarea


critică a lui t (etapa 4). Formulați concluziile.
Valoarea critică a lui t = 2.1
Valoarea observată a lui t = 2.76
➢ Dacă valoarea observată a lui t > ca valoarea critică a lui t, ipoteza nulă
(H₀) se respinge.
➢ Aceasta înseamnă că valoarea lui p < 0,05 (nivelul de semnificație α).
➢ Concluzie: Există dovezi suficiente că coeficientul de corelație adevărat
al populației statistice este diferit de zero. Tensiunea arterială sistolică
crește odată cu creșterea vârstei, astfel, corelația este pozitivă.
20
COEFICIENTUL DE CORELAȚIE PEARSON (r):
CONDIȚII DE UTILIZARE

➢ Condiții de utilizare:
– corelație liniară
– variabile numerice
– distribuție normală (simetrică) pentru ambele variabile.

21
COEFICIENTUL DE CORELAȚIE AL
RANGURILOR SPEARMAN

22
COEFICIENTUL DE CORELAȚIE AL RANGURILOR
SPEARMAN (ρ)
➢ Coeficientul de corelație al rangurilor Spearman (ρ - rho):
– determină gradul de asociere dintre 2 variabile calitative (exprimate prin
ranguri sau scoruri; rang = număr de ordine);
– este alternativa neparametrică a „coeficientului de corelație Pearson”.
➢ Valorile coeficientului variază între -1 și +1.
– O valoare apropiată de +1, înseamnă că suma pătratelor diferențelor este aproape nulă,
deci avem clasamente identice („concordante”).
– O valoare apropiată de 0, înseamnă necorelarea variabilelor.
– O valoare apropiată de -1 pune în evidență discordanța maximă a variabilelor.
➢ Testarea semnificației statistice a coeficientului de corelație a rangurilor
se face în mod similar cu cea pentru coeficientul „r” al lui Pearson.

23
Exemplu: calificativele a 6 studenți obținute pe
parcursul anului și notele de la examen
Nr. student Calificativ Nota Rang Rang notă, Diferența Diferența
anual, x examen, y calificativ, x y dintre (²)
ranguri
1 bine 9 4 5 -1 1
2 slab 3 2 1 1 1
3 excepțional 10 6 6 0 0
4 satisfăcător 6 3 3 0 0
5 foarte slab 5 1 2 -1 1
6 foarte bine 8 5 4 1 1
4
COEFICIENTUL DE CORELAȚIE AL RANGURILOR
SPEARMAN (ρ) (cont.)

6 σ 𝑑2
➢ ρ = ± 1-
𝑛 𝑛2 −1
unde
1 – valoarea absolută a coeficientului de corelație
ρ – coeficientul de corelație Spearman
6 – valoare constantă
σ 𝑑 2 - suma pătratelor diferențelor dintre rangurile
primului șir de variante și rangurile celui de-al doilea șir de
variante cu care se corelează
n – numărul variantelor perechi care se corelează.
Calcularea coeficientului de corelație al rangurilor
Spearman (ρ)

6 σ 𝑑2 6 4
➢ρ = ± 1- = ± 1- = ± 1 - 0,11 =
𝑛 𝑛2 −1 6 36−1
0,89

Concluzie: între calificativul anual și nota la examen există o


legătură de corelație puternică (concordantă).
COEFICIENTUL DE CORELAȚIE AL RANGURILOR SPEARMAN (ρ)

➢ Condiții de utilizare:
– corelație liniară
– 2 variabile ordinale
– o variabilă ordinală și una numerică
– 2 variabile numerice, când una sau ambele sunt asimetrice.

27
REGRESIA

28
REGRESIA
➢ Regresia descrie relația probabilă dintre două variabile. Analiza de
regresie ne permite să prezicem valoarea unei variabile pe baza alteia
odată ce relația dintre cele două a fost stabilită.

➢ Analiza de regresie are ca scop obținerea unei expresii matematice (o


relație de legătură) cu ajutorul căreia valorile unei variabile (x) sunt
folosite pentru a prezice valorile altei variabile (y).

29
REGRESIA (cont.)

➢ Analiza de regresie se utilizează atunci când:


– există o relație dependentă/independentă cunoscută între două variabile;
– se dorește utilizarea unei variabile (independentă) pentru a prezice
valoarea altei variabile (dependente).
➢ Regresie, tipuri:
– simplă și multiplă (variabile numerice):
• simplă (2 variabile)
• multiplă o variabilă dependentă (y) în funcție de mai multe variabile
independente (x₁; x₂ etc.)
– logistică: una sau mai multe variabile explicative pot fi categoriale.

30
ANALIZA DE REGRESIE LINIARĂ SIMPLĂ
➢ Analiza de regresie liniară simplă analizează relația/legătura liniară
dintre două variabile aleatorii continue, permițându-ne să investigăm
modificarea variabilei dependente (y) corespunzătoare unei modificări
date a variabilei independente (x).
– X - variabila independentă sau explicativă, predictor (argument)
– Y - variabila dependentă sau efectul (funcție, răspuns) (Y depinde de X).
➢ Legătura liniară între X și Y reprezintă o dreaptă (pantă).
➢ Pentru descrierea relației se utilizează ecuația:
y = a + bx, unde
a = ordonata la origine (interceptul)
b = coeficientul de regresie (panta dreptei - slope)
x = valoarea medie a variabilei independente
31
ANALIZA DE REGRESIE LINIARĂ SIMPLĂ (cont.)
160 y = 0.5742x + 95.908 y = bx+a, unde
140
R² = 0.3011 x - variabila independentă
120
y - variabila dependentă
a - ordonata la origine (interceptul)
100
(valoarea lui y, atunci când x = 0)
TAs, mmHg

80
b - coeficientul de regresie (panta dreptei)
60
(indică cu cât crește sau descrește
40
variabila y la creșterea sau descreșterea
20 cu o unitate a variabilei x).
0 b > 0: dreapta este crescătoare
0 10 20 30 40 50 60 70
Vârsta, ani b < 0: dreapta este descrescătoare.
a = 95,908; b = 0,5742

La înaintarea în vârstă cu 1 an, TAs crește cu 0,57 unități mmHg. 32


COEFICIENTUL DE REGRESIE
➢ Coeficientul de regresie (b) arată cu cât crește sau descrește o variabilă,
când cealaltă variabilă crește sau descrește cu o unitate.

33
OBIECTIVE
1. Corelația: direcția și gradul de asociere.
2. Coeficientul de corelație r (Pearson).
3. Coeficientul de corelație a rangurilor (Spearman).
4. Condiții de aplicare și interpretarea coeficienților de corelație.
5. Reprezentarea grafică și analiza graficelor corelației (scatterplot).
6. Coeficientul de determinare (r2).
7. Regresia liniară simplă, multiplă și logistică.
8. Teste de semnificație pentru coeficientul de corelație r.

34

S-ar putea să vă placă și