Documente Academic
Documente Profesional
Documente Cultură
5 Corelatie Ro-71105
5 Corelatie Ro-71105
CORELAȚIE ȘI REGRESIE
Galina OBREJA
conferențiar universitar
1
CUPRINS
1. Corelația: direcția și gradul de asociere.
2. Coeficientul de corelație r (Pearson).
3. Coeficientul de corelație a rangurilor (Spearman).
4. Condiții de aplicare și interpretarea coeficienților de corelație.
5. Reprezentarea grafică și analiza graficelor corelației (scatterplot).
6. Coeficientul de determinare (r2).
7. Regresia liniară simplă și multiplă și regresia logistică.
8. Teste de semnificație pentru coeficientul de corelație r.
2
CORELAȚIA – DEFINIȚIE
➢ Corelația este un termen general folosit pentru a defini legătura dintre
variabile.
➢ În sens larg, legătura de corelație înseamnă o legătură statistică fie între
variabile cantitative, fie între variabile calitative, fie între ambele tipuri de
variabile.
➢ În sens restrâns, corelația este o măsură a gradului de asociere sau de legătură
reciprocă dintre două (sau mai multe) variabile cantitative.
➢ O legătură de corelație nu înseamnă o legătură de cauzalitate dintre cele două
variabile!
3
Clasificarea legăturilor de corelație dintre
variabile:
După forma După direcția
După numărul
legăturii de legăturii de
variabilelor corelate
corelație corelație
Legături Legături
simple multiple (între Lineară Nelineară Directă Indirectă
(între 2 3 și > (rectilinie) (curbilinie) (pozitivă) (negativă)
variabile) variabile)
COEFICIENTUL DE CORELAȚIE PEARSON (r)
5
COEFICIENTUL DE CORELAȚIE
➢ Corelația se măsoară prin coeficientul de corelație.
➢ Cel mai des folosit coeficient de corelație este coeficientul de
corelație Pearson, care măsoară legătura liniară dintre 2 variabile.
➢ Coeficientul de corelație Pearson:
– este un coeficient de corelație simplă;
– este folosit pentru a indica gradul de asociere (legătura) liniară între 2 variabile;
– măsoară intensitatea (puterea) și direcția legăturii de corelație între 2 variabile.
6
DIRECȚIA LEGĂTURII DE CORELAȚIE
➢ Corelațiile liniare pot fi:
– directe (pozitive (+))
– inverse (negative (-))
➢ Corelațiile directe (pozitive) se stabilesc între fenomene
care evoluează în aceeași direcție.
➢ Corelațiile inverse (negative) se stabilesc între fenomene
care evoluează în sens opus.
7
INTENSITATEA LEGĂTURII DE CORELAȚIE
8
CRITERIILE PENTRU INTERPRETAREA
INTENSITĂȚII LEGĂTURII DINTRE 2 VARIABILE
➢ O valoare a lui r = ±1 denotă o corelație perfectă între 2
variabile.
➢ O valoare a lui r cuprinsă între ±0,7 și ±0,99 denotă o
corelație puternică între 2 variabile.
➢ O valoare a lui r cuprinsă între ±0,3 și ±0,69 denotă o
corelație medie între 2 variabile.
➢ O valoare a lui r cuprinsă între ±0,1 și ±0,29 denotă o
corelație slabă între 2 variabile.
9
Exemplu de calcul a coeficientului de corelație Pearson
TAs,
Vârsta, ( )
Variabile: ID
ani (X)
mmHg
(Y)
- vârsta și tensiunea 1
2
24
29
112
104
-12.3
-7.3
-4.75
-12.75
151.29
53.29
22.56
162.56
58.43
93.08
arterială sistolică (TAs) 3 35 134 -1.3 17.25 1.69 297.56 -22.43
4 23 116 -13.3 -0.75 176.89 0.56 9.98
5 35 144 -1.3 27.25 1.69 742.56 -35.42
6 37 117 0.7 0.25 0.49 0.06 0.18
7 58 127 21.7 10.25 470.89 105.06 222.43
8 21 99 -15.3 -17.75 234.09 315.06 271.58
9 36 119 -0.3 2.25 0.09 5.06 -0.67
10 44 120 7.7 3.25 59.29 10.56 25.03
11 42 134 5.7 17.25 32.49 297.56 98.33
12 25 113 -11.3 -3.75 127.69 14.06 42.38
13 59 130 22.7 13.25 515.29 175.56 300.78
14 40 107 3.7 -9.75 13.69 95.06 -36.08
15 54 119 17.7 2.25 313.29 5.06 39.83
16 47 119 10.7 2.25 114.49 5.06 24.08
17 32 111 -4.3 -5.75 18.49 33.06 24.73
18 39 109 2.7 -7.75 7.29 60.06 -20.93
19 22 104 -14.3 -12.75 204.49 162.56 182.33
20 24 97 -12.3 -19.75 151.29 390.06 242.93
Total 726 2335 2648.2 2899.75 1520.50
36.3 116.75
10
COEFICIENTUL DE CORELAȚIE PEARSON
11
COEFICIENTUL DE DETERMINARE
➢ Pătratul coeficientului de corelație (r²) reprezintă coeficientul de
determinare între cele 2 variabile și are valori între 0 și 1.
➢ Coeficientul de determinare (r²) indică proporția din dispersia totală a
unei variabile (y) care poate fi explicată de dispersia valorilor celeilalte
variabile (x) (%).
r = 0,55
r² = 30%
12
REPREZENTAREA GRAFICĂ A CORELAȚIEI
13
CORELOGRAMA
X – variabila independentă sau Y
explicativă (argument)
Y – variabila dependentă sau efectul
(funcție, răspuns) (Y depinde de X)
Variabila dependentă
160
TAS (mmHG) (variabila dependentă)
140
120
100
80
60
40
Variabila independentă
X
20
0
0 10 20 30 40 50 60 70
Vârsta (ani) (variabila independentă)
14
CORELOGRAMA (сont.)
Corelație pozitivă: norul Corelație negativă:
de puncte se împrăștie norul de puncte se
din colțul din stânga jos împrăștie din colțul din
până în colțul din dreapta stânga sus până în colțul
sus. din dreapta jos.
16
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE
CORELAȚIE r
17
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE
r (cont.)
➢ Etapa 3. Selectați nivelul de semnificație (α) care va servi drept criteriu
de respingere sau acceptare a ipotezei nule:
α = 0,05
➢ Etapa 4. Determinați valoarea critică a testului (valoarea la care trebuie
să ajungă testul pentru a fi declarat semnificativ).
a) Calculați gradele de libertate:
GL = n-2 = 20-2 = 18
b) Determinați valoarea critică a lui t din tabelul valorilor lui t
conform pragului de semnificație:
La intersecția gradelor de liberate 18 și a nivelului de semnificație
α = 0,05, valoarea critică a lui t = 2,1.
18
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE
r (cont.)
19
TESTUL DE SEMNIFICAȚIE PENTRU COEFICIENTUL DE CORELAȚIE r
(cont.)
➢ Condiții de utilizare:
– corelație liniară
– variabile numerice
– distribuție normală (simetrică) pentru ambele variabile.
21
COEFICIENTUL DE CORELAȚIE AL
RANGURILOR SPEARMAN
22
COEFICIENTUL DE CORELAȚIE AL RANGURILOR
SPEARMAN (ρ)
➢ Coeficientul de corelație al rangurilor Spearman (ρ - rho):
– determină gradul de asociere dintre 2 variabile calitative (exprimate prin
ranguri sau scoruri; rang = număr de ordine);
– este alternativa neparametrică a „coeficientului de corelație Pearson”.
➢ Valorile coeficientului variază între -1 și +1.
– O valoare apropiată de +1, înseamnă că suma pătratelor diferențelor este aproape nulă,
deci avem clasamente identice („concordante”).
– O valoare apropiată de 0, înseamnă necorelarea variabilelor.
– O valoare apropiată de -1 pune în evidență discordanța maximă a variabilelor.
➢ Testarea semnificației statistice a coeficientului de corelație a rangurilor
se face în mod similar cu cea pentru coeficientul „r” al lui Pearson.
23
Exemplu: calificativele a 6 studenți obținute pe
parcursul anului și notele de la examen
Nr. student Calificativ Nota Rang Rang notă, Diferența Diferența
anual, x examen, y calificativ, x y dintre (²)
ranguri
1 bine 9 4 5 -1 1
2 slab 3 2 1 1 1
3 excepțional 10 6 6 0 0
4 satisfăcător 6 3 3 0 0
5 foarte slab 5 1 2 -1 1
6 foarte bine 8 5 4 1 1
4
COEFICIENTUL DE CORELAȚIE AL RANGURILOR
SPEARMAN (ρ) (cont.)
6 σ 𝑑2
➢ ρ = ± 1-
𝑛 𝑛2 −1
unde
1 – valoarea absolută a coeficientului de corelație
ρ – coeficientul de corelație Spearman
6 – valoare constantă
σ 𝑑 2 - suma pătratelor diferențelor dintre rangurile
primului șir de variante și rangurile celui de-al doilea șir de
variante cu care se corelează
n – numărul variantelor perechi care se corelează.
Calcularea coeficientului de corelație al rangurilor
Spearman (ρ)
6 σ 𝑑2 6 4
➢ρ = ± 1- = ± 1- = ± 1 - 0,11 =
𝑛 𝑛2 −1 6 36−1
0,89
➢ Condiții de utilizare:
– corelație liniară
– 2 variabile ordinale
– o variabilă ordinală și una numerică
– 2 variabile numerice, când una sau ambele sunt asimetrice.
27
REGRESIA
28
REGRESIA
➢ Regresia descrie relația probabilă dintre două variabile. Analiza de
regresie ne permite să prezicem valoarea unei variabile pe baza alteia
odată ce relația dintre cele două a fost stabilită.
29
REGRESIA (cont.)
30
ANALIZA DE REGRESIE LINIARĂ SIMPLĂ
➢ Analiza de regresie liniară simplă analizează relația/legătura liniară
dintre două variabile aleatorii continue, permițându-ne să investigăm
modificarea variabilei dependente (y) corespunzătoare unei modificări
date a variabilei independente (x).
– X - variabila independentă sau explicativă, predictor (argument)
– Y - variabila dependentă sau efectul (funcție, răspuns) (Y depinde de X).
➢ Legătura liniară între X și Y reprezintă o dreaptă (pantă).
➢ Pentru descrierea relației se utilizează ecuația:
y = a + bx, unde
a = ordonata la origine (interceptul)
b = coeficientul de regresie (panta dreptei - slope)
x = valoarea medie a variabilei independente
31
ANALIZA DE REGRESIE LINIARĂ SIMPLĂ (cont.)
160 y = 0.5742x + 95.908 y = bx+a, unde
140
R² = 0.3011 x - variabila independentă
120
y - variabila dependentă
a - ordonata la origine (interceptul)
100
(valoarea lui y, atunci când x = 0)
TAs, mmHg
80
b - coeficientul de regresie (panta dreptei)
60
(indică cu cât crește sau descrește
40
variabila y la creșterea sau descreșterea
20 cu o unitate a variabilei x).
0 b > 0: dreapta este crescătoare
0 10 20 30 40 50 60 70
Vârsta, ani b < 0: dreapta este descrescătoare.
a = 95,908; b = 0,5742
33
OBIECTIVE
1. Corelația: direcția și gradul de asociere.
2. Coeficientul de corelație r (Pearson).
3. Coeficientul de corelație a rangurilor (Spearman).
4. Condiții de aplicare și interpretarea coeficienților de corelație.
5. Reprezentarea grafică și analiza graficelor corelației (scatterplot).
6. Coeficientul de determinare (r2).
7. Regresia liniară simplă, multiplă și logistică.
8. Teste de semnificație pentru coeficientul de corelație r.
34