TA sistolic
Corelaia dintre TA sistolic si diastolic la pacieni cu
diferite afeciuni hepato-renale
2.5
3.0
3.5
4.0
4.5
5.0
5.5
115 120 125 130 135 140 145 150
K
s
e
r
i
c
Na seric
Corelaia dintre sodiul i potasiul seric la pacieni
cu diferite afeciuni hepato-renale
Coeficientul de corelaie
Pentru dou serii de date distribuite gaussian, cel
mai sintetic indicator al corelaiei este
coeficientul de corelaie r al lui Pearson
r = RAPORTUL DINTRE COVARIAIA SERIILOR I
PRODUSUL DEVIAIILOR LOR STANDARD
sau
unde X=x
1
, x
2
,,x
n
i Y=y
1
, y
2
, ..,y
n
sunt valorile msurate, iar
X , Y sunt mediile de eantionare ale seriilor respective.
Coeficientul de corelaie
Coeficientul de corelaie r are valori cuprinse
ntre -1 i 1.
Ptratul coeficientului de corelaie, notat r
2
,
reprezint coeficientul de determinare ntre
cei doi parametri i are valori ntre 0 i 1.
Putem calcula intervalul de ncredere de 95%
pentru coeficientul de corelaie Pearson - se
consider c r este semnificativ atunci cnd
intervalul de ncredere nu conine valoarea 0.
Interpretare
-1 .0.1
Corelaie perfect
invers-negativ
Corelaie perfect
direct-pozitiv
Corelaie nul
inexistent
Semnul + sau arat tipul (direcia) relaiei
Valoarea numeric arat intensitatea relaiei
Interpretare
n cazul unui coeficient de corelaie pozitiv
(ex. r = 0,5) avem o corelaie direct - cele
dou variabile corelate variaz n acelai sens
(cnd una crete, i cealalt crete, respectiv
cnd una scade, i cealalt scade).
n cazul unui coeficient de corelaie negativ
(ex. r = -0,5) avem o corelaie invers, cele
dou variabile corelate variaz n sens contrar
(cnd una crete, cealalt scade).
IMC=greutate(kg)/ nlime
2
(m)
y = 0.208x + 12.245
r = 0.670
15
20
25
30
35
40
45
50
40 60 80 100 120 140 160
I
M
C
Greutate
Corelaia dintre greutate si IMC
y = -0.1173x + 48.37
r = - 0.239
15
20
25
30
35
40
45
50
135 145 155 165 175 185 195 205
I
M
C
nalime
Corelaia dintre nalime si IMC
Interpretarea rapid a coeficientului r
r [0; 0.2] corelaie foarte slab, inexistent
r [0.2; 0.4] corelaie slab
r [0.4; 0.6] corelaie rezonabil
r [0.6; 0.8] corelaie nalta
r [0.8; 1] corelaie foarte nalt - relaie
foarte strns ntre variabile sau eroare de calcul
Exemple seturi de date i valori r
Dac valoarea absolut a coeficientului de corelaie este
slab (aproape de 0), nu trebuie s se conchid neaprat
c nu exist legtur statistic ntre cele dou variabile -
legtura poate s existe, dar nu este liniar.
OBSERVAII
Pentru date care nu au o distribuie gaussian,
dar care se pot ordona, fr a avea un numr
mare de valori egale intre ele, putem folosi
coeficientul (rho) Spearman, obinut prin
testul neparametric Spearman de corelaie a
rangurilor.
n cazul datelor ale cror ranguri egale
depete 25% din numrul lor este indicate
folosirea testului (tau) al lui Kendall.
Teste statistice
Testele statistice verific veridicitatea unor ipoteze - inferene statistice
ipoteza H
0
(sau ipoteza de nul): datele nu prezint legturi ntre ele, sunt
independente / valorile comparate nu difer ntre ele
ipoteza H
1
(sau ipoteza alternativ): datele prezint legturi ntre ele, sunt
dependente/ valorile comparate difer ntre ele
Rezultatul p al testului, furnizat ca un numr ntre 0 i 1, reprezint
probabilitate de a face o eroare dac respingem ipoteza H
0
a testului.
Dac p este mai mic dect pragul de semnificaie ales de obicei
=0,05 - respingem ipoteza H
0
i admitem c este adevrat ipoteza H
1
.
Interpretarea valorilor p se face la majoritatea testelor statistice astfel:
p < 0.05, legtura statistic este semnificativ (S, ncredere 95%).
p < 0.01, legtura statistic este semnificativ (S, ncredere 99%).
p < 0.001, legtura statistic este nalt semnificativ (HS, ncredere 99.9%).
p > 0.05, legtura statistic este nesemnificativ (NS).
Semnificaie statistic
Pentru a vedea daca valoarea lui r este semnificativ
statistic, deci dac cei doi parametri sunt corelai, se poate
calcula parametrul t, care, conform distribuiei Student, se
poate transforma ntr-o valoare care arat probabilitatea de
eroare - p, considernd c avem N-2 grade de libertate
(degrees of freedom - df , N = numrul de perechi de valori).
p < 0,05 - corelaie semnificativ statistic
ntre parametrii analizai
MS Excel ----- p=TDIST(t,df,nr_direcii _ critice)
ATENIE!
Ecuaia de regresie este relaia matematic care exprim
dependena dintre dou sau mai multe variabile.
Frecvent se folosete ecuaia de regresie liniar =
dreapta de regresie: y = ax +b
unde y este variabila dependent
iar x este variabila independent.
Parametrul a (panta dreptei de regresie = slope)
este denumit coeficient de regresie
nu trebuie confundat cu coeficientul de corelaie!!
Trebuie aleas ecuaia de regresie care s descrie cu cea mai
mic eroare relaia dintre variabile
Estimarea parametrilor a (slope) i b (intercept) se face
uzual prin metoda celor mai mici ptrate
y = 1.217 x + 10.456
r = 0.965
0
20
40
60
80
100
120
0 10 20 30 40 50 60 70 80 90 100
V
S
H
2
o
r
e
VSH 1 ora
Corelaia dintre valorile VSH la 1 or i 2 ore la
pacieni cu diferite afeciuni hepato-renale
ntrebri