Sunteți pe pagina 1din 28

Recapitulare - Tipuri de date

Date numerice vrsta, greutatea, talia, hemoglobina, tensiunea


arterial, calcemia, glicemia, colesterolul, transaminazele etc.
valori continue sau discrete
numere ntregi sau zecimale
Date ordinale stadiul evolutiv, gravitatea, starea la externare,
gradul de rudenie etc.
codurile folosite au o ordine
Date nominale codul bolii, grupa sanguin, consistena ficatului,
culoarea urinei etc.
codurile folosite NU au o ordine
Date alfanumerice nume, prenume, adres, loc de munc,
descrierea bolii etc.
n general texte sau alte simboluri
Graficul Histogram
Poligonul frecvenelor
Tipuri de distribuii
Distribuie puternic asimetric Distribuie asimetric
Distribuie simetric
Distribuie uor asimetric
Curba Gauss -
curba repartiiei NORMALE
Unul din cazurile cele mai importante este acela
cnd repartiia datelor respect densitatea ideal -
aa numita repartiie Gauss sau normal
Curba Gauss
Curba Gauss
Coeficientul de inteligen
Media=100, Deviaia standard=15
Cursul 5
Corelaia statistic
UNIVERSITATEA DE
MEDICIN I FARMACIE
DIN CRAIOVA
SUMAR
Noiunea de corelaie statistic
Graficul Scatter
Coeficientul de corelaie Pearson - r
Interpretarea coeficientului de corelaie
Karl Pearson (1856-1936) Francis Galton (1822-1911)
Corelaia - Definiie
Este un termen general folosit pentru a defini
interdependena sau legtura dintre variabilele observate
n populaii statistice.
Apare uneori cu un neles foarte larg, acoperind orice
legtur statistic fie ntre variabile cantitative, fie ntre
variabile calitative, fie ntre ambele tipuri de variabile.
n sens restrns este o msur a gradului de legtur
statistic dintre variabilele cantitative, sub numele de
coeficient de corelaie.
Cel mai des folosit este coeficientul de corelaie r al lui
Pearson (coeficient de corelaie liniar), care msoar
gradul de legtur ntre variabile.
Graficul Scatter
modalitate de vizualizare a relaiei dintre 2 parametri
Selectarea datelor Meniul INSERT
Opiunea Chart
Graficul de tip scatter ofer informaii privind
Corelaia
Omogenitatea
Simetria
datelor reprezentate i analizate
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
V
S
H

2

o
r
e

VSH 1 ora
Corelaia dintre valorile VSH la 1 or i 2 ore la
pacieni cu diferite afeciuni hepato-renale
50
60
70
80
90
100
110
120
130
140
150
80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240
T
A

d
i
a
s
t
o
l
i
c


TA sistolic
Corelaia dintre TA sistolic si diastolic la pacieni cu
diferite afeciuni hepato-renale
2.5
3.0
3.5
4.0
4.5
5.0
5.5
115 120 125 130 135 140 145 150
K

s
e
r
i
c

Na seric
Corelaia dintre sodiul i potasiul seric la pacieni
cu diferite afeciuni hepato-renale
Coeficientul de corelaie
Pentru dou serii de date distribuite gaussian, cel
mai sintetic indicator al corelaiei este
coeficientul de corelaie r al lui Pearson
r = RAPORTUL DINTRE COVARIAIA SERIILOR I
PRODUSUL DEVIAIILOR LOR STANDARD


sau



unde X=x
1
, x
2
,,x
n
i Y=y
1
, y
2
, ..,y
n
sunt valorile msurate, iar
X , Y sunt mediile de eantionare ale seriilor respective.



Coeficientul de corelaie
Coeficientul de corelaie r are valori cuprinse
ntre -1 i 1.
Ptratul coeficientului de corelaie, notat r
2
,
reprezint coeficientul de determinare ntre
cei doi parametri i are valori ntre 0 i 1.
Putem calcula intervalul de ncredere de 95%
pentru coeficientul de corelaie Pearson - se
consider c r este semnificativ atunci cnd
intervalul de ncredere nu conine valoarea 0.


Interpretare
-1 .0.1
Corelaie perfect
invers-negativ
Corelaie perfect
direct-pozitiv
Corelaie nul
inexistent
Semnul + sau arat tipul (direcia) relaiei
Valoarea numeric arat intensitatea relaiei

Interpretare
n cazul unui coeficient de corelaie pozitiv
(ex. r = 0,5) avem o corelaie direct - cele
dou variabile corelate variaz n acelai sens
(cnd una crete, i cealalt crete, respectiv
cnd una scade, i cealalt scade).
n cazul unui coeficient de corelaie negativ
(ex. r = -0,5) avem o corelaie invers, cele
dou variabile corelate variaz n sens contrar
(cnd una crete, cealalt scade).

IMC=greutate(kg)/ nlime
2
(m)
y = 0.208x + 12.245
r = 0.670
15
20
25
30
35
40
45
50
40 60 80 100 120 140 160
I
M
C

Greutate
Corelaia dintre greutate si IMC
y = -0.1173x + 48.37
r = - 0.239
15
20
25
30
35
40
45
50
135 145 155 165 175 185 195 205
I
M
C

nalime
Corelaia dintre nalime si IMC
Interpretarea rapid a coeficientului r
r [0; 0.2] corelaie foarte slab, inexistent
r [0.2; 0.4] corelaie slab
r [0.4; 0.6] corelaie rezonabil
r [0.6; 0.8] corelaie nalta
r [0.8; 1] corelaie foarte nalt - relaie
foarte strns ntre variabile sau eroare de calcul
Exemple seturi de date i valori r
Dac valoarea absolut a coeficientului de corelaie este
slab (aproape de 0), nu trebuie s se conchid neaprat
c nu exist legtur statistic ntre cele dou variabile -
legtura poate s existe, dar nu este liniar.
OBSERVAII
Pentru date care nu au o distribuie gaussian,
dar care se pot ordona, fr a avea un numr
mare de valori egale intre ele, putem folosi
coeficientul (rho) Spearman, obinut prin
testul neparametric Spearman de corelaie a
rangurilor.
n cazul datelor ale cror ranguri egale
depete 25% din numrul lor este indicate
folosirea testului (tau) al lui Kendall.
Teste statistice
Testele statistice verific veridicitatea unor ipoteze - inferene statistice
ipoteza H
0
(sau ipoteza de nul): datele nu prezint legturi ntre ele, sunt
independente / valorile comparate nu difer ntre ele
ipoteza H
1
(sau ipoteza alternativ): datele prezint legturi ntre ele, sunt
dependente/ valorile comparate difer ntre ele

Rezultatul p al testului, furnizat ca un numr ntre 0 i 1, reprezint
probabilitate de a face o eroare dac respingem ipoteza H
0
a testului.

Dac p este mai mic dect pragul de semnificaie ales de obicei
=0,05 - respingem ipoteza H
0
i admitem c este adevrat ipoteza H
1
.

Interpretarea valorilor p se face la majoritatea testelor statistice astfel:
p < 0.05, legtura statistic este semnificativ (S, ncredere 95%).
p < 0.01, legtura statistic este semnificativ (S, ncredere 99%).
p < 0.001, legtura statistic este nalt semnificativ (HS, ncredere 99.9%).
p > 0.05, legtura statistic este nesemnificativ (NS).
Semnificaie statistic
Pentru a vedea daca valoarea lui r este semnificativ
statistic, deci dac cei doi parametri sunt corelai, se poate
calcula parametrul t, care, conform distribuiei Student, se
poate transforma ntr-o valoare care arat probabilitatea de
eroare - p, considernd c avem N-2 grade de libertate
(degrees of freedom - df , N = numrul de perechi de valori).

p < 0,05 - corelaie semnificativ statistic
ntre parametrii analizai



MS Excel ----- p=TDIST(t,df,nr_direcii _ critice)

ATENIE!
Ecuaia de regresie este relaia matematic care exprim
dependena dintre dou sau mai multe variabile.
Frecvent se folosete ecuaia de regresie liniar =

dreapta de regresie: y = ax +b

unde y este variabila dependent
iar x este variabila independent.
Parametrul a (panta dreptei de regresie = slope)
este denumit coeficient de regresie
nu trebuie confundat cu coeficientul de corelaie!!
Trebuie aleas ecuaia de regresie care s descrie cu cea mai
mic eroare relaia dintre variabile
Estimarea parametrilor a (slope) i b (intercept) se face
uzual prin metoda celor mai mici ptrate

y = 1.217 x + 10.456
r = 0.965
0
20
40
60
80
100
120
0 10 20 30 40 50 60 70 80 90 100
V
S
H

2

o
r
e

VSH 1 ora
Corelaia dintre valorile VSH la 1 or i 2 ore la
pacieni cu diferite afeciuni hepato-renale
ntrebri

S-ar putea să vă placă și