Sunteți pe pagina 1din 28

Recapitulare - Tipuri de date

• Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea


arterială, calcemia, glicemia, colesterolul, transaminazele etc.
 valori continue sau discrete
 numere întregi sau zecimale
• Date ordinale – stadiul evolutiv, gravitatea, starea la externare,
gradul de rudenie etc.
 codurile folosite au o ordine
• Date nominale – codul bolii, grupa sanguină, consistenţa ficatului,
culoarea urinei etc.
 codurile folosite NU au o ordine
• Date alfanumerice – nume, prenume, adresă, loc de muncă,
descrierea bolii etc.
 în general texte sau alte simboluri
Graficul Histogramă
Poligonul frecvenţelor
Tipuri de distribuţii

Distribuţie simetrică Distribuţie uşor asimetrică

Distribuţie asimetrică Distribuţie puternic asimetrică


Curba Gauss -
curba repartiţiei NORMALE

• Unul din cazurile cele mai importante este acela


când repartiţia datelor respectă densitatea ideală -
aşa numita repartiţie Gauss sau normală
Curba Gauss
Curba Gauss
Coeficientul de inteligenţă

Media=100, Deviaţia standard=15


UNIVERSITATEA DE
MEDICINĂ ŞI FARMACIE
DIN CRAIOVA

Cursul 5
Corelaţia statistică
SUMAR

Karl Pearson (1856-1936) Francis Galton (1822-1911)

• Noţiunea de corelaţie statistică


• Graficul Scatter
• Coeficientul de corelaţie Pearson - r
• Interpretarea coeficientului de corelaţie
Corelaţia - Definiţie
• Este un termen general folosit pentru a defini
interdependenţa sau legătura dintre variabilele observate
în populaţii statistice.
• Apare uneori cu un înţeles foarte larg, acoperind orice
legătură statistică fie între variabile cantitative, fie între
variabile calitative, fie între ambele tipuri de variabile.
• În sens restrâns este o măsură a gradului de legătură
statistică dintre variabilele cantitative, sub numele de
„coeficient de corelaţie”.
• Cel mai des folosit este coeficientul de corelaţie r al lui
Pearson (coeficient de corelaţie liniară), care măsoară
gradul de legătură între variabile.
Graficul Scatter
modalitate de vizualizare a relaţiei dintre 2 parametri
• Selectarea datelor • Meniul INSERT
• Opţiunea Chart…

Graficul de tip scatter oferă informaţii privind


 Corelaţia
 Omogenitatea
 Simetria
datelor reprezentate şi analizate
Corelaţia dintre valorile VSH la 1 oră şi 2 ore la
pacienţi cu diferite afecţiuni hepato-renale
100

90

80

70
VSH 2 ore

60

50

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90 100
VSH 1 ora
Corelaţia dintre TA sistolică si diastolică la pacienţi cu
diferite afecţiuni hepato-renale
150

140

130

120
TA diastolică

110

100

90

80

70

60

50
80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240
TA sistolică
Corelaţia dintre sodiul şi potasiul seric la pacienţi
cu diferite afecţiuni hepato-renale
5.5

5.0

4.5
K seric

4.0

3.5

3.0

2.5
115 120 125 130 135 140 145 150
Na seric
Coeficientul de corelaţie
• Pentru două serii de date distribuite gaussian, cel
mai sintetic indicator al corelaţiei este
coeficientul de corelaţie r al lui Pearson
r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI
PRODUSUL DEVIAŢIILOR LOR STANDARD

sau

unde X=x1, x2,…,xn şi Y=y1, y2, ..,yn sunt valorile măsurate, iar
X̅ , Y̅ sunt mediile de eşantionare ale seriilor respective.
Coeficientul de corelaţie
• Coeficientul de corelaţie r are valori cuprinse
între -1 şi 1.
• Pătratul coeficientului de corelaţie, notat r2,
reprezintă coeficientul de determinare între
cei doi parametri şi are valori între 0 şi 1.
• Putem calcula intervalul de încredere de 95%
pentru coeficientul de corelaţie Pearson - se
consideră că r este semnificativ atunci când
intervalul de încredere nu conţine valoarea 0.
Interpretare
Semnul + sau – arată tipul (direcţia) relaţiei
Valoarea numerică arată intensitatea relaţiei

-1 …………………………….0……………………………….1

Corelaţie perfectă Corelaţie nulă Corelaţie perfectă


inversă-negativă inexistentă directă-pozitivă
Interpretare
• În cazul unui coeficient de corelaţie pozitiv
(ex. r = 0,5) avem o corelaţie directă - cele
două variabile corelate variază în acelaşi sens
(când una creşte, şi cealaltă creşte, respectiv
când una scade, şi cealaltă scade).
• În cazul unui coeficient de corelaţie negativ
(ex. r = -0,5) avem o corelaţie inversă, cele
două variabile corelate variază în sens contrar
(când una creşte, cealaltă scade).
IMC=greutate(kg)/ înălţime2(m)
Corelaţia dintre greutate si IMC Corelaţia dintre înalţime si IMC
50 50
y = 0.208x + 12.245 y = -0.1173x + 48.37
r = 0.670 r = - 0.239
45 45

40 40

35 35
IMC

IMC
30 30

25 25

20 20

15 15
40 60 80 100 120 140 160 135 145 155 165 175 185 195 205
Greutate Înalţime
Interpretarea rapidă a coeficientului r

 r є [0; 0.2] → corelaţie foarte slabă, inexistentă


 r є [0.2; 0.4] → corelaţie slabă
 r є [0.4; 0.6] → corelaţie rezonabilă
 r є [0.6; 0.8] → corelaţie înalta
 r є [0.8; 1] → corelaţie foarte înaltă - relaţie
foarte strînsă între variabile sau eroare de calcul
Exemple – seturi de date şi valori r

Dacă valoarea absolută a coeficientului de corelaţie este


slabă (aproape de 0), nu trebuie să se conchidă neapărat
că nu există legătură statistică între cele două variabile -
legătura poate să existe, dar nu este liniară.
OBSERVAŢII
• Pentru date care nu au o distribuţie gaussiană,
dar care se pot ordona, fără a avea un număr
mare de valori egale intre ele, putem folosi
coeficientul ρ (rho) Spearman, obţinut prin
testul neparametric Spearman de corelaţie a
rangurilor.
• În cazul datelor ale căror ranguri egale
depăşeşte 25% din numărul lor este indicate
folosirea testului τ (tau) al lui Kendall.
Teste statistice
• Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice
 ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt
independente / valorile comparate nu diferă între ele
 ipoteza H1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt
dependente/ valorile comparate diferă între ele

• Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă


probabilitate de a face o eroare dacă respingem ipoteza H0 a testului.

• Dacă p este mai mic decât pragul de semnificaţie α ales – de obicei


α=0,05 - respingem ipoteza H0 şi admitem că este adevărată ipoteza H1.

• Interpretarea valorilor p se face la majoritatea testelor statistice astfel:


 p < 0.05, legătura statistică este semnificativă (S, încredere 95%).
 p < 0.01, legătura statistică este semnificativă (S, încredere 99%).
 p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%).
 p > 0.05, legătura statistică este nesemnificativă (NS).
Semnificaţie statistică
• Pentru a vedea daca valoarea lui r este semnificativă
statistic, deci dacă cei doi parametri sunt corelaţi, se poate
calcula parametrul t, care, conform distribuţiei Student, se
poate transforma într-o valoare care arată probabilitatea de
eroare - p, considerând că avem N-2 grade de libertate
(degrees of freedom - df , N = numărul de perechi de valori).
p < 0,05 - corelaţie semnificativă statistic
între parametrii analizaţi

MS Excel ----- p=TDIST(t,df,nr_direcţii _ critice)


ATENŢIE!
• Ecuaţia de regresie este relaţia matematică care exprimă
dependenţa dintre două sau mai multe variabile.
• Frecvent se foloseşte ecuaţia de regresie liniară =
dreapta de regresie: y = a·x +b

unde y este variabila dependentă


iar x este variabila independentă.
Parametrul a (panta dreptei de regresie = „slope”)
este denumit „coeficient de regresie”
– nu trebuie confundat cu „coeficientul de corelaţie”!!
• Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai
mică eroare relaţia dintre variabile
• Estimarea parametrilor a („slope”) şi b („intercept”) se face
uzual prin „metoda celor mai mici pătrate”
Corelaţia dintre valorile VSH la 1 oră şi 2 ore la
pacienţi cu diferite afecţiuni hepato-renale
120
y = 1.217 x + 10.456
r = 0.965
100

80
VSH 2 ore

60

40

20

0
0 10 20 30 40 50 60 70 80 90 100
VSH 1 ora
Întrebări