Sunteți pe pagina 1din 16

Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

Referent ştiinŃific:

Prof. Univ. Dr. Doina Azoicăi Universitatea de Medicină şi Farmacie „Grigore T. Popa” Iaşi

DESRIEREA CIP A Bibliotecii NaŃionale a României

Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA

METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE

EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

PERFORMANTICA

ContribuŃia pe capitole a autorilor:

Capitole

Autori

1-6, 14-16 7-8, 13, 20

Lucian V. Boiculese, Adrian Doloca, Cristina Dascălu Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca

9-12

Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese

17-19, 23

Cristina Dascălu, Gabriel Dimitriu, Mihaela Moscalu

21-22, 24

Adrian Doloca, Cristina Dascălu, Gabriel Dimitriu

Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA

vlboiculese@infmed.umfiasi.ro cdascalu@ infbst.umfiasi.ro gdimitriu@ mail.umfiasi.ro mmoscalu@ mail.umfiasi.ro adoloca@ mail.umfiasi.ro

CUPRINS

Introducere

9

1 Formatarea celulelor

11

Formatare condiŃionată

13

Utilizarea comenzii Paste Special

14

2 Modul de adresare a celulelor. Crearea formulelor de calcul

19

Reguli de adresare a celulelor

19

Crearea formulelor de calcul

20

Tehnica automată de încărcare a celulelor (autoîncărcare - autofill)

22

3 Modul de adresare absolută a celulelor

26

Adresarea absolută

26

Ataşarea unui nume pentru un bloc de calcul

27

Stilul de referire R1C1

28

4 Introducerea seriilor de date în foaia de calcul

31

Mai multe despre încărcarea seriilor de date

31

Generator de valori aleatoare

34

Contorizarea datelor

34

5 Transformarea unei variabile numerice în formă categorială

38

FuncŃia if()

38

FuncŃia Lookup()

39

6 Extragerea de informaŃii din tabele de date

45

Tabele Pivot

45

Totalizarea datelor

47

Filtre

49

7 Reprezentarea grafică a datelor

54

Tipuri de grafice

54

Crearea şi editarea graficelor

62

8 Reprezentarea grafică a funcțiilor

66

Reprezentarea grafică a funcŃiilor utilizând grafice de tip Scatter

66

Reprezentarea grafică a funcŃiilor utilizând grafice de tip Surface

70

9 Elemente de teoria probabilităților (I)

73

ExperienŃă. Probă. Eveniment

73

Evenimente compatibile. Evenimente incompatibile

74

Evenimente dependente. Evenimente independente (I)

74

OperaŃii cu evenimente

74

10 Elemente de teoria probabilităților (II)

78

Definiția clasică a probabilității. Proprietăți

78

Regula adunării probabilităților evenimentelor incompatibile

82

Probabilitatea evenimentelor contrare (complementare)

82

Sistem complet de evenimente

83

Evenimente independente și dependente (II)

83

Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente

84

11 Elemente de teoria probabilităților (III)

89

Evenimente independente. Evenimente independente în totalitatea lor (III)

89

Teorema adunării probabilităților evenimentelor compatibile

91

Formula probabilității totale

92

12 Elemente de teoria probabilităților (IV)

96

Analiza unor exemple de aplicare a Teoremei lui Bayes

96

13 Statistică descriptivă (I)

100

Calculul indicatorilor statistici

100

14 Statistică descriptivă (II)

110

DistribuŃia de frecvenŃă, realizarea histogramei, curba Gauss-Laplace

110

15 Intervale de încredere (confidenŃă)

117

Intervale de confidenŃă pentru estimarea mediei

117

16 Dimensiunea eşantionului

124

Volumul eşantionului de lucru

125

17 Compararea seturilor de date (I)

130

Compararea a două seturi de date – testul t (Student)

130

18 Compararea seturilor de date (II)

140

Compararea seturilor de date prin metoda ANOVA

140

19 Regresie. CorelaŃie

146

Regresie liniară şi corelaŃie

146

20 Analiza supravieŃuirii

155

Analiza supravieŃuirii – Kaplan Meier

155

21 Baze de date Microsoft Access. NoŃiuni generale

160

Elemente introductive

160

Deschiderea şi crearea unei baze de date

161

Sortarea şi filtrarea datelor

174

22 Baze de date Microsoft Access. RelaŃionarea tabelelor

180

RelaŃii între tabele

180

23 Interogări SQL în Microsoft Access

187

24 Formuri şi rapoarte în Microsoft Access

198

Bibliografie

203

19

REGRESIE - CORELAŢIE

NoŃiuni prezentate:

Regresie liniară şi corelaŃie

În ştiinŃele experimentale şi, în particular, în medicină şi biologie, interesează nu numai variaŃia unui singur parametru, ci şi a doi parametri, cantitativi, despre care presupunem că se influenŃează unul pe altul. De exemplu, dorim să ştim dacă există într-o grupă de subiecŃi o relaŃie între greutate şi înălŃime, între tensiunea arterială şi valoarea colesterolului, etc. Această relaŃie, de o natură particulară, se numeşte corelaŃie statistică, şi joacă un rol important în ştiinŃele vieŃii, şi în particular în medicină. Cel mai simplu caz de corelaŃie este corelaŃia liniară, unde una dintre mărimi variază proporŃional cu alta, ambele mărimi fiind numerice sau cantitative [16]. Pentru a se determina o expresie precisă a influenŃei pe care unul dintre parametri îl exercită asupra celuilalt în cazul unei variaŃii proporŃionale a acestora, statisticienii folosesc noŃiunea de covarianŃă. Astfel, pentru un eşantion dintr-o populaŃie dată, se calculează:

mediile aritmetice ale celor doi parametri analizaŃi,

y , precum şi

x

şi

abaterile de la medie ale valorilor individuale, x x şi y y . VariaŃia proporŃională a celor doi parametri x, y este exprimată din punct de vedere matematic prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr pozitiv:

(x x)(y y) > 0 .

Analog, variaŃia invers proporŃională a celor doi parametri x, y este exprimată prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr negativ:

(

x

x

)(

y

y

) < 0

.

iar absenŃa oricărei influenŃe între cei doi parametri este exprimată prin faptul că această expresie este egală sau tinde spre 0:

(x x)( y y) 0 .

Pentru a se da o semnificaŃie mai generală acestei sume, ea se raportează la numărul de cazuri N, definindu-se astfel noŃiunea de covarianŃă, COV(x, y) [16]:

(

x

x

)(

y

y

) .

P =

N

146

|

Regresie. Corelaţie

care poate fi folosită ca o măsură fidelă a gradului de corelaŃie între doi parametri cantitativi. Din punct de vedere grafic, această dependenŃă proporŃională între două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi de asemenea poate fi descrisă precis din punct de vedere matematic. EcuaŃia generală a dreptei de regresie [16], cu notaŃiile de mai sus,

va fi:

y

y

=

a

x

(x

x)

, unde

a x

=

∑ ( x − x )( y − y ) ( , ) = ∑
∑ (
x
x
)(
y
y
)
( , )
=
∑ (
x
− x
)
2

.

a x se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare sau mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă ascendentă sau descendentă de la stânga la dreapta.

În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de regresie a lui x în raport cu y, care corespunde ecuaŃiei:

x

x

=

a

y

(y

y)

, unde

a y

=

∑ ( y − y )( x − x ) ( , ) = .
∑ (
y
y
)(
x
x
)
( , )
=
.
∑ (
y
− y
)
2

a y se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai mic decât y.

Pe baza acestor doi coeficienŃi liniari de regresie ai lui y în x,

respectiv x în y, se defineşte produsul

două pante de regresie); acest parametru se numeşte coeficientul corelaŃiei liniare, sau coeficientul de corelaŃie Pearson. Formula de calcul a coeficientului de corelaŃie liniară va fi [16]:

(media geometrică a celor

r

2

= a

x

a

y

= = ( , )

( , )

= ( , ) =

∑( )∙( )

∑( ) ∙∑( )

CoeficienŃii de corelaŃie Pearson reprezintă măsura intensităŃii legăturii liniare între două variabile şi au valori cuprinse între -1 şi 1. Valorile apropiate de 0 indică absenŃa corelaŃiei între variabilele respective, iar valorile apropiate de 1 sau de -1 indică prezenŃa unei corelaŃii puternice între variabile. Valorile negative indică prezenŃa unei corelaŃii invers proporŃionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile scad corespunzător), iar valorile pozitive indică prezenŃa unei corelaŃii

Regresie. Corelaţie |

147

direct proporŃionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc şi ele).

Colton (1974) a indicat următoarele reguli empirice pentru interpretarea coeficienŃilor de corelaŃie:

Un coeficient de corelaŃie între 0,00 şi 0,25, semnifică o corelaŃie nulă sau foarte slabă, Un coeficient de corelaŃie între 0,25 şi 0,50 semnifică o corelaŃie acceptabilă, Un coeficient de corelaŃie între 0,50 şi 0,75 semnifică o corelaŃie moderată spre bună, Un coeficient de corelaŃie peste 0,75 semnifică o corelaŃie foarte bună.

1.

Exemple:

DeterminaŃi coeficienŃii de corelaŃie între Vârstă, Greutate şi Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenŃează în vreun fel valorile Glicemiei.

Una dintre condiŃiile necesare pentru a putea calcula coeficienŃii de corelaŃie este ca variabilele pentru care dorim să îi calculăm să fie situate în coloane învecinate – condiŃie realizată în cazul tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate separat. Se selectează comanda Data / Data Analysis / Correlation:

Se selectează comanda Data / Data Analysis / Correlation: Se specifică şirul de celule în care
Se selectează comanda Data / Data Analysis / Correlation: Se specifică şirul de celule în care

Se specifică şirul de celule în

care

variabilelor

calculăm

coeficienţii de corelaţie.

dorim

se

află

valorile

pentru

care

Se specifică modul grupare a valorilor coloane în cazul de faţă.

de

în

Se bifează când în prima celulă din fiecare coloană se află numele variabilei.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

Figura 19-1. Fereastra corespunzătoare calculului coeficienţilor de corelaţiei

148

|

Regresie. Corelaţie

Rezultatele sunt afişate după cum urmează:

Rezultatele sunt afişate după cum urmează: Figura 19-2. Modul de prezentare a rezultatului corelaţiei Se generează

Figura 19-2. Modul de prezentare a rezultatului corelaţiei

Se generează de fapt Matricea CoeficienŃilor de CorelaŃie, ce conŃine coeficienŃii de corelaŃie Pearson între toate perechile posibile de variabile selectate prin comandă. În cazul nostru, corelaŃia între greutate şi vârstă este 0.3879, deci pozitivă, acceptabilă, dar corelaŃiile între glicemie şi vârstă (0.0697), respectiv glicemie şi greutate (0.0660) sunt practic nule.

2.

DeterminaŃi coeficienŃii de covarianŃă între Vârstă, Greutate şi Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenŃează în vreun fel valorile Glicemiei.

După cum am arătat, covarianŃa este o măsură premergătoare calculului coeficienŃilor de corelaŃie între două variabile, definită ca media produselor deviaŃiilor pentru fiecare pereche de puncte. Spre deosebire de coeficientul de corelaŃie, coeficientul de covarianŃă nu aparŃine unui interval dat de valori, putând lua ca valoare orice număr real. Se selectează comanda Data / Data Analysis / Covariance:

Se bifează când fiecare coloană variabilei.
Se
bifează
când
fiecare
coloană
variabilei.

Se specifică şirul de celule în care se află valorile variabilelor pentru care dorim să calculăm coeficienţii de covarianţă.

Se specifică modul

valorilor – în coloane în cazul de faţă.

de

grupare

a

în

prima celulă din

află numele

se

Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

Figura 19-3. Fereastra corespunzătoare calculului covarianţei

CovarianŃa se foloseşte pentru a determina doar natura legăturii între cele 2 variabile: valorile pozitive ale ei indică o legătură direct

Regresie. Corelaţie |

149

proporŃională între variabile, valorile negative indică o legătură invers proporŃională, iar valorile apropiate de 0 indică absenŃa unei influenŃe între cele două variabile. Rezultatele sunt afişate după cum urmează:

variabile. Rezultatele sunt afişate după cum urmează: Figura 19-4. Modul de prezentare a rezultatului calculului

Figura 19-4. Modul de prezentare a rezultatului calculului covarianţei

Între toate cele 3 variabile există o legătură direct proporŃională, mai accentuată între Greutate şi Vârstă (69.0012), şi foarte slabă între Glicemie şi Vârstă (6.3772), respectiv Greutate (7.7596).

3. ConstruiŃi modelul de regresie liniară între Vârstă şi Glicemie la mom. 0, respectiv Greutate şi Glicemie la mom. 0, pentru a determina modul în care aceste variabile influenŃează valorile Glicemiei. ComentaŃi rezultatele obŃinute şi realizaŃi reprezentarea grafică corespunzătoare (de tip SCATTER). Se selectează comanda Data / Data Analysis / Regression:

Se specifică şirul de celule

se variabilei dependente/ influenţate - Glicemia.

află valorile

în care în care
în
care
în
care

Se specifică şirul de celule

se variabilei independente/ care influenţează - Vârsta.

află valorile

Se bifează când în prima celulă din fiecare coloană se află numele variabilei.

Se vor calcula şi intervalele de încredere 95% în jurul dreptei de regresie.

Se precizează locul de afişare a rezultatelor – pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

Figura 19-5. Fereastra corespunzătoare regresiei

150

|

Regresie. Corelaţie

Rezultatele sunt afişate după cum urmează:

Rezultatele sunt afişate după cum urmează: Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs.

Figura 19-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie)

Regression Statistics:

- Multiple R: este coeficientul de corelaŃie calculat anterior, între Vârstă şi Glicemie;

- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă proporŃia din variaŃia variabilei Y (Glicemie) care este explicată de influenŃa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);

- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;

- Standard Error: eroarea medie înregistrată la predicŃia valorilor medii ale variabilei Y (Glicemie) prin ecuaŃia de regresie liniară (7.9118 – de asemeni foarte mică, dar nu pentru că modelul de regresie este bun, ci pentru că acesta este total inadecvat). ANOVA: Analiza de regresie conŃine şi un test cu ipoteză nulă, care

afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel de corelaŃie între cele 2 variabile). Pentru a se verifica testul respectiv, se calculează statistica F=0.234971 şi nivelul său de semnificaŃie p=0.63007. Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o relaŃie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaŃie semnificativă între X şi Y – cazul de faŃă, p=0.63007.

- Regression: reprezintă variaŃia lui Y explicată de X (= 14.70855)

- Residual: reprezintă variaŃia lui Y neexplicată de X (= 3004.671, mult mai mare decât celălalt coeficient)

- Total: reprezintă variaŃia totală a lui Y, suma între Regression şi Residual.

- Coefficients: reprezintă coeficienŃii dreptei de regresie. EcuaŃia dreptei de regresie are forma generală y=ax+b, unde:

Regresie. Corelaţie |

151

- a = 0.046128 reprezintă PANTA dreptei; cu cât este mai mare, cu atât semnifică o dreaptă mai înclinată, deci o legătură mai puternică; când panta are o valoare pozitivă, atestă o corelaŃie direct proporŃională între cele 2 variabile, în timp ce atunci când are o valoare negativă, atestă o corelaŃie invers proporŃională între cele 2 variabile.

- b = 125.544281 reprezintă INTERCEPTUL CU AXA OY: punctul în care dreapta intersectează axa verticală. Reprezentarea grafică se realizează folosind comanda SCATTER, în care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală variabila dependentă (influenŃată de cealaltă):

Corelatia intre Varsta si Glicemie 150 140 130 120 110 100 90 80 0 20
Corelatia intre Varsta si Glicemie
150
140
130
120
110
100
90
80
0
20
40
60
80
Varsta
Glicemie

Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie

grafică tip scatter pentru valorile vârstei şi glicemie Pentru a se figura pe acest grafic ecuaŃia

Pentru a se figura pe acest grafic ecuaŃia dreptei de

regresie, se selectează punctele din norul de puncte, după care se activează meniu-ul personalizat (click dreapta) din care se alege opŃiunea „Add trendline…”. Se bifează tipul de regresie dorit – Linear, şi opŃiunile

- Display Equation on

chart: pentru afişarea pe grafic a ecuaŃiei dreptei de regresie,

- Display R-squared value

on chart: pentru afişarea pe

grafic a coeficientului de determinare.

Figura 19-8. Modul de setare pentru afişarea dreptei de regresie

152

|

Regresie. Corelaţie

Graficul care se obŃine va fi:

Corelatia intre Varsta si Glicemie 150 140 130 120 110 Se vede clar din ecuaţia
Corelatia intre Varsta si Glicemie
150
140
130
120
110
Se vede clar din ecuaţia
dreptei de regresie că practic
Vârsta nu influenţează deloc
Glicemia, dreapta fiind
aproape paralelă cu axa
orizontală.
100
y = 0.0461x + 125.54
90
R² = 0.0049
80
0
20
40
60
80
Varsta
Glicemie

Figura 19-9. Reprezentarea grafică a dreptei de regresie

Construim similar modelul de regresie liniară între Greutate şi Glicemie la momentul 0. Rezultatele obŃinute vor fi:

şi Glicemie la momentul 0. Rezultatele obŃinute vor fi: Figura 19-10. Modul de prezentare a rezultatului

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaŃie între Greutate şi Glicemie la momentul 0 este cel deja cunoscut, R = 0.0660, fiind de asemenea foarte mic. Testul ANOVA de caracterizare a pantei dreptei de regresie furnizează de asemenea un coeficient de încredere p = 0.6487 > 0.05, care conduce la concluzia că panta dreptei de regresie este aproape egală cu 0, iar ecuaŃia dreptei de regresie, aşa cum rezultă din calcule, va fi y = 0.0339x + 124.3388, adică o dreaptă de regresie din nou aproape paralelă cu axa orizontală – fapt deja anticipat de valoarea coeficientului de corelaŃie şi de rezultatul testului ANOVA.

Regresie. Corelaţie |

153

Aceste elemente sunt de asemenea confirmate de reprezentarea grafică corespunzătoare:

Corelatia intre Greutate si Glicemie la mom. 0 160 140 120 100 80 60 40
Corelatia intre Greutate si Glicemie la mom. 0
160
140
120
100
80
60
40
y = 0.0339x + 124.34
R² = 0.0044
20
0
0
50
100
150
Greutate
Glicemie

Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)

154

|

Regresie. Corelaţie