Regresia Si Corelatia Carte 2012

Lucian Vasile BOICULESE
Cristina DASCLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA
METODE DESCRIPTIVE I ELEMENTE DE

ANALIZ STATISTIC
A DATELOR MEDICALE
EXEMPLE PRACTICE N EXCEL I ACCESS
Referent tiinific:
Prof. Univ. Dr. Doina Azoici

Universitatea de Medicin i Farmacie
Grigore T. Popa Iai
DESRIEREA CIP A Bibliotecii Naionale a Romniei

Cristina DASCLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA
METODE DESCRIPTIVE I ELEMENTE DE

ANALIZ STATISTIC
A DATELOR MEDICALE
EXEMPLE PRACTICE N EXCEL I ACCESS
PERFORMANTICA
Contribuia pe capitole a autorilor:
Capitole
Autori
1-6, 14-16
7-8, 13, 20
9-12
17-19, 23
21-22, 24
Lucian V. Boiculese, Adrian Doloca, Cristina Dasclu

Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca
Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese
Cristina Dasclu, Gabriel Dimitriu, Mihaela Moscalu
Adrian Doloca, Cristina Dasclu, Gabriel Dimitriu

Cristina DASCLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA
vlboiculese@infmed.umfiasi.ro
cdascalu@ infbst.umfiasi.ro
gdimitriu@ mail.umfiasi.ro
mmoscalu@ mail.umfiasi.ro
adoloca@ mail.umfiasi.ro
CUPRINS
Introducere ....................................................................................................... 9
1 Formatarea celulelor ................................................................................ 11
Formatare condiionat .......................................................................... 13
Utilizarea comenzii Paste Special ......................................................... 14
2 Modul de adresare a celulelor. Crearea formulelor de calcul ............. 19
Reguli de adresare a celulelor................................................................ 19
Crearea formulelor de calcul ................................................................ 20
Tehnica automat de ncrcare a celulelor (autoncrcare - autofill) .. 22
3 Modul de adresare absolut a celulelor................................................. 26
Adresarea absolut ................................................................................. 26
Ataarea unui nume pentru un bloc de calcul ..................................... 27
Stilul de referire R1C1 ............................................................................ 28
4 Introducerea seriilor de date n foaia de calcul .................................... 31
Mai multe despre ncrcarea seriilor de date ....................................... 31
Generator de valori aleatoare ................................................................ 34
Contorizarea datelor............................................................................... 34
5 Transformarea unei variabile numerice n form categorial ............ 38
Funcia if() ............................................................................................... 38
Funcia Lookup() .................................................................................... 39
6 Extragerea de informaii din tabele de date .......................................... 45
Tabele Pivot............................................................................................. 45
Totalizarea datelor .................................................................................. 47
Filtre......................................................................................................... 49
7 Reprezentarea grafic a datelor .............................................................. 54
Tipuri de grafice ..................................................................................... 54
Crearea i editarea graficelor ................................................................. 62
8 Reprezentarea grafic a funciilor .......................................................... 66
Reprezentarea grafic a funciilor utiliznd grafice de tip Scatter ...... 66
Reprezentarea grafic a funciilor utiliznd grafice de tip Surface ..... 70
Cuprins
| 5
9 Elemente de teoria probabilitilor (I) ................................................... 73

Experien. Prob. Eveniment ............................................................... 73
Evenimente compatibile. Evenimente incompatibile .......................... 74
Evenimente dependente. Evenimente independente (I) ..................... 74
Operaii cu evenimente .......................................................................... 74
10 Elemente de teoria probabilitilor (II) ............................................... 78
Definiia clasic a probabilitii. Proprieti ......................................... 78
Regula adunrii probabilitilor evenimentelor incompatibile........... 82
Probabilitatea evenimentelor contrare (complementare) .................... 82
Sistem complet de evenimente .............................................................. 83
Evenimente independente i dependente (II)....................................... 83
Probabilitate condiionat. Teorema nmulirii probabilitilor
evenimentelor independente i dependente ........................................ 84
11 Elemente de teoria probabilitilor (III) .............................................. 89
Evenimente independente. Evenimente independente
n totalitatea lor (III) ............................................................................... 89
Teorema adunrii probabilitilor evenimentelor compatibile ........... 91
Formula probabilitii totale .................................................................. 92
12 Elemente de teoria probabilitilor (IV) .............................................. 96
Analiza unor exemple de aplicare a Teoremei lui Bayes ..................... 96
13 Statistic descriptiv (I) ....................................................................... 100
Calculul indicatorilor statistici ............................................................ 100
14 Statistic descriptiv (II)...................................................................... 110
Distribuia de frecven, realizarea histogramei,
curba Gauss-Laplace ............................................................................ 110
15 Intervale de ncredere (confiden) .................................................... 117
Intervale de confiden pentru estimarea mediei .............................. 117
16 Dimensiunea eantionului .................................................................. 124
Volumul eantionului de lucru ........................................................... 125
17 Compararea seturilor de date (I)......................................................... 130
Compararea a dou seturi de date testul t (Student) ...................... 130
18 Compararea seturilor de date (II) ....................................................... 140
Compararea seturilor de date prin metoda ANOVA ........................ 140
6 |
Cuprins
19 Regresie. Corelaie ............................................................................... 146

Regresie liniar i corelaie .................................................................. 146
20
Analiza supravieuirii ......................................................................... 155

Analiza supravieuirii Kaplan Meier ............................................... 155
21 Baze de date Microsoft Access. Noiuni generale ............................ 160

Elemente introductive .......................................................................... 160
Deschiderea i crearea unei baze de date ........................................... 161
Sortarea i filtrarea datelor................................................................... 174
22 Baze de date Microsoft Access. Relaionarea tabelelor ................... 180
Relaii ntre tabele ................................................................................. 180
23 Interogri SQL n Microsoft Access ................................................... 187
24 Formuri i rapoarte n Microsoft Access ............................................ 198
Bibliografie .................................................................................................. 203
Cuprins
| 7
19
REGRESIE - CORELAIE
Noiuni prezentate:
Regresie liniar i corelaie
n tiinele experimentale i, n particular, n medicin i biologie,
intereseaz nu numai variaia unui singur parametru, ci i a doi parametri,
cantitativi, despre care presupunem c se influeneaz unul pe altul. De
exemplu, dorim s tim dac exist ntr-o grup de subieci o relaie ntre
greutate i nlime, ntre tensiunea arterial i valoarea colesterolului, etc.
Aceast relaie, de o natur particular, se numete corelaie statistic, i joac
un rol important n tiinele vieii, i n particular n medicin. Cel mai
simplu caz de corelaie este corelaia liniar, unde una dintre mrimi variaz
proporional cu alta, ambele mrimi fiind numerice sau cantitative [16].
Pentru a se determina o expresie precis a influenei pe care unul
dintre parametri l exercit asupra celuilalt n cazul unei variaii
proporionale a acestora, statisticienii folosesc noiunea de covarian.
Astfel, pentru un eantion dintr-o populaie dat, se calculeaz:
mediile aritmetice ale celor doi parametri analizai, x i y , precum i
abaterile de la medie ale valorilor individuale, x x i y y . Variaia
proporional a celor doi parametri x, y este exprimat din punct de vedere
matematic prin faptul c suma produselor abaterilor de la medie ale celor
doi parametri este un numr pozitiv:
( x x)( y y) > 0 .
Analog, variaia invers proporional a celor doi parametri x, y este
exprimat prin faptul c suma produselor abaterilor de la medie ale celor
doi parametri este un numr negativ:
(x x) ( y y) < 0 .
iar absena oricrei influene ntre cei doi parametri este exprimat prin
faptul c aceast expresie este egal sau tinde spre 0:
( x x)( y y) 0 .
Pentru a se da o semnificaie mai general acestei sume, ea se
raporteaz la numrul de cazuri N, definindu-se astfel noiunea de
covarian, COV(x, y) [16]:
P=
146 |
Regresie. Corelaie
( x x)( y y) .
N
care poate fi folosit ca o msur fidel a gradului de corelaie ntre doi

parametri cantitativi.
Din punct de vedere grafic, aceast dependen proporional ntre
dou variabile este caracterizat printr-o dreapt, care se numete dreapt
de regresie i de asemenea poate fi descris precis din punct de vedere
matematic.
Ecuaia general a dreptei de regresie [16], cu notaiile de mai sus,
va fi:
y y = a x ( x x) , unde a x =
( x x)( y y)
( x x)
2
(,)
ax se numete coeficientul liniar de regresie al lui y n raport cu x, care msoar

panta dreptei D pe orizontala Ox. Indic de cte ori n medie y este mai mare
sau mai mic dect x. Este pozitiv sau negativ dup cum dreapta are o pant
ascendent sau descendent de la stnga la dreapta.
n mod simetric (schimbnd x cu y i y cu x) se definete dreapta de
regresie a lui x n raport cu y, care corespunde ecuaiei:
x x = a y ( y y ) , unde a y =
( y y)( x x)
( y y)
2
(,)
ay se numete coeficientul liniar de regresie al lui x n y, care msoar panta

dreptei D pe verticala Oy. Indic de cte ori n medie x este mai mare sau mai
mic dect y.
Pe baza acestor doi coeficieni liniari de regresie ai lui y n x,
respectiv x n y, se definete produsul r 2 = a x a y (media geometric a celor
dou pante de regresie); acest parametru se numete coeficientul corelaiei
liniare, sau coeficientul de corelaie Pearson. Formula de calcul a
coeficientului de corelaie liniar va fi [16]:
(, ) (, )
= =

( ) ( )
(, )
=
=

( ) ( )
Coeficienii de corelaie Pearson reprezint msura intensitii
legturii liniare ntre dou variabile i au valori cuprinse ntre -1 i 1.
Valorile apropiate de 0 indic absena corelaiei ntre variabilele respective,
iar valorile apropiate de 1 sau de -1 indic prezena unei corelaii puternice
ntre variabile.
Valorile negative indic prezena unei corelaii invers proporionale
(atunci cnd valorile uneia dintre variabile cresc, valorile celeilalte variabile
scad corespunztor), iar valorile pozitive indic prezena unei corelaii
Regresie. Corelaie
| 147
direct proporionale (atunci cnd valorile uneia dintre variabile cresc,

valorile celeilalte variabile cresc i ele).
Colton (1974) a indicat urmtoarele reguli empirice pentru
interpretarea coeficienilor de corelaie:
Un coeficient de corelaie ntre 0,00 i 0,25, semnific o corelaie nul
sau foarte slab,
Un coeficient de corelaie ntre 0,25 i 0,50 semnific o corelaie
acceptabil,
Un coeficient de corelaie ntre 0,50 i 0,75 semnific o corelaie
moderat spre bun,
Un coeficient de corelaie peste 0,75 semnific o corelaie foarte bun.
Exemple:
1. Determinai coeficienii de corelaie ntre Vrst, Greutate i
Glicemie la momentul 0, pentru a putea afla dac vrsta sau
greutatea influeneaz n vreun fel valorile Glicemiei.
Una dintre condiiile necesare pentru a putea calcula coeficienii de
corelaie este ca variabilele pentru care dorim s i calculm s fie situate n
coloane nvecinate condiie realizat n cazul tabelului nostru altfel,
coloanele respective ar trebui copiate i rearanjate separat.
Se selecteaz comanda Data / Data Analysis / Correlation:
Se specific irul de celule n
care
se
afl
valorile
variabilelor pentru care
dorim
s
calculm
coeficienii de corelaie.
Se specific modul de
grupare a valorilor n
coloane n cazul de fa.
Se bifeaz cnd n prima
celul din fiecare coloan se
afl numele variabilei.
Se precizeaz locul de afiare a rezultatelor pe foaia de calcul
curent, pe o nou foaie de calcul sau chiar ntr-un registru de
calcul nou.
Figura 19-1. Fereastra corespunztoare calculului coeficienilor de corelaiei

148 |
Regresie. Corelaie
Rezultatele sunt afiate dup cum urmeaz:
Figura 19-2. Modul de prezentare a rezultatului corelaiei

Se genereaz de fapt Matricea Coeficienilor de Corelaie, ce
conine coeficienii de corelaie Pearson ntre toate perechile posibile de
variabile selectate prin comand.
n cazul nostru, corelaia ntre greutate i vrst este 0.3879, deci
pozitiv, acceptabil, dar corelaiile ntre glicemie i vrst (0.0697),
respectiv glicemie i greutate (0.0660) sunt practic nule.
2. Determinai coeficienii de covarian ntre Vrst, Greutate i
Glicemie la momentul 0, pentru a putea afla dac vrsta sau
greutatea influeneaz n vreun fel valorile Glicemiei.
Dup cum am artat, covariana este o msur premergtoare
calculului coeficienilor de corelaie ntre dou variabile, definit ca media
produselor deviaiilor pentru fiecare pereche de puncte. Spre deosebire de
coeficientul de corelaie, coeficientul de covarian nu aparine unui interval
dat de valori, putnd lua ca valoare orice numr real.
Se selecteaz comanda Data / Data Analysis / Covariance:
Se specific irul de celule n care se afl
valorile variabilelor pentru care dorim
s calculm coeficienii de covarian.
Se specific modul de grupare a
valorilor n coloane n cazul de fa.
Se bifeaz cnd n prima celul din
fiecare coloan se afl numele
variabilei.
Se precizeaz locul de afiare a rezultatelor pe
foaia de calcul curent, pe o nou foaie de calcul
sau chiar ntr-un registru de calcul nou.
Figura 19-3. Fereastra corespunztoare calculului covarianei

Covariana se folosete pentru a determina doar natura legturii
ntre cele 2 variabile: valorile pozitive ale ei indic o legtur direct
Regresie. Corelaie
| 149
proporional ntre variabile, valorile negative indic o legtur invers

proporional, iar valorile apropiate de 0 indic absena unei influene ntre
cele dou variabile.
Figura 19-4. Modul de prezentare a rezultatului calculului covarianei

ntre toate cele 3 variabile exist o legtur direct proporional, mai
accentuat ntre Greutate i Vrst (69.0012), i foarte slab ntre Glicemie i
Vrst (6.3772), respectiv Greutate (7.7596).
3. Construii modelul de regresie liniar ntre Vrst i Glicemie la
mom. 0, respectiv Greutate i Glicemie la mom. 0, pentru a
determina modul n care aceste variabile influeneaz valorile
Glicemiei. Comentai rezultatele obinute i realizai reprezentarea
grafic corespunztoare (de tip SCATTER).
Se selecteaz comanda Data / Data Analysis / Regression:
Se specific irul de celule
n care se afl valorile
variabilei
dependente/
influenate - Glicemia.
Se specific irul de celule
n care se afl valorile
variabilei
independente/
care influeneaz - Vrsta.
Se bifeaz cnd n prima
celul din fiecare coloan
se afl numele variabilei.
Se vor calcula i intervalele
de ncredere 95% n jurul
dreptei de regresie.
Se precizeaz locul de afiare a rezultatelor pe foaia de

calcul curent, pe o nou foaie de calcul sau chiar ntr-un
registru de calcul nou.
Figura 19-5. Fereastra corespunztoare regresiei

150 |
Regresie. Corelaie
Figura 19-6. Modul de prezentare a rezultatului regresiei (vrst vs. glicemie)

Regression Statistics:
- Multiple R: este coeficientul de corelaie calculat anterior, ntre
Vrst i Glicemie;
- R Square: se mai numete i Coeficient de Determinare, i reprezint
proporia din variaia variabilei Y (Glicemie) care este explicat de
influena liniar a variabilei X (0.0048 foarte mic n cazul nostru);
- Adjusted R Square: reprezint Coeficientul de Determinare corectat;
- Standard Error: eroarea medie nregistrat la predicia valorilor
medii ale variabilei Y (Glicemie) prin ecuaia de regresie liniar
(7.9118 de asemeni foarte mic, dar nu pentru c modelul de
regresie este bun, ci pentru c acesta este total inadecvat).
ANOVA: Analiza de regresie conine i un test cu ipotez nul, care
afirm c panta dreptei de regresie este egal cu 0 (deci nu exist nici un fel
de corelaie ntre cele 2 variabile). Pentru a se verifica testul respectiv, se
calculeaz statistica F=0.234971 i nivelul su de semnificaie p=0.63007.
Dac p <= 0.05 nseamn c ipoteza nul este INFIRMAT, panta
dreptei de regresie este semnificativ diferit de 0, i prin urmare exist o
relaie liniar ntre X i Y. Dac p>0.05 nseamn c ipoteza nul este
CONFIRMAT, panta dreptei de regresie este 0 i nu exist nici o relaie
semnificativ ntre X i Y cazul de fa, p=0.63007.
- Regression: reprezint variaia lui Y explicat de X (= 14.70855)
- Residual: reprezint variaia lui Y neexplicat de X (= 3004.671, mult
mai mare dect cellalt coeficient)
- Total: reprezint variaia total a lui Y, suma ntre Regression i
Residual.
- Coefficients: reprezint coeficienii dreptei de regresie.
Ecuaia dreptei de regresie are forma general y=ax+b, unde:
Regresie. Corelaie
| 151
a = 0.046128 reprezint PANTA dreptei; cu ct este mai mare, cu att

semnific o dreapt mai nclinat, deci o legtur mai puternic;
cnd panta are o valoare pozitiv, atest o corelaie direct
proporional ntre cele 2 variabile, n timp ce atunci cnd are o
valoare negativ, atest o corelaie invers proporional ntre cele 2
variabile.
- b = 125.544281 reprezint INTERCEPTUL CU AXA OY: punctul n
care dreapta intersecteaz axa vertical.
Reprezentarea grafic se realizeaz folosind comanda SCATTER, n
care pe axa Orizontal se pune variabila independent, iar pe cea Vertical
variabila dependent (influenat de cealalt):
-
Corelatia intre Varsta si Glicemie
150
Glicemie
140
130
120
110
100
90
80
0
20
40
60
80
Varsta
Figura 19-7. Reprezentarea grafic tip scatter pentru valorile vrstei i glicemie
Pentru a se figura pe acest
grafic
ecuaia
dreptei
de
regresie, se selecteaz punctele
din norul de puncte, dup care
se
activeaz
meniu-ul
personalizat (click dreapta) din
care se alege opiunea Add
trendline.
Se bifeaz tipul de regresie
dorit Linear, i opiunile
- Display Equation on
chart: pentru afiarea pe grafic a
ecuaiei dreptei de regresie,
- Display R-squared value
on chart: pentru afiarea pe
grafic a
coeficientului de
determinare.
Figura 19-8. Modul de setare pentru afiarea dreptei de regresie
152 |
Regresie. Corelaie
Graficul care se obine va fi:

Corelatia intre Varsta si Glicemie
150
Se vede clar din ecuaia

dreptei de regresie c practic
Vrsta nu influeneaz deloc
Glicemia,
dreapta
fiind
aproape paralel cu axa
orizontal.
Glicemie
140
130
120
110
100
y = 0.0461x + 125.54
R = 0.0049
90
80
0
20
40
60
80
Varsta
Figura 19-9. Reprezentarea grafic a dreptei de regresie

Construim similar modelul de regresie liniar ntre Greutate i
Glicemie la momentul 0.
Rezultatele obinute vor fi:
Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Coeficientul de corelaie ntre Greutate i Glicemie la momentul 0
este cel deja cunoscut, R = 0.0660, fiind de asemenea foarte mic.
Testul ANOVA de caracterizare a pantei dreptei de regresie
furnizeaz de asemenea un coeficient de ncredere p = 0.6487 > 0.05, care
conduce la concluzia c panta dreptei de regresie este aproape egal cu 0,
iar ecuaia dreptei de regresie, aa cum rezult din calcule, va fi y = 0.0339x
+ 124.3388, adic o dreapt de regresie din nou aproape paralel cu axa
orizontal fapt deja anticipat de valoarea coeficientului de corelaie i de
rezultatul testului ANOVA.
Regresie. Corelaie
| 153
Aceste elemente sunt de asemenea confirmate de reprezentarea

grafic corespunztoare:
Glicemie
Corelatia intre Greutate si Glicemie la mom. 0

160
140
120
100
80
60
40
20
0
y = 0.0339x + 124.34
R = 0.0044
0
50
Greutate
100
150
Figura 19-11. Reprezentarea grafic a dreptei de regresie (greutate vs. glicemie)
154 |
Regresie. Corelaie

Regresia Si Corelatia Carte 2012

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresia Si Corelatia Carte 2012

Încărcat de

Drepturi de autor:

Formate disponibile

Lucian Vasile BOICULESE

METODE DESCRIPTIVE I ELEMENTE DE

Prof. Univ. Dr. Doina Azoici

DESRIEREA CIP A Bibliotecii Naionale a Romniei

Lucian Vasile BOICULESE

METODE DESCRIPTIVE I ELEMENTE DE

Contribuia pe capitole a autorilor:

Lucian V. Boiculese, Adrian Doloca, Cristina Dasclu

Lucian Vasile BOICULESE

9 Elemente de teoria probabilitilor (I) ................................................... 73

19 Regresie. Corelaie ............................................................................... 146

Analiza supravieuirii ......................................................................... 155

21 Baze de date Microsoft Access. Noiuni generale ............................ 160

care poate fi folosit ca o msur fidel a gradului de corelaie ntre doi

ax se numete coeficientul liniar de regresie al lui y n raport cu x, care msoar

ay se numete coeficientul liniar de regresie al lui x n y, care msoar panta

direct proporionale (atunci cnd valorile uneia dintre variabile cresc,

Figura 19-1. Fereastra corespunztoare calculului coeficienilor de corelaiei

Rezultatele sunt afiate dup cum urmeaz:

Figura 19-2. Modul de prezentare a rezultatului corelaiei

Figura 19-3. Fereastra corespunztoare calculului covarianei

proporional ntre variabile, valorile negative indic o legtur invers

Figura 19-4. Modul de prezentare a rezultatului calculului covarianei

Se precizeaz locul de afiare a rezultatelor pe foaia de

Figura 19-5. Fereastra corespunztoare regresiei

Rezultatele sunt afiate dup cum urmeaz:

Figura 19-6. Modul de prezentare a rezultatului regresiei (vrst vs. glicemie)

a = 0.046128 reprezint PANTA dreptei; cu ct este mai mare, cu att

Corelatia intre Varsta si Glicemie

Graficul care se obine va fi:

Se vede clar din ecuaia

Figura 19-9. Reprezentarea grafic a dreptei de regresie

Figura 19-10. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie)

Aceste elemente sunt de asemenea confirmate de reprezentarea

Corelatia intre Greutate si Glicemie la mom. 0

Figura 19-11. Reprezentarea grafic a dreptei de regresie (greutate vs. glicemie)

S-ar putea să vă placă și