Sunteți pe pagina 1din 16

Corelaii

Obiective: - Coeficientul de corelaie Pearson - Graficul de corelaie (XY Scatter) - Regresia liniar

Problema 1.
Introducei n Excel urmtorul tabel cu datele a 30 de pacieni aflai n atenia centrului de diabet i boli de nutriie.
COLESTEROL VARST GREUTAT INALTIM IM TA TA GLICEMI A 59 68 70 29 29 52 43 47 30 47 41 41 60 67 E 95 85 54 74 61 82 67 86 69 107 84 104 60 74 E 1,70 1,56 1,57 1,69 1,59 1,89 1,64 1,72 1,57 1,80 1,83 1,75 1,58 1,63 C S D 14 0 100 15 0 100 16 0 11 0 12 0 12 0 13 0 14 80 60 70 80 80 E 100 103 99 84 82 72 89 80 76 108 85 122 80 93 inainte de tratament 210 327 281 174 223 183 183 211 179 244 195 262 277 177 COLESTERO L dupa tratament 180 220 256 174 183 153 153 190 159 200 175 244 244 156

0 100 11 0 13 0 11 0 11 0 12 0 16 0 50 90 80 70 70 90

16 73 68 49 50 40 48 38 44 26 47 26 29 33 41 52 43 61 77 109 88 64 78 60 108 75 87 96 83 83 81 73 90 1,53 1,72 1,69 1,66 1,79 1,73 1,65 1,71 1,73 1,80 1,76 1,75 1,75 1,67 1,68 1,63 0 14 0 16 80 80 95 104 89 123 68 93 73 89 89 87 81 85 71 90 88 82 223 185 171 169 148 133 179 120 118 209 210 202 174 183 141 210 200 172 171 155 148 133 166 120 118 150 215 180 154 173 141 183

0 100 13 0 12 0 14 0 90 14 90 80 80 40

0 100 11 0 12 0 13 0 12 0 10 0 12 0 14 60 80 90 70 70 90

0 100 10 0 70

a. Calculai coeficientul de corelaie Pearson dintre Varsta i Greutate cu ajutorul funciei CORREL. b. Calculai indicele de mas corporal IMC dup formula IMC =
Greutate Inaltime 2

c. Calculai coeficientul de corelaie Pearson dintre IMC i TAS cu ajutorul pachetului Data Analysis Correlation. d. Calculai matricea de corelaii a variabilelor: Varsta, Greutate, IMC, TAS, TAD, Glicemie i Colesterol nainte i dup tratament cu ajutorul Data Analysis Correlation. e. Reprezentai grafic dependena (corelaia) dintre Vrst i IMC, adugai pe grafic dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie.

f. Calculai coeficientul de determinare prin metoda grafic pentru Varsta i TAS. g. Reprezentai grafic corelaia dintre Colesterol nainte i dup tratament. h. Reprezentai grafic dependena (corelaia) dintre TAS i TAD, adugai pe grafic dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie. i. Calculai coeficienii dreptei de regresie prin metoda grafic dintre Varsta i Glicemie. j. Interpretai graficele, dreapta de regresie i coeficientul de determinare n cateva cuvinte realiznd o prezentare Power Point cu fiecare grafic pe un slide, urmat de interpretarea lui pe slide-ul urmtor. k. Determinai coeficienii dreptei de regresie liniar pentru variabila dependent Glicemie i variabila independent Greutate cu Regression din Data Analysis.

Instruciuni
Pentru punctul a. Coeficientul de corelaie Pearson este un indice numeric ce d o msur a relaiei dintre dou variabile cantitative continue sau discrete (!!! Nu se calculeaz pentru altfel de variabile) . 1. Copiai Vrsta i Greutatea n Sheet 2. 2. Introducei n Sheet 2 urmtorul tabel:

3. Selectai celula unde vom calcula coeficientul de corelaie. 4. Din meniul Insert alegei opiunea Function. 5. Alegei din lista Or select a category categoria Statistical.

6. Cutai funcia Correl n lista cu funcii. Selectai funcia Correl. Clic pe butonul OK.

7. In rubrica Array1 introducei referinele domeniului unde se gsete variabila Varsta: A2:A31. In rubrica Array2 introducei referinele domeniului unde se gsete variabila Greutate: B2:B31. Clic pe OK.

8. Rezultatul ntors de funcia Correl este -0,14, coeficient care poate fi interpretat ca ntre Varst i Greutate nu exist corelaie.

Pentru punctul b. Calculai indicele de mas corporal IMC Introducei formula adaptat la Excel IMC =
Greutate n coloana D. Calculai pentru Inaltime 2

primul pacient i apoi umplei coloana folosind Fill-Down (instruciuni pentru adaptarea formulei la Excel n Laborator 3). Pentru punctul c. Calculai coeficientul de corelaie Pearson dintre IMC i TAS 1. Copiai IMC n Sheet 3 n coloana A cu Paste Special (din meniul Edit) unde selectai Values:

2. Copiai TAS n Sheet 3 n coloana B. 3. Pentru a folosi pachetul Data Analysis el trebuie instalat. Pentru aceasta verificai dac nu a fost instalat deja: deschidei meniul Tools. Dac opiunea Data Analysis este prezent atunci se trece la pasul urmtor. Dac opiunea Data Analysis nu este prezent, atunci din meniul Tools se alege opiunea Add-Ins. Va aprea o fereastr asemntoare celei de mai jos n care se va bifa prima opiune Analysis ToolPak. Apsai butonul Ok.

4. Alegei opiunea Data Analysis din meniul Tools. 5. Din fereastra care apare clic pe Correlation. Apoi Ok.

6. La Input Range selectai domeniul unde se gsesc valorile variabilelor IMC i TAS: A2:B31. Grouped by: se va selecta Columns dac fiecare variabil este introdus ntr-o coloan sau Rows dac fiecare variabil este introdus ntr-o linie. n cazul nostru vom bifa Columns. Labels in first row. Antetul de coloan sau linie poate s fie selectat sau poate lipsi. Dac selectm i antetul de coloan, atunci n pagina de rezultate va aprea acel antet, adic numele variabilei. In acest caz trebuie s bifm Labels in first row. Dac nu bifm funcia va ntoarce eroarea: Input range contents non numeric data, deoarece se consider i antetul de coloan ca fiind una dintre valorile variabilei. In cazul n care nu selectm antetul de coloan, ar trebui s nu bifm nici Labels in first row. Dac bifm Labels in first row atunci prima valoare a variabilei va fi luat drept antet de coloan i rezultatele vor fi greite. In cazul nostru selectm Labels in first row. Opiunile Output se refer la locul amplasrii coeficientului de corelaie. Selectai opiunea Output Range, iar n rubrica de lng introducei D2. Coeficientul de corelaie va fi afiat ncepnd cu celula D2 pe aceeai pagin cu tabelul. Mai jos avei fereastra Correlation cu setrile descrise mai sus. Clic pe Ok.

7. Rezultatul va fi o matrice de corelaii de 2x2:

8. Corelaia dintre IMC i TAS este 0,25, valoare care corespunde unei corelaii acceptabile. Valorile 1 corespund corelaiilor dintre IMC cu IMC i TAS cu TAS, corelaii perfecte. Pentru punctul d. Calculai matricea de corelaii a variabilelor: Varsta, Greutate, IMC, TAS, TAD, Glicemie i Colesterol nainte i dup tratament 1. Inserai o nou pagin Sheet 4 din Insert Worksheet. 2. Copiai variabilele din list n Sheet 4. Atenie: IMC se copiaz cu Paste Special Values 3. Alegei opiunea Data Analysis din meniul Tools. 4. Din fereastra care apare clic pe Correlation. Apoi Ok.

5. La Input Range selectai domeniul unde se gsesc valorile variabilelor Varsta, Greutate, IMC, TAS, TAD,Glicemie i Colesterol: A1:H31. 6. Grouped by: se va selecta Columns. 7. Labels in first row. Selectm Labels in first row. 8. Opiunile Output se refer la locul amplasrii coeficientului de corelaie. Selectai opiunea Output Range, iar n rubrica de lng introducei J2. Matricea de corelaii va fi afiat ncepnd cu celula J2. Mai jos avei fereastra Correlation cu setrile descrise mai sus. Clic pe Ok.

9. Rezultatul va fi o matrice de corelaii de 7x7:

10. Alctuii urmtorul tabel n Sheet 4:


Coeficientul de VARSTA VARSTA VARSTA VARSTA VARSTA VARSTA VARSTA GREUTATE GREUTATE GREUTATE GREUTATE GREUTATE GREUTATE IMC IMC IMC IMC IMC TAS GREUTATE IMC TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa IMC TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa TAS TAD GLICEMIE COLESTEROL inainte COLESTEROL dupa TAD corelatie Pearson -0,14 0,05 0,72 0,46 0,41 0,40 0,32 0,85 0,07 0,49 0,36 -0,05 -0,06 0,25 0,51 0,47 0,13 0,09 0,72 Corelatie slaba inexistenta

TAS TAS TAS TAD TAD TAD GLICEMIE GLICEMIE COLESTEROL inainte

GLICEMIE COLESTEROL inainte COLESTEROL dupa GLICEMIE COLESTEROL inainte COLESTEROL dupa COLESTEROL inainte COLESTEROL dupa COLESTEROL dupa

0,39 0,17 0,16 0,35 0,08 0,02 0,31 0,30 0,90

11. Completai interpretarea Coeficientului de corelaie pe coloana corelaie conform regulilor lui Colton: Coeficientul de corelaie sau coeficientul Pearson Este un indicator independent de unitile de msur ale celor dou variabile coeficientul Pearson
r= COV ( X , Y ) Sx Sy

unde SX i SY reprezint abaterile standard pentru seriile X i respectiv Y. Dintre proprietile coeficientului de corelaie menionm: Coeficientul de corelaie este un numr cuprins ntre -1 i 1. Cu ct coeficientul de corelaie se apropie de 1 n valoare absolut cu att mai mult "intensitatea" relaiei liniare ntre cele dou variabile va fi mai mare. Cnd r este pozitiv relaia ntre variabilele X i Y este "pozitiv", adic o cretere a lui X determin n general o cretere a lui X. Cnd r < 0 relaia ntre cele dou variabile este "negativ" adic o cretere a lui X are n general ca i consecin o diminuare a lui Y. Colton (1974) sugereaz urmtoarele reguli empirice privind interpretarea coeficientului de corelaie: 1. un coeficient de corelaie de la -0,25 la 0,25 nseamn o corelaie slab sau nul, 2. un coeficient de corelaie de la 0,25 la 0,50 (sau de la -0,25 la -0,50) nseamn un grad de asociere acceptabil 3. un coeficient de corelaie de la 0,5 la 0,75 (sau de la -0,5 la -0,75) nseamn o corelaie moderat spre bun 4. un coeficient de corelaie mai mare dect 0,75 (sau mai mic dect -0,75) nseamn o foarte bun asociere sau corelaie

Instruciuni e, f, g, h i i Pentru punctul e, f, g, h i i. realizai un grafic XY Scatter (instruciuni n Laborator 4) cu variabilele cerute la fiecare subpunct. Toate graficele trebuie s aib dreapta de regresie, ecuaia dreptei de regresie i coeficientul de determinare. Executai fiecare grafic pe o pagin nou. Enunurile: e. Reprezentai grafic dependena (corelaia) dintre Vrst i IMC, adugai pe grafic dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie. f. Calculai coeficientul de determinare prin metoda grafic pentru Varsta i TAS. g. Reprezentai grafic corelaia dintre Colesterol nainte i dup tratament. h. Reprezentai grafic dependena (corelaia) dintre TAS i TAD, adugai pe grafic dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie. i. Calculai coeficienii dreptei de regresie prin metoda grafic dintre Varsta i Glicemie. Pentru punctul j Interpretai graficele, dreapta de regresie i coeficientul de determinare n cateva cuvinte realiznd o prezentare Power Point cu fiecare grafic pe un slide, urmat de interpretarea lui pe slide-ul urmtor. Coeficientul de determinare este ptratul coeficientului de corelaie r, adic d = r2. Valoarea coeficientului de determinare exprim o intensitate a relaiei liniare ntre cele dou variabile. Sau rspunde la ntrebarea: ct la sut din variaia lui Y se poate explica prin relaia liniar cu X. Dreapta Y(X) Dreapta de regresie a variabilei Y n funcie de variabila X: y=a+bx. Valorile lui a i b sunt date prin formulele:
b= COV ( X , Y ) SX a =Y b X

Ecuaia dreptei de regresie ne permite prezicerea (exprimarea) valorilor uneia dintre variabile n funcie de valorile celeilalte. Prezicerea este semnificativ dac coeficientul de corelaie este suficient de mare sau dac probabilitatea calculat n regresia liniar este p<0,05 semnificativ. Diagrama de dispersie (Norul de puncte) In acest sens, o idee ceva mai precis privind relaia ntre cele dou caracteristici se obine mprind diagrama de dispersie n patru cadrane prin dou drepte perpendiculare care trec

prin punctul ( X , Y ), avnd coordonatele egale cu mediile celor dou variabile.

II * * Y * * * * * * III X * * * * * * * * * * * *

I * * * *

IV

Dac exist o relaie liniar ntre cele dou variabile atunci punctele diagramei se vor repartiza preferenial n anumite cadrane (II i IV sau I i III). Exemplu de interpretare:
Corelatia dintre Varsta si TAS
180 160 140 120 Tas 100 80 60 40 20 0 0 10 20 30 40 Varsta 50 60 70 80 y = 0,9935x + 81,633 R2 = 0,5123

Diagrama de dispersie are o tendin cresctoare. Dependena dintre TAS i Vrst este pozitiv: o cretere a Vrstei implic o cretere a TAS. 51% din variaia TAS se datoreaz relaiei liniare cu vrsta. Variaia rezidual a TAS este de 49%. Dreapata de regresie are un trend ascendent. Punctele diagramei sunt repartizate n cadranele I i III.

Pentru punctul k Determinai dreapta de regresie liniar pentru variabila dependent TAS i variabila independent Vrsta cu Regression din Data Analysis.

Determinarea coeficieniilor dreptei de regresie, precum i a intervalului de ncredere pentru fiecare dintre acetia, poate fi realizat utiliznd opiunea Regression din modulul Data Analysis: 1. Revenii pe pagina Sheet6, acolo unde ati copiat Varsta si TAS 2. Alegei Regression din opiunile din fereastra Data Analysis

3. Selectai domeniul valorilor variabilei TAS, de exemplu B1:B20 ca variabil dependent (Input Y Range), selectai variabila Vrst, de exemplu A1:A20 ca variabil independent (Input X Range), bifai Labels, pentru obinerea intervalelor de ncredere bifai opiunea Confidence Level (cu nivelul de semnificaie de 95%),

Rezultatele:

Interpretare (cu albastru interpretrile, iar cu negru explicaiile): Multiple R = 0,71 este coeficientul de corelaie multiplu, dar n cazul nostru cu o singur variabil independent Multiple R este coeficientul de corelaie Pearson. R Square = 0,51 este coeficientul de determinare multiplu R2 reprezint proporia variaiei lui Y explicat de relaia liniar cu X. In cazul nostru R2 = r2 = 0,51, deci 51% din variaia TAS se poate explica prin relaia liniar cu Vrsta. Adjusted R Square coeficientul de determinare corectat Standard error = 13,54 este eroarea standard estimat i este interpretat ca media erorii n predicia lui Y cu ecuaia de regresie. In cazul nostru eroarea standard este n medie 13,54 i reprezint media erorii prediciei TAS cu ecuaia de regresie. Observations Numrul total de subieci intrai n studiu, n cazul nostru 30. Anova - analiza de regresie include i un test cu ipoteza nul: panta dreptei este egala cu 0 (adic nu exist corelaie ntre variabila dependent i cea independent luate n studiu). Dac panta este semnificativ diferit de 0 (acest lucru se ntampl dac la Significance F avem o valoare p<0,05) tragem concuzia c exist o relaie liniar ntre X i Y. In cazul nostru p=0,0000087 este mai mic decat 0,05, deci panta dreptei de regresie este semnificativ diferit de 0, deci exist corelaie semnificativ ntre TAS i Vrst.

Regression variaia lui Y care se explic n funcie de X Residual variaia lui Y care nu se explic n funcie de X (valoarea rezidual este de preferat s fie ct mai mic) Total este variaia total, adic suma variaiei regresiei cu variaia rezidual df gradele de libertate. SS suma de ptrate. MS media sumei de ptrate MS=SS/df F este parametrul testului F = MS(regression)/MS(residual). Significance F = 0,0000087 n acest caz se respinge ipoteza nul (p-value<0,05), adic corelaia dintre cele dou variabile este semnificativ. Coefficients pentru Intercept (constanta) valoarea este 81,6327, iar pentru coeficientul a valoarea este 0,993539. Deci dreapta de regresie Y=aX+b n cazul nostru este Y=0,993539X-81,6327 Intercept - constanta T stat este un test statistic cu ipoteza nul: constanta (intercept) nu este diferit semnificativ de zero. P-value este rezultatul testului. Dac p-value<0,05, atunci se refuz ipoteza nul i se accept ipoteza alternativ: constanta este semnificativ diferit de zero. Lower 95% i Upper 95% formeaz un interval de confiden de 95% n jurul constantei. Iar Lower 90% i Upper 90% formeaz un interval de confiden de 90% n jurul constantei. In cazul nostru p=0,34 deci constanta nu este semnificativ diferit de zero. Varsta (X) Panta dreptei de regresie (coeficientul a) este 162,79. T stat este un test statistic cu ipoteza nul: panta nu este diferit semnificativ de zero. P-value este rezultatul testului. Dac pvalue<0,05 atunci se refuz ipoteza nul i se accept ipoteza alternativ: panta este semnificativ diferit de zero. Lower 95% i Upper 95% formeaz un interval de confiden de 95% n jurul pantei. Iar Lower 90% i Upper 90% formeaz un interval de confiden de 90% n jurul pantei.

Problema 2
Pentru a se studia hipercolesterolemia au fost luate n studiu dou eantioane: 187 de bolnavi i 255 de indemni de boal. Pentru aceti subieci au fost nregistrai urmtorii parametrii biologici: Varst, Greutate, Inlime, Colesterol, Trigliceride, HDL colesterol, Glicemie. Datele se gsesc n fiierul Biost2.xls. Realizai: i) ii) iii) Sortai cresctor datele cu cheia de sortare LOT (meniul Data Sort, alegei LOT). Calculai IMC (indice de mas corporal) cu formula: IMC=Greutate/Inlime2 Calculai indicatorii de centralitate (media aritmetic, mediana), indicatorii de localizare (quartilele), indicatorii de dispersie (amplitudinea, variaia, abaterea standard, coeficientul de variaie, boltirea i asimetria) pentru Varst, BMI, Colesterol, TG, Glicemie i HDL separat la lotul 1 i la lotul 2. iv) v) Pentru lotul de bolnavi (LOT=1) calculai matricea de corelaie. Pentru lotul de indemni de boal (LOT=2) calculai coeficientul de corelaie Pearson r pentru TG i BMI, Glicemie i BMI, TG i HDL, BMI i Colesterol (utilizai funcia CORREL). Interpretai statistic rezultatele. vi) Reprezentai grafic corelaiile, realizai dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie pentru parametrii ntre care exist corelaie bun i foarte bun (r obinut la iii) i iv) peste >0,5 sau sub <-0,5). vii) Determinai dreapta de regresie liniar pentru variabila dependent TG i variabila independent BMI cu Regression din Data Analysis numai pentru pacienii din LOT=1.