Sunteți pe pagina 1din 11

Corelaii i Regresii

Obiective:
- Calcularea coeficientului de corelaie Pearson
- Calcularea covarianei
- Reprezentarea grafic a corelaiei dintre dou variabile cantitative
- Efectuarea regresiei liniare
Cunostiinte necesare:
- noiunea de dreapt de regresie, coeficient de corelaie, coeficient de determinare vezi !Curs de
"nformatic i #tatistic aplicate in $edicin, cap% &'(
Problema: Se realizeaz un studiu pe un lot format din 19 nou nscui, se urmresc parametrii biomedicali:
Tensiunea arterial diastolic (TAD) (mm!), Tensiunea arterial sistolic (TAS) (mm!), "#rsta (zile), Talia
(cm), $reutate (!rame), Scor Ap!ar, "#rsta !estaional (sptm#ni), Se%, &alformatii (da,nu)' Datele sunt
prezentate (n tabelul de mai )os:
TAS TAD Varsta Talia
Greutat
e
#cor
)pgar
Vrsta
gestaional Sex Malformatii
1*+ *+ ,- .. ..++ 1+ ,+ &
Da
1/+ /+ 0/ .1 ,1++ 9 -9 &
2u
1/. 1++ 1* .0 -/++ * -* 3
2u
11+ .+ ,9 .- ,9++ 1+ ,1 &
Da
11+ 0. 11 01 ,1++ 9 ,1 &
2u
1,+ /+ ., .+ 1*++ 0 -+ 3
2u
11+ *. /1 .. ,-++ 9 -0 &
2u
1-+ 9. *+ 0+ ,1++ * -. 3
Da
1,+ 1+. ,- .1 ,9++ 1+ -* 3
Da
1-. .+ .1 .0 ,,++ 9 -/ 3
2u
11+ .. 11 .1 .1++ * -9 3
2u
1++ 0+ -. .. ,*++ * -9 &
2u
1,+ 9+ -, ., ,1++ 9 -0 &
2u
1-+ /. .0 .0 .1++ 1+ -* 3
2u
10+ *+ /* .9 ,+++ * -/ &
Da
1/+ 9+ ,. .0 -*++ 9 -9 3
Da
10. *. -1 .1 ,.++ 1+ ,+ 3
Da
1.+ 0. ., ,9 ,1++ / -/ &
Da
1.. /+ /0 .. ,9++ * -* 3
2u
4ealizai:
Corelaii
i) 5alculai coeficientul de corelaie 6earson r pentru a stabili dac (ntre "#rsta $estaional 7i $reutatea nou
nscutului e%ist8 corelaie semnificati9 (utilizai at#t funcia CORRE*, c#t 7i opiunea Correlation din
modulul +ata )nal,sis)'
ii) 4eprezentai !rafic dependena (corelaia) dintre "#rsta $estaional 7i $reutatea nou nascutului 7i
dreapta de re!resie asociat, calculai coeficientul de determinare d 7i ecuaia dreptei de re!resie'
iii) :fectuai matricea de corelaie pentru 9ariabilele urmtoare: TAS, TAD, "4STA, TA;<: 7i $4:=TAT:'
i9) Determinai dreapta de re!resie liniar pentru 9ariabila dependent $reutatea la na7tere 7i 9ariabila
independent "#rsta !estaional cu Regression din +ata )nal,sis'
"nstruciuni:
Corelaii
i) 5alculai coeficientul de corelaie 6earson r pentru a stabili dac (ntre "#rsta $estaional 7i $reutatea
nou nscutului e%ist8 corelaie semnificati9 (utilizai at#t funcia CORRE*, c#t 7i opiunea Correlation
din modulul +ata )nal,sis)
a% Calculul coeficientului de corelaie utiliz-nd funcia CORRE*
1' Selectai $reutatea 7i cu 5op> ? 6aste copiai celulele selectate (n S@eet 1 (n coloana A' Selectai "#rsta
!estaional 7i cu 5op> ? 6aste copiai celulele selectate (n S@eet 1 (n coloana A' ;a unele dintre
subpunctele problemei a9em ne9oie de zon conti!u'
1' <ntroducei urmtorul tabel:
-' 6entru calcularea coeficientului de corelaie 6earson ale!ei opiunea 3unction din meniul <nsert'
,' Ale!ei din Or select a categor, cate!oria Statistical'
.' 5utai funcia Correl (n lista cu funcii' Selectai funcia 5orrel' 5lic pe butonul BC'
0' <n rubrica Arra>1 introducei referinele domeniului unde se !se7te 9ariabila "arsta !estaional de
e%emplu $1:$1+' <n rubrica Arra>1 introducei referinele domeniului unde se !se7te 9ariabila $reutate
de e%emplu :1::1+' 5lic pe BC'
"nterpretare 5oeficientul de corelaie a lui 6earson obinut este +,0,, 9aloare care arat c (ntre "arst
!estational 7i $reutate e%ist o bun asociere 7i asocierea este poziti9, adic 9alori crescute ale "#rstei
!estaionale indic 9alori crescute ale $reutii la na7tere'
b% Calculul coeficientului de corelaie utiliz-nd modulul +ata )nal,sis
1' Ale!ei comanda Data Anal>sis din meniul Tools' (Dac comanda Data Anal>sis nu este prezent, atunci
din meniul Tools se ale!e comanda Add-<ns' Se 9a bifa prima opiune Anal>sis Tool6aD' Apsai butonul
BD' Selectai comanda Data Anal>sis din meniul Tools')
1' Din fereastra care apare ale!ei Correlation' Apoi O.'
-' ;a "nput Range selectai domeniul unde se !sesc 9alorile 9ariabilelor "arsta !estationala 7i $reutate de
e%emplu A1:A1+'
,' /rouped b,: se 9a selecta Columns dac fiecare 9ariabil este introdus (ntr-o coloan sau Ro0s dac
fiecare 9ariabil este introdus (ntr-o linie' En cazul nostru 9om bifa Columns'
.' *abels in first ro0' Antetul de coloan sau linie poate s fie selectat sau poate lipsi' Dac selectm 7i
antetul de coloan, atunci (n pa!ina de rezultate 9a aprea acel antet, adic numele 9ariabilei' <n acest caz
trebuie s bifm *abels in first ro0' Dac nu bifm funcia 9a (ntoarce eroarea: F<nput ran!e contents
non numeric dataG, deoarece se consider 7i antetul de coloan ca fiind una dintre 9alorile 9ariabilei' <n
cazul (n care nu selectm antetul de coloan, ar trebui s nu bifm nici *abels in first ro0' Dac bifm
*abels in first ro0 atunci prima 9aloare a 9ariabilei 9a fi luat drept antet de coloan 7i rezultatele 9or fi
!re7ite' <n cazul nostru selectm *abels in first ro0'
0' Opiunile Output se refer la locul amplasrii coeficientului de corelaie' Selectai opiunea Butput
4an!e, iar (n rubrica de l#n! introducei :1' 5oeficientul de corelaie 9a fi afi7at (ncep#nd cu celula :1
pe aceea7i pa!in'
4ezultatul 9a fi o matrice de corelaii de 1%1:
ii) Reprezentai grafic dependena corelaia( dintre 1-rsta /estaional i /reutatea nou nscutului
dreapta de regresie asociat, calculai coeficientul de determinare d i ecuaia dreptei de regresie%
"nstruciuni
a% Reprezentai grafic dependena corelaia( dintre 1-rsta /estaional i /reutatea nou
nscutului
HHH $raficul adec9at pentru reprezentarea corelaiei dintre dou 9ariabile cantitati9e continue este !raficul nor de
puncte (Scatter)'
1' Selectai domeniul cu 9alorile celor dou 9ariabile'
HHH 6rima 9ariabil selectat este cea independent' A doua 9ariabil selectat este cea dependent'
1' Ale!ei opiunea 5@art din meniul <nsert'
-' Pas & C2art 3izard 4 #tep & of 5 4 C2art 6,pe' Selectai !raficul 78 #cater( din lista C2art 6,pe 7i
primul subtip de !rafic din lista C2art #ub9t,pe'
HHH 5#nd realizai acest tip de !rap@ic 9ei selecta primul subtip, cel care conine numai puncte (un punct
pentru fiecare perec@e ("arsta !estaional, $reutate)
,' 5licD pe butonul :e;t'
.' Pas < #tep < of 5 4 #ource +ata% Dac ai selectat datele (nainte de a reliza !raficul, atunci nu trebuie s
facei nimic (n aceast etap'
0' Pas = #tep = of 5 4 C2art Options' Selectai tab-ul 6itle' <ntroducei titlul 7i titlurile pe a%e ca (n
fereastra de mai )os:
/' 6entru a 7ter!e le!enda ale!ei tab-ul *egend 7i dezacti9ai #2o0 legend' 5licD :e;t'
*' Pas 5 #tep 5 of 5 9 C2art *ocation% 5licD pe butonul >inis2 pentru terminarea !raficului'
b% Reprezentai grafic dreapta de regresie asociat calculai coeficientul de determinare d i
ecuaia dreptei de regresie
1' 6entru ca !raficul s conin8 7i dreapta de re!resie clic dreapta pe una dintre bare' "a aprea urmtorul
meniu conte%tual' Ale!ei opiunea )dd 6rendline'
1' Se selecteaz tab-ul Bptions'
-' Se selecteaz8 +ispla, e?uation on c2art 7i +ispla, R9s?uared value on c2art'
,' Se apas clic pe butonul O@'
Dup toate aceste modificri !raficul 9a arta ca (n fi!ura de mai )os:
"nterpretare
Dia!rama de dispersie are o tendin cresctoare'Dependena dintre $reutate 7i 9#rsta !estaional este
poziti9: o cre7tere a "#rstei $estaionale implic o cre7tere a $reutii' "aloarea coeficientului de
determinare dIr
1
I+,,1 ne indic intensitatea relaiei dintre "arsta $estaional 7i $reutate' ,1J din 9ariaia
$reutii nou nscutului se datoreaz relaiei liniare' "ariaia rezidual a $reutii este .9J'
iii) Efectuai matricea de corelaie pentru variabilele urmtoare: 6)#, 6)+, 1AR#6), 6)*"E i
/REB6)6E
1' 4e9enii (n S@eet1
1' Ale!ei comanda Data Anal>sis din meniul Tools' (Dac comanda Data Anal>sis nu este prezent, atunci
din meniul Tools se ale!e comanda Add-<ns' Se 9a bifa prima opiune Anal>sis Tool6aD' Apsai butonul
BD' Selectai comanda Data Anal>sis din meniul Tools')
-' Ale!ei Correlation' Apoi O.'
,' ;a "nput Range selectai domeniul unde se !sesc 9alorile 9ariabilelor TAS, TAD, "arsta, Talie 7i
$reutate de e%emplu A1::1+'
.' Selectai *abels in first ro0'
0' Selectai opiunea 2eK LorDs@eet 6l>, iar (n rubrica de l#n! introducei 5orelatie' &atricea de corelaie
9a fi afi7at (n pa!ina cu titlul 5orelatie'
/' 4ezultatul 9a fi o matrice de corelaii de .%.:
"nterpretare <ntre TAS 7i TAD a9em un coeficient de corelaie +,,1 care indic o asociere poziti9 7i
acceptabil' <n rest deoarece ceilali coeficieni de corelaie sunt (n inter9alul M-+,1.,+,1.N ei indic o corelaie
slab sau ine%istent (ntre celelalte 9ariabile'
iv( +eterminai dreapta de regresie liniar pentru variabila dependent /reutatea la natere i
variabila independent 1-rsta gestaional cu Regression din +ata )nal,sis%
Determinarea coeficieniilor dreptei de re!resie, precum 7i a inter9alului de (ncredere pentru fiecare dintre
ace7tia, poate fi realizat utiliz#nd opiunea 4e!ression din modulul Data Anal>sis:
1' 4e9enii pe pa!ina S@eet1
1' Ale!ei 4e!ression din opiunile din fereastra Data Anal>sis
-' Selectai domeniul 9alorilor 9ariabilei $reutate de e%emplu A1:A1+ ca 9ariabil dependent (<nput O
4an!e), selectai 9ariabila "#rst $estaional de e%emplu A1:A1+ca 9ariabil independent (<nput P
4an!e), bifai ;abels, pentru obinerea inter9alelor de (ncredere bifai opiunea 5onfidence ;e9el (cu
ni9elul de semnificaie de 9.J),
4ezultatele:
"nterpretare
$ultiple R I +,0, este coeficientul de corelaie multiplu, dar (n cazul nostru cu o sin!ur 9ariabil
independent &ultiple 4 este coeficientul de corelaie 6earson'
R #?uare I +,,1 este coeficientul de determinare multiplu 4
1
reprezint proporia 9ariaiei lui O e%plicat de
relaia liniar cu P' <n cazul nostru 4
1
I r
1
I +,,1, deci ,1J din 9ariaia $reutii se poate e%plica prin
relaia liniar cu "#rsta !estational'
)dCusted R #?uare
#tandard error I .+1,-9 este eroarea standard estimat 7i este interpretat ca media erorii (n predicia lui O
cu ecuaia de re!resie' <n cazul nostru eroarea standard este (n medie .+1,-9 7i reprezint media erorii
prediciei $reutii la na7tere cu ecuaia de re!resie'
Observations 2umrul total de subieci intrai (n studiu, (n cazul nostru 19'
)nova - analiza de re!resie include 7i un test cu ipoteza nul: panta dreptei este e!ala cu + (adic nu e%ist
corelaie (ntre 9ariabila dependent 7i cea independent luate (n studiu)' Dac panta este semnificati9 diferit de +
(acest lucru se (ntampl dac la Si!nificance 3 a9em o 9aloare pQ+,+.) tra!em concuzia c e%ist o relaie liniar
(ntre P 7i O' <n cazul nostru pI+,++- este mai mic decat +,+., deci panta dreptei de re!resie este semnificati9
diferit de +, deci e%ist corelaie semnificati9 (ntre $reutate 7i "#rsta $estaional'
Regression ? 9ariaia lui O care se e%plic (n funcie de P
Residual ? 9ariaia lui O care nu se e%plic (n funcie de P (9aloarea rezidual este de preferat s fie c#t mai
mic)
6otal ? este 9ariaia total, adic suma 9ariaiei re!resiei cu 9ariaia rezidual
df ? !radele de libertate'
## ? suma de ptrate este 199*//0,+1 pentru re!resie, iar pentru reziduale este ,19+09/,0/'
$# ? media sumei de ptrate &SISSRdf
> este parametrul testului 3I&S(re!ression)R&S(residual)'
#ignificance > I +,++- (n acest caz se respin!e ipoteza nul8 (p-9alueQ+,+.), adic corelaia dintre cele dou
9ariabile este semnificati9'
Coefficients ? pentru <ntercept (constanta) 9aloarea este -1/,0,.1, iar pentru coeficientul a 9aloarea este 101,/9'
Deci dreapta de re!resie OIaPSb (n cazul nostru este OI101,/9P-1/,0,.1
"ntercept
6 stat este un test statistic cu ipoteza nul: constanta (intercept) nu este diferit semnificati9 de zero' P9value este
rezultatul testului' Dac p-9alueQ+,+., atunci se refuz ipoteza nul 7i se accept ipoteza alternati9: constanta
este semnificati9 diferit de zero' *o0er DEF 7i Bpper DEF formeaz un inter9al de confiden de 9.J (n
)urul constantei' <ar *o0er DGF 7i Bpper DGF formeaz un inter9al de confiden de 9+J (n )urul
constantei' <n cazul nostru pI+,-, deci constanta nu este semnificati9 diferit de zero'
1-rsta gestaional (P) 6anta dreptei de re!resie (coeficientul a) este 101,/9' 6 stat este un test statistic cu
ipoteza nul: panta nu este diferit semnificati9 de zero' P9value este rezultatul testului' Dac p-9alueQ+,+.
atunci se refuz ipoteza nul 7i se accept ipoteza alternati9: panta este semnificati9 diferit de zero' *o0er
DEF 7i Bpper DEF formeaz un inter9al de confiden de 9.J (n )urul pantei' <ar *o0er DGF 7i Bpper
DGF formeaz un inter9al de confiden de 9+J (n )urul pantei'
Recapitulare Hiostatistic < i =
*a alegerea metodei de reprezentare grafic se poate ine cont de urmtoarele indicaii:
- graficele Pie au avantaCul comparrii parilor unui IntregJ se utilizeaz atunci c-nd se dorete
reprezentarea procentelor fiecrei categorii% #e vor folosi numai pentru reprezentarea valorilor
unei variabile nominale%
- graficele cu bare compar cantitti separate, dar In numr limitatJ se vor folosi numai pentru
reprezentarea valorilor unei variabile nominale%
- diagramele scatter ilustreaz tendinele si asocierile Intre dou variabile cantitativeJ
- Kistograma ofer o imagine global a frecvenelor observate, aceasta put-nd fi comparat cu o
distribuie !teoreticL, cea normal de e;emplu% #e va folosi numai pentru reprezentarea
valorilor unei variabile cantitative%
Coeficientul de corelaie este un indicator numeric ce d o msur a relaiei dintre dou variabile
cantitative continue sau discrete%
Problema <
6entru a se studia @ipercolesterolemia au fost luate (n studiu dou e7antioane: 1*/ de pacieni 7i 1.. de indemni
de boal' 6entru ace7ti subieci au fost (nre!istrai urmtorii parametrii biolo!ici: "arst, $reutate, <nlime,
5olesterol, Tri!liceride, D; colesterol, $licemie' Datele se !sesc (n fi7ierul Aiost1'%ls'
4ealizai:
i) Sortai cresctor datele cu c@eia de sortare ;BT (meniul Data ? Sort)'
ii) 5alculai <&5 (indice de mas corporal) cu formula: <&5I$reutateR<nlime
1

iii) 5alculai indicatorii de centralitate (media aritmetic, mediana), indicatorii de localizare (Tuartilele),
indicatorii de dispersie (amplitudinea, 9ariaia, abaterea standard, coeficientul de 9ariaie, boltirea 7i
asimetria) pentru "arst, A&<, 5olesterol, T$, $licemie 7i D; separat la lotul 1 7i la lotul 1'
i9) 6entru lotul de bolna9i (;BTI1) calculai matricea de corelaie'
9) 6entru lotul de indemni de boal (;BTI1) calculai coeficientul de corelaie 6earson r pentru T$ 7i A&<,
$licemie 7i A&<, T$ 7i D;, A&< 7i 5olesterol (utilizai funcia CORRE*)' <nterpretai statistic
rezultatele'
9i) 4eprezentai !rafic corelaiile, realizai dreapta de re!resie asociat, calculai coeficientul de determinare
d 7i ecuaia dreptei de re!resie pentru parametrii (ntre care e%ist corelaie bun 7i foarte bun (r obinut la
iii) 7i i9) peste U+,. sau sub Q-+,.)'
9ii) Determinai dreapta de re!resie liniar pentru 9ariabila dependent T$ 7i 9ariabila independent A&< cu
Regression din +ata )nal,sis numai pentru pacienii din ;BTI1'

S-ar putea să vă placă și