Documente Academic
Documente Profesional
Documente Cultură
119
Indicaii generale:
n cadrul modelelor de regresie multipl ne intereseaz influena variabilelor
predictor (n numr de dou sau mai multe) asupra variabilei rspuns.
Variabila rspuns ar putea fi, de exemplu, durata de spitalizare a pacientului, pentru
care am dori o estimare n momentul internrii. Variabila rspuns ar putea reprezenta, de
asemenea, o mrime dificil de msurat, n condiiile n care variabilele predictor sunt
msurabile mult mai facil.
Pot prezenta interes urmtoarele:
1. Care este importana relativ a efectului fiecrei variabile predictor?
2. Ar putea fi oare eliminat din model o anumit variabil predictor, dat fiind
c efectul ei asupra variabilei rspuns pare neglijabil?
3. Ar trebui incluse n model alte variabile predictor?
4. Modelul obinut este bun pentru a face predicii?
n aceast lucrare practic vei exemplifica diverse situaii n care s-ar putea obine
modele de regresie:
a) simpl, liniar sau neliniar,
b) multipl, liniar sau cu interaciune,
ncercnd validarea lor pentru a fi folosite n prognoze.
Teme
44: folosirea testului Student
45: linii de tendin n Excel
46: regresia liniar cu Epi Info
special: regresia multipl
Softul ce va fi utilizat n lucrarea practic:
Excel, Epi I nfo
MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic
120
Tema 44: folosirea testului Student.
Creai documentul Word denumit nume_TESTULT, cu urmtorul coninut:
Testul t (Student) este folosit de obicei n dou situaii:
(a) cele dou grupuri de observaii (ce trebuie comparate) sunt obinute de la aceiai
indivizi, testai de dou ori (de exemplu nainte i dup un tratament). Este evident c
datele obinute sunt n perechi, prin urmare Type = 1. Se testeaz:
a1) n cazul unui test unilateral, afirmaia n urma tratamentului, situaia
pacientului se mbuntete. Este evident c va trebui s controlm, anterior efecturii
testului, dac ntre mediile observaiilor exist relaia corespunztoare afirmaiei (n caz
contrar testul nu-i are rostul, el se aplic de fapt pentru afirmaia n urma tratamentului,
situaia pacientului se nrutete); n acest caz Tails = 1;
a2) n cazul unui test bilateral, afirmaia n urma tratamentului, situaia pacientului
se modific; n acest caz Tails = 2;
(b) cele dou grupuri de observaii sunt obinute de la indivizi din grupuri net diferite
(de exemplu, un grup este format din pacienii tratai cu un medicament, cellalt grup, cel
de control, este format din pacienii tratai cu placebo). De data aceasta Type este 2 sau
3, n funcie de situaia varianelor celor dou grupuri. De regul nu avem informai despre
variane, ceea ce ne oblig s acceptm c ele ar fi diferite ntre ele (cazul
heteroscedastic), ceea ce nseamn c Type = 3. Uni- sau bilateralitatea se trateaz exact
ca n situaia (a). Se testeaz de fapt afirmaia pacienii tratai medicamentos se comport
mai bine (respectiv diferit) fa de cei tratai cu placebo.
Testul t este un test parametric, comparaia fcndu-se la nivelul mediilor. Testul
neparametric corespunztor, aplicabil n cazul datelor ordinale, este testul Wilcoxon.
Tema 45: linii de tendin n Excel.
Tabelul urmtor prezint vrsta i nivelul steroizilor n plasm pentru cteva persoane
de sex feminin.
vrsta 8 9 10 10 11 12 13 14 15 16 18 18 20 20 23 23 25
nivelul 4 6 8 11 11 15 20 22 22 25 23 25 24 22 18 20 15
Ce sugereaz aceste date?
Chiar dac rspunsul pare evident (deoarece datele au fost ordonate cresctor dup
vrst): nivelul steroizilor crete odat cu vrsta, pn la circa 20 ani, apoi scade, este
recomandat ntocmirea unei diagrame de tipul X-Y i aplicarea metodei regresiei (dar nu
liniare!)
Plasnd datele ntro foaie de calcul a fiierului Excel denumit nume_STEROIZI
(recomandm plasarea datelor pe dou coloane i redenumirea foii ca Datele!), putem
crea imediat diagrama (ca foaie separat, denumit Diagrama):
Nivelul steroizilor y = -0.212x
2
+ 7.7085x - 45.845
R
2
= 0.961
0
5
10
15
20
25
30
0 5 10 15 20 25 30
Vrsta (ani)
UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013
121
Inserai pe diagram dreapta de tendin liniar (se mai numete i dreapta de regresie).
Este vizibil c dreapta de tendin liniar nu ajusteaz bine datele. n schimb, o curb
parabolic (tendin polinomial de gradul 2) are un coeficient de determinaie foarte bun
(0.961) i poate fi folosit pentru a efectua prognoze. Curba ne sugereaz inversarea la
vrsta de 18 ani a tendinei de cretere a nivelului steroizilor.
Ce nivel al steroizilor ne ateptm s gsim la persoanele n vrst de 21 i 24 ani? Este
util curba pentru a prognoza nivelul steroizilor la persoanele n vrst de 40 ani?
Prerea nutriionitilor este c masa muscular, la persoanele de sex feminin i vrst
naintat, descrete odat cu vrsta. Datele de care dispunem, msurate de un nutriionist
pentru 16 persoane de sex feminin, sunt urmtoarele.
vrsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa muscular medie pentru o femeie de 60 de ani? Putem accepta
prerea nutriionitilor?
Adugai masa muscular evaluat de d-voastr pentru alte dou persoane, i ncercai
s interpretai datele obinute prin regresie liniar simpl i prin regresie neliniar. Plasai
datele din cele dou tabele anterioare, explicaiile despre ele i diagramele obinute ntrun
document denumit nume_REGRESII.doc.
Tema 46: regresia liniar cu Epi Info.
Dorim s gsim o formul care s ne ajute s prezicem durata de spitalizare (D) odat
ce cunoatem vrsta (V) i sexul (S) al pacientului. Valorile lui S le definim astfel: 1 =
masculin, 0 = feminin.
Cea mai simpl formul o obinem folosind un model de regresie liniar multipl
D =
0
+
1
V +
2
S
n care coeficienii
0
,
1
,
2
vor fi obinui prin estimare, odat ce cunoatem datele (d
i
, v
i
,
s
i
) dintr-un eantion.
Folosind sub-eantionul format doar din pacienii de sex feminin, modelul de regresie se
reduce (teoretic) la
D =
0
+
1
V.
Iar dac folosim sub-eantionul format doar din pacienii de sex masculin, modelul de
regresie devine
D = (
0
+
2
) +
1
V.
Observm c n toate cele trei modele avem acelai coeficient pentru vrsta V, iar
termenii liberi difer ntre ei exact prin coeficientul lui S.
ns este esenial s ne dm seama c din sub-eantioane nu vom obine dect estimaii
ale parametrilor. De exemplu, pentru parametrul
1
vom obine estimaiile
1
i
1
. Nu
avem motive s credem c aceste estimaii ar fi egale. Dar oare sunt apropiate ca valori?
S exploatm datele din fiierul LP10_1.xls, n care coloanele corespund variabilelor
noastre n mod evident.
DURATA = D, VARSTA = V, SEXUL = S.
Adugai datele a doi pacieni suplimentari (de sexe diferite), apoi preluai-le n tabel n
fiierul document nume_PREDICTIE.doc, dedesubtul unei explicaii de clarificare
Tabelul urmtor conine vrsta (n ani), sexul i durata de spitalizare a 56 de pacieni
internai n Spitalul Judeean ncepnd cu data de 1 mai 2008
i deasupra textului urmtor:
Pe baza acestor date dorim s determinm o formul de calcul care s ne permit
prognozarea duratei de spitalizare pentru un pacient nou, odat ce-i nregistrm vrsta i
sexul. Folosim n acest scop comanda REGRESS din EpiI nfo.
MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic
122
Preluai aadar datele n EpiI nfo, apoi folosii comanda Advanced Statistics Linear
Regression, ncercnd s determinai execuia comenzii (n clar)
REGRESS DURATA = VARSTA SEXUL
EpiI nfo v va oferi rapid, ca rezultate, valorile
0