Sunteți pe pagina 1din 9

UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013

119

Indicaii generale:
n cadrul modelelor de regresie multipl ne intereseaz influena variabilelor
predictor (n numr de dou sau mai multe) asupra variabilei rspuns.
Variabila rspuns ar putea fi, de exemplu, durata de spitalizare a pacientului, pentru
care am dori o estimare n momentul internrii. Variabila rspuns ar putea reprezenta, de
asemenea, o mrime dificil de msurat, n condiiile n care variabilele predictor sunt
msurabile mult mai facil.
Pot prezenta interes urmtoarele:
1. Care este importana relativ a efectului fiecrei variabile predictor?
2. Ar putea fi oare eliminat din model o anumit variabil predictor, dat fiind
c efectul ei asupra variabilei rspuns pare neglijabil?
3. Ar trebui incluse n model alte variabile predictor?
4. Modelul obinut este bun pentru a face predicii?

n aceast lucrare practic vei exemplifica diverse situaii n care s-ar putea obine
modele de regresie:
a) simpl, liniar sau neliniar,
b) multipl, liniar sau cu interaciune,
ncercnd validarea lor pentru a fi folosite n prognoze.

Teme
44: folosirea testului Student
45: linii de tendin n Excel
46: regresia liniar cu Epi Info
special: regresia multipl

Softul ce va fi utilizat n lucrarea practic:
Excel, Epi I nfo

MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic

120
Tema 44: folosirea testului Student.
Creai documentul Word denumit nume_TESTULT, cu urmtorul coninut:
Testul t (Student) este folosit de obicei n dou situaii:
(a) cele dou grupuri de observaii (ce trebuie comparate) sunt obinute de la aceiai
indivizi, testai de dou ori (de exemplu nainte i dup un tratament). Este evident c
datele obinute sunt n perechi, prin urmare Type = 1. Se testeaz:
a1) n cazul unui test unilateral, afirmaia n urma tratamentului, situaia
pacientului se mbuntete. Este evident c va trebui s controlm, anterior efecturii
testului, dac ntre mediile observaiilor exist relaia corespunztoare afirmaiei (n caz
contrar testul nu-i are rostul, el se aplic de fapt pentru afirmaia n urma tratamentului,
situaia pacientului se nrutete); n acest caz Tails = 1;
a2) n cazul unui test bilateral, afirmaia n urma tratamentului, situaia pacientului
se modific; n acest caz Tails = 2;
(b) cele dou grupuri de observaii sunt obinute de la indivizi din grupuri net diferite
(de exemplu, un grup este format din pacienii tratai cu un medicament, cellalt grup, cel
de control, este format din pacienii tratai cu placebo). De data aceasta Type este 2 sau
3, n funcie de situaia varianelor celor dou grupuri. De regul nu avem informai despre
variane, ceea ce ne oblig s acceptm c ele ar fi diferite ntre ele (cazul
heteroscedastic), ceea ce nseamn c Type = 3. Uni- sau bilateralitatea se trateaz exact
ca n situaia (a). Se testeaz de fapt afirmaia pacienii tratai medicamentos se comport
mai bine (respectiv diferit) fa de cei tratai cu placebo.
Testul t este un test parametric, comparaia fcndu-se la nivelul mediilor. Testul
neparametric corespunztor, aplicabil n cazul datelor ordinale, este testul Wilcoxon.

Tema 45: linii de tendin n Excel.
Tabelul urmtor prezint vrsta i nivelul steroizilor n plasm pentru cteva persoane
de sex feminin.
vrsta 8 9 10 10 11 12 13 14 15 16 18 18 20 20 23 23 25
nivelul 4 6 8 11 11 15 20 22 22 25 23 25 24 22 18 20 15
Ce sugereaz aceste date?
Chiar dac rspunsul pare evident (deoarece datele au fost ordonate cresctor dup
vrst): nivelul steroizilor crete odat cu vrsta, pn la circa 20 ani, apoi scade, este
recomandat ntocmirea unei diagrame de tipul X-Y i aplicarea metodei regresiei (dar nu
liniare!)
Plasnd datele ntro foaie de calcul a fiierului Excel denumit nume_STEROIZI
(recomandm plasarea datelor pe dou coloane i redenumirea foii ca Datele!), putem
crea imediat diagrama (ca foaie separat, denumit Diagrama):
Nivelul steroizilor y = -0.212x
2
+ 7.7085x - 45.845
R
2
= 0.961
0
5
10
15
20
25
30
0 5 10 15 20 25 30
Vrsta (ani)

UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013


121
Inserai pe diagram dreapta de tendin liniar (se mai numete i dreapta de regresie).
Este vizibil c dreapta de tendin liniar nu ajusteaz bine datele. n schimb, o curb
parabolic (tendin polinomial de gradul 2) are un coeficient de determinaie foarte bun
(0.961) i poate fi folosit pentru a efectua prognoze. Curba ne sugereaz inversarea la
vrsta de 18 ani a tendinei de cretere a nivelului steroizilor.
Ce nivel al steroizilor ne ateptm s gsim la persoanele n vrst de 21 i 24 ani? Este
util curba pentru a prognoza nivelul steroizilor la persoanele n vrst de 40 ani?
Prerea nutriionitilor este c masa muscular, la persoanele de sex feminin i vrst
naintat, descrete odat cu vrsta. Datele de care dispunem, msurate de un nutriionist
pentru 16 persoane de sex feminin, sunt urmtoarele.
vrsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa muscular medie pentru o femeie de 60 de ani? Putem accepta
prerea nutriionitilor?
Adugai masa muscular evaluat de d-voastr pentru alte dou persoane, i ncercai
s interpretai datele obinute prin regresie liniar simpl i prin regresie neliniar. Plasai
datele din cele dou tabele anterioare, explicaiile despre ele i diagramele obinute ntrun
document denumit nume_REGRESII.doc.
Tema 46: regresia liniar cu Epi Info.
Dorim s gsim o formul care s ne ajute s prezicem durata de spitalizare (D) odat
ce cunoatem vrsta (V) i sexul (S) al pacientului. Valorile lui S le definim astfel: 1 =
masculin, 0 = feminin.
Cea mai simpl formul o obinem folosind un model de regresie liniar multipl
D =
0
+
1
V +
2
S
n care coeficienii
0
,
1
,
2
vor fi obinui prin estimare, odat ce cunoatem datele (d
i
, v
i
,
s
i
) dintr-un eantion.
Folosind sub-eantionul format doar din pacienii de sex feminin, modelul de regresie se
reduce (teoretic) la
D =
0
+
1
V.
Iar dac folosim sub-eantionul format doar din pacienii de sex masculin, modelul de
regresie devine
D = (
0
+
2
) +
1
V.
Observm c n toate cele trei modele avem acelai coeficient pentru vrsta V, iar
termenii liberi difer ntre ei exact prin coeficientul lui S.
ns este esenial s ne dm seama c din sub-eantioane nu vom obine dect estimaii
ale parametrilor. De exemplu, pentru parametrul
1
vom obine estimaiile
1
i
1
. Nu
avem motive s credem c aceste estimaii ar fi egale. Dar oare sunt apropiate ca valori?
S exploatm datele din fiierul LP10_1.xls, n care coloanele corespund variabilelor
noastre n mod evident.
DURATA = D, VARSTA = V, SEXUL = S.
Adugai datele a doi pacieni suplimentari (de sexe diferite), apoi preluai-le n tabel n
fiierul document nume_PREDICTIE.doc, dedesubtul unei explicaii de clarificare
Tabelul urmtor conine vrsta (n ani), sexul i durata de spitalizare a 56 de pacieni
internai n Spitalul Judeean ncepnd cu data de 1 mai 2008
i deasupra textului urmtor:
Pe baza acestor date dorim s determinm o formul de calcul care s ne permit
prognozarea duratei de spitalizare pentru un pacient nou, odat ce-i nregistrm vrsta i
sexul. Folosim n acest scop comanda REGRESS din EpiI nfo.
MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic

122
Preluai aadar datele n EpiI nfo, apoi folosii comanda Advanced Statistics Linear
Regression, ncercnd s determinai execuia comenzii (n clar)
REGRESS DURATA = VARSTA SEXUL
EpiI nfo v va oferi rapid, ca rezultate, valorile
0

(CONSTANT) = (aproximativ) 22.477


1

(VARSTA) = (aproximativ) 0.699,


2

(SEXUL) = (aproximativ) 0.014.


Cu toate c se raporteaz un coeficient de determinaie multipl destul de mare
(aproximativ 0.73), valoarea p ataat variabilei SEXUL de aproximativ 0.97 ne
determin (la prima vedere) s validm mai degrab ipoteza nul H
0
: 0
2
. Facem ns o
eroare de principiu (care?).
S verificm c EpiI nfo calculeaz bine, exploatnd n acest scop cele dou regresii
simple corespunztoare sub-eantioanelor stratificate dup sex.
Vom utiliza mai nti comanda Select/IfSelect, impunnd condiia SEXUL = 0.
Pentru datele rmase vom comanda
REGRESS DURATA = VARSTA.
Ca rezultate ar trebui s obinem estimaiile pentru parametrii
0
(CONSTANT) i
1

(VARSTA). Aproximativ, aceste estimaii sunt 5 . 17
0
i 6 . 0
1
.
Reluai schimbnd sub-eantionul. Va trebui s comandai Select/IfCancel Select,
apoi s selectai impunnd condiia SEXUL = 1. n final comanda
REGRESS DURATA = VARSTA
va avea ca efect obinerea unei noi estimaii pentru parametrul
1
(VARSTA). Aceast
estimaie este, aproximativ, 76 . 0
1
.
Coeficienii de determinaie multipl sunt, n ambele situaii, destul de mari, iar valorile
p asociate sunt foarte mici, ceea ce ne determin acceptarea ipotezelor c avem coeficieni
diferii de zero. Erorile standard raportate ne ajut s formm intervale de ncredere 95%
pentru coeficieni.
Completai documentul cu urmtoarele (nlocuind numerele dintre paranteze):
Pentru pacienii brbai, formula de calcul a duratei de spitalizare este
Durata de spitalizare (n zile) = (25.6) + (0.76) *Vrsta (n ani)
Statistica ne indic, datorit mrimii eantionului pe care l-am folosit i datorit
unor ipoteze de normalitate urmtoarele intervale de ncredere 95%
[(33.4), (17.8)] pentru constanta din formul,
[(0.6), (0.9)] pentru coeficientul
1
al lui VARSTA.
Al doilea interval de ncredere conine in extremis estimaia
1
obinut anterior.
ncrederea n rezultatele calculate cu aceast formul ar trebui s fie mediocr,
ntruct coeficientul de determinaie este mare, dar nu suficient pentru a accepta pentru
prognoze o formul liniar.
De fapt, situaia anterioar (n care avem de-a face cu variabile predictor de tip binar)
este tipic pentru inserarea n model a unor termeni reprezentnd interaciuni. Mai precis,
ar trebui s folosim un model de regresie (liniar?) multipl
D =
0
+
1
V +
2
S +
3
V*S
n care termenul produs V*S poart numele de termen de interaciune.
n EpiI nfo includerea unui asemenea termen este facil. Calea cea mai simpl const n
exploatarea ferestrei REGRESS. Dup selectarea variabilelor VARSTA i SEXUL din lista
derulant Other Variables i trecerea lor n lista de dedesubt, o nou selectare a lor va
UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013


123
determina activarea butonului Make Interaction. Apsarea acestui buton va determina
apariia termenului dorit VARSTA*SEXUL n lista Interaction Terms.
Comentai n documentul nume_PREDICTIE.doc informaiile raportate de ctre
EpiI nfo pentru o asemenea situaie. Identificai de asemenea intervale de ncredere 95%
pentru cei patru parametri ai regresiei liniare multiple. (Atenie, plasai n document
valorile numerice pe care le-ai obinut, NU cele care sunt n chenar!)
Informai-v asupra tratrii unei variabile ca variabil dummy.
Putei imagina situaii n care din date medicale se pot crea formule valabile pentru
prognoze?
n fiierul LP10_2.xls se afl o parte dintre datele obinute n urma unui studiu ce avea
ca scop determinarea relaiei ntre obezitatea femeilor i unele date antropometrice care pot
fi msurate direct, fr dificulti: grosimea pielii tricepsului (X
1
), circumferina coapsei
(X
2
), circumferina braului (X
3
).
Cantitatea de grsime n corp (Y) nu poate fi msurat direct; ea poate fi evaluat
prin procedura imersiunii persoanelor n ap, procedur care nu poate fi aplicat n mod
curent.
Este oare posibil s gsim o formul care s ne permit s evalum cantitatea de
grsime n corp bazndu-ne doar pe cele trei date obinute prin msurare direct? Dac
da, este oare necesar s efectum toate cele trei msurtori?
Adugai dou nregistrri noi (a 21-a i a 22-a), apoi ncercai s dai rspunsuri la
ntrebri i inserai textul ncadrat i rspunsurile n documentul nume_PREDICTIE. Ar
trebui s efectuai urmtoarele operaiuni cu Excel:
- trei diagrame de tipul X-Y, anume
a) ale perechii SKIN_THICK, THIGH_CIRC,
b) ale perechii SKIN_THICK, MIDARM_CIRC,
c) ale perechii THIGH_CIRC, MIDARM_CIRC.
- inserarea pe diagrame a celor trei drepte de tendin, precum i a coeficienilor de
determinaie respectivi;
- calculul coeficienilor de corelaie Pearson. De exemplu, coeficientul de corelaie
ntre setul de date THIGH_CIRC i setul de date MIDARM_CIRC se obine prin
formula =CORREL(B2:B22,C2:C22).
Aceast ultim valoare este apropiat de 0, ceea ce indic faptul c rezultatele msur-
torilor circumferinei coapsei sunt independente de cele ale msurtorilor circumferinei
braului. n schimb, coeficientul de determinaie ntre grosimea pielii tricepsului
(SKIN_THICK = X
1
) i circumferina coapsei (THIGH_CIRC = X
2
) este destul de mare,
ceea ce indic o posibil legtur liniar ntre aceste date. Completai documentul cu
urmtoarele (introducnd coeficienii numerici pe care i-ai obinut):
Dac ar fi s renunm la una dintre cele trei msurtori, atunci am putea renuna mai
degrab la msurarea grosimii pielii tricepsului, aceast grosime fiind corelat pozitiv cu
circumferina coapsei. O bun aproximare pentru grosimea pielii tricepsului este
obinut prin formula
SKIN_THICK = (0.89)* THIGH_CIRC + (20.06)
Dac avem la dispoziie toate cele trei date, atunci formula pe care o obinem prin
regresie liniar multipl este urmtoarea:
Y (BODY_FAT) = ( ) + ( )*SKIN_THICK + ( )*THIGH_CIRC + ( )*MIDARM_CIRC
Ea este obinut ca urmare a comenzii Analiza DatelorRegresie/Data Analysis
Regression din meniul Instrumente/Tools din Excel.
MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic

124
Este posibil ca modulul de analiz a datelor s nu fie disponibil n Excel. Exact aceleai
rezultate numerice vor fi obinute ncercai cu EpiI nfo, n urma executrii unei
comenzi
REGRESS BODY_FAT = SKIN_THICK THIGH_CIRC MIDARM_CIRC
Dintre celelalte rezultate ale comenzii, sunt importante urmtoarele:
- coeficientul de determinaie multipl, de aproximativ 0.80. Valoarea sa destul de
ridicat valideaz formula (o face utilizabil);
- valorile p ataate coeficienilor. De fapt, o asemenea valoare p este ataat ipotezei
c coeficientul respectiv este nenul, ceea ce exprim faptul c variabila predictor
respectiv trebuie s apar n formul. Lsnd la o parte constanta, observm o
valoare p destul de mare ataat coeficientului lui THIGH_CIRC.
Merit analizat situaia n care renunm la a insera variabila THIGH_CIRC n
modelul nostru liniar. n urma executrii unei comenzi
REGRESS BODY_FAT = SKIN_THICK MIDARM_CIRC
vom obine un coeficient de determinaie multipl doar puin mai mic, de aproximativ
0.79, iar valorile p vor confirma necesitatea apariiei ambelor variabile n modelul liniar,
formula
BODY_FAT = (6.79) + (1.01)*SKIN_THICK + (0.43)*MIDARM_CIRC
putnd fi folosit pentru evaluarea cantitii de grsime corporal.
Astfel, pentru o persoan pentru care se constat o grosime a pielii tricepsului de 22 i o
circumferin a braului de 25, se poate estima la 18.25 kg cantitatea de grsime n corp.
Iar pentru o persoan pentru care se constat o grosime a pielii tricepsului de 10 i o
circumferin a braului de 22, se poate estima la 8.25 kg cantitatea de grsime n corp.
Dar, atenie, ultima evaluare este riscant, valorile de 10, respectiv 22 aflndu-se n afara
domeniilor de valori ce au fost constatate!
Apare i problema unitilor de msur, care ar fi trebuit precizate de la nceput? Ce
nseamn de fapt 22 ca grosime a pielii tricepsului? (Reamintim c datele din fiier au fost
obinute n urma unui studiu efectuat n S.U.A.).
Calculai valorile minime i maxime ale datelor din coloanele foii de calcul BODYFAT
a crii de calcul LP10_2.xls. Ar trebui s avei datele coloanei SKIN_THICK ntre 14 i
32, iar ale coloanei MIDARM_CIRC ntre 21 i 37. Adugai o foaie de calcul nou,
denumind-o Grid. n ea, pregtii n domeniul B3:B21 o gril 14, 15, ..., 32 pentru
valorile grosimii pielii tricepsului, iar n domeniul C2:S2 o gril 21, 22, ..., 37 pentru
valorile circumferinei braului. Plasai n celula C1 textul Circumferina braului, apoi
unificai celulele din domeniul C1:S1. Plasai n celula A3 textul Grosimea pielii
tricepsului, apoi unificai celulele din domeniul A3:A21. Direcionai textul pe vertical.
Plasai n celula A1 textul Grsimea corporal medie, apoi unificai celulele din
domeniul A1:B2.
Ai obinut un tabel, n domeniul C3:S21, ale crui celule le vei completa cu numerele
date de formula obinut. Introducei astfel n celula C3 formula
=6.79+1.01*$B30.43*C$2
(atenie, folosii coeficienii pe care i-ai obinut!) apoi extindei-o, prin tragere, la ntreg
domeniul. Salvai n aceast ultim form cartea de calcul, cu denumirea
nume_CORPORAL.xls.
Sunt plauzibile datele obinute n acest fel? Unde credei c s-a greit? Care sunt
riscurile folosirii oarbe a formulelor?

UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013


125
Tema special: regresia multipl.
Scopul propus al SENIC (Studiul Eficacitii Controlului Infeciilor Nosocomiale) a
fost acela de a confirma faptul c programele de supraveghere i control au redus rata
infeciilor spitaliceti n S.U.A. Studiul s-a desfurat (n perioada 1995-96) pe un eantion
de 113 spitale alese aleator dintre cele 338 controlate. Au fost prelevate urmtoarele date:
- durata medie a internrii pentru pacienii spitalului (n zile)
- vrsta medie a pacienilor (n ani)
- riscul de infecie = probabilitatea dobndirii unei infecii n spital, estimat pe baza
datelor statistice
- rata culturilor de rutin = raportul dintre numrul de culturi prelevate i numrul de
pacieni fr semne/simptome de infecii nosocomiale
- rata radiografiilor pulmonare = raportul dintre numrul de radiografii efectuate i
numrul de pacieni fr semne/simptome de pneumonie
- numrul de paturi de spital
- afilierea spitalului la o universitate de medicin (1 = da, 2 = nu)
- numrul mediu de pacieni internai zilnic n spital
- numrul de asistente medicale angajate cu norm ntreag.
Datele pot fi preluate din fiierul LP10_3.xls. Identificai variabilele i interpretarea
fiecreia.
ncepei completarea documentului nume_SENIC cu urmtorul text:
Alegem ca variabil rspuns pe ADM_AVG (durata medie de spitalizare). Anticipm
c durata medie a internrii ntr-un spital depinde de riscul de infecie i de rata
radiografiilor pulmonare. Este oare adecvat formula de calcul obinut prin regresie
liniar?
Rspunsul este imediat dac folosim EpiI nfo. Evident, variabilele predictor sunt cele
identificate prin INFCT_PROB i XRAY_Q. Principalul efect al comenzii
REGRESS ADM_AVG = AGE_AVG INFCT_PROB XRAY_Q
este prezentat n tabelul urmtor
Coefficient Std Error F-test P-Value
AGE_AVG 0.092 0.038 5.9988 0.016501
INFCT_PROB 52.276 14.247 13.4632 0.000437
XRAY_Q 2.424 1.066 5.1718 0.025636
CONSTANT 0.283 2.238 0.0160 0.899588
Chiar dac valorile p din tabel ne arat c, n formula de dependen liniar, coeficienii
variabilelor predictor sunt semnificativ diferii de 0, valoarea mic (de doar 0.32) a
coeficientul de determinaie multipl afiat ne determin s apreciem formula ca
inadecvat.
Rspunsul este negativ. Nici introducerea termenului INFCT_PROB*XRAY_Q ca
interaciune nu ridic prea mult valoarea coeficientului de determinaie.
Dar oare includerea tuturor variabilelor n model ar produce o formul adecvat?
Nici aceast ultim situaie nu determin obinerea unei formule liniare acceptabile.
Acest exemplu ne arat dificultile pe care le ntmpinm n ncercrile de a explica
anumite variabiliti prin formule liniare, atunci cnd nu avem bnuieli asupra variabilelor
predictor veritabile i/sau datele de care dispunem sunt lipsite de credibilitate.
Atunci cnd ncepem un studiu observaional, ar trebui s avem n vedere ipoteze clare
bazate pe studii anterioare sau pe bnuieli justificate. Ar trebui s inem seama i de
factorii de risc cunoscui.
MG - Lucrarea practic 10 2012/2013 UMF Carol Davila Informatic Medical i Biostatistic

126
S examinm un alt exemplu, legat de un studiu observaional n care iniial au fost luate
n considerare 4 variabile explicative. Anume, ntr-o unitate clinic s-a ncercat aflarea unei
formule de prognoz a duratei de supravieuire a pacienilor supui unei proceduri
chirurgicale asupra ficatului. Din evalurile pre-operatorii au fost luate n considerare,
conform opiniei specialitilor, urmtoarele informaii:
- scorul de coagulare sanguin BLOOD_SCORE,
- indicele de prognostic PROGN_INDEX (n care se include i vrsta pacientului),
- scorul de funcionare enzimatic ENZYME_TST,
- scorul de funcionare a ficatului LIVER_TST.
Variabila rspuns, dependent, este evident durata de supravieuire SURV_TIME.
Datele de care dispunem au fost obinute de la 54 de pacieni alei aleator dintre cei ai
unitii clinice, i pot fi gsite n fiierul LP10_4.xls.
Adugai o nregistrare suplimentar, a 55-a.
Evident, vom ncepe prin a
estima parametrii modelului liniar.
Folosind Excel, i anume comanda
Analiza DatelorRegresie/Data
AnalysisRegression din meniul
Instrumente/Tools, vom obine
un coeficient de determinaie
multipl destul de bun (0.837).
Vom avea ns grij s bifm
casetele de validare Residuals i
Normal Probability Plots (vezi
figura alturat).

Chiar dac valorile p raportate n tabel:
Coefficients Standard Error t Stat P-value
Intercept -621.59755 64.80042601 -9.59249 7.86E-13
X Variable 1 33.1638281 7.017274632 4.726027 1.97E-05
X Variable 2 4.27185982 0.563384543 7.582494 8.35E-10
X Variable 3 4.12573829 0.511160932 8.07131 1.49E-10
X Variable 4 14.0915626 12.52532754 1.125045 0.266051

ne ndeamn s acceptm coefi-
cienii modelului liniar (cu o
excepie!), nu acelai lucru rezult
din analizarea reziduurilor prin
reprezentarea diagramatic a lor!
Este vizibil o plasare n form
de potcoav, ceea ce ne determin
s adoptm o transformare loga-
ritmic a variabilei rspuns.
Normal Probability Plot
0
100
200
300
400
500
600
700
800
900
0 20 40 60 80 100 120
Sample Percentile
Y

UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 10 2012/2013


127
S trecem la prelucrarea cu EpiI nfo. Dup preluarea datelor din fiierul LP10_4.xls,
vom comanda crearea noii variabile: VariablesDefine YLOG, apoi completarea
automat a valorilor ei: VariablesAssign YLOG=LOG(SURV_TIME).
Acum vom trece la aflarea coeficienilor modelului de regresie:
REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST LIVER_TST
Coeficientul de determinaie multipl va fi excelent (0.97), dar unul dintre coeficieni,
mai precis cel al variabilei LIVER_TST, va avea ataat o valoare p mult prea mare.
Aceasta ne va determina s eliminm variabila din model. Comanda final va fi:
REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST
iar formula de predicie a duratei de supravieuire va fi (aproximativ) urmtoarea:
LN(SURV_TIME) = (1.114) + (0.159)*.BLOOD_SCORE
+ (0.021)*PROGN_INDEX + (0.022)*ENZYME_TST
Durata de supravieuire prognozat va fi obinut prin exponeniere.
Completai documentul nume_SENIC cu urmtorul text:
Chiar dac, prin regresie liniar, vom obine un coeficient de determinaie foarte bun
i valori p ataate coeficienilor foarte mici, modelul nu va fi acceptat pn nu se va
efectua verificarea normalitii reziduurilor. Aceast verificare nu este efectuat de
EpiI nfo; n schimb, Excel o poate face prezentnd o diagram de normalitate. n aceasta
punctele care reprezint reziduurile trebuie s fie aliniate. Dac nu sunt, atunci va trebui
s efectum anumite transformri asupra variabilei rspuns i s inserm n modelul
nostru variabila transformat. Formula obinut nu va mai fi liniar.

S-ar putea să vă placă și