Sunteți pe pagina 1din 11

MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 8
Indicaţii generale:
În cadrul modelelor de regresie multiplă ne interesează influenţa variabilelor
predictor (în număr de două sau mai multe) asupra variabilei răspuns.
Variabila răspuns ar putea fi, de exemplu, durata de spitalizare a pacientului, pentru
care am dori o estimare în momentul internării. Variabila răspuns ar putea reprezenta, de
asemenea, o mărime dificil de măsurat, în condiţiile în care variabilele predictor sunt
măsurabile mult mai facil.
Pot prezenta interes următoarele:
1. Care este importanţa relativă a efectului fiecărei variabile predictor?
2. Ar putea fi oare eliminată din model o anumită variabilă predictor, dat fiind
că efectul ei asupra variabilei răspuns pare neglijabil?
3. Ar trebui incluse în model alte variabile predictor?
4. Modelul obţinut este bun pentru a face predicţii?

În această lucrare practică veţi exemplifica diverse situaţii în care s-ar putea obţine
modele de regresie:
a) simplă, liniară sau neliniară,
b) multiplă, liniară sau cu interacţiune,
încercând validarea lor pentru a fi folosite în prognoze.

Teme
specială: coeficienţi de corelaţie în Excel
36: linii de tendinţă în Excel
37: regresia liniară cu Epi Info
specială: regresia multiplă

Softul ce va fi utilizat în lucrarea practică:


Excel, Epi Info

124
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Tema specială: coeficienţi de corelaţie în Excel


În cadrul unei investigaţii mai largi au fost examinaţi un număr de 200 elevi (în vârstă de
10-18 ani), măsurându-li-se înălţimea (în cm), greutatea (în kg), circumferinţa bustului (în
cm). De asemenea, a fost înregistrată vârsta lor, sexul şi localizarea durerii lombare, în caz
că s-a constatat prezenţa acesteia.
Datele înregistrate pot fi găsite în fişierul LP08_1.xls.
Dorim să aflăm dacă pe datele eşantionului de 200 de subiecţi se confirmă legătura (de
dependenţă liniară) între înălţime şi bust. Pentru aceasta avem două căi:
a) Interpretarea coeficientului de corelaţie între seria de date „Inaltime” şi seria de date
„Bust”. Pe această cale vom calcula, de exemplu în celula I1, coeficientul de corelaţie prin
formula:
=CORREL(F2:F201,H2:H201)

Valoarea pe care o obţinem, de aproximativ 0.73, se situează la limita între „corelare” şi


„necorelare”. Nu putem afirma că înălţimea subiecţilor (şi, prin extensie, a tinerilor în
ansamblu) este corelată cu circumferinţa bustului.
b) Întocmirea unei diagrame de tipul X-Y (Prin puncte) şi plasarea pe ea a liniei de
tendinţă liniară şi a ecuaţiei dreptei de regresie, împreună cu coeficientul de
determinaţie.Adoptând această cale, vom selecta domeniul F1:F201;H1:H201 (selectarea
trebuie făcută cu atenţie, folosind tasta [Ctrl]), după care vom efectua reprezentarea grafică a
datelor – evident, pe o foaie separată. Apelând apoi comanda DiagramăAdăugare linie
de tendinţă vom fi atenţi la „bifarea” opţiunilor Afişare ecuaţie în diagramă şi Afişare
abatere medie pătratică în diagramă. (Atenţie, ultima opţiune are o denumire total greşită.
Veţi învăţa că denumirea corectă a lui R2 este „coeficientul de determinaţie”.)
Evident, a doua cale este de preferat, întrucât putem evalua mult mai bine datele de care
dispunem. Astfel, pe diagrama X-Y se identifică cu uşurinţă un „punct aberant” (outlier) – a
se vedea figura. Este posibil ca acesta să apară dintr-o eroare de introducere de date, dar este
posibil ca el să corespundă unui individ „excepţional”. În ultima situaţie, se recomandă ca
acest individ să fie identificat şi studiat în mod special. Prin sortare descrescătoare (comanda
DateSortare), după coloana „Bust”, a datelor foii de calcul se identifică acst individ: este
vorba despre codul 65, vârsta 13 ani, sexul feminin şi iniţialele „VOBI”. Dacă datele sale –

125
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

ce nu par credibile prin comparaţie cu celelalte – nu pot fi confirmate, atunci această


înregistrare va trebui eliminată!
Să presupunem că o eliminăm, rămânând în foaia de calcul „Corelatii” doar 199 de
înregistrări. Coeficientul de corelaţie se va modifica în aproximativ 0.87, ceea ce ne va
permite să afirmăm că datele eşantionului confirmă o oarecare corelaţie (liniară) – dar nu
puternică – între înălţime şi circumferinţa bustului la adolescenţi. În diagramă vom obţine
coeficientul de determinaţie R2 aproximativ 0.76, ceea ce conduce la aceeaşi concluzie.
(Care este legătura dintre cei doi coeficienţi?)
Calculaţi, în celula J1, coeficientul de corelaţie între înălţimea şi greutatea indivizilor
eşantionului. Efectuaţi şi reprezentarea grafică a dependenţei X-Y între aceste două seturi de
valori, împreună cu afişarea ecuaţiei liniei de tendinţă (adică a dreptei de regresie). De
asemenea, în urma unei sortări după coloana „Sex”, alăturaţi înregistrările ce corespund
băieţilor respectiv fetelor şi calculaţi ambii coeficienţi de corelaţie între înălţime şi
circumferinţa bustului. Care dintre sexe prezintă variabilitatea mai mare?

Pentru a obţine diagrame mai interesante, cu afişarea simultană a liniilor de tendinţă


pentru cele două sexe, efectuaţi următoarele operaţiuni:
a) copierea foii de calcul „Lombar” într-o carte de calcul nouă, denumită nume_CORR;
b) sortarea datelor de pe noua foaie „Lombar” după valorile coloanei „SEX”;
c) inserarea unei coloane noi între coloanele G („GREUTATE”) şi H („BUST”) şi
plasarea în celula H1 a textului „GREUTATE F”;
d) modificarea textului din celula G1 în „GREUTATE M”;
e) mutarea datelor de pe coloana G corespunzătoare sexului feminin pe coloana H
(posibila mutare a domeniului G104:G201 în H104:H201);
f) selectarea coloanelor F, G şi H;
g) inserarea unei diagrame de tipul X-Y pe o foaie nouă şi redenumirea foii în „separat”;
h) inserarea în diagramă a liniilor de tendinţă.
Încercaţi obţinerea şi a diagramei corespunzătoare variabilelor „INALTIME” şi „BUST”,
înainte de a salva definitiv fişierul nume_CORR. Ce comentarii aţi putea face?
(Notă. Pentru explicaţii şi comentarii în documente este nevoie şi de calculul
coeficienţilor de determinaţie şi de obţinerea ecuaţiilor de regresie.)

126
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Tema 36: linii de tendinţă în Excel.


Tabelul următor prezintă vârsta şi nivelul steroizilor în plasmă pentru câteva persoane
de sex feminin.
vârsta 8 9 10 10 11 12 13 14 15 16 18 18 20 20 23 23 25
nivelul 4 6 8 11 11 15 20 22 22 25 23 25 24 22 18 20 15
Ce sugerează aceste date?
Chiar dacă răspunsul pare evident (deoarece datele au fost ordonate crescător după
vârstă): nivelul steroizilor creşte odată cu vârsta, până la circa 20 ani, apoi scade, este
recomandată întocmirea unei diagrame de tipul X-Y şi aplicarea metodei regresiei (dar nu
liniare!)
Plasând datele întro foaie de calcul a fişierului Excel denumit nume_STEROIZI
(recomandăm plasarea datelor pe două coloane şi redenumirea foii ca „Datele”!), putem
crea imediat diagrama (ca foaie separată, denumită „Diagrama”):
Nivelul steroizilor y = -0.212x2 + 7.7085x - 45.845
R2 = 0.961
30

25

20

15

10

0
0 5 10 15 20 25 30
Vârsta (ani)

Inseraţi pe diagramă dreapta de tendinţă liniară (se mai numeşte şi dreapta de regresie).
Este vizibil că dreapta de tendinţă liniară nu ajustează bine datele. În schimb, o curbă
parabolică (tendinţă polinomială de gradul 2) are un coeficient de determinaţie foarte bun
(0.961) şi poate fi folosită pentru a efectua „prognoze”. Curba ne sugerează inversarea la
vârsta de 18 ani a tendinţei de creştere a nivelului steroizilor.
Ce nivel al steroizilor ne aşteptăm să găsim la persoanele în vârstă de 21 şi 24 ani? Este
utilă curba pentru a prognoza nivelul steroizilor la persoanele în vârstă de 40 ani?
Părerea nutriţioniştilor este că masa musculară, la persoanele de sex feminin şi vârstă
înaintată, descreşte odată cu vârsta. Datele de care dispunem, măsurate de un nutriţionist
pentru 16 persoane de sex feminin, sunt următoarele.
vârsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa musculară medie pentru o femeie de 60 de ani? Putem accepta
părerea nutriţioniştilor?
Adăugaţi masa musculară evaluată de d-voastră pentru alte două persoane, şi încercaţi
să interpretaţi datele obţinute prin regresie liniară simplă şi prin regresie neliniară. Plasaţi
datele din cele două tabele anterioare, explicaţiile despre ele şi diagramele obţinute întrun
document denumit nume_REGRESII.doc.

Tema 37: regresia liniară cu Epi Info.


Dorim să găsim o formulă care să ne ajute să prezicem durata de spitalizare (D) odată
ce cunoaştem vârsta (V) şi sexul (S) al pacientului. Valorile lui S le definim astfel: 1 =
masculin, 0 = feminin.
Cea mai simplă formulă o obţinem folosind un model de regresie liniară multiplă

127
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

D = 0 + 1 V + 2 S
în care coeficienţii 0, 1, 2 vor fi obţinuţi prin estimare, odată ce cunoaştem datele (di, vi,
si) dintr-un eşantion.
Folosind sub-eşantionul format doar din pacienţii de sex feminin, modelul de regresie se
reduce (teoretic) la
D = 0 + 1V.
Iar dacă folosim sub-eşantionul format doar din pacienţii de sex masculin, modelul de
regresie devine
D = (0 + 2) + 1V.
Observăm că în toate cele trei modele avem acelaşi coeficient pentru vârsta V, iar
termenii liberi diferă între ei exact prin coeficientul lui S.
Însă este esenţial să ne dăm seama că din sub-eşantioane nu vom obţine decât estimaţii
ale parametrilor. De exemplu, pentru parametrul 1 vom obţine estimaţiile 1 şi 1 . Nu
avem motive să credem că aceste estimaţii ar fi egale. Dar oare sunt „apropiate” ca valori?
Să exploatăm datele din fişierul LP8_2.xls, în care coloanele corespund variabilelor
noastre în mod evident.
DURATA = D, VARSTA = V, SEXUL = S.
Adăugaţi datele a doi pacienţi suplimentari (de sexe diferite), apoi preluaţi-le în tabel în
fişierul document nume_PREDICTIE.doc, dedesubtul unei explicaţii de clarificare
Tabelul următor conţine vârsta (în ani), sexul şi durata de spitalizare a 56 de pacienţi
internaţi în Spitalul Judeţean începând cu data de 1 mai 2008
şi deasupra textului următor:
Pe baza acestor date dorim să determinăm o formulă de calcul care să ne permită
prognozarea duratei de spitalizare pentru un pacient nou, odată ce-i înregistrăm vârsta şi
sexul. Folosim în acest scop comanda REGRESS din EpiInfo.
Preluaţi aşadar datele în EpiInfo, apoi folosiţi comanda Advanced Statistics→ Linear
Regression, încercând să determinaţi execuţia comenzii (în clar)
REGRESS DURATA = VARSTA SEXUL
EpiInfo vă va oferi rapid, ca rezultate, valorile
̂ 0 (CONSTANT) = (aproximativ) –22.477
̂1 (VARSTA) = (aproximativ) 0.699, ̂ 2 (SEXUL) = (aproximativ) 0.014.
Cu toate că se raportează un coeficient de determinaţie multiplă destul de mare
(aproximativ 0.73), valoarea p ataşată variabilei SEXUL – de aproximativ 0.97 – ne
determină (la prima vedere) să validăm mai degrabă ipoteza nulă H0:  2  0 . Facem însă o
eroare de principiu (care?).
Să verificăm că EpiInfo „calculează” bine, exploatând în acest scop cele două regresii
simple corespunzătoare sub-eşantioanelor stratificate după sex.
Vom utiliza mai întâi comanda Select/If→Select, impunând condiţia SEXUL = 0.
Pentru datele rămase vom comanda
REGRESS DURATA = VARSTA.
Ca rezultate ar trebui să obţinem estimaţiile pentru parametrii 0 (CONSTANT) şi 1
(VARSTA). Aproximativ, aceste estimaţii sunt 0  17.5 şi 1  0.6 .
Reluaţi schimbând sub-eşantionul. Va trebui să comandaţi Select/If→Cancel Select,
apoi să selectaţi impunând condiţia SEXUL = 1. în final comanda
REGRESS DURATA = VARSTA
va avea ca efect obţinerea unei noi estimaţii pentru parametrul 1 (VARSTA). Această

128
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

estimaţie este, aproximativ, 1  0.76 .


Coeficienţii de determinaţie multiplă sunt, în ambele situaţii, destul de mari, iar valorile
p asociate sunt foarte mici, ceea ce ne determină acceptarea ipotezelor că avem coeficienţi
diferiţi de zero. Erorile standard raportate ne ajută să formăm intervale de încredere 95%
pentru coeficienţi.
Completaţi documentul cu următoarele (înlocuind numerele dintre paranteze):
Pentru pacienţii bărbaţi, formula de calcul a duratei de spitalizare este
Durata de spitalizare (în zile) = (–25.6) + (0.76) *Vârsta (în ani)
Statistica ne indică, datorită mărimii eşantionului pe care l-am folosit – şi datorită
unor ipoteze de normalitate – următoarele intervale de încredere 95%
[(–33.4), (–17.8)] pentru constanta din formulă,
[(0.6), (0.9)] pentru coeficientul 1 al lui VARSTA.
Al doilea interval de încredere conţine „in extremis” estimaţia 1 obţinută anterior.
Încrederea în rezultatele calculate cu această formulă ar trebui să fie mediocră,
întrucât coeficientul de determinaţie este mare, dar nu suficient pentru a accepta pentru
prognoze o formulă liniară.
De fapt, situaţia anterioară (în care avem de-a face cu variabile predictor de tip binar)
este tipică pentru inserarea în model a unor termeni reprezentând interacţiuni. Mai precis,
ar trebui să folosim un model de regresie (liniară?) multiplă
D = 0 + 1V + 2S + 3V*S
în care termenul produs V*S poartă numele de termen de interacţiune.
În EpiInfo includerea unui asemenea termen este facilă. Calea cea mai simplă constă în
exploatarea ferestrei REGRESS. După selectarea variabilelor VARSTA şi SEXUL din lista
derulantă Other Variables şi trecerea lor în lista de dedesubt, o nouă selectare a lor va
determina activarea butonului Make Interaction. Apăsarea acestui buton va determina
apariţia termenului dorit VARSTA*SEXUL în lista Interaction Terms.
Comentaţi în documentul nume_PREDICTIE.doc informaţiile raportate de către
EpiInfo pentru o asemenea situaţie. Identificaţi de asemenea intervale de încredere 95%
pentru cei patru parametri ai regresiei liniare multiple. (Atenţie, plasaţi în document
valorile numerice pe care le-aţi obţinut, NU cele care sunt în chenar!)
Informaţi-vă asupra tratării unei variabile ca variabilă dummy.
Puteţi imagina situaţii în care din date medicale se pot crea formule valabile pentru
prognoze?
În fişierul LP08_3.xls se află o parte dintre datele obţinute în urma unui studiu ce avea
ca scop determinarea relaţiei între obezitatea femeilor şi unele date antropometrice care pot
fi măsurate direct, fără dificultăţi: grosimea pielii tricepsului (X1), circumferinţa coapsei
(X2), circumferinţa braţului (X3).
Cantitatea de grăsime în corp (Y) nu poate fi „măsurată” direct; ea poate fi evaluată
prin procedura imersiunii persoanelor în apă, procedură care nu poate fi aplicată în mod
curent.
Este oare posibil să găsim o formulă care să ne permită să evaluăm cantitatea de
grăsime în corp bazându-ne doar pe cele trei date obţinute prin măsurare directă? Dacă
da, este oare necesar să efectuăm toate cele trei măsurători?
Adăugaţi două înregistrări noi (a 21-a şi a 22-a), apoi încercaţi să daţi răspunsuri la
întrebări şi inseraţi textul încadrat şi răspunsurile în documentul nume_PREDICTIE. Ar
trebui să efectuaţi următoarele operaţiuni cu Excel:
129
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

- trei diagrame de tipul X-Y, anume


a) ale perechii SKIN_THICK, THIGH_CIRC,
b) ale perechii SKIN_THICK, MIDARM_CIRC,
c) ale perechii THIGH_CIRC, MIDARM_CIRC.
- inserarea pe diagrame a celor trei „drepte de tendinţă”, precum şi a coeficienţilor de
determinaţie respectivi;
- calculul coeficienţilor de corelaţie Pearson. De exemplu, coeficientul de corelaţie
între setul de date THIGH_CIRC şi setul de date MIDARM_CIRC se obţine prin
formula =CORREL(B2:B22,C2:C22).
Această ultimă valoare este apropiată de 0, ceea ce indică faptul că rezultatele măsură-
torilor circumferinţei coapsei sunt independente de cele ale măsurătorilor circumferinţei
braţului. În schimb, coeficientul de determinaţie între grosimea pielii tricepsului
(SKIN_THICK = X1) şi circumferinţa coapsei (THIGH_CIRC = X2) este destul de mare,
ceea ce indică o posibilă legătură liniară între aceste date. Completaţi documentul cu
următoarele (introducând coeficienţii numerici pe care i-aţi obţinut):
Dacă ar fi să renunţăm la una dintre cele trei măsurători, atunci am putea renunţa mai
degrabă la măsurarea grosimii pielii tricepsului, această grosime fiind corelată pozitiv cu
circumferinţa coapsei. O bună aproximare pentru grosimea pielii tricepsului este
obţinută prin formula
SKIN_THICK = (0.89)* THIGH_CIRC + (–20.06)
Dacă avem la dispoziţie toate cele trei date, atunci formula pe care o obţinem prin
regresie liniară multiplă este următoarea:
Y (BODY_FAT) = ( ) + ( )*SKIN_THICK + ( )*THIGH_CIRC + ( )*MIDARM_CIRC
Ea este obţinută ca urmare a comenzii Analiza Datelor→Regresie/Data Analysis→
Regression din meniul Instrumente/Tools din Excel.
Este posibil ca modulul de analiză a datelor să nu fie disponibil în Excel. Exact aceleaşi
rezultate numerice vor fi obţinute – încercaţi – cu EpiInfo, în urma executării unei
comenzi
REGRESS BODY_FAT = SKIN_THICK THIGH_CIRC MIDARM_CIRC
Dintre celelalte rezultate ale comenzii, sunt importante următoarele:
- coeficientul de determinaţie multiplă, de aproximativ 0.80. Valoarea sa destul de
ridicată validează formula (o face utilizabilă);
- valorile p ataşate coeficienţilor. De fapt, o asemenea valoare p este ataşată ipotezei
că coeficientul respectiv este nenul, ceea ce exprimă faptul că variabila predictor
respectivă trebuie să apară în formulă. Lăsând la o parte constanta, observăm o
valoare p destul de mare ataşată coeficientului lui THIGH_CIRC.
Merită analizată situaţia în care renunţăm la a insera variabila THIGH_CIRC în
modelul nostru liniar. În urma executării unei comenzi
REGRESS BODY_FAT = SKIN_THICK MIDARM_CIRC
vom obţine un coeficient de determinaţie multiplă doar puţin mai mic, de aproximativ
0.79, iar valorile p vor confirma necesitatea apariţiei ambelor variabile în modelul liniar,
formula
BODY_FAT = (6.79) + (1.01)*SKIN_THICK + (–0.43)*MIDARM_CIRC
putând fi folosită pentru evaluarea cantităţii de grăsime corporală.
Astfel, pentru o persoană pentru care se constată o grosime a pielii tricepsului de 22 şi o
circumferinţă a braţului de 25, se poate estima la 18.25 kg cantitatea de grăsime în corp.
Iar pentru o persoană pentru care se constată o grosime a pielii tricepsului de 10 şi o
130
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

circumferinţă a braţului de 22, se poate estima la 8.25 kg cantitatea de grăsime în corp.


Dar, atenţie, ultima evaluare este riscantă, valorile de 10, respectiv 22 aflându-se în afara
domeniilor de valori ce au fost constatate!
Apare şi problema unităţilor de măsură, care ar fi trebuit precizate de la început? Ce
înseamnă de fapt 22 ca grosime a pielii tricepsului? (Reamintim că datele din fişier au fost
obţinute în urma unui studiu efectuat în S.U.A.).
Calculaţi valorile minime şi maxime ale datelor din coloanele foii de calcul BODYFAT
a cărţii de calcul LP08_3.xls. Ar trebui să aveţi datele coloanei SKIN_THICK între 14 şi
32, iar ale coloanei MIDARM_CIRC între 21 şi 37. Adăugaţi o foaie de calcul nouă,
denumind-o „Grid”. În ea, pregătiţi în domeniul B3:B21 o grilă 14, 15, ..., 32 pentru
valorile grosimii pielii tricepsului, iar în domeniul C2:S2 o grilă 21, 22, ..., 37 pentru
valorile circumferinţei braţului. Plasaţi în celula C1 textul „Circumferinţa braţului”, apoi
unificaţi celulele din domeniul C1:S1. Plasaţi în celula A3 textul „Grosimea pielii
tricepsului”, apoi unificaţi celulele din domeniul A3:A21. Direcţionaţi textul pe verticală.
Plasaţi în celula A1 textul „Grăsimea corporală medie”, apoi unificaţi celulele din
domeniul A1:B2.
Aţi obţinut un tabel, în domeniul C3:S21, ale cărui celule le veţi completa cu numerele
date de formula obţinută. Introduceţi astfel în celula C3 formula
=6.79+1.01*$B3–0.43*C$2
(atenţie, folosiţi coeficienţii pe care i-aţi obţinut!) apoi extindeţi-o, prin tragere, la întreg
domeniul. Salvaţi în această ultimă formă cartea de calcul, cu denumirea
nume_CORPORAL.xls.
Sunt plauzibile datele obţinute în acest fel? Unde credeţi că s-a greşit? Care sunt
riscurile folosirii „oarbe” a formulelor?

Tema specială: regresia multiplă.


Scopul propus al SENIC (Studiul Eficacităţii Controlului Infecţiilor Nosocomiale) a
fost acela de a confirma faptul că programele de supraveghere şi control au redus rata
infecţiilor spitaliceşti în S.U.A. Studiul s-a desfăşurat (în perioada 1995-96) pe un eşantion
de 113 spitale alese aleator dintre cele 338 controlate. Au fost prelevate următoarele date:
- durata medie a internării pentru pacienţii spitalului (în zile)
- vârsta medie a pacienţilor (în ani)
- riscul de infecţie = probabilitatea dobândirii unei infecţii în spital, estimată pe baza
datelor statistice
- rata culturilor de rutină = raportul dintre numărul de culturi prelevate şi numărul de
pacienţi fără semne/simptome de infecţii nosocomiale
- rata radiografiilor pulmonare = raportul dintre numărul de radiografii efectuate şi
numărul de pacienţi fără semne/simptome de pneumonie
- numărul de paturi de spital
- afilierea spitalului la o universitate de medicină (1 = da, 2 = nu)
- numărul mediu de pacienţi internaţi zilnic în spital
- numărul de asistente medicale angajate cu normă întreagă.
Datele pot fi preluate din fişierul LP08_4.xls. Identificaţi variabilele şi interpretarea
fiecăreia.
Începeţi completarea documentului nume_SENIC cu următorul text:

131
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Alegem ca variabilă răspuns pe ADM_AVG (durata medie de spitalizare). Anticipăm


că durata medie a internării într-un spital depinde de riscul de infecţie şi de rata
radiografiilor pulmonare. Este oare adecvată formula de calcul obţinută prin regresie
liniară?
Răspunsul este imediat dacă folosim EpiInfo. Evident, variabilele predictor sunt cele
identificate prin INFCT_PROB şi XRAY_Q. Principalul efect al comenzii
REGRESS ADM_AVG = AGE_AVG INFCT_PROB XRAY_Q
este prezentat în tabelul următor
Coefficient Std Error F-test P-Value
AGE_AVG 0.092 0.038 5.9988 0.016501
INFCT_PROB 52.276 14.247 13.4632 0.000437
XRAY_Q 2.424 1.066 5.1718 0.025636
CONSTANT 0.283 2.238 0.0160 0.899588
Chiar dacă valorile p din tabel ne arată că, în formula de dependenţă liniară, coeficienţii
variabilelor predictor sunt semnificativ diferiţi de 0, valoarea mică (de doar 0.32) a
coeficientul de determinaţie multiplă afişat ne determină să apreciem formula ca
inadecvată.
Răspunsul este negativ. Nici introducerea termenului INFCT_PROB*XRAY_Q ca
interacţiune nu ridică prea mult valoarea coeficientului de determinaţie.
Dar oare includerea tuturor variabilelor în model ar produce o formulă adecvată?
Nici această ultimă situaţie nu determină obţinerea unei formule liniare acceptabile.
Acest exemplu ne arată dificultăţile pe care le întâmpinăm în încercările de a „explica”
anumite variabilităţi prin formule liniare, atunci când nu avem bănuieli asupra variabilelor
predictor „veritabile” şi/sau datele de care dispunem sunt lipsite de credibilitate.
Atunci când începem un studiu observaţional, ar trebui să avem în vedere ipoteze clare
bazate pe studii anterioare sau pe bănuieli justificate. Ar trebui să ţinem seama şi de
factorii de risc cunoscuţi.
Să examinăm un alt exemplu, legat de un studiu observaţional în care iniţial au fost luate
în considerare 4 variabile explicative. Anume, într-o unitate clinică s-a încercat aflarea unei
formule de prognoză a duratei de supravieţuire a pacienţilor supuşi unei proceduri
chirurgicale asupra ficatului. Din evaluările pre-operatorii au fost luate în considerare,
conform opiniei specialiştilor, următoarele informaţii:
- scorul de coagulare sanguină BLOOD_SCORE,
- indicele de prognostic PROGN_INDEX (în care se include şi vârsta pacientului),
- scorul de funcţionare enzimatic ENZYME_TST,
- scorul de funcţionare a ficatului LIVER_TST.
Variabila răspuns, dependentă, este evident durata de supravieţuire SURV_TIME.
Datele de care dispunem au fost obţinute de la 54 de pacienţi aleşi aleator dintre cei ai
unităţii clinice, şi pot fi găsite în fişierul LP08_5.xls.
Adăugaţi o înregistrare suplimentară, a 55-a.

132
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Evident, vom începe prin a


estima parametrii modelului liniar.
Folosind Excel, şi anume comanda
Analiza Datelor→Regresie/Data
Analysis→Regression din meniul
Instrumente/Tools, vom obţine
un coeficient de determinaţie
multiplă destul de bun (0.837).
Vom avea însă grijă să „bifăm”
casetele de validare Residuals şi
Normal Probability Plots (vezi
figura alăturată).

Chiar dacă valorile p raportate în tabel:


Coefficients Standard Error t Stat P-value
Intercept -621.59755 64.80042601 -9.59249 7.86E-13
X Variable 1 33.1638281 7.017274632 4.726027 1.97E-05
X Variable 2 4.27185982 0.563384543 7.582494 8.35E-10
X Variable 3 4.12573829 0.511160932 8.07131 1.49E-10
X Variable 4 14.0915626 12.52532754 1.125045 0.266051

ne îndeamnă să acceptăm coefi- Normal Probability Plot

cienţii modelului liniar (cu o 900

excepţie!), nu acelaşi lucru rezultă 800

din analizarea reziduurilor prin 700

reprezentarea diagramatică a lor!


600

Este vizibilă o plasare în formă


500
Y

de potcoavă, ceea ce ne determină


400

300

să adoptăm o transformare loga- 200

ritmică a variabilei răspuns. 100

0
0 20 40 60 80 100 120
Sample Percentile

Să trecem la prelucrarea cu EpiInfo. După preluarea datelor din fişierul LP10_4.xls,


vom comanda crearea noii variabile: Variables→Define YLOG, apoi completarea
automată a valorilor ei: Variables→Assign YLOG=LOG(SURV_TIME).
Acum vom trece la aflarea coeficienţilor modelului de regresie:
REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST LIVER_TST
Coeficientul de determinaţie multiplă va fi excelent (0.97), dar unul dintre coeficienţi,
mai precis cel al variabilei LIVER_TST, va avea ataşată o valoare p mult prea mare.
Aceasta ne va determina să eliminăm variabila din model. Comanda finală va fi:
REGRESS YLOG = BLOOD_SCORE PROGN_INDEX ENZYME_TST
iar formula de predicţie a duratei de supravieţuire va fi (aproximativ) următoarea:
LN(SURV_TIME) = (1.114) + (0.159)*.BLOOD_SCORE
+ (0.021)*PROGN_INDEX + (0.022)*ENZYME_TST
Durata de supravieţuire prognozată va fi obţinută prin exponenţiere.
133
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Completaţi documentul nume_SENIC cu următorul text:


Chiar dacă, prin regresie liniară, vom obţine un coeficient de determinaţie foarte bun
şi valori p – ataşate coeficienţilor – foarte mici, modelul nu va fi acceptat până nu se va
efectua verificarea normalităţii reziduurilor. Această verificare nu este efectuată de
EpiInfo; în schimb, Excel o poate face prezentând o diagramă de normalitate. În aceasta
punctele care reprezintă reziduurile trebuie să fie aliniate. Dacă nu sunt, atunci va trebui
să efectuăm anumite transformări asupra variabilei răspuns şi să inserăm în modelul
nostru variabila transformată. Formula obţinută nu va mai fi liniară.

134