Documente Academic
Documente Profesional
Documente Cultură
MG LP08
MG LP08
Lucrarea practică 8
Indicaţii generale:
În cadrul modelelor de regresie multiplă ne interesează influenţa variabilelor
predictor (în număr de două sau mai multe) asupra variabilei răspuns.
Variabila răspuns ar putea fi, de exemplu, durata de spitalizare a pacientului, pentru
care am dori o estimare în momentul internării. Variabila răspuns ar putea reprezenta, de
asemenea, o mărime dificil de măsurat, în condiţiile în care variabilele predictor sunt
măsurabile mult mai facil.
Pot prezenta interes următoarele:
1. Care este importanţa relativă a efectului fiecărei variabile predictor?
2. Ar putea fi oare eliminată din model o anumită variabilă predictor, dat fiind
că efectul ei asupra variabilei răspuns pare neglijabil?
3. Ar trebui incluse în model alte variabile predictor?
4. Modelul obţinut este bun pentru a face predicţii?
În această lucrare practică veţi exemplifica diverse situaţii în care s-ar putea obţine
modele de regresie:
a) simplă, liniară sau neliniară,
b) multiplă, liniară sau cu interacţiune,
încercând validarea lor pentru a fi folosite în prognoze.
Teme
specială: coeficienţi de corelaţie în Excel
36: linii de tendinţă în Excel
37: regresia liniară cu Epi Info
specială: regresia multiplă
124
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
125
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
126
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
25
20
15
10
0
0 5 10 15 20 25 30
Vârsta (ani)
Inseraţi pe diagramă dreapta de tendinţă liniară (se mai numeşte şi dreapta de regresie).
Este vizibil că dreapta de tendinţă liniară nu ajustează bine datele. În schimb, o curbă
parabolică (tendinţă polinomială de gradul 2) are un coeficient de determinaţie foarte bun
(0.961) şi poate fi folosită pentru a efectua „prognoze”. Curba ne sugerează inversarea la
vârsta de 18 ani a tendinţei de creştere a nivelului steroizilor.
Ce nivel al steroizilor ne aşteptăm să găsim la persoanele în vârstă de 21 şi 24 ani? Este
utilă curba pentru a prognoza nivelul steroizilor la persoanele în vârstă de 40 ani?
Părerea nutriţioniştilor este că masa musculară, la persoanele de sex feminin şi vârstă
înaintată, descreşte odată cu vârsta. Datele de care dispunem, măsurate de un nutriţionist
pentru 16 persoane de sex feminin, sunt următoarele.
vârsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa musculară medie pentru o femeie de 60 de ani? Putem accepta
părerea nutriţioniştilor?
Adăugaţi masa musculară evaluată de d-voastră pentru alte două persoane, şi încercaţi
să interpretaţi datele obţinute prin regresie liniară simplă şi prin regresie neliniară. Plasaţi
datele din cele două tabele anterioare, explicaţiile despre ele şi diagramele obţinute întrun
document denumit nume_REGRESII.doc.
127
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
D = 0 + 1 V + 2 S
în care coeficienţii 0, 1, 2 vor fi obţinuţi prin estimare, odată ce cunoaştem datele (di, vi,
si) dintr-un eşantion.
Folosind sub-eşantionul format doar din pacienţii de sex feminin, modelul de regresie se
reduce (teoretic) la
D = 0 + 1V.
Iar dacă folosim sub-eşantionul format doar din pacienţii de sex masculin, modelul de
regresie devine
D = (0 + 2) + 1V.
Observăm că în toate cele trei modele avem acelaşi coeficient pentru vârsta V, iar
termenii liberi diferă între ei exact prin coeficientul lui S.
Însă este esenţial să ne dăm seama că din sub-eşantioane nu vom obţine decât estimaţii
ale parametrilor. De exemplu, pentru parametrul 1 vom obţine estimaţiile 1 şi 1 . Nu
avem motive să credem că aceste estimaţii ar fi egale. Dar oare sunt „apropiate” ca valori?
Să exploatăm datele din fişierul LP8_2.xls, în care coloanele corespund variabilelor
noastre în mod evident.
DURATA = D, VARSTA = V, SEXUL = S.
Adăugaţi datele a doi pacienţi suplimentari (de sexe diferite), apoi preluaţi-le în tabel în
fişierul document nume_PREDICTIE.doc, dedesubtul unei explicaţii de clarificare
Tabelul următor conţine vârsta (în ani), sexul şi durata de spitalizare a 56 de pacienţi
internaţi în Spitalul Judeţean începând cu data de 1 mai 2008
şi deasupra textului următor:
Pe baza acestor date dorim să determinăm o formulă de calcul care să ne permită
prognozarea duratei de spitalizare pentru un pacient nou, odată ce-i înregistrăm vârsta şi
sexul. Folosim în acest scop comanda REGRESS din EpiInfo.
Preluaţi aşadar datele în EpiInfo, apoi folosiţi comanda Advanced Statistics→ Linear
Regression, încercând să determinaţi execuţia comenzii (în clar)
REGRESS DURATA = VARSTA SEXUL
EpiInfo vă va oferi rapid, ca rezultate, valorile
̂ 0 (CONSTANT) = (aproximativ) –22.477
̂1 (VARSTA) = (aproximativ) 0.699, ̂ 2 (SEXUL) = (aproximativ) 0.014.
Cu toate că se raportează un coeficient de determinaţie multiplă destul de mare
(aproximativ 0.73), valoarea p ataşată variabilei SEXUL – de aproximativ 0.97 – ne
determină (la prima vedere) să validăm mai degrabă ipoteza nulă H0: 2 0 . Facem însă o
eroare de principiu (care?).
Să verificăm că EpiInfo „calculează” bine, exploatând în acest scop cele două regresii
simple corespunzătoare sub-eşantioanelor stratificate după sex.
Vom utiliza mai întâi comanda Select/If→Select, impunând condiţia SEXUL = 0.
Pentru datele rămase vom comanda
REGRESS DURATA = VARSTA.
Ca rezultate ar trebui să obţinem estimaţiile pentru parametrii 0 (CONSTANT) şi 1
(VARSTA). Aproximativ, aceste estimaţii sunt 0 17.5 şi 1 0.6 .
Reluaţi schimbând sub-eşantionul. Va trebui să comandaţi Select/If→Cancel Select,
apoi să selectaţi impunând condiţia SEXUL = 1. în final comanda
REGRESS DURATA = VARSTA
va avea ca efect obţinerea unei noi estimaţii pentru parametrul 1 (VARSTA). Această
128
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
131
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
132
MG - Lucrarea practică 8 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
300
0
0 20 40 60 80 100 120
Sample Percentile
134