Documente Academic
Documente Profesional
Documente Cultură
= +
= +
=
+
=
+
=
=
=
=
=
=
. 0 2
, 0 2
0
0
0
0
1
1
1
2
1
2
n
i
i i i
n
i
i i
n
i
i i
n
i
i i
x y x b a
y x b a
b
y x b a
a
y x b a
b
a
( )
( )
= +
=
= = +
=
=
=
) 2 ( . 0 ) (
) 1 ( , 0
2
1
1
1
i i i
n
i
i
n
i
i i
n
i
i i
y x x b x a
X b Y
n
x b y
a y x b a n
nlocuim valoarea lui a din prima ecuaie n a doua i aflm parametrul b.
( ) 0
1 1
2
1
= +
= = =
i
n
i
i
n
i
i
n
i
i
y x x b x X b Y . (3)
Ne folosim de formula: n X n
n
x
x
n
i
i
n
i
i
= =
=
=
1
1
. (4)
nlocuim (4) n (3) i avem:
0
1 1
2 2
= +
= =
n
i
i i
n
i
i
y x x b X n b X n Y .
Extrgnd pe b obinem:
=
=
=
n
i
i
n
i
i i
x X n
y x Y X n
b
1
2 2
1
. (5)
Valoarea lui a se calculeaz conform celor demonstrate cu formula:
3 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
X b Y a = . (6)
n concluzie s-au dedus parametrii dreptei: y = a + bx.
Coeficienii (parametrii) dreptei de regresie
Parametrul a reprezint intersecia dreptei de regresie cu axa YY. Dac x=0 atunci y = a.
Dac avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egal cu media tuturor valorilor pentru
care x este 0.
Trebuie avut n vedere c nu n orice situaie este posibil i are sens aceast intersecie cu axa YY.
De exemplu pentru predictor X reprezentnd presiunea sistolic sau temperatura corpului, valoarea 0 nu
are interpretare n cazuri normale (studiem pacienii deci persoane n via).
Parametrul b este panta dreptei (tangenta unghiului dintre dreapt i linia orizontal).
Dac valoarea lui b este pozitiv atunci dependena ntre cele dou variabile aleatoare este direct
proporional. Astfel, o cretere a variabilei x va duce la o cretere a variabilei y, respectiv o scdere a
variabilei x va duce la o scdere a variabilei y.
Dac valoarea parametrului b este negativ atunci dependena ntre cele dou variabile aleatoare este
invers proporional. Variaia ntr-un anume sens a variabilei x va duce la o variaie n sens contrar a
variabilei y.
Cazul n care nu exist dependen ntre cele dou variabile x, respectiv y se obine pentru b=0. Orict
am modifica variabila x, atunci y va rmne constant y = a.
Panta dreptei reprezint variaia variabilei dependente y, pentru o cretere sau descretere a
predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Cretem valoarea lui x cu o unitate, 1 + x x .
Noul y va fi y
1
= a + b (x+1) = a + bx + b.
Se observ c diferena dintre y i y
1
este egal cu b.
Testarea modelului prin metoda analizei varianei (ANOVA)
Determinarea coeficienilor dreptei de regresie a permis crearea unui model matematic ce exprim
legtura ntre cele dou variabile.
Este important s putem verifica dac modelul creat este bun n sensul aproximrii ct mai corecte a
datelor.
Analiza varianei este o metod statistic ce permite evaluarea performanei modelului determinat.
Variaia unei variabile aleatoare Y este msurat prin abaterea standard, dar poate fi folosit i deviaia fa
de valoarea medie ( ) Y Y
i
.
Variaia total poate fi exprimat folosind suma ptratelor deviaiilor astfel:
( )
=
i
i
Y Y SST
2
(SST Total Sum of Square). (7)
Facem apel la valorile estimate prin modelul regresional propus, notate
i i
X b a Y + =
.
Exprimm astfel: ( ) ( ) Y Y Y Y Y Y
i i i i
+ =
.
Ridicnd la ptrat expresia alturat se poate arta c
( ) ( )
+ =
i
i
i
i i
Y Y Y Y SST
2 2
.
Primul termen: ( )
i
i i
Y Y
2
i
i
Y Y
2
\
|
=
2
1 2
1
exp
1 2
1
) , (
x
x
y x f
x
y x
(
(
(
|
|
\
|
+
|
|
\
|
|
|
\
|
2
2
y
y
y
y
x
x
y y
x
. (9)
X
Y
a
min
a
max
y=a+bx
2
1
6 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
n aceast formul reprezint coeficientul de corelaie. Domeniul de variaie este cuprins ntre 1 i
1, [ ] 1 , 1 + . Practic, gradul de dependen dintre cele dou variabile aleatoare este definit de acest
coeficient de corelaie (se noteaz cu ,,r cnd este determinat din datele reale conine o anumit eroare).
Dac =0, atunci nu exist dependen ntre cele dou variabile aleatoare, acestea fiind considerate
independente.
Calculnd densitatea de probabilitate obinem:
( )
( )
2
2
2
2
2
2
2
1
2
1
) , ( 0
y
y
x
x
y
y
x
x
e e y x f
= = ,
) ( ) ( ) , ( y f x f y x f = .
Interpretare
Dac 0 , atunci cele dou variabile aleatoare sunt dependente stocastic (aleator).
Pentru >0 spunem c cele dou variabile aleatoare sunt dependente direct proporional. Cu ct se
apropie de valoarea 1 cu att dependena este mai puternic.
Dac <0, atunci cele dou variabile aleatoare variaz invers proporional i legtura este cu att
mai puternic cu ct coeficientul de corelaie este mai apropiat de valoarea 1.
Practic, valoarea la ptrat a corelaiei calculate r
2
(amintim c se noteaz cu r deoarece este
determinat din datele reale, deci reprezint o aproximare) exprim procentul din variaia
variabilei Y ce poate fi explicat de variaia variabilei X. n analiza regresiei i corelaiei se
prezint aceast valoarea a coeficientului de determinare. Amintim formula de calcul din
analiza varianei:
SST
SSR
r =
2
.
Graficele de mai jos indic o legtur puternic, respectiv slab, ntre dou variabile aleatoare.
Figura 2.10 3 - Tipuri de legturi ntre seturi de date.
Calculul coeficientului de corelaie se realizeaz prin deducerea mediei produselor abaterilor
normate:
(
(
|
|
\
|
|
|
\
|
=
y
y
x
x
y
x
M
.
Prelucrnd formula precedent se ajunge la:
( ) ( )
( ) ( )
2
1
2
1
y i
n
i
x i
n
i
y i x i
y x
y x
=
=
.
Y Y
X
X
Legtur puternic Legtur slab
7 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
Aceast formul de calcul poate fi aplicat doar n cazul a dou variabile aleatoare repartizate normal.
Testarea coeficientului de corelaie
Este important s putem afla dac variaia cu ncredere de 95% a acestui coeficient cuprinde sau nu
valoarea nul. Cu alte cuvinte trebuie s rspundem la ntrebarea privind diferena semnificativ a
coeficientului de corelaie fa de valoarea nul.
tim c n orice experiment sau proces intervine factorul de tip aleator ce implic existena unei
variaii n valoarea indicatorilor statistici. Dorim s vedem dac aceast variaie implicit este depit n
cazul nostru, ceea ce ar indica existena real a unui efect pe care de fapt l cutm i l studiem.
Se demonstreaz c urmtoarea funcie respect o distribuie de tip t (Student):
2
1
2
r
n
r t
= . (10)
Verificm ipoteza nul H
0
: 0 prin distribuia menionat tiind c este caracterizat de n-2 grade
de libertate (n este numrul de date din eantion volumul eantionului).
Dac valoarea calculat p
calculat
este mai mic dect 5%, avem semnificaie statistic, deci coeficientul
de corelaie este diferit de 0 antrennd existena unei anumite relaii ntre variabile.
A doua metod de interpretare face apel efectiv la valoarea statisticii t calculate cu formula 10. Dac
aceast valoare este mai mare ca cea tabelat corespunztoare unui numr de grade de libertate n-1 i unei
ncrederi bilaterale de 95%, atunci avem semnificaie statistic.
Exemplu
Pentru datele a cror analiz ANOVA a fost prezentat anterior se obine r = 0,441 iar volumul
eantionului este n=16 valori.
Calculm valoarea statisticii t , 838 , 1
1945 , 0 1
2 16
441 , 0 =
= t .
Din datele tabelate ale statisticii t, pentru ncredere bilateral 95%, deci risc % 5 = i n-2=14 grade
de libertate obinem valoarea 145 , 2
14 ,
2
05 , 0
=
|
\
|
t .
Valoarea calculat 1,838 este mai mic dect cea tabelat 2,145 ceea ce denot c variaia ntlnit se
ncadreaz n domeniul acceptat, deci nu exist diferen semnificativ statistic. Cu alte cuvinte putem
afirma cu ncredere de 95% c valoarea coeficientului de corelaie poate fi nul. Aceasta nseamn c
relaia exprimat prin valoarea punctual r = 0,441 este rezultatul hazardului.
Observaii asupra regresiei liniare i corelaiei
Presupunem c avem dou seturi de date X: x
1
, x
2
, , x
n
respectiv Y: y
1
, y
2
, y
n
.
Calculnd regresia y = f(x) = a + bx obinem anumite valori pentru coeficienii a i b. Dac
extragem pe x funcie de y avem: y
b b
a
x +
=
1
. (11)
Calculnd regresia x = g(y) = a +by (12) i comparnd cu relaia (11) cele dou drepte pot sau nu
coincide.
Deducerea coeficienilor a,b, respectiv a, b difer substanial deoarece n primul caz s-a pus
condiia ca suma ptratelor erorilor pe direcia OY s fie minim iar n al doilea caz condiia a fost ca suma
ptratelor erorilor pe OX s fie minim.
Corelaia exprim tocmai aceast asemnare dintre cele dou drepte de regresie.
Notm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dac dreptele se suprapun atunci =1, iar dependena aleatoare devine determinist (unui punct pe x
i corespunde un singur punct pe y) i dreptele de regresie au alura primei bisectoare. Astfel, cunoscnd pe
x, putem determina pe y cu o precizie bun n funcie de datele din eantion.
8 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
Dac = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar dependena este invers
proporional. i n acest caz legtura este de tip determinist.
n general dreptele pot sau nu s se apropie mai mult sau mai puin demonstrnd dependena datelor.
Prezentm mai jos n patru grafice succesive cele relatate.
Figura 2.10 4 Tipuri de dependene ntre regresie i corelaie.
Dac valoarea coeficientului de corelaie este 0, atunci cele dou drepte fac un unghi de 90
0
(sunt
perpendiculare).
Este normal ca legtura dintre cele dou drepte s determine i semnul coeficientului de corelaie.
Dac din y=f(x) obinem o pant negativ atunci tot negativ va fi i panta obinut din calculul x=g(y) i
tot negativ va fi i coeficientul de corelaie (evident legtura rmne valabil i pentru cazul pantei
pozitive).
1.1. MODELE NELINIARE DE REGRESIE
n practica de zi cu zi se ntlnesc des cazuri n care legtura de tip liniar dintre dou variabile nu este
respectat i reprezint doar un aspect particular al realitii. Se impune astfel dezvoltarea de metode de
deducere a legturilor de tip neliniar existente ntre variabila de intrare notat x (numit i variabil
independent sau factor) i variabila y (numit i variabil dependent).
Prezentm n continuare cteva modele neliniare de interes pentru determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente fa de variabila x la puterea a doua, coninnd
eventual un termen liber i eventual un termen x la puterea nti.
Expresia matematic este: y = a + b x + c x
2
.
Folosind forma logaritmic putem avea urmtoarele exprimri :
y = a + b lg(x) + c (lg(x))
2
,
lg(y) = a + b x + c x
2
,
A , B
A B
Dependen determinist
direct proporional
=1 =1 =1 =1
=0,4 =0,4 =0,4 =0,4
Dependen stohastic
direct proporional
A B
A , B
=1 =1 =1 =1
=0,6 =0,6 =0,6 =0,6
Dependen determinist
invers proporional
Dependen stohastic
invers proporional
9 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
lg(y) = a + b lg(x) + c (lg(x))
2
.
Forma grafic a parabolei y = a + b x + c x
2
este prezentat n figura urmtoare.
Figura 2.11 1 - Regresii parabolice
Funcie de semnul parametrului de regresie c parabola prezint un punct de extrem. Dac c > 0
parabola prezint un punct de minim notat cu ,,m iar n cazul n care c < 0, punctul de extrem este un
maxim notat cu ,,M.
Calculul punctului de extrem este realizat din punct de vedere matematic prin condiia ca derivata
nti n raport cu variabila x s fie egal cu zero.
Interpretarea practic este important deoarece acest punct reprezint minimul sau maximul atins de
curba parabolic.
Determinarea coeficienilor a, b, c, de regresie se face asemntor regresiei liniare i exist multe
programe soft realizate pentru deducerea acestora (de exemplu, produsul Microsoft Excel - de mare
popularitate).
Menionm c parabola este un caz particular al polinomului de ordin n.
Modele hiperbolice
Exist modele n cadrul fenomenelor reale biologice care pot lua o form hiperbolic. Exprimarea
matematic este:
x
b
a y + = , pentru x > 0.
Graficul funciei depinde de semnul coeficientului b (ca i n celelalte cazuri). Pentru b < 0 avem
dependen cresctoare, curba tinznd asimptotic la valoarea a (y = a ) pentru x tinznd la infinit. Pentru
b > 0 avem dependen descresctoare i curba tinde asimptotic tot la valoarea a pentru x tinznd la
infinit.
Reprezentarea grafic a hiperbolei este realizat n figura urmtoare:
Figura 2.11 2 Regresii hiperbolice
Exist mai multe modele hiperbolice, dintre care menionm:
x
b x a
y
x
b
a
y
x b a
y
+
=
+
=
+
= ,
1
,
1
.
X
Y
M
m
0
C>0
C<0
X
Y
b>0
b<0
0
a
10 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
X
Y
A(0,a)
b>0
b<0
0
Model exponenial
Funcia de tip exponenial are forma matematic urmtoare:
( ) + =
, , x cu e a y
x b
.
Pentru x = 0 se obine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obine o curb cresctoare iar pentru coeficientul b < 0 se obine o curb
descresctoare.
Figura 2.11 3 Regresii de tip exponenial
Analiza de regresie multipl (analiza multivariat)
Legtura multipl reprezint o relaie matematic n care exist mai multe variabile factoriale sau
independente (independent, explanatory variable or covariates). Astfel, variabila dependent (sau
rspuns) poate fi exprimat matematic cu formula: + = ) (
i
x f y , cu i avnd valori de la 1 la n (n
reprezint numrul de variabile).
Sunt situaii n care nu se cunosc care variabile s se ia n consideraie n cadrul regresiei multiple.
Pentru a determina variabilele independente care au efect important asupra variabilei rezultative (y) se
calculeaz spre exemplu coeficientul de corelaie i se aleg apoi acele variabile ce corespund valorilor
maxime ale acestui coeficient. Exist i alte metode de analiz discriminant pentru alegerea variabilelor
factoriale de interes. Aceast alegere are un efect important asupra erorii sistemului, cci eliminnd o parte
din variabile, aproximarea sistemului este mai ,,grosolan .
Funcia f(x
i
) poate fi liniar, ceea ce reprezint cazul cel mai simplu sau dimpotriv, poate depinde
neliniar de variabilele de interes.
n cadrul unei legturi multiple liniare ecuaia este de forma:
y = a
0
+ a
1
x
1
+ a
2
x
2
+ + a
n
x
n
=
+ =
n
i
i i
x a a y
1
0
.
Fiecare coeficient ,,a
i
reprezint influena variabilei corespunztoare x
i
, iar a
0
(termenul liber)
reprezint influena celorlali factori, care sunt considerai ca o aciune constant.
Dac n coordonate bidimensionale regresia liniar este o dreapt, n coordonate n-dimensionale
regresia liniar va reprezenta o suprafa multidimensional ce trece prin punctul valorilor medii ale
variabilelor.
i n acest caz pentru aflarea coeficienilor ,,a
i
se aplic metoda celor mai mici ptrate (descris la
regresia liniar cu o singur variabil).
Pentru aceasta se calculeaz valoarea ateptat prin regresie
=
+ =
n
i
j
i i
j
x a a y
1
0
,
unde i reprezint numrul de variabile independente (i variaz de la 1 la n), iar j
11 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
reprezint numrul de date cunoscute deci volumul eantionului sau lotului (j variaz de la
1 la m).
Se definete eroarea
j j j
y y = , unde y
j
este valoarea real msurat sau cea din
eantion.
Se pune condiia ca suma ptratelor erorilor s fie minim prin egalarea cu zero a
derivatei de ordinul nti pentru fiecare coeficient n parte.
Parametrii de regresie a
0
, a
i
au aceeai interpretare dac variabilele sunt independente. Primul
parametru a
0
arat influena celorlali factori care nu sunt cuprini n ecuaie.
Ceilali parametri a
i
descriu variaia ieirii pentru creterea cu o uniate a variabilei x
i
i pstrarea
constant a celorlali factori.
Exemplu
Se prezent n continuare o metod liniar de estimare (predicie) a indicelui de rezisten a
muchiului respirator PEmax (cm H
2
O) n funcie de variabilele independente (predictoare), nlime (cm,
notat H) i greutate (kg, notat G).
PE max = a
0
+ a
1
H + a
2
G.
Prin calculul coeficienilor ,,a
i
se obine:
PE max = 47,36 + 0,146 H + 1,025 G.
Avnd aceast relaie prin msurarea nlimii i greutii unei persoane putem estima valoarea PE
max cu o eroare acceptabil.
Interaciuni ntre variabile
Acestea pot fi puse n eviden prin introducerea de termeni ce sunt egali cu produsul a dou
variabile. Iat un exemplu:
2 1 3 2 2 1 1 0
x x a x a x a a y + + + = .
Astfel, efectul pe care l are variabila x
1
depinde de prezena variabilei x
2
. Evident, interpretarea
coeficienilor de regresie este diferit tocmai datorit modificrilor existente (cunoscut n literatur cu
numele de effect modifications un factor influeneaz efectul altora).
De multe ori pentru a optimiza un model de regresie se pot introduce aceti termeni ce exprim
interaciunea dintre variabile.
Analiza ANOVA pentru validarea modelului multivariabil
Ca i n cazul liniar univariat se definesc urmtoarele deviaii:
Suma total a ptratelor deviaiilor: ( )
=
j
j
y y SST
2
.
Suma ptratelor erorilor (sau reziduurile): ( )
=
j
j j
y y SSE
2
.
Suma ptratelor deviaiilor de regresie: ( )
=
j
j
y y SSR
2
, unde j variaz de la 1 la m (m este
volumul eantionului).
Programele speciale de statistic vor produce tabelul urmtor:
12 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
Tabelul 2.11 1.
Sursa de
variaie
Suma
ptratelor
SS
Gradele de libertate
(df)
Media ptratelor Statistica Fisher Valoarea
semnificaiei p
Regresie SSR n (nr. de variabile
independente)
MSR = SSR / n F = MSR/MSE p
Eroare
(reziduu)
SSE m n 1 MSE = SSE /
( m n 1)
Total SST m 1 (m volumul
eantionului)
Se poate calcula de asemenea coeficientul de determinate
SST
SSR
R =
2
. Acesta nmulit cu 100 arat
procentul din variaia variabilei dependente explicat de factorii ce au fost inclui n calcul.
Cu ct valoarea SSR este mai mare cu att modelul explic mai bine variaiile ieirii.
Cu ct SSE este mai mic cu att erorile sunt mai mici i modelul propus este cu att mai bun.
Se calculeaz statistica Fisher i nivelul de semnificaie p.
Dac p este mai mic dect 0,05 (5%), deducem atunci c variaia explicat de model este mai mult
dect ntmpltoare, deci modelul este considerat drept unul bun iar nivelul de determinare este diferit de
0. Cu alte cuvinte, setul de factori reuesc s fac o predicie semnificativ asupra variabilei dependente.
Dac valoarea p este mai mare dect 5%, putem afirma c modelul nu este satisfctor i poate sunt
necesare i alte variabile ca factori de influen asupra ieirii.
Testarea semnificaiei unui singur factor dintre predictori
Se pune problema verificrii influenei asupra ntregului model a unui nou factor adugat. Dac
efectul este semnificativ statistic n predicia variabilei dependente, acest nou element va fi acceptat n
formula de calcul.
Ipoteza nul este: Noul factor x
i
, nu are efect asupra variabilei dependente fa de modelul fr x
i
.
Astfel, coeficientul a
i
poate fi considerat nul, deci ipoteza nul devine Ho: a
i
= 0.
Pentru aceasta se folosete statistica
( )
i
i
a SE
a
t
=
1
cota . Logaritmul natural din aceast cot definete funcia numit logit, folosit n regresie
logistic.
n regresia multipl liniar rezultatul final este o mrime continu pe un anumit interval, funcie de
domeniile de definiie ale variabilelor ,,x
i
. Proporia subiecilor cu o anumit caracteristic este o valoare
cuprins ntre 0 i 1. n concluzie ne trebuie o funcie matematic care s realizeze conversia din domeniul
[0,1], ntr-un interval de lungime maxim, n general de la (-, +). Aceasta este motivaia folosirii
funciei logit.
Formula de calcul este urmtoarea:
|
|
\
|
=
p
p
1
ln logit(p) , unde:
p reprezint probabilitatea realizrii evenimentului de interes.
1-p reprezint probabilitatea realizrii evenimentului opus.
Probabilitatea p, variaz ntre 0 i 1 iar funcia logit are codomeniul (- , + ).
Regresia logistic se bazeaz pe formula:
n n
x a x a a
p
p
p + + + =
|
|
\
|
= ....
1
ln ) ( logit
1 1 0
.
Coeficienii a
o
,,a
n
se deduc prin metode matematice specifice folosind un calcul laborios care se
realizeaz doar cu ajutorul computerului.
Dac exprimm probabilitatea p funcie de factorii x
i
, atunci avem:
) ,...x x , f(x
xi ai - exp 1
1
p
n 1 0
i
=
|
|
\
|
+
=
\
|
= = 1 ) Pr( , unde
j
m
C
j
m
=
|
|
\
|
sunt combinri de m luate cte j:
( )! !
!
j m j
m
j
m
=
|
|
\
|
; p este probabilitatea de realizare a evenimentului (este ). Aceasta se numete funcia
probabilitate de mas (probability mass function).
Variabila Y este caracterizat de medie i varian. Pentru cazul binomial avem: media= = m Y E ) (
iar variana este ( ) = 1 ) ( m Y Var .
Pentru determinarea coeficienilor se aplic metoda verosimilitii maxime (prezentat detaliat n
anex).
Funcia de verosimilitate (notat L) este produsul probabilitilor pentru toate elementele din
eantion.
=
=
n
i
yi L
1
) Pr( . Probabilitatea se calculeaz cu funcia probabilitate de mas n care p este funcia
logistic. Se pune condiia de maxim (derivata de ordinul nti egal cu 0) pentru verosimilitate maxim i
se ajunge la un sistem avnd ca necunoscute coeficienii de regresie a
0
, a
1
, ,a
n
.
Programele actuale de statistic deduc aceti coeficieni ce exprim legtura cutat.
Interpretarea coeficienilor n cazul regresiei logistice
innd cont de formula de calcul:
n n
x a x a a
p
p
p + + + =
|
|
\
|
= ....
1
ln ) ( logit
1 1 0
putem interpreta n prima form coeficienii de
regresie ai.
Vom presupune c modificm doar valoarea x
1
cu o unitate, deci 1
1
,
1
+ = x x . Pentru valoarea x
1
avem
probabilitatea p
1
iar pentru
,
1
x vom determina probabilitatea
,
1
p .
Se poate calcula
1 1
,
1
) ( logit ) ( logit a p p = , ceea ce nseamn c diferena logaritmilor cotelor pentru
o cretere cu 1 a variabilei x
i
reprezint coeficientul a
i
evident o interpretare greoaie !
16 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
Putem prelucra totui ultima formul prin exponeniere. Notm cota cu
1
C respectiv
`
1
C pentru x
1
respectiv
,
1
x (
p
p
C
=
1
).
Vom aplica exponeniala pentru
1
1
1
,
1
,
1
1
ln
1
ln a
p
p
p
p
=
|
|
\
|
|
|
\
|
.
Obinem: ) exp(
1
1
'
1
a
C
C
= . Interpretarea este evident. Exponeniala unui coeficient al regresiei
logistice reprezint raportul cotelor pentru cretere cu o unitate a valorii variabilei independente.
Exemplu
Se studiaz influena fumatului, a obezitii i a sforitului asupra hipertensiunii. Practic, problema se
rezum la a estima n prima etap prin regresie multipl logistic influena asupra cotei logaritmate (ln(C))
realizat de factorii fumat, obezitate i sforit.
Se deduc coeficienii de regresie conform formulei:
Logit (p) =
|
|
\
|
p
p
1
ln = 2,379 + 0,685 F + 0,694 O + 0,871 S , unde:
F - reprezint faptul c persoana fumeaz sau nu (poate fi 0 sau 1).
O - indic prezena obezitii (este variabil binar, poate fi 0 sau 1).
S - reprezint prezena sforitului (variabil binar, poate avea valorile 0 sau 1).
Dac comparm persoanele care fumeaz cu cele care nu fumeaz se ajunge la dou ecuaii. Una
dintre ecuaii se obine pentru F=1 iar cealalt pentru F=0.
Diferena: logit(p
fumtor
) logit(p
nefumtor
) = 0,685. Aplicnd funcia exponenial se obine:
98 , 1
) 1 (
) 1 (
=
=
fumator nefumator
nefumator fumator
nefumator
fumator
P P
P P
C
C
.
Acest rezultat reprezint numeric riscul de hipertensiune printre fumtori n raport cu nefumtorii
(riscul de a avea hipertensiune este de 1,98 ori mai mare la fumtori fa de nefumtori).
n final menionm c exist metode de verificare statistic a semnificaiei coeficienilor (metoda
Wald) ct i a ntregului model propus (metoda Chi ptrat). De asemenea, modelul de regresie poate fi pas
cu pas optimizat prin verificarea variabilelor independente introduse (cu nlnuire nainte sau napoi
conform procedurii prezentate la regresia multipl).