Sunteți pe pagina 1din 21

RELAIE I ASOCIERE

Anterior s-a subliniat faptul c asocierea a dou


variabile nu semnific faptul c ntre acestea exist o
relaie cauzal
Asocierea nu nseamn dependen
Stabilirea unei relaii cauzale n medicin este dificil
Relaia trebuie s fie plauzibil, predictibil i
repetabil i s prezinte un mecanism de
interconectare dovedit
RELAIE I ASOCIERE - exemplu
Se analizeaz legatura dintre presiunea arterial sistolic (SBP) i
indexul de mas corporal (BMI)
Se presupune c ntre cele dou variabile exist o relaie de dependen
liniar
Relaia dintre variabile
Relaia anterioar se poate prezenta sub forma
general

X i Y sunt variabilele n cauz
b
0
este coeficientul de intersecie, locul unde graficul
taie axa y
b1 este coeficientul de pant i este fie pozitiv fie
negativ
exemplu
Se studiaz relaia dintre indexul de mas i circumferina oldurilor n cadrul
unui studiu de cohort pentru un lot de 142 subieci de sex feminin








Se observ c reprezentarea scatter-plot relev faptul c punctele se grupeaz
de-a lungul unui segment de dreapt









Regresia liniar
Atunci cnd se estimeaz o dependen cauzal de tip
liniar trebuie parcurse cteva etape pentru validarea
estimrii
1.Se demonstreaz c relaia de dependen este liniar
2.Se identific b
0
coeficientul de intersecie i b
1

coeficientul de pant
3. Se determin dac relaia stabilit are semnificaie
statistic
Este dependena liniar ?
Determinarea liniaritii dependenei,dou metode
1. grafic-scatterplot
2.analitic- metoda celor mai mici ptrate
Variabila y este cea dependent, numit i rezultat i
trebuie s fie metric
Variabila x este cea independent, numit i predictor
trebuie s fie nominal, ordinal sau metric

Estimarea coeficienilor b
0
i b
1

Se aplic metoda celor mai mici ptrate, conform creia suma
ptratelor distanei de la fiecare punct al scatter-ului la dreapta de
regresie este minim
Distana de la punct la dreapta de regresie se numete eroare rezidual
Dreapta de regresie astfel determinat aproximeaz cel mai bine norul
de puncte obinut
Dreapta de regresie a eantionului este descris de ecuaia

Dreapta de regresie estimat pentru ntreaga populaie este descris de
ecuaia



Are ecuaia de regresie semnificaie statistic ?
Dup determinarea coeficienilor b
0
i b
1
se trece la verificarea
coeficienilor
0
i
1
prin
1. determinarea intervalului de ncredere pentru
1
,care dac l conine
pe zero conduce la absena semnificaiei statistice
2.se verific ipoteza de nul: coeficientul
1
este zero
Dac factorul p este peste 0.05 ipoteza de nul se accept i rezult c
ecuaia de regresie nu are semnificaie statistic
Coeficientul b
1
i estimata lui
1
sunt definitorii pentru analiza de mai
sus.Coeficientul b
0
nu este relevant n aceeai msur
Regresia liniar multipl
Stabilirea unei dependene liniare ntre mai mult de dou variabile conduce la
regresia liniar multipl
Spre exemplu dependena dintre indexul de mas corporal(BMI),
circumferina oldurilor(HIP) i a taliei (WST).
Cazul variabilelor nominale
Dac variabilele implicate n analiza regresiei liniare nu sunt metrice sau
ordinale se trece la codarea variabilei independente de tip nominal i apoi este
introdus n model
De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabil
dependent exist dou variabile independente alese i anume
1.vrsta AGE
2.statusul de fumtor SMK ce este o variabil nominal cu trei categorii
A.nefumtor
B.fost fumtor
C. fumtor
Pentru a introduce datele n calculator , variabila SMK trebuie codat prin
atribuirea unui scor conform tabelului urmtor
Cazul variabilelor nominale
Ecuaia de regresie

Tabelul de codare





De unde ecuaia de regresie devine

Construcia modelului i selecia variabilelor
n cercetarea medical se cere gsirea unor variabile care influeneaz variaia
variabilei dependente
Selecia variabilelor n cadrul cercetrii se face:
1.automat,cu calculatorul
2.n regim manual
Ambele proceduri au iniial pai comuni, astfel:
A.identificarea unei liste de variabile independente
B. reprezentarea scatterplot pentru fiecare pereche de variabile i identificarea
gruprii punctelor -liniar sau nu.Daca exist dependen, dar nu este liniar se
trece la codarea variabilei i se reia reprezentarea.De exemplu relaia dintre
vrst i variabila dependent e puternic ,dar neliniar.Se mparte domeniul
vrstelor n 4 intervale i se codific prin 3 variabile de proiect.
C.se determin regresia pentru perechile de variabile i se calculeaz factorul p
D.toate variabilele pentru care p > 0,2 sunt incluse n model.
Construcia modelului i selecia variabilelor
Metoda manual de selecie a variabilelor continu pe dou ci alternative
1.selectarea regresiv a variabilelor
ncepe cu selectarea tuturor variabilelor vizate.Se calculeaz p pentru fiecare
variabil, iar cele pentru care p>0,05 se elimin ncepnd cu valoarea
maxim.Se reia procedura pentru variabilele ramase.n cadrul modelului
rmn doar variabilele cu p< 0,05.Dac prin eliminarea unei variabile p-ul
celorlalte variabile se modific major, atunci se renun la eliminarea variabilei
n cauz
2.selectarea progresiv a variabilelor
Se introduce prima variabil n model i apoi pe rnd cte una din celelalte
variabile.Se calculeaz de fiecare dat p.Dac noua variabil introdus nu are
semnificaie statistic, se elimin.Dac prin eliminarea unei variabile p-ul
celorlalte variabile se modific major, atunci se renun la eliminarea variabilei
n cauz


Regresia logistic
n cercetarea medical apar frecvent variabile binare,dihotomice , de
tipul: femeie-brbat,mort-viu,fumtor-nefumtor sau variabile de alt
tip ce pot s devin dihotomice ( masa corporal la natere prin
divizarea irului n dou sub iruri,scorul Apgar prin divizare de genul
mai mic de N i mai mare de N)
Exemplu: se studiaz cancerul mamar/stres prin investigarea relaiei
dintre variabila independent vrst i cea dependent diagnostic
Diagnosticul este o variabil binar de forma Y=1 (malign) i Y=0
(benign)
Prin plotarea variabilei diagnostic n raport cu variabila vrst se obine
un scatterplot cu aspectul urmtor
Regresia logistic





Variabilitatea mare de vrst n grupul cu diagnostic malign i cel benign mascheaz diferena dintre
grupuri.Dac se grupeaz vrstele n intervale 40-49,50-59 etc i se calculeaz proporia de
diagnostice maligne Y=1 n cadrul fiecrei grupe de vrst se reduce variabilitatea,dar se conserv
relaia dintre variabile.
Regresia logistic
Proporia pentru Y=1 se noteaz P(Y=1 ) ce reprezint probabilitatea ca Y=1
Media variabilelor Y utilizat n cazul regresiei liniare se nlocuiete pentru
variabilele binare cu probabilitatea P, de exemplu ca Y=1
Dac se reprezint probabilitile ca Y=1 pentru mijloacele intervalelor de
vrst, se obine scatterplot-ul din imagine







Se observ c exist o relaie ntre variabile










Regresia logaritmic
Pentru c probabilitatea 0<P<1 , pentru a descrie relaia dintre variabile
care nu este n mod clar liniar se apeleaz la regresia logaritmic
Pentru o populaie simpl(o singur variabil independent) ecuaia
regresiei logaritmice este


Pentru un eantion ecuaia regresiei logaritmice este
Exemplu de aplicare a regresiei logistice
Se studiaz dependena dintre utilizarea substanei OCP i cancer.Diagnosticul
este dat de Y=1 (malign) i Y=0 (benign)
Se scrie ecuaia regresiei logistice pentru eantion unde utilizarea OCP este
factorul de risc


Prin estimarea valorii parametrilor b
0
i b
1
se obin valorile b
0
=-0,2877 i b
1

=-0,9507 .Prin nlocuirea valorilor n ecuaia regresiei logistice se obin
Pentru OCP=0 (substana nu s-a utilizat niciodat) P(Y=1 )=0,4286
Pentru OCP=1 (s-a utilizat substana ) P(Y=1 )=0,2247
n concluzie subiecii care NU au utilizat OCP au probabilitate aproape dubl
s obin un diagnostic malign.
Raportul anselor
Avantajul regresiei logistice este acela c permite acces rapid la raportul
anselor

n exemplul anterior diagnostic versus OCP raportul anselor de diagnostic
malign pentru subiecii care nu utilizeaz OCP i cei care utilizeaz OCP este


Concluziile au semnificaie statistic dac intervalul de ncredere pentru
raportul anselor nu l conine pe 1 sau dac p<0,05

Generarea modelului regresiei logistice
1.Se ntocmete lista variabilelor
2.Pentru fiecare variabil nominal sau ordinal se efectueaz testul
2

,se determin valoarea p
Pentru orice variabil metric se efectueaz testul T pereche sau
regresia logaritmic, se determin valoarea p
Se rein variabilele cu p<0,25, iar variabila cu p minim se alege variabila
independent
Se adaug apoi variabilele, una cte una, i se verific p pentru a
determina semnificaia statistic.Dac orice variabil introdus nu are
semnificaie statistic se renun la aceasta

S-ar putea să vă placă și