Sunteți pe pagina 1din 21

RELAIE I ASOCIERE

Anterior s-a subliniat faptul c asocierea a dou

variabile nu semnific faptul c ntre acestea exist o relaie cauzal Asocierea nu nseamn dependen Stabilirea unei relaii cauzale n medicin este dificil Relaia trebuie s fie plauzibil, predictibil i repetabil i s prezinte un mecanism de interconectare dovedit

RELAIE I ASOCIERE - exemplu


Se analizeaz legatura dintre presiunea arterial sistolic (SBP) i

indexul de mas corporal (BMI) Se presupune c ntre cele dou variabile exist o relaie de dependen liniar

Relaia dintre variabile


Relaia anterioar se poate prezenta sub forma

general
X i Y sunt variabilele n cauz b0 este coeficientul de intersecie, locul unde graficul

taie axa y b1 este coeficientul de pant i este fie pozitiv fie negativ

exemplu
Se studiaz relaia dintre indexul de mas i circumferina oldurilor n cadrul unui studiu de cohort pentru un lot de 142 subieci de sex feminin

Se observ c reprezentarea scatter-plot relev faptul c punctele se grupeaz de-a lungul unui segment de dreapt

Regresia liniar
Atunci cnd se estimeaz o dependen cauzal de tip

liniar trebuie parcurse cteva etape pentru validarea estimrii 1.Se demonstreaz c relaia de dependen este liniar 2.Se identific b0 coeficientul de intersecie i b1 coeficientul de pant 3. Se determin dac relaia stabilit are semnificaie statistic

Este dependena liniar ?

Determinarea liniaritii dependenei,dou metode


1. grafic-scatterplot 2.analitic- metoda celor mai mici ptrate Variabila y este cea dependent, numit i rezultat i

trebuie s fie metric Variabila x este cea independent, numit i predictor trebuie s fie nominal, ordinal sau metric

Estimarea coeficienilor b0 i b1
Se aplic metoda celor mai mici ptrate, conform creia suma

ptratelor distanei de la fiecare punct al scatter-ului la dreapta de regresie este minim Distana de la punct la dreapta de regresie se numete eroare rezidual Dreapta de regresie astfel determinat aproximeaz cel mai bine norul de puncte obinut Dreapta de regresie a eantionului este descris de ecuaia
Dreapta de regresie estimat pentru ntreaga populaie este descris de

ecuaia

Are ecuaia de regresie semnificaie statistic ?


Dup determinarea coeficienilor b0 i b1 se trece la verificarea

coeficienilor 0 i 1 prin 1. determinarea intervalului de ncredere pentru 1 ,care dac l conine pe zero conduce la absena semnificaiei statistice 2.se verific ipoteza de nul: coeficientul 1 este zero Dac factorul p este peste 0.05 ipoteza de nul se accept i rezult c ecuaia de regresie nu are semnificaie statistic Coeficientul b1 i estimata lui 1 sunt definitorii pentru analiza de mai sus.Coeficientul b0 nu este relevant n aceeai msur

Regresia liniar multipl


Stabilirea unei dependene liniare ntre mai mult de dou variabile conduce la regresia liniar multipl Spre exemplu dependena dintre indexul de mas corporal(BMI), circumferina oldurilor(HIP) i a taliei (WST).

Cazul variabilelor nominale


Dac variabilele implicate n analiza regresiei liniare nu sunt metrice sau ordinale se trece la codarea variabilei independente de tip nominal i apoi este introdus n model De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabil dependent exist dou variabile independente alese i anume 1.vrsta AGE 2.statusul de fumtor SMK ce este o variabil nominal cu trei categorii A.nefumtor B.fost fumtor C. fumtor

Pentru a introduce datele n calculator , variabila SMK trebuie codat prin atribuirea unui scor conform tabelului urmtor

Cazul variabilelor nominale


Ecuaia de regresie Tabelul de codare

De unde ecuaia de regresie devine

Construcia modelului i selecia variabilelor


n cercetarea medical se cere gsirea unor variabile care influeneaz variaia variabilei dependente Selecia variabilelor n cadrul cercetrii se face: 1.automat,cu calculatorul 2.n regim manual

Ambele proceduri au iniial pai comuni, astfel:


A.identificarea unei liste de variabile independente B. reprezentarea scatterplot pentru fiecare pereche de variabile i identificarea gruprii punctelor -liniar sau nu.Daca exist dependen, dar nu este liniar se trece la codarea variabilei i se reia reprezentarea.De exemplu relaia dintre

vrst i variabila dependent e puternic ,dar neliniar.Se mparte domeniul vrstelor n 4 intervale i se codific prin 3 variabile de proiect. C.se determin regresia pentru perechile de variabile i se calculeaz factorul p D.toate variabilele pentru care p > 0,2 sunt incluse n model.

Construcia modelului i selecia variabilelor


Metoda manual de selecie a variabilelor continu pe dou ci alternative 1.selectarea regresiv a variabilelor ncepe cu selectarea tuturor variabilelor vizate.Se calculeaz p pentru fiecare variabil, iar cele pentru care p>0,05 se elimin ncepnd cu valoarea maxim.Se reia procedura pentru variabilele ramase.n cadrul modelului rmn doar variabilele cu p< 0,05.Dac prin eliminarea unei variabile p-ul celorlalte variabile se modific major, atunci se renun la eliminarea variabilei n cauz 2.selectarea progresiv a variabilelor Se introduce prima variabil n model i apoi pe rnd cte una din celelalte

variabile.Se calculeaz de fiecare dat p.Dac noua variabil introdus nu are semnificaie statistic, se elimin.Dac prin eliminarea unei variabile p-ul celorlalte variabile se modific major, atunci se renun la eliminarea variabilei n cauz

Regresia logistic
n cercetarea medical apar frecvent variabile binare,dihotomice , de

tipul: femeie-brbat,mort-viu,fumtor-nefumtor sau variabile de alt tip ce pot s devin dihotomice ( masa corporal la natere prin divizarea irului n dou sub iruri,scorul Apgar prin divizare de genul mai mic de N i mai mare de N) Exemplu: se studiaz cancerul mamar/stres prin investigarea relaiei dintre variabila independent vrst i cea dependent diagnostic Diagnosticul este o variabil binar de forma Y=1 (malign) i Y=0 (benign) Prin plotarea variabilei diagnostic n raport cu variabila vrst se obine un scatterplot cu aspectul urmtor

Regresia logistic

Variabilitatea mare de vrst n grupul cu diagnostic malign i cel benign mascheaz diferena dintre grupuri.Dac se grupeaz vrstele n intervale 40-49,50-59 etc i se calculeaz proporia de diagnostice maligne Y=1 n cadrul fiecrei grupe de vrst se reduce variabilitatea,dar se conserv relaia dintre variabile.

Regresia logistic
Proporia pentru Y=1 se noteaz P(Y=1 ) ce reprezint probabilitatea ca Y=1 Media variabilelor Y utilizat n cazul regresiei liniare se nlocuiete pentru variabilele binare cu probabilitatea P, de exemplu ca Y=1 Dac se reprezint probabilitile ca Y=1 pentru mijloacele intervalelor de vrst, se obine scatterplot-ul din imagine

Se observ c exist o relaie ntre variabile

Regresia logaritmic
Pentru c probabilitatea 0<P<1 , pentru a descrie relaia dintre variabile

care nu este n mod clar liniar se apeleaz la regresia logaritmic Pentru o populaie simpl(o singur variabil independent) ecuaia regresiei logaritmice este

Pentru un eantion ecuaia regresiei logaritmice este

Exemplu de aplicare a regresiei logistice


Se studiaz dependena dintre utilizarea substanei OCP i cancer.Diagnosticul este dat de Y=1 (malign) i Y=0 (benign) Se scrie ecuaia regresiei logistice pentru eantion unde utilizarea OCP este factorul de risc Prin estimarea valorii parametrilor b0 i b1 se obin valorile b0 =-0,2877 i b1 =-0,9507 .Prin nlocuirea valorilor n ecuaia regresiei logistice se obin Pentru OCP=0 (substana nu s-a utilizat niciodat) P(Y=1 )=0,4286 Pentru OCP=1 (s-a utilizat substana ) P(Y=1 )=0,2247

n concluzie subiecii care NU au utilizat OCP au probabilitate aproape dubl s obin un diagnostic malign.

Raportul anselor
Avantajul regresiei logistice este acela c permite acces rapid la raportul anselor n exemplul anterior diagnostic versus OCP raportul anselor de diagnostic malign pentru subiecii care nu utilizeaz OCP i cei care utilizeaz OCP este

Concluziile au semnificaie statistic dac intervalul de ncredere pentru raportul anselor nu l conine pe 1 sau dac p<0,05

Generarea modelului regresiei logistice


1.Se ntocmete lista variabilelor 2.Pentru fiecare variabil nominal sau ordinal se efectueaz testul 2

,se determin valoarea p Pentru orice variabil metric se efectueaz testul T pereche sau regresia logaritmic, se determin valoarea p Se rein variabilele cu p<0,25, iar variabila cu p minim se alege variabila independent Se adaug apoi variabilele, una cte una, i se verific p pentru a determina semnificaia statistic.Dac orice variabil introdus nu are semnificaie statistic se renun la aceasta