variabile nu semnific faptul c ntre acestea exist o relaie cauzal Asocierea nu nseamn dependen Stabilirea unei relaii cauzale n medicin este dificil Relaia trebuie s fie plauzibil, predictibil i repetabil i s prezinte un mecanism de interconectare dovedit RELAIE I ASOCIERE - exemplu Se analizeaz legatura dintre presiunea arterial sistolic (SBP) i indexul de mas corporal (BMI) Se presupune c ntre cele dou variabile exist o relaie de dependen liniar Relaia dintre variabile Relaia anterioar se poate prezenta sub forma general
X i Y sunt variabilele n cauz b 0 este coeficientul de intersecie, locul unde graficul taie axa y b1 este coeficientul de pant i este fie pozitiv fie negativ exemplu Se studiaz relaia dintre indexul de mas i circumferina oldurilor n cadrul unui studiu de cohort pentru un lot de 142 subieci de sex feminin
Se observ c reprezentarea scatter-plot relev faptul c punctele se grupeaz de-a lungul unui segment de dreapt
Regresia liniar Atunci cnd se estimeaz o dependen cauzal de tip liniar trebuie parcurse cteva etape pentru validarea estimrii 1.Se demonstreaz c relaia de dependen este liniar 2.Se identific b 0 coeficientul de intersecie i b 1
coeficientul de pant 3. Se determin dac relaia stabilit are semnificaie statistic Este dependena liniar ? Determinarea liniaritii dependenei,dou metode 1. grafic-scatterplot 2.analitic- metoda celor mai mici ptrate Variabila y este cea dependent, numit i rezultat i trebuie s fie metric Variabila x este cea independent, numit i predictor trebuie s fie nominal, ordinal sau metric
Estimarea coeficienilor b 0 i b 1
Se aplic metoda celor mai mici ptrate, conform creia suma ptratelor distanei de la fiecare punct al scatter-ului la dreapta de regresie este minim Distana de la punct la dreapta de regresie se numete eroare rezidual Dreapta de regresie astfel determinat aproximeaz cel mai bine norul de puncte obinut Dreapta de regresie a eantionului este descris de ecuaia
Dreapta de regresie estimat pentru ntreaga populaie este descris de ecuaia
Are ecuaia de regresie semnificaie statistic ? Dup determinarea coeficienilor b 0 i b 1 se trece la verificarea coeficienilor 0 i 1 prin 1. determinarea intervalului de ncredere pentru 1 ,care dac l conine pe zero conduce la absena semnificaiei statistice 2.se verific ipoteza de nul: coeficientul 1 este zero Dac factorul p este peste 0.05 ipoteza de nul se accept i rezult c ecuaia de regresie nu are semnificaie statistic Coeficientul b 1 i estimata lui 1 sunt definitorii pentru analiza de mai sus.Coeficientul b 0 nu este relevant n aceeai msur Regresia liniar multipl Stabilirea unei dependene liniare ntre mai mult de dou variabile conduce la regresia liniar multipl Spre exemplu dependena dintre indexul de mas corporal(BMI), circumferina oldurilor(HIP) i a taliei (WST). Cazul variabilelor nominale Dac variabilele implicate n analiza regresiei liniare nu sunt metrice sau ordinale se trece la codarea variabilei independente de tip nominal i apoi este introdus n model De exemplu la studierea presiunii arteriale sistolice (SBP) ca variabil dependent exist dou variabile independente alese i anume 1.vrsta AGE 2.statusul de fumtor SMK ce este o variabil nominal cu trei categorii A.nefumtor B.fost fumtor C. fumtor Pentru a introduce datele n calculator , variabila SMK trebuie codat prin atribuirea unui scor conform tabelului urmtor Cazul variabilelor nominale Ecuaia de regresie
Tabelul de codare
De unde ecuaia de regresie devine
Construcia modelului i selecia variabilelor n cercetarea medical se cere gsirea unor variabile care influeneaz variaia variabilei dependente Selecia variabilelor n cadrul cercetrii se face: 1.automat,cu calculatorul 2.n regim manual Ambele proceduri au iniial pai comuni, astfel: A.identificarea unei liste de variabile independente B. reprezentarea scatterplot pentru fiecare pereche de variabile i identificarea gruprii punctelor -liniar sau nu.Daca exist dependen, dar nu este liniar se trece la codarea variabilei i se reia reprezentarea.De exemplu relaia dintre vrst i variabila dependent e puternic ,dar neliniar.Se mparte domeniul vrstelor n 4 intervale i se codific prin 3 variabile de proiect. C.se determin regresia pentru perechile de variabile i se calculeaz factorul p D.toate variabilele pentru care p > 0,2 sunt incluse n model. Construcia modelului i selecia variabilelor Metoda manual de selecie a variabilelor continu pe dou ci alternative 1.selectarea regresiv a variabilelor ncepe cu selectarea tuturor variabilelor vizate.Se calculeaz p pentru fiecare variabil, iar cele pentru care p>0,05 se elimin ncepnd cu valoarea maxim.Se reia procedura pentru variabilele ramase.n cadrul modelului rmn doar variabilele cu p< 0,05.Dac prin eliminarea unei variabile p-ul celorlalte variabile se modific major, atunci se renun la eliminarea variabilei n cauz 2.selectarea progresiv a variabilelor Se introduce prima variabil n model i apoi pe rnd cte una din celelalte variabile.Se calculeaz de fiecare dat p.Dac noua variabil introdus nu are semnificaie statistic, se elimin.Dac prin eliminarea unei variabile p-ul celorlalte variabile se modific major, atunci se renun la eliminarea variabilei n cauz
Regresia logistic n cercetarea medical apar frecvent variabile binare,dihotomice , de tipul: femeie-brbat,mort-viu,fumtor-nefumtor sau variabile de alt tip ce pot s devin dihotomice ( masa corporal la natere prin divizarea irului n dou sub iruri,scorul Apgar prin divizare de genul mai mic de N i mai mare de N) Exemplu: se studiaz cancerul mamar/stres prin investigarea relaiei dintre variabila independent vrst i cea dependent diagnostic Diagnosticul este o variabil binar de forma Y=1 (malign) i Y=0 (benign) Prin plotarea variabilei diagnostic n raport cu variabila vrst se obine un scatterplot cu aspectul urmtor Regresia logistic
Variabilitatea mare de vrst n grupul cu diagnostic malign i cel benign mascheaz diferena dintre grupuri.Dac se grupeaz vrstele n intervale 40-49,50-59 etc i se calculeaz proporia de diagnostice maligne Y=1 n cadrul fiecrei grupe de vrst se reduce variabilitatea,dar se conserv relaia dintre variabile. Regresia logistic Proporia pentru Y=1 se noteaz P(Y=1 ) ce reprezint probabilitatea ca Y=1 Media variabilelor Y utilizat n cazul regresiei liniare se nlocuiete pentru variabilele binare cu probabilitatea P, de exemplu ca Y=1 Dac se reprezint probabilitile ca Y=1 pentru mijloacele intervalelor de vrst, se obine scatterplot-ul din imagine
Se observ c exist o relaie ntre variabile
Regresia logaritmic Pentru c probabilitatea 0<P<1 , pentru a descrie relaia dintre variabile care nu este n mod clar liniar se apeleaz la regresia logaritmic Pentru o populaie simpl(o singur variabil independent) ecuaia regresiei logaritmice este
Pentru un eantion ecuaia regresiei logaritmice este Exemplu de aplicare a regresiei logistice Se studiaz dependena dintre utilizarea substanei OCP i cancer.Diagnosticul este dat de Y=1 (malign) i Y=0 (benign) Se scrie ecuaia regresiei logistice pentru eantion unde utilizarea OCP este factorul de risc
Prin estimarea valorii parametrilor b 0 i b 1 se obin valorile b 0 =-0,2877 i b 1
=-0,9507 .Prin nlocuirea valorilor n ecuaia regresiei logistice se obin Pentru OCP=0 (substana nu s-a utilizat niciodat) P(Y=1 )=0,4286 Pentru OCP=1 (s-a utilizat substana ) P(Y=1 )=0,2247 n concluzie subiecii care NU au utilizat OCP au probabilitate aproape dubl s obin un diagnostic malign. Raportul anselor Avantajul regresiei logistice este acela c permite acces rapid la raportul anselor
n exemplul anterior diagnostic versus OCP raportul anselor de diagnostic malign pentru subiecii care nu utilizeaz OCP i cei care utilizeaz OCP este
Concluziile au semnificaie statistic dac intervalul de ncredere pentru raportul anselor nu l conine pe 1 sau dac p<0,05
Generarea modelului regresiei logistice 1.Se ntocmete lista variabilelor 2.Pentru fiecare variabil nominal sau ordinal se efectueaz testul 2
,se determin valoarea p Pentru orice variabil metric se efectueaz testul T pereche sau regresia logaritmic, se determin valoarea p Se rein variabilele cu p<0,25, iar variabila cu p minim se alege variabila independent Se adaug apoi variabilele, una cte una, i se verific p pentru a determina semnificaia statistic.Dac orice variabil introdus nu are semnificaie statistic se renun la aceasta