Sunteți pe pagina 1din 65

Analiza de corelaie i

regresie
Analiza de corelaie i regresie
Corelaie
Regresia liniar simpl
Variabile predictor binare
Regresia liniar multipl
Regresie curbilinie
Variabile rezultat binare i regresia logistic
Dimensiunea eantionului
Tipuri de regresie
Corelaie
Ex: Datele referitoare la rezisten (fora muscular) i nlime
pentru 41 de brbai alcoolici (Hickish et al., 1989).
Diagrama de corelaie (scatter):
Fora muscular (newtoni)

Hickish T, Colston K,
Bland JM, Maxwell
JD. (1989) Vitamin D
deficiency and muscle
(rezistena)

strength in male
alcoholics. Clinical
Science 77, 171-176.

nlimea (cm)
Ct de potrivit este relaia?
Corelaia: msoar ct de potrivit este relaia liniar.
Coeficient de corelaie
Vom calcula abaterile scznd media din fiecare observaie i
vom nmuli aceste abateri pentru cele dou variabile
corespunztoare unui subiect.
Fora mucular (newtoni)
Media nlimii
(rezistena)

Media
rezistenei

nlimea (cm)
Vom nsuma produsele de abateri pentru toi subiecii (sum de
produse n jurul mediei).
Coeficient de corelaie
Vom calcula abaterile scznd media din fiecare observaie i
vom nmuli aceste abateri pentru cele dou variabile
corespunztoare unui subiect apoi vom nsuma produsele de
abateri.
Fora mucular (newtoni)
nlimii Media
(rezistena)

Media
rezistenei

nlimea (cm)
Produsele observaiilor din cadranele dreapta sus i stnga jos sunt
pozitive.
Coeficient de corelaie
Vom calcula abaterile scznd media din fiecare observaie i
vom nmuli aceste abateri pentru cele dou variabile
corespunztoare unui subiect. apoi vom nsuma produsele de
abateri.
Fora mucular (newtoni)
nlimii Media
(rezistena)

Media
rezistenei

nlimea (cm)
Produsele observaiilor din cadranele dreapta sus i stnga jos sunt
pozitive. Produsele observaiilor din cadranele dreapta jos i
stnga sus sunt negative.
Coeficient de corelaie
Vom calcula abaterile scznd media din fiecare observaie i
vom nmuli aceste abateri pentru cele dou variabile
corespunztoare unui subiect. apoi vom nsuma produsele de
abateri.
Fora mucular (newtoni)
nlimii Media
(rezistena)

Media
rezistenei

nlimea (cm)
Suma de produse este pozitiv.
Corelaia este pozitiv.
Coeficient de corelaie
Ex: datele referitoare la rezisten (fora muscular) i vrsta
pentru 41 de brbai alcoolici (Hickish et al., 1989).
Diagrama de corelaie (scatter):
Fora mucular (newtoni)
(rezistena)

Vrsta (ani)
Coeficient de corelaie
Ex: datele referitoare la rezisten (fora muscular) i vrsta
pentru 41 de brbai alcoolici.
Diagrama de corelaie (scatter):
Fora mucular (newtoni)

Media vrstei
(rezistena)

Media
rezistenei

Vrsta (ani)

Suma de produse este negativ.


Corelaia este negativ.
Coeficient de corelaie
Se mparte suma de produse prin produsul celor dou rdcini
ptrate extrase din sumele de ptrate de abateri (care corespund
fiecrei variabile).
Astfel se obine coeficientul de corelaie care de obicei este
notat cu r.
Valoarea minim = -1.00.
Valoarea maxim = 1.00.
Este cunoscut i sub numele de
coeficient de corelaie Pearson
coeficient de corelaie al produselor momentelor.
Coeficient de corelaie
Se mparte suma de produse prin produsul celor dou rdcini
ptrate extrase din sumele de ptrate de abateri (care corespund
fiecrei variabile).
Astfel se obine coeficientul de corelaie care de obicei este
notat cu r.
Valoarea minim = -1.00. Valoarea maxim = 1.00.
Fora mucular (newtoni)
(rezistena)

nlimea (cm)
Coeficient de corelaie
Se mparte suma de produse prin produsul celor dou rdcini
ptrate extrase din sumele de ptrate de abateri (care corespund
fiecrei variabile).
Astfel se obine coeficientul de corelaie care de obicei este
notat cu r.
Valoarea minim = -1.00. Valoarea maxim = 1.00.
Fora mucular (newtoni)

r = 0.42.
(rezistena)

Corelaia este pozitiv i


destul de sczut.

nlimea (cm)
Coeficient de corelaie
Se mparte suma de produse prin produsul celor dou rdcini
ptrate extrase din sumele de ptrate de abateri (care corespund
fiecrei variabile).
Astfel se obine coeficientul de corelaie care de obicei este
notat cu r.
Valoarea minim = -1.00. Valoarea maxim = 1.00.
Fora mucular (newtoni)

r = - 0.42.
(rezistena)

Corelaia este negativ i


destul de sczut.

Vrsta (ani)
Coeficient de corelaie
Corelaia este pozitiv cnd valori mari ale unei variabile se
asociaz cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelaie
Corelaia este pozitiv cnd valori mari ale unei variabile se
asociaz cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelaie
Corelaia este negativ cnd valori mari ale unei variabile se
asociaz cu valori mici ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelaie
Corelaia este negativ cnd valori mari ale unei variabile se
asociaz cu valori mici ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelaie
r = +1.00 cnd valori mari ale unei variabile sunt asociate cu
valori mari pentru cealalt variabil i punctele se afl exact pe o
linie dreapt.
Variabila Y

Variabila X
Coeficient de corelaie
r = -1.00 cnd valori mari ale unei variabile sunt asociate cu
valori mici pentru cealalt variabil i punctele se afl exact pe o
linie dreapt.
Variabila Y

Variabila X
Coeficient de corelaie
r nu va fi egal cu -1.00 sau +1.00 n cazul n care avem o relaie
perfect ci doar dac punctele se afl exact pe o linie dreapt.
Variabila Y

Variabila X
Coeficient de corelaie
r = 0.00 n cazul n care nu avem o relaie liniar.
Variabila Y

Variabila X
Coeficient de corelaie
Este posibil ca r = 0.00 n cazul n care avem o relaie aproape
perfect ns aceasta nu este liniar.
Variabila Y

Variabila X
Teste pentru coeficientul de corelaie
Putem testa ipoteza nul care stabilete c coeficientul de
corelaie n populaie este zero.
Aceasta se poate face printr-un test t simplu.
Presupunere: observaiile sunt independente i cel puin una
dintre variabilele urmeaz o distribuie normal.
Abateri mari de la aceste presupuneri fac ca valoarea p pentru
acest test s fie foarte instabil.
Fora mucular (newtoni)

r = 0.42. p = 0.006.
Programele de analiz statistic
(rezistena)

dau valoarea p n momentul n care


raporteaz un coeficient de
corelaie.
nlimea (cm)
Teste pentru coeficientul de corelaie
Se poate calcula un interval de ncredere pentru coeficientul de
corelaie n populaie.
Se folosete transformarea Z a lui Fisher.
Presupunere: ambele variabile urmeaz distribuii normale.
Abateri mari de la aceste presupuneri fac ca valoarea p pentru
acest test s fie foarte instabil.
r = 0.42. p = 0.006.
Fora mucular (newtoni)

95% CI aproximativ: (0.13, 0.64).


Programele de analiz statistic
(rezistena)

dau rar un astfel de interval de


ncredere!

nlimea (cm)
Regresia liniar simpl
Ex: Indicele de masa corporal (BMI) i circumferina
abdominal (CA) la 86 femei (Malcolm Savage)

BMI(kg/m2)

Circumferin abdominal CA (cm)


Ce este o relaie?
Regresia: Putem prezice BMI cu ajutorul CA?
Regresia liniar simpl
Ex: Indicele de masa corporal (BMI) i circumferina
abdominal (CA) la 86 femei (Malcolm Savage).
Ce este o relaie?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a indicelui de masa corporal
(BMI) pentru o femeie pentru orice valoare observat a
circumferinei abdominale (CA) ?
Regresia liniar simpl
Ex: Indicele de masa corporal (BMI) i circumferina
abdominal (CA) la 86 femei (Malcolm Savage).
Ce este o relaie?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a BMI-ului pentru o femeie
pentru orice valoare observat a CA?
BMI este rezultatul, variabila dependent, Y, sau variabila
din partea stng.
CA este predictorul, variabila explicativ, variabila
independent, x, sau variabila din partea dreapt.
Regresia liniar simpl
Ex: Indicele de masa corporal (BMI) i circumferina
abdominal (CA) la 86 femei (Malcolm Savage).
Ce este o relaie?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a indicelui de masa corporal
(BMI) pentru o femeie pentru orice valoare observat a
circumferinei abdominale (CA) ??
Relaia liniar:
BMI = intercept + panta CA
Relaia estimat se numete liniar deoarece reprezentarea
sa grafic este o linie sau mai bine-zis o dreapt.
Regresia liniar simpl
Care este linia pe care trebuie s o alegem?

BMI(kg/m2)

Circumferin abdominal CA (cm)


Regresia liniar simpl
Care este linia pe care trebuie s o alegem?

BMI(kg/m2)

Circumferin abdominal CA (cm)


Criteriu: se aleage linia care face ca distana de la puncte de la
linie n direcia lui y s fie la nivel minim. Aceste distane sunt
diferenele ntre valorile BMI observate i valorile BMI prezise
de linie.
Regresia liniar simpl
Care este linia pe care trebuie s o alegem?

BMI(kg/m2)

Circumferin abdominal CA (cm)


Vom alege linia pentru care se va obine minimul sumei de
ptrate ale acestor diferene. Metoda este cunoscut sub
numele de principiu celor mai mici ptrate iar estimrile
obinute ca linia sau ecuaia celor mai mici ptate.
Regresia liniar simpl
BMI = -4.15 + 0.35 AC

BMI(kg/m2)

Circumferin abdominal CA (cm)


Se pot determina intervale de ncredere i valorile p pentru
coeficienii obinui.
Regresia liniar simpl
Se pot determina intervale de ncredere i valorile p pentru
coeficienii obinui.

BMI(kg/m2)

Circumferin abdominal AC (cm)


Panta = 0.35 Kg/m2/cm, 95% CI = (0.31 - 0.40) Kg/m2/cm,
p <0.001 n raport cu valoarea zero.
Interceptul = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2.
Regresia liniar simpl
Se pot determina intervale de ncredere pentru estimaiile
obinute prin regresie i valoarea prezis pentru un nou subiect.
Intervale de 95% ncredere Intervale de predicie sau intervale
pentru estimaiile de regresie de 95% ncredere pentru valori
pentru BMI i circumferina BMI prezise cu ajutorul
abdominal circumferinei abdominale

BMI(kg/m2)
BMI(kg/m2)

Circumferin abdominal CA (cm) Circumferin abdominal CA (cm)


Regresia liniar simpl
Presupuneri: Abaterile de la linia de regresie trebuie s aib o
distribuie normal cu varian uniform.

BMI(kg/m2)

Circumferin abdominal CA (cm)


Regresia liniar simpl
Presupuneri: abaterile de la linia de regresie trebuie s aib o
distribuie normal cu varian uniform.
Se vor calcula diferenele dintre valoarea observat a variabilei
rezultat i valoarea prezis prin modelul de regresie, adic
abaterile sau reziduurile.
Verificarea normalitii distribuiei Verificarea uniformitii varianei

BMI rezidual (kg/m2)


BMI rezidual (kg/m2)
Frecvena

BMI rezidual (kg/m2) Inversa normalei


Circumferin abdominal CA (cm)
Variabile predictor binare
Ex: Energia consumat n 24 ore (MJ) n dou grupuri de femei,
subponderale i obeze.
Construim modelul de regresie liniar.
Vom defini o nou variabil obez
= 1 n cazul n care o femeie este obez i
= 0 dac ea este subponderal.

Dac vom efectua analiza de regresie


obinem:
energie = 8.07 + 2.23 obez
panta: 95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Variabile predictor binare
Analiza de regresie:
energie = 8.07 + 2.23 obez
panta: 95% CI = (1.05 - 3.42) MJ, p = 0.0008.

Testul Student T Regresie


Energie consumat (kJ) Testul Student t:
Energie consumat (kJ)

Diferena
(obezi - subponderali) =
10.298 - 8.066 = 2.232.
95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Subpond. Obeze
Grup femei Obez Cele dou metode sunt
identice!
Variabile predictor binare
Presupunerile metodei t pentru dou eantioane sunt:
1. Consumul de energie urmeaz o distribuie normal n
fiecare populaie
2. Varianele sunt aceleai n fiecare populaie.
Presupunerile modelului de regresie sunt:
1. Diferenele ntre consumul de energie observat i cel
prezis urmeaz o distribuie normal
2. Varianele diferenelor sunt aceleai indiferent de
valoarea predictorului.
Sunt aceleai!
Regresie liniar multipl
Mai mult de o variabil predictor:
BMI (kg/m2)

BMI (kg/m2)
Circumferin abdominal CA (cm) Circumferina braului CB (cm)

BMI = -1.35 + 0.31 CA BMI = -4.59 + 9.1 CB


p <0.001 p <0.001
BMI = ? + ? CA + ? CB
Regresie liniar multipl
Mai mult de o variabil predictor:
BMI = -1.35 + 0.31 CA BMI = -4.59 + 9.1 CB
BMI = -5.94 + 0.18 CA + 0.59 CB
n acest caz s-au determinat coeficienii astfel nct suma
ptratelor diferenelor ntre BMI observat i cel prezis de
regresie s fie minim.
Aceast metod se numete regresia obinuit a celor mai mici
ptrate sau OLS (ordinary least squares).
Regresie liniar multipl
Mai mult de o variabil predictor:
BMI = -1.35 + 0.31 CA BMI = -4.59 + 9.1 CB
BMI = -5.94 + 0.18 CA + 0.59 CB
Ambii coeficieni sunt acum mai aproape de la zero, deoarece
circumferinta abdominal (CA) i a braul (CB) sunt legate ntre

Circumferina abdominal CA (cm)


ele.
CB = 7.52 + 2.79 CA
r = 0.77, p <0.001
Circumferinta abdominal (CA)
i a braului (CA) explic, fiecare,
o parte din relaia cu BMI.

Circumferina braului CB (cm)


Regresie liniar multipl
Mai mult de o variabil predictor:
Putem determina intervale de ncredere pentru coeficieni i
testa ipotaza nul referitoare la egalitatea cu zero a
coeficienilor din populaie.
BMI = -5.94 + 0.18 CA + 0.59 CB
95% CI (-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
Astfel fiecare predictor reduce importana celuilalt deoarece
acetia sunt legai unul de cellalt ca i de BMI.
De obicei, n regresiile multiple, este foarte posibil ca una dintre
variabilele s devin nesemnificativ chiar dac regresia n
ansamblu este nalt semnificativ.
Regresie liniar multipl
Presupuneri:
La fel ca n cazul regresiei liniare simple, pentru a fi valide
intervalele de ncredere i valorile p, datele trebuie s
ndeplineasc urmtoarele presupuneri:
Abaterile de la linia de regresie trebuie s aib o distribuie
normal
Variana s fie uniform
Observaiile trebuie s fie independente
n final, modelul nostru pentru date se refer la faptul c relaia
pentru fiecare dintre predictori poate reprezentat adecvat nu
numai printr-o dreapt ci i printr-o curb.
Regresie liniar multipl
Presupuneri: Abaterile de la linia de regresie trebuie s aib o
distribuie normal.
Verificarea printr-o histogram i o reprezentare grafic a
normalitii pentru reziduuri:
Frecven

Reziduuri

Reziduuri Inversa normalei


Regresie liniar multipl
Presupuneri: Variana s fie uniform.
Verificarea printr-o diagram de corelaie pentru reziduuri i
estimaiile liniei de regresie:
Reziduuri

BMI prezis (Kg/m2)


Regresie liniar multipl
Variabile binare: sex
Variabila masculin = 0 pentru o femeie i
= 1 pentru un brbat.
BMI = 20.51 + 0.40 masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5

Sexul (masculin) nu este o


BMI (kg/m2)

variabil semnificativ singur!

Femei Brbai
Sex
Regresie liniar multipl
Variabile binare: sex
Variabila masculin = 0 pentru o femeie i
= 1 pentru un brbat.
BMI = 20.51 + 0.40 masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 CA + 0.64 CB - 1.39 masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
Se poate observa c variabila "masculin" a devenit semnificativ
deoarece att circumferina abdominal (CA) ct i a braului
(CB) ca predictori au micorat mult variana BMI-lui.
Valoarea medie pentru BMI este mai mic la brbai
comparativ cu femeile cu aceeai circumferin abdominal i a
braului cu 1.39 uniti.
Regresie liniar multipl
Variabile binare: sex
Variabila masculin = 0 pentru o femeie i
= 1 pentru un brbat.
BMI = 20.51 + 0.40 masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 CA + 0.64 CB - 1.39 masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
BMI = -5.94 + 0.18 CA + 0.59 CB
95% CI:(-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
Regresie liniar multipl
Variabile binare: sex
Variabila masculin = 0 pentru o femeie i
= 1 pentru un brbat.
BMI = -6.44 + 0.18 CA + 0.64 CB - 1.39 masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
n cazul n care avem ca predictori att variabile continue ct i
categoriale, regresie este, de asemenea, numit, din motive
istorice, i analiz de covarian sau ANCOVA.
Variabilele continue (precum CA, CB) se numesc covariate.
Variabilele categoriale (precum sex) se numesc factori.
Linii de regresie care nu sunt drepte
n locul liniei de regresie se poate folosi o curb, modificarea
fcndu-se cu destul uurin.
Aceasta se poate face prin adugarea unei variabile egale cu
ptratul circumferinei abdominale (CA).
BMI = 16.03 - 0.16 CA + 0.0030 CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
BMI(kg/m2)

Coeficientul semnificativ pentru


CA2 arat ca exist o eviden
semnificativ pentru
relaia curb sau neliniaritate.
Circumferin abdominal CA (cm)
liniar ptratic
Linii de regresie care nu sunt drepte
n locul liniei de regresie se poate folosi o curb, modificarea
fcndu-se cu destul uurin.
Aceasta se poate face prin adugarea unei variabile egale cu
ptratul circumferinei abdominale (CA).
BMI = 16.03 - 0.16 CA + 0.0030 CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
Variabila CA nu mai este semnificativ, deoarece CA i CA la
ptrat sunt foarte puternic corelate.
Aceasta face aceste coeficienii destul de dificil de interpretat!
Linii de regresie care nu sunt drepte
n locul liniei de regresie se poate folosi o curb, modificarea
fcndu-se cu destul uurin.
Aceasta se poate face prin adugarea unei variabile egale cu
ptratul circumferinei abdominale (CA).
BMI = 16.03 - 0.16 CA + 0.0030 CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
Modelul se poate mbunati prin scderea unui numr aproapiat
de media circumferinei abdominale (CA). Acest lucru face panta
pentru variabila CA mai uor de interpretat.
BMI = 0.59 + 0.27 CA + 0.0030 (CA - 72)2
95% CI:(-1.85, 3.03) (0.24, 0.31) (0.0011, 0.0049)
p <0.001 p = 0.003
n acest caz, media circumferinei abdominale (CA) este de 72.35
cm i am sczut 72 nainte de ridicarea la ptrat. Coeficientul de
termenului la ptrat rmne neschimbat.
Linii de regresie care nu sunt drepte
n locul liniei de regresie se poate folosi o curb, modificarea
fcndu-se cu destul uurin.
Aceasta se poate face prin adugarea unei variabile egale cu
ptratul circumferinei abdominale (CA).
Final:
BMI = 0.59 + 0.27 CA + 0.0030 (CA - 72)2
95%CI: (-1.85, 3.03) (0.24, 0.31) (0.0011, 0.0049)
p <0.001 p = 0.003
Iniial:
BMI = -1.35 + 0.31 CA
95%CI: (-3.49, 0.78) (0.28, 0.33)
p <0.001
Regresia logistic
Ex: Continuarea tratamentului de ctre pacienii depresivi (cel
puin 12 sptmni) (Peveler et al., 1999).

Subiecii au fost alocai aleator la una din cele patru combinaii


de tratament: (1) consiliere i prospect, (2) doar consiliere, (3)
numai prospect, (4) nici o intervenie.
Ambele variabile (prospect, consiliere) au un efect => fiecare va
afecta estimarea obinut pentru cealalt!
Peveler R, George C, Kinmonth A-L, Campbell M, Thompson C. Effect of antidepressant drug counselling and information
leaflets on adherence to drug treatment in primary care: randomised controlled trial. BMJ 1999; 319: 612-615.
Regresia logistic
Ex: Continuarea tratamentului antidepresiv de ctre pacieni cel
puin 12 sptmni.

Variabila noastr rezultat este binar: tratamentul va continua


sau nu.
Se dorete prezicerea proporiei de pacieni care vor continua
tratamentul indiferent de grupul n care au fost alocai: grupul
cu consiliere i/sau grupul cu prospect.
Se dorete determinarea unei ecuaii de regresie.
Regresia logistic
Se dorete prezicerea proporiei de pacieni care vor continua
tratamentul.
Se dorete determinarea unei ecuaii de regresie:
proporia = intercept + panta1 consiliere + panta2 prospect
Problem: proporiile nu pot fi mai mici dect zero sau mai mari
dect unu.
Cum putem mpiedica ecuaia s prezic proporii imposibile?
Trebuie gsit o scar prin care rezultatul s nu este limitat!
Raportul cotelor nu are limit superioar, astfel c acesta poate
fi mai mare dect unu i dar mai trebuie ca valoarea sa s fie mai
mare sau egal cu zero.
Logaritmul cotei poate lua orice valoare. Vom folosi logaritmul
raportului cotelor numit logit sau transformarea logistic.
Regresia logistic
Se dorete prezicerea proporiei de pacieni care vor continua
tratamentul.
log raport cote = intercept + panta1consiliere + panta2prospect
panta1 (panta pentru consiliere) = creterea logaritmului
raportului cotelor pentru continuarea tratamentului n cazul n
care grupul cu consiliere este comparat cu grupul fr consiliere.
Ea va fi logaritmului raportului cotelor pentru consiliere, cu
ambele estimri i eroarea sa standard ajustate pentru prezena
respectiv absena prospectului.
Dac vom antilogaritma vom obine raportul cotelor (OR) ajustat.
Regresia logistic
Se dorete prezicerea proporiei de pacieni care vor continua
tratamentul.
log raport cote = intercept + panta1consiliere + panta2prospect
log raportul cotelor = -0.559 + 0.980consiliere + 0.216 prospect
95% CI: (0.426, 1.53) (-0.339, 0.770)
p = 0.001 p = 0.4
Prin antilogaritmare:
Raportul cotelor = 0.57 2.66consiliere 1.24prospect
95% CI: (1.53, 4.64) (0.71, 2.16)
Observaie: consilirea = 0 sau 1, 2.660 = 1 sau 2.661 = 2.66.
Raportul cotelor (OR) pentru consiliere este 2.66,
95% CI: (1.53, 4.64), p = 0.001.
Raportul cotelor (OR) pentru prospect este 1.24,
95% CI: (0.71, 2.16), p = 0.4.
Dimensiunea eantionului
Va trebui ntotdeauna s avem mai multe observaii dect
variabile.
Reguli empirice:
Regresia multipl: cel puin 10 observaii pentru o variabil
Regresia logistic: cel puin 10 observaiile pentru rezultatul
"da" i cel puin 10 observaii pentru rezultatul "nu" pentru
fiecare variabil.
n caz contrar, metodele pot fi foarte instabile.
Tipuri de regresie
Regresia multipl i regresia logistic sunt tipurile de regresie
care pot fi vzute de cele mai multe ori n literatura medical.
Exist multe alte tipuri de regresie pentru diverse tipuri de
variabile rezultat:
Regresia Cox (analiza de supravieuire)
Regresie logistic ordonat (variabilele rezultat care sunt
calitative cu categorii ordonate)
Regresie multinomial (variabile rezultat care sunt calitative
cu categorii neordonate)
Regresie Poisson (variabile rezultat care sunt valori obinute
prin numrare - counts)
Regresie binomial negativ (variabile rezultat care sunt
valori obinute prin numrare - counts cu surse suplimentare
de variabilitate)
Limbajul SQL
Structured Query Language
Comenzile sunt de trei tipuri posibile:
1) Tipul DD (de definire a datelor). Principala comand din
acest tip este cea de creare.
Create Table spitale
2) Tipul DM (de manipulare a datelor). Patru comenzi: de
selectare (Select), de inserare de date noi (Insert), de
modificare (Update) i de tergere (Delete).
Select * From spitale Where oras="Bucuresti"
Insert Into spitale Values("SUUB","Bucuresti","814")
3) Tipul DC (de control al datelor). Comanda Grant din acest tip
permite acordarea de drepturi speciale unor utilizatori.
Grant Select,Insert On spitale To ionescu
Alte funcii pt calcule statistice: Count(), Average(), Sum(),
Min(), Max(),
62
MySQL
Este o implementare open source a limbajului SQL, gratuit, i
poate fi folosit sub licen public.
Avantaj: realizare de pagini web dinamice (n combinaie cu PHP)
Sistemul de securitate folosit de MySQL este bazat pe:
numele de utilizator (username),
parola de protecie (password),
privilegiile/drepturile utilizatorului
n mod implicit exist o baz de date (mysql) cu 5 tabele care
conine datele privind utilizatorii, precum i drepturile i
privilegiile acestora: user
db
host
tabels-priv
colum-priv
63
MySQL
Fiecare tabel al unei baze de date este format din trei fiiere
avnd acelai nume (coninute n subfolderul specific bazei
de date):
formularul ce conine structura tabelului (frm)
fiierul de date (myd)
fiierul index, ce conine ordonrile asociate datelor din
fiierul de date (myi)
Toate cele trei fiiere sunt create automat, n urma execuiei
unei comenzi
Create Table nume_tabel ;
Exemplu:
Create Table studenti ( studID Integer Auto-Increment Not Null Primary Key,
numepren Char(30), annastere Year, Index alfa(numepren) ) ;

64
MySQL
Comenzi administrator (root):
Grant privilegii (list cmpuri) On identificatoare_tabele To username
(Identified By password);
Revoke
Comenzi utilizatori:
Show Databases ; Show Tables ;
Use nume_baz_de_date;
Create Database nume_baz_de_date;
Create Table nume_tabel ( structur i indeci);
Insert Into nume_tabel Values( lista_valori);
Load Data Infile identificator_fiier_surs Into Table nume_tabel;
Select list_cmpuri From list_tabele Where condiie_de_selecie;
Update nume_tabel Set list_modificri Where condiie_de_identificare ;
Delete From nume_tabel Where condiie_de_ndeplinit;
Drop Table If Exists nume_tabel;
Alte comenzi: pt iruri de caractere, funcii calendaristice, conversii etc.

65