Sunteți pe pagina 1din 64

Analiza de corelație și

regresie
Analiza de corelație și regresie
Corelație
Regresia liniară simplă
Variabile predictor binare
Regresia liniară multiplă
Regresie curbilinie
Variabile rezultat binare și regresia logistică
Dimensiunea eșantionului
Tipuri de regresie
Corelație
Ex: Datele referitoare la rezistență (forța musculară) și înălțime
pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (scatter):
Forța musculară (newtoni)

Hickish T, Colston K,
Bland JM, Maxwell
JD. (1989) Vitamin D
deficiency and muscle
(rezistența)

strength in male
alcoholics. Clinical
Science 77, 171-176.

Înălțimea (cm)
Cât de potrivită este relația?
Corelația: măsoară cât de potrivită este relația liniară.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect.
Forța muculară (newtoni)
Media înălțimii
(rezistența)

Media
rezistenței

Înălțimea (cm)
Vom însuma produsele de abateri pentru toți subiecții (sumă de
produse în jurul mediei).
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)

Media
rezistenței

Înălțimea (cm)
Produsele observațiilor din cadranele dreapta sus şi stânga jos sunt
pozitive.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect. apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)

Media
rezistenței

Înălțimea (cm)
Produsele observațiilor din cadranele dreapta sus şi stânga jos sunt
pozitive. Produsele observațiilor din cadranele dreapta jos şi
stânga sus sunt negative.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect. apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)

Media
rezistenței

Înălțimea (cm)
Suma de produse este pozitivă.
Corelația este pozitivă.
Coeficient de corelație
Ex: datele referitoare la rezistență (forța musculară) și vârsta
pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (scatter):
Forța muculară (newtoni)
(rezistența)

Vârsta (ani)
Coeficient de corelație
Ex: datele referitoare la rezistență (forța musculară) și vârsta
pentru 41 de bărbați alcoolici.
Diagrama de corelație (scatter):
Forța muculară (newtoni)

Media vârstei
(rezistența)

Media
rezistenței

Vârsta (ani)

Suma de produse este negativă.


Corelația este negativă.
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00.
Valoarea maximă = 1.00.
Este cunoscut și sub numele de
 coeficient de corelație Pearson
 coeficient de corelație al produselor momentelor.
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
(rezistența)

Înălțimea (cm)
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)

r = 0.42.
(rezistența)

Corelația este pozitivă și


destul de scăzută.

Înălțimea (cm)
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)

r = - 0.42.
(rezistența)

Corelația este negativă și


destul de scăzută.

Vârsta (ani)
Coeficient de corelație
Corelația este pozitivă când valori mari ale unei variabile se
asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelație
Corelația este pozitivă când valori mari ale unei variabile se
asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelație
Corelația este negativă când valori mari ale unei variabile se
asociază cu valori mici ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelație
Corelația este negativă când valori mari ale unei variabile se
asociază cu valori mici ale celeilalte variabile.
Variabila Y

Variabila X
Coeficient de corelație
r = +1.00 când valori mari ale unei variabile sunt asociate cu
valori mari pentru cealaltă variabilă şi punctele se află exact pe o
linie dreaptă.
Variabila Y

Variabila X
Coeficient de corelație
r = -1.00 când valori mari ale unei variabile sunt asociate cu
valori mici pentru cealaltă variabilă şi punctele se află exact pe o
linie dreaptă.
Variabila Y

Variabila X
Coeficient de corelație
r nu va fi egal cu -1.00 sau +1.00 în cazul în care avem o relație
perfectă ci doar dacă punctele se află exact pe o linie dreaptă.
Variabila Y

Variabila X
Coeficient de corelație
r = 0.00 în cazul în care nu avem o relație liniară.
Variabila Y

Variabila X
Coeficient de corelație
Este posibil ca r = 0.00 în cazul în care avem o relație aproape
perfectă însă aceasta nu este liniară.
Variabila Y

Variabila X
Teste pentru coeficientul de corelație
Putem testa ipoteza nulă care stabilește că coeficientul de
corelație în populație este zero.
Aceasta se poate face printr-un test t simplu.
Presupunere: observațiile sunt independente și cel puțin una
dintre variabilele urmează o distribuție normală.
Abateri mari de la aceste presupuneri fac ca valoarea p pentru
acest test să fie foarte instabilă.
Forța muculară (newtoni)

r = 0.42. p = 0.006.
Programele de analiză statistică
(rezistența)

dau valoarea p în momentul în care


raportează un coeficient de
corelație.
Înălțimea (cm)
Teste pentru coeficientul de corelație
Se poate calcula un interval de încredere pentru coeficientul de
corelație în populație.
Se folosește transformarea Z a lui Fisher.
Presupunere: ambele variabile urmează distribuții normale.
Abateri mari de la aceste presupuneri fac ca valoarea p pentru
acest test să fie foarte instabilă.
r = 0.42. p = 0.006.
Forța muculară (newtoni)

95% CI aproximativ: (0.13, 0.64).


Programele de analiză statistică
(rezistența)

dau rar un astfel de interval de


încredere!

Înălțimea (cm)
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage)

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Ce este o relație?
Regresia: Putem prezice BMI cu ajutorul CA?
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage).
Ce este o relație?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a indicelui de masa corporală
(BMI) pentru o femeie pentru orice valoare observată a
circumferinței abdominale (CA) ?
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage).
Ce este o relație?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a BMI-ului pentru o femeie
pentru orice valoare observată a CA?
BMI este rezultatul, variabila dependentă, Y, sau variabila
din partea stângă.
CA este predictorul, variabila explicativă, variabila
independentă, x, sau variabila din partea dreaptă.
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage).
Ce este o relație?
Regresia: Putem prezice BMI cu ajutorul CA?
Care este valoarea medie a indicelui de masa corporală
(BMI) pentru o femeie pentru orice valoare observată a
circumferinței abdominale (CA) ??
Relația liniară:
BMI = intercept + panta × CA
Relația estimată se numeşte liniară deoarece reprezentarea
sa grafică este o linie sau mai bine-zis o dreaptă.
Regresia liniară simplă
Care este linia pe care trebuie să o alegem?

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Regresia liniară simplă
Care este linia pe care trebuie să o alegem?

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Criteriu: se aleage linia care face ca distanța de la puncte de la
linie în direcția lui y să fie la nivel minim. Aceste distanțe sunt
diferențele între valorile BMI observate şi valorile BMI prezise
de linie.
Regresia liniară simplă
Care este linia pe care trebuie să o alegem?

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Vom alege linia pentru care se va obține minimul sumei de
pătrate ale acestor diferențe. Metoda este cunoscută sub
numele de principiu celor mai mici pătrate iar estimările
obținute ca linia sau ecuația celor mai mici pătate.
Regresia liniară simplă
BMI = -4.15 + 0.35 × AC

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Se pot determina intervale de încredere şi valorile p pentru
coeficienții obținuți.
Regresia liniară simplă
Se pot determina intervale de încredere şi valorile p pentru
coeficienții obținuți.

BMI(kg/m2)

Circumferință abdominală – AC (cm)


Panta = 0.35 Kg/m2/cm, 95% CI = (0.31 - 0.40) Kg/m2/cm,
p <0.001 în raport cu valoarea zero.
Interceptul = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2.
Regresia liniară simplă
Presupuneri: Abaterile de la linia de regresie trebuie să aibă o
distribuție normală cu varianță uniformă.

BMI(kg/m2)

Circumferință abdominală – CA (cm)


Regresia liniară simplă
Presupuneri: abaterile de la linia de regresie trebuie să aibă o
distribuție normală cu varianță uniformă.
Se vor calcula diferențele dintre valoarea observată a variabilei
rezultat şi valoarea prezisă prin modelul de regresie, adică
abaterile sau reziduurile.
Verificarea normalității distribuției Verificarea uniformității varianței

BMI rezidual (kg/m2)


BMI rezidual (kg/m2)
Frecvența

BMI rezidual (kg/m2) Inversa normalei


Circumferință abdominală – CA (cm)
Variabile predictor binare
Ex: Energia consumată în 24 ore (MJ) în două grupuri de femei,
subponderale și obeze.
Construim modelul de regresie liniară.
Vom defini o nouă variabilă obez
= 1 în cazul în care o femeie este obeză și
= 0 dacă ea este subponderală.

Dacă vom efectua analiza de regresie


obținem:
energie = 8.07 + 2.23 × obez
panta: 95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Variabile predictor binare
Analiza de regresie:
energie = 8.07 + 2.23 × obez
panta: 95% CI = (1.05 - 3.42) MJ, p = 0.0008.

Testul Student T Regresie


Energie consumată (kJ) Testul Student t:
Energie consumată (kJ)

Diferența
(obezi - subponderali) =
10.298 - 8.066 = 2.232.
95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Subpond. Obeze
Grup femei Obez Cele două metode sunt
identice!
Variabile predictor binare
Presupunerile metodei t pentru două eșantioane sunt:
1. Consumul de energie urmează o distribuție normală în
fiecare populație
2. Varianțele sunt aceleaşi în fiecare populație.
Presupunerile modelului de regresie sunt:
1. Diferențele între consumul de energie observat şi cel
prezis urmează o distribuție normală
2. Varianțele diferențelor sunt aceleaşi indiferent de
valoarea predictorului.
Sunt aceleaşi!
Regresie liniară multiplă
Mai mult de o variabilă predictor:
BMI (kg/m2)

BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)

BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB


p <0.001 p <0.001
BMI = ? + ? × CA + ? × CB
Regresie liniară multiplă
Mai mult de o variabilă predictor:
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB
În acest caz s-au determinat coeficienții astfel încât suma
pătratelor diferențelor între BMI observat și cel prezis de
regresie să fie minimă.
Această metodă se numeşte regresia obişnuită a celor mai mici
pătrate sau OLS (ordinary least squares).
Regresie liniară multiplă
Mai mult de o variabilă predictor:
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB
Ambii coeficienți sunt acum mai aproape de la zero, deoarece
circumferinta abdominală (CA) și a brațul (CB) sunt legate între

Circumferința abdominală CA (cm)


ele.
CB = 7.52 + 2.79 × CA
r = 0.77, p <0.001
Circumferinta abdominală (CA)
și a brațului (CA) explică, fiecare,
o parte din relația cu BMI.

Circumferința brațului – CB (cm)


Regresie liniară multiplă
Mai mult de o variabilă predictor:
Putem determina intervale de încredere pentru coeficienți și
testa ipotaza nulă referitoare la egalitatea cu zero a
coeficienților din populație.
BMI = -5.94 + 0.18 × CA + 0.59 × CB
95% CI (-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
Astfel fiecare predictor reduce importanța celuilalt deoarece
aceștia sunt legați unul de celălalt ca şi de BMI.
De obicei, în regresiile multiple, este foarte posibil ca una dintre
variabilele să devină nesemnificativă chiar dacă regresia în
ansamblu este înalt semnificativă.
Regresie liniară multiplă
Presupuneri:
La fel ca în cazul regresiei liniare simple, pentru a fi valide
intervalele de încredere şi valorile p, datele trebuie să
îndeplinească următoarele presupuneri:
 Abaterile de la linia de regresie trebuie să aibă o distribuție
normală
 Varianța să fie uniformă
 Observațiile trebuie să fie independente
În final, modelul nostru pentru date se referă la faptul că relația
pentru fiecare dintre predictori poate reprezentată adecvat nu
numai printr-o dreaptă ci și printr-o curbă.
Regresie liniară multiplă
Presupuneri: Abaterile de la linia de regresie trebuie să aibă o
distribuție normală.
Verificarea printr-o histogramă și o reprezentare grafică a
normalității pentru reziduuri:
Frecvență

Reziduuri

Reziduuri Inversa normalei


Regresie liniară multiplă
Presupuneri: Varianța să fie uniformă.
Verificarea printr-o diagramă de corelație pentru reziduuri și
estimațiile liniei de regresie:
Reziduuri

BMI prezis (Kg/m2)


Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40  masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5

Sexul (masculin) nu este o


BMI (kg/m2)

variabilă semnificativă singură!

Femei Bărbați
Sex
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40  masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
Se poate observa că variabila "masculin" a devenit semnificativă
deoarece atât circumferința abdominală (CA) cât şi a brațului
(CB) ca predictori au micșorat mult varianța BMI-lui.
Valoarea medie pentru BMI este mai mică la bărbaţi
comparativ cu femeile cu aceeaşi circumferinţă abdominală şi a
braţului cu 1.39 unităţi.
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40  masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
BMI = -5.94 + 0.18 × CA + 0.59 × CB
95% CI:(-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
În cazul în care avem ca predictori atât variabile continue cât şi
categoriale, regresie este, de asemenea, numită, din motive
istorice, și analiză de covarianță sau ANCOVA.
Variabilele continue (precum CA, CB) se numesc covariate.
Variabilele categoriale (precum sex) se numesc factori.
Linii de regresie care nu sunt drepte
În locul liniei de regresie se poate folosi o curbă, modificarea
făcându-se cu destulă ușurință.
Aceasta se poate face prin adăugarea unei variabile egale cu
pătratul circumferinței abdominale (CA).
BMI = 16.03 - 0.16 × CA + 0.0030 × CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
BMI(kg/m2)

Coeficientul semnificativ pentru


CA2 arată ca există o evidență
semnificativă pentru
relația curbă sau neliniaritate.
Circumferință abdominală – CA (cm)
liniar pătratic
Linii de regresie care nu sunt drepte
În locul liniei de regresie se poate folosi o curbă, modificarea
făcându-se cu destulă ușurință.
Aceasta se poate face prin adăugarea unei variabile egale cu
pătratul circumferinței abdominale (CA).
BMI = 16.03 - 0.16 × CA + 0.0030 × CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
Variabila CA nu mai este semnificativă, deoarece CA și CA la
pătrat sunt foarte puternic corelate.
Aceasta face aceste coeficienții destul de dificil de interpretat!
Linii de regresie care nu sunt drepte
În locul liniei de regresie se poate folosi o curbă, modificarea
făcându-se cu destulă ușurință.
Aceasta se poate face prin adăugarea unei variabile egale cu
pătratul circumferinței abdominale (CA).
BMI = 16.03 - 0.16 × CA + 0.0030 × CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
Modelul se poate îmbunatăți prin scăderea unui număr
aproapiat de media circumferinței abdominale (CA). Acest lucru
face panta pentru variabila CA mai uşor de interpretat.
BMI = 0.59 + 0.27 × CA + 0.0030 × (CA - 72)2
95% CI:(-1.85, 3.03) (0.24, 0.31) (0.0011, 0.0049)
p <0.001 p = 0.003
În acest caz, media circumferinței abdominale (CA) este de 72.35
cm și am scăzut 72 înainte de ridicarea la pătrat. Coeficientul de
termenului la pătrat rămâne neschimbat.
Linii de regresie care nu sunt drepte
În locul liniei de regresie se poate folosi o curbă, modificarea
făcându-se cu destulă ușurință.
Aceasta se poate face prin adăugarea unei variabile egale cu
pătratul circumferinței abdominale (CA).
Final:
BMI = 0.59 + 0.27 × CA + 0.0030 × (CA - 72)2
95%CI: (-1.85, 3.03) (0.24, 0.31) (0.0011, 0.0049)
p <0.001 p = 0.003
Inițial:
BMI = -1.35 + 0.31 × CA
95%CI: (-3.49, 0.78) (0.28, 0.33)
p <0.001
Regresia logistică
Ex: Consilierea si continuarea tratamentului de către pacienții
depresivi (cel puțin 12 săptămâni) (Peveler et al., 1999).

53

Subiecții au fost alocați aleator la una din cele patru combinații


de tratament: (1) consiliere şi prospect, (2) doar consiliere, (3)
numai prospect, (4) nici o intervenție.
Ambele variabile (prospect, consiliere) au un efect => fiecare va
afecta estimarea obținută pentru cealaltă!
Peveler R, George C, Kinmonth A-L, Campbell M, Thompson C. Effect of antidepressant drug counselling and information
leaflets on adherence to drug treatment in primary care: randomised controlled trial. BMJ 1999; 319: 612-615.
Regresia logistică
Ex: Continuarea tratamentului antidepresiv de către pacienți cel
puțin 12 săptămâni.

Variabila noastră rezultat este binară: tratamentul va continua


sau nu.
Se dorește prezicerea proporției de pacienți care vor continua
tratamentul indiferent de grupul în care au fost alocați: grupul
cu consiliere şi/sau grupul cu prospect.
Se dorește determinarea unei ecuații de regresie.
Regresia logistică
Se dorește prezicerea proporției de pacienți care vor continua
tratamentul.
Se dorește determinarea unei ecuații de regresie:
proporția = intercept + panta1 × consiliere + panta2 × prospect
Problemă: proporţiile nu pot fi mai mici decât zero sau mai mari
decât unu.
Cum putem împiedica ecuația să prezică proporții imposibile?
Trebuie găsită o scară prin care rezultatul să nu este limitat!
Cotele (odds) nu au limită superioară, astfel că acesta poate fi
mai mare decât unu și dar mai trebuie ca valoarea sa să fie mai
mare sau egală cu zero.
Logaritmul cotei poate lua orice valoare. Vom folosi logaritmul
cotelor numit logit sau transformarea logistică.
Regresia logistică
Se dorește prezicerea proporției de pacienți care vor continua
tratamentul.
log (cota) = intercept + panta1×consiliere + panta2×prospect
panta1 (panta pentru consiliere) = creşterea logaritmului cotei
pentru continuarea tratamentului în cazul în care grupul cu
consiliere este comparat cu grupul fără consiliere
Ea reprezinta logaritmului raportului cotelor pentru consiliere si,
atat valoarea sa estimata cat şi eroarea standard sunt ajustate de
prezența respectiv absența prospectului.
Dacă vom antilogaritma vom obține raportul cotelor (OR) ajustat.
Regresia logistică
Se dorește prezicerea proporției de pacienți care vor continua
tratamentul.
log (cota) = intercept + panta1×consiliere + panta2×prospect
log (cota)= -0.559 + 0.980×consiliere + 0.216× prospect
95% CI: (0.426, 1.53) (-0.339, 0.770)
p = 0.001 p = 0.4
Prin antilogaritmare:
Cota= 0.57 x 2.66consiliere × 1.24prospect
95% CI: (1.53, 4.64) (0.71, 2.16)
Observație: consilirea = 0 sau 1, 2.660 = 1 sau 2.661 = 2.66.
Raportul cotelor (OR) (consiliere) = 2.66,
95% CI: (1.53, 4.64), p = 0.001.
Raportul cotelor (OR) (prospect) = 1.24,
95% CI: (0.71, 2.16), p = 0.4.
Dimensiunea eșantionului
Va trebui întotdeauna să avem mai multe observații decât
variabile.
Reguli empirice:
Regresia multiplă: cel puțin 10 observații pentru o variabilă
Regresia logistică: cel puțin 10 observațiile pentru rezultatul
"da" şi cel puțin 10 observații pentru rezultatul "nu" pentru
fiecare variabilă.
În caz contrar, metodele pot fi foarte instabile.
Tipuri de regresie
Regresia multiplă şi regresia logistică sunt tipurile de regresie
care pot fi văzute de cele mai multe ori în literatura medicală.
Există multe alte tipuri de regresie pentru diverse tipuri de
variabile rezultat:
 Regresia Cox (analiza de supraviețuire)
 Regresie logistică ordonată (variabilele rezultat care sunt
calitative cu categorii ordonate)
 Regresie multinomială (variabile rezultat care sunt calitative
cu categorii neordonate)
 Regresie Poisson (variabile rezultat care sunt valori obținute
prin numărare - counts)
 Regresie binomială negativă (variabile rezultat care sunt
valori obținute prin numărare - counts cu surse suplimentare
de variabilitate)
Limbajul SQL
Structured Query Language
Comenzile sunt de trei tipuri posibile:
1) Tipul DD (de definire a datelor). Principala comandă din
acest tip este cea de creare.
Create Table spitale
2) Tipul DM (de manipulare a datelor). Patru comenzi: de
selectare (Select), de inserare de date noi (Insert), de
modificare (Update) şi de ştergere (Delete).
Select * From spitale Where oras="Bucuresti"
Insert Into spitale Values("SUUB","Bucuresti","814")
3) Tipul DC (de control al datelor). Comanda Grant din acest tip
permite acordarea de drepturi speciale unor utilizatori.
Grant Select,Insert On spitale To ionescu
Alte funcții pt calcule statistice: Count(), Average(), Sum(),
Min(), Max(),
61
MySQL
Este o implementare open source a limbajului SQL, gratuită, şi
poate fi folosită sub licență publică.
Avantaj: realizare de pagini web dinamice (în combinație cu PHP)
Sistemul de securitate folosit de MySQL este bazat pe:
• numele de utilizator (username),
• parola de protecție (password),
• privilegiile/drepturile utilizatorului
În mod implicit există o bază de date (mysql) cu 5 tabele care
conține datele privind utilizatorii, precum şi drepturile şi
privilegiile acestora: user
db
host
tabels-priv
colum-priv
62
MySQL
Fiecare tabel al unei baze de date este format din trei fişiere
având acelaşi nume (conținute în subfolderul specific bazei
de date):
• formularul ce conține structura tabelului (frm)
• fişierul de date (myd)
• fişierul index, ce conține ordonările asociate datelor din
fişierul de date (myi)
Toate cele trei fişiere sunt create automat, în urma execuției
unei comenzi
Create Table nume_tabel ;
Exemplu:
Create Table studenti ( studID Integer Auto-Increment Not Null Primary Key,
numepren Char(30), annastere Year, Index alfa(numepren) ) ;

63
MySQL
Comenzi administrator (root):
Grant privilegii (listă câmpuri) On identificatoare_tabele To username
(Identified By password);
Revoke …
Comenzi utilizatori:
Show Databases ; Show Tables ;
Use nume_bază_de_date;
Create Database nume_bază_de_date;
Create Table nume_tabel ( structură şi indecşi);
Insert Into nume_tabel Values( lista_valori);
Load Data Infile identificator_fişier_sursă Into Table nume_tabel;
Select listă_câmpuri From listă_tabele Where condiţie_de_selecţie;
Update nume_tabel Set listă_modificări Where condiţie_de_identificare ;
Delete From nume_tabel Where condiţie_de_îndeplinit;
Drop Table If Exists nume_tabel;
Alte comenzi: pt șiruri de caractere, funcții calendaristice, conversii etc.

64

S-ar putea să vă placă și