Documente Academic
Documente Profesional
Documente Cultură
Curs 6
Curs 6
regresie
Analiza de corelație și regresie
Corelație
Regresia liniară simplă
Variabile predictor binare
Regresia liniară multiplă
Regresie curbilinie
Variabile rezultat binare și regresia logistică
Dimensiunea eșantionului
Tipuri de regresie
Corelație
Ex: Datele referitoare la rezistență (forța musculară) și înălțime
pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (scatter):
Forța musculară (newtoni)
Hickish T, Colston K,
Bland JM, Maxwell
JD. (1989) Vitamin D
deficiency and muscle
(rezistența)
strength in male
alcoholics. Clinical
Science 77, 171-176.
Înălțimea (cm)
Cât de potrivită este relația?
Corelația: măsoară cât de potrivită este relația liniară.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect.
Forța muculară (newtoni)
Media înălțimii
(rezistența)
Media
rezistenței
Înălțimea (cm)
Vom însuma produsele de abateri pentru toți subiecții (sumă de
produse în jurul mediei).
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)
Media
rezistenței
Înălțimea (cm)
Produsele observațiilor din cadranele dreapta sus şi stânga jos sunt
pozitive.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect. apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)
Media
rezistenței
Înălțimea (cm)
Produsele observațiilor din cadranele dreapta sus şi stânga jos sunt
pozitive. Produsele observațiilor din cadranele dreapta jos şi
stânga sus sunt negative.
Coeficient de corelație
Vom calcula abaterile scăzând media din fiecare observație și
vom înmulți aceste abateri pentru cele două variabile
corespunzătoare unui subiect. apoi vom însuma produsele de
abateri.
Forța muculară (newtoni)
înălțimii Media
(rezistența)
Media
rezistenței
Înălțimea (cm)
Suma de produse este pozitivă.
Corelația este pozitivă.
Coeficient de corelație
Ex: datele referitoare la rezistență (forța musculară) și vârsta
pentru 41 de bărbați alcoolici (Hickish et al., 1989).
Diagrama de corelație (scatter):
Forța muculară (newtoni)
(rezistența)
Vârsta (ani)
Coeficient de corelație
Ex: datele referitoare la rezistență (forța musculară) și vârsta
pentru 41 de bărbați alcoolici.
Diagrama de corelație (scatter):
Forța muculară (newtoni)
Media vârstei
(rezistența)
Media
rezistenței
Vârsta (ani)
Înălțimea (cm)
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
r = 0.42.
(rezistența)
Înălțimea (cm)
Coeficient de corelație
Se împarte suma de produse prin produsul celor două rădăcini
pătrate extrase din sumele de pătrate de abateri (care corespund
fiecărei variabile).
Astfel se obține coeficientul de corelație care de obicei este
notat cu r.
Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
r = - 0.42.
(rezistența)
Vârsta (ani)
Coeficient de corelație
Corelația este pozitivă când valori mari ale unei variabile se
asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
Coeficient de corelație
Corelația este pozitivă când valori mari ale unei variabile se
asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
Coeficient de corelație
Corelația este negativă când valori mari ale unei variabile se
asociază cu valori mici ale celeilalte variabile.
Variabila Y
Variabila X
Coeficient de corelație
Corelația este negativă când valori mari ale unei variabile se
asociază cu valori mici ale celeilalte variabile.
Variabila Y
Variabila X
Coeficient de corelație
r = +1.00 când valori mari ale unei variabile sunt asociate cu
valori mari pentru cealaltă variabilă şi punctele se află exact pe o
linie dreaptă.
Variabila Y
Variabila X
Coeficient de corelație
r = -1.00 când valori mari ale unei variabile sunt asociate cu
valori mici pentru cealaltă variabilă şi punctele se află exact pe o
linie dreaptă.
Variabila Y
Variabila X
Coeficient de corelație
r nu va fi egal cu -1.00 sau +1.00 în cazul în care avem o relație
perfectă ci doar dacă punctele se află exact pe o linie dreaptă.
Variabila Y
Variabila X
Coeficient de corelație
r = 0.00 în cazul în care nu avem o relație liniară.
Variabila Y
Variabila X
Coeficient de corelație
Este posibil ca r = 0.00 în cazul în care avem o relație aproape
perfectă însă aceasta nu este liniară.
Variabila Y
Variabila X
Teste pentru coeficientul de corelație
Putem testa ipoteza nulă care stabilește că coeficientul de
corelație în populație este zero.
Aceasta se poate face printr-un test t simplu.
Presupunere: observațiile sunt independente și cel puțin una
dintre variabilele urmează o distribuție normală.
Abateri mari de la aceste presupuneri fac ca valoarea p pentru
acest test să fie foarte instabilă.
Forța muculară (newtoni)
r = 0.42. p = 0.006.
Programele de analiză statistică
(rezistența)
Înălțimea (cm)
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage)
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
Diferența
(obezi - subponderali) =
10.298 - 8.066 = 2.232.
95% CI = (1.05 - 3.42) MJ,
p = 0.0008.
Subpond. Obeze
Grup femei Obez Cele două metode sunt
identice!
Variabile predictor binare
Presupunerile metodei t pentru două eșantioane sunt:
1. Consumul de energie urmează o distribuție normală în
fiecare populație
2. Varianțele sunt aceleaşi în fiecare populație.
Presupunerile modelului de regresie sunt:
1. Diferențele între consumul de energie observat şi cel
prezis urmează o distribuție normală
2. Varianțele diferențelor sunt aceleaşi indiferent de
valoarea predictorului.
Sunt aceleaşi!
Regresie liniară multiplă
Mai mult de o variabilă predictor:
BMI (kg/m2)
BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)
Reziduuri
Femei Bărbați
Sex
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40 masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
Se poate observa că variabila "masculin" a devenit semnificativă
deoarece atât circumferința abdominală (CA) cât şi a brațului
(CB) ca predictori au micșorat mult varianța BMI-lui.
Valoarea medie pentru BMI este mai mică la bărbaţi
comparativ cu femeile cu aceeaşi circumferinţă abdominală şi a
braţului cu 1.39 unităţi.
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = 20.51 + 0.40 masculin
95% CI (19.64, 21.38) (-0.75, 1.55)
p = 0.5
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
BMI = -5.94 + 0.18 × CA + 0.59 × CB
95% CI:(-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
Regresie liniară multiplă
Variabile binare: sex
Variabila masculin = 0 pentru o femeie și
= 1 pentru un bărbat.
BMI = -6.44 + 0.18 × CA + 0.64 × CB - 1.39 × masculin
95% CI:(-8.49, -4.39) (0.14, 0.22) (0.50, 0.78) (-1.94, -0.84)
p <0.001 p <0.001 p <0.001
În cazul în care avem ca predictori atât variabile continue cât şi
categoriale, regresie este, de asemenea, numită, din motive
istorice, și analiză de covarianță sau ANCOVA.
Variabilele continue (precum CA, CB) se numesc covariate.
Variabilele categoriale (precum sex) se numesc factori.
Linii de regresie care nu sunt drepte
În locul liniei de regresie se poate folosi o curbă, modificarea
făcându-se cu destulă ușurință.
Aceasta se poate face prin adăugarea unei variabile egale cu
pătratul circumferinței abdominale (CA).
BMI = 16.03 - 0.16 × CA + 0.0030 × CA2
95% CI: (4.59, 27.47) (-0.45, 0.14) (0.0011, 0.0049)
p = 0.3 p = 0.003
BMI(kg/m2)
53
63
MySQL
Comenzi administrator (root):
Grant privilegii (listă câmpuri) On identificatoare_tabele To username
(Identified By password);
Revoke …
Comenzi utilizatori:
Show Databases ; Show Tables ;
Use nume_bază_de_date;
Create Database nume_bază_de_date;
Create Table nume_tabel ( structură şi indecşi);
Insert Into nume_tabel Values( lista_valori);
Load Data Infile identificator_fişier_sursă Into Table nume_tabel;
Select listă_câmpuri From listă_tabele Where condiţie_de_selecţie;
Update nume_tabel Set listă_modificări Where condiţie_de_identificare ;
Delete From nume_tabel Where condiţie_de_îndeplinit;
Drop Table If Exists nume_tabel;
Alte comenzi: pt șiruri de caractere, funcții calendaristice, conversii etc.
64