Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
(UNIVARIATĂ) ŞI CORELAŢIA
Noţiunea de corelaţie. Noţiunea de covarianţă.
Coeficientul de determinare 𝑟 2 și coeficientul de corelație liniară 𝑟.
Reguli empirice (Colton) pentru interpretarea coeficienților de corelație.
Ecuaţia dreptei de regresie. Coeficienţii dreptei de regresie.
Aplicaţii.
• Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre
mărimi variază direct/invers proporţional cu alta, ambele mărimi fiind
numerice sau cantitative.
• În domeniul medical se întalnesc numeroase stări (variabile) ce au o
tendinţa naturală de a se modifica împreună.
• Daca ne interesează doar existenta unei legături între cele două variabile,
se calculează coeficientul de corelaţie.
• Direcţia:
– pozitivă (+)
– negativă (-)
• Forma:
– liniară
– neliniară
• Gradul de asociere:
– între -1 si +1
– valoarea absolută semnifică puterea asocierii
Coeficienţii de corelaţie
• Sunt adimensionali
• Au valori între -1 şi +1
– -1 corelaţie perfect negativă
– +1 corelaţie perfect pozitivă
– 0 nu există corelaţie (asociere aleatoare)
• Tipuri de coeficienţi
– Coeficient Pearson 𝑟𝑥𝑦
– Coeficient Spearman 𝑟𝑠
Coeficientul de corelaţie Pearson
• 𝑛 = mărimea eşantionului
• 𝑥 = valorile individuale ale variabilei x
• 𝑦 = valorile individuale ale variabilei y
• 𝑥 = media aritmetică a tuturor valorilor x
• 𝑦 = media aritmetică a tuturor valorilor y
• 𝑠𝑥 = deviaţia standard a tuturor valorilor x
• 𝑠𝑦 = deviaţia standard a tuturor valorilor y
Coeficientul de corelaţie Pearson
• iar absenţa corelaţiei este exprimată prin faptul că această expresie este
egală sau tinde către valoarea 0:
Covarianţa a două variabile
unde
• ax indică de câte ori, în medie, y este mai mare sau mai mic decât x.
• ax este pozitiv sau negativ, după cum dreapta are o pantă ascendentă sau
descendentă, de la stânga la dreapta.
Dreapta de regresie. Ecuația dreptei de regresie a lui x în raport cu y
unde
• ay indică de câte ori, în medie, x este mai mare sau mai mic decât y.
Coeficientul de determinare 𝒓𝟐 și coeficientul de corelație liniară 𝒓
(coeficientul de corelație Pearson)
21
Modul de prezentare a rezultatului corelației între cele 3 variabile (VARSTA,
GREUTATE şi GLICEMIE la momentul de timp 0) – APLICAŢIA #1
22
APLICAŢIA #2
• Să se determine coeficienţii de covarianţă între VARSTA, GREUTATE şi
GLICEMIE la momentul 0, pentru a putea afla dacă VARSTA sau
GREUTATEA influenţează în vreun fel valorile GLICEMIEI.
24
Modul de prezentare a rezultatului covarianței între cele 3 variabile
(GREUTATE, VARSTA şi GLICEMIE) - APLICAŢIA #2
25
Regresia liniară simplă (univariată)
• Metoda constă în determinarea unei funcţii liniare (cea mai simplă formă
de dependenţă) de forma
f(x) = y = a + bx ,
28
Regresia liniară simplă (univariată)
f(x) = y = a + bx
• Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor, adică a abaterilor dintre valorile yi
(extrase din experiment) şi valorile f(xi), calculate cu ajutorul formulei
dreptei de regresie.
i f ( xi ) yi a bxi yi
Definirea erorii totale în regresia liniară simplă (univariată)
• Unele valori ale erorii 𝜀𝑖 sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile atunci când 𝜀𝑖 ≠ 0 .
n n
a b x y
2 2
i i i
i 1 i 1
Regresia liniară simplă (univariată)
32
Regresia liniară simplă (univariată)
n
n yi b xi
n a b x y 0 a i 1 Y b X , (1)
i 1
i i
n
n
(a xi b xi2 xi yi ) 0. (2)
i 1
33
Regresia liniară simplă (univariată)
Y b X xi b
n n n
(3) 2
xi xi y i 0
i 1 i 1 i 1
• Ne folosim de formula (4) de mai jos:
n
n xi
i 1
xi n
n X n
i 1
34
Regresia liniară simplă (univariată)
𝑛
• Înlocuim expresia 𝑖=1 𝑥𝑖 din formula anterioară (4) în formula (3) şi avem:
n n
Y n X bn X b 2 2
xi xi y i 0
i 1 i 1
• Extrăgând apoi parametrul b din formula de mai sus obţinem [formula (5)]:
n
n X Y xi y i
i 1
b n
n X 2 2
xi
i 1
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie
a Y bX (6)
• Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două
variabile aleatoare este direct proporţională.
• Cu cat zona haşurată indicată în figurile de mai jos (aria elipsei) este
mai mică, cu atat legătura dintre variabila x (independentă) şi variabila
y (dependentă) este mai puternică (grafic stanga).
• Cu cat zona haşurată (aria elipsei) este mai mare, cu atat legătura
dintre variabila x (independentă) şi variabila y (dependentă) este mai
slabă (grafic dreapta).
Y Y
X
X
x yi y
n
x i
i 1
n
i x i y
x 2
y 2
i 1
Corelaţie între variabile direct proporţională
A,B
A B
1
0,4
A,B
A B
1 0,6
• Dacă în cazul regresiei liniare simple căutăm o dreaptă care să aproximeze cel
mai bine distribuţia punctelor de intersecţie pentru două variabile, în regresia
liniară multiplă căutăm un hiperplan care să aproximeze cel mai bine tendinţa
(“direcţia”) norului de puncte al unei distribuţii cu mai multe variabile
simultan.
Regresie liniară multiplă (multivariată)
𝑌 = 𝑎1 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + ⋯ + 𝑏𝑘 𝑋𝑘
• În cazul regresiei liniare simple, dreapta de regresie "caută" cea mai bună
traiectorie pentru a minimiza eroarea de estimare.
• Eroarea de estimare este definită printr-o metodă care asigură cea mai mică
sumă a pătratelor distanţelor dintre variabila "predictor" şi variabila
"criteriu".
• Cu cât corelaţia este mai mare, cu atât norul de puncte se apropie mai mult
de dreapta de regresie. La limită, pentru o corelaţie de 1, punctele respective
se plasează chiar pe dreapta de regresie.
Regresie liniară multiplă (multivariată). Corelaţia multiplă
• Atunci când acesta are motive să creadă că o anumită variabilă are o influenţă
mai mare, o poate introduce în ecuaţie înaintea altora.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ PAS CU PAS
• Regresia multiplă pas cu pas este utilizată adesea în studii exploratorii, atunci
când există un număr mare de predictori, despre care nu se ştie exact care
este contribuţia fiecăruia la corelaţia de ansamblu cu variabila dependentă.
• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai
mare, după ce a fost eliminat efectul variabilei anterioare.
• Între primele două metode, diferenţa constă în faptul că, în cazul metodei
secvenţiale, decizia de selecţie a variabilelor introduse în ecuaţie aparţine
cercetătorului, în timp ce
• În cazul metodei “pas cu pas”, programul este cel care face în mod automat
selecţia, în funcţie de parametrii fixaţi de utilizator.
Regresie liniară multiplă (multivariată). Modelul de validare
• Obţinerea unei ecuaţii sigure ţine în mod cert de deja menţionatul raport (15/1)
între volumul eşantionului (N) şi numărul variabilelor predictor (k).
• Evaluarea validităţii se poate face, fie într-o procedură decalată în timp, pe un alt
eşantion extras din aceeaşi populatie, fie prin utilizarea simultană a două
eşantioane, unul pentru calcularea ecuaţiei de regresie, altul pentru validarea
acesteia.
• Ultimul aspect care trebuie luat în considerare este efectul valorilor extreme
(outliers) asupra ecuaţiei de regresie, care poate fi considerabil.
• Uneori, chiar şi una sau două valori excesive pot influenţa analiza de regresie.
• Un caz tipic este acela în care dorim să selectăm candidaţi pentru o anumită
profesie pe baza performanţelor la un set de teste.
• Desigur, scopul esenţial este ca, odată stabilită ecuaţia de regresie pentru
eşantionul studiat, să putem utiliza setul de teste pentru a face predicţii de
evaluare profesională în cazul altor subiecţi.
• Dacă modelul de analiză este unul secvenţial sau pas cu pas, atunci întrebările
la obiectivele implicite vor fi:
• Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a
performanţei profesionale?
• Are ecuaţia de regresie, astfel obtinută, o capacitate sigură de predicţie?
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări
• Variabilele analizate:
– trebuie sa fie măsurate pe scala de interval raport, cu respectarea
condiţiilor de aplicare a testului de corelaţie (normalitatea distribuţiei, în
special);
– sunt fixe, ele urmează a fi păstrate în orice studiu de replicare;
– vor fi măsurate fără erori, iar cazurile extreme vor fi analizate şi tratate
corespunzător;
– se supun unui model de corelaţie liniară;
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări
• Identificăm variabilele:
• Variabila dependentă (criteriu) este "performanta"
• Variabilele independente (predictor) sunt "abstract" şi "verbal“
• Fiecare zonă din matrice reprezintă grafic asocierea variabilelor, două câte
două.
• Graficul din mijlocul primei linii reprezintă asocierea dintre variabila abstract
cu verbal, cel din colţul dreapta-sus, asocierea dintre abstract şi performanta
iar cel de pe linia de mijloc-dreapta, relaţia dintre verbal şi performanta.
Realizarea analizei de regresie multiplă cu SPSS
Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate
Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate
ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS
ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS
Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
a. Dependent Variable: Performanta
Realizarea analizei de regresie multiplă cu SPSS
Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
a. Dependent Variable: Performanta
Realizarea analizei de regresie multiplă cu SPSS
ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS
ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS
• Dacă privim datele din Data Editor, vom descoperi că a fost creată variabila
PRE_1, care conţine valorile estimate pentru variabila dependentă
(performanţa) pe baza ecuaţiei de regresie.
Realizarea analizei de regresie multiplă cu SPSS
• Aşa cum am spus deja, acest lucru nu se poate face decât pe un alt eşantion
decât cel de cercetare, fie prin rezervarea unui eşantion de control din
eşantionul iniţial investigat, fie prin repetarea investigaţiei.