Modul VII SD Curs1

REGRESIA LINIARĂ SIMPLĂ
(UNIVARIATĂ) ŞI CORELAŢIA
Noţiunea de corelaţie. Noţiunea de covarianţă.
Coeficientul de determinare 𝑟 2 și coeficientul de corelație liniară 𝑟.
Reguli empirice (Colton) pentru interpretarea coeficienților de corelație.
Ecuaţia dreptei de regresie. Coeficienţii dreptei de regresie.
Aplicaţii.
Prof. Dr. Gabriel Dimitriu

• Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre
două sau mai multe variabile, sau
• Să găsim o relaţie matematică care să exprime o variabilă în funcţie de

altele implicate în procesul studiat.
• În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu

de interes este nu doar variaţia unui singur parametru, ci şi a doi parametri
cantitativi, despre care presupunem că se influenţează unul pe altul.
• De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie

între greutate şi înălţime, între tensiunea arterială şi valoarea
colesterolului, etc.
• Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi

joacă un rol important în ştiinţele vieţii, şi în particular în medicină.
• Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre
mărimi variază direct/invers proporţional cu alta, ambele mărimi fiind
numerice sau cantitative.
• În domeniul medical se întalnesc numeroase stări (variabile) ce au o
tendinţa naturală de a se modifica împreună.
• Corelaţia şi regresia pun în evidenţă relaţiile ce exista între două serii de

observaţii considerate simultan.
• De obicei, aceste serii de obtin prin măsurarea a două caracteristici

cantitative (variabile) pentru acelaşi esantion.
• Daca ne interesează doar existenta unei legături între cele două variabile,
se calculează coeficientul de corelaţie.
• Un coeficient de corelaţie mare indică o legatură puternică.
• Daca ne interesează daca o variabilă depinde de cealaltă, şi in ce fel, se

determină funcţia de regresie.
• Cele două variabile sunt numite: variabila independentă şi variabila

dependentă.
Corelaţia (asocierea) dintre două variabile
• Se poate vizualiza cu ajutorul unei diagrame de dispersie
• Măsuratorile sunt pereche! Fluctuaţiile celor două variabile se “corelează”

suficient de bine pentru a exclude asocierea aleatoare.
• Totuşi, corelarea statistică nu ne indică nicio cauzalitate.

Tipuri de corelaţie
Tipuri de corelaţie
Corelaţia – trei caracteristici importante:
• Direcţia:
– pozitivă (+)
– negativă (-)
• Forma:
– liniară
– neliniară
• Gradul de asociere:
– între -1 si +1
– valoarea absolută semnifică puterea asocierii
Coeficienţii de corelaţie
• Reprezintă o măsură a corelaţiei
• Sunt adimensionali
• Au valori între -1 şi +1
– -1  corelaţie perfect negativă
– +1  corelaţie perfect pozitivă
– 0  nu există corelaţie (asociere aleatoare)
• Tipuri de coeficienţi
– Coeficient Pearson 𝑟𝑥𝑦
– Coeficient Spearman 𝑟𝑠
Coeficientul de corelaţie Pearson
• Observatie. Cu cat valoarea coeficientului de corelaţie Pearson se

apropie de 1 (în valoare absolută), cu atat "intensitatea" relaţiei
liniare dintre cele 2 variabile va fi mai mare!
Limite ale coeficientului Pearson:

• Calculul se poate face numai pentru date scalate pe un interval.
• Este un coeficient parametric, deci variabilele trebuie să fie normal
distribuite.
• Relaţia dintre cele două variable trebuie să fie liniară si să aibă o
tendinţă (“direcţie”).
• 𝑛 = mărimea eşantionului
• 𝑥 = valorile individuale ale variabilei x
• 𝑦 = valorile individuale ale variabilei y
• 𝑥 = media aritmetică a tuturor valorilor x
• 𝑦 = media aritmetică a tuturor valorilor y
• 𝑠𝑥 = deviaţia standard a tuturor valorilor x
• 𝑠𝑦 = deviaţia standard a tuturor valorilor y
deviaţiile standard pentru variabilele x si y

Covarianţa a două variabile
• Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul

dintre parametri o exercită asupra celuilalt, în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.
• Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:

– mediile aritmetice ale celor doi parametri analizaţi, şi , precum şi
– abaterile de la medie ale valorilor individuale, şi .
• Variaţia proporţională a celor doi parametri x, y este exprimată, din punct

de vedere matematic, prin faptul că suma produselor abaterilor de la
medie ale celor doi parametri este un număr pozitiv:
• Analog, variaţia invers proporţională a celor doi parametri x, y este

exprimată prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr negativ:
• iar absenţa corelaţiei este exprimată prin faptul că această expresie este
egală sau tinde către valoarea 0:
• Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează

la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă a două
variabile , notată prin:
• care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi

parametri cantitativi.
• Grafic, această dependenţă proporţională între două variabile este

caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi, de
asemenea, poate fi definită precis din punct de vedere matematic.
Dreapta de regresie. Ecuația dreptei de regresie a lui y în raport cu x
• Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:
unde
• ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care

măsoară panta dreptei de regresie față de axa absciselor (axa orizontală
Ox).
• ax indică de câte ori, în medie, y este mai mare sau mai mic decât x.
• ax este pozitiv sau negativ, după cum dreapta are o pantă ascendentă sau
descendentă, de la stânga la dreapta.
Dreapta de regresie. Ecuația dreptei de regresie a lui x în raport cu y
• În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de

regresie a lui x în raport cu y, care corespunde ecuaţiei:
unde
• ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care

măsoară panta dreptei de regresie față de axa verticală Oy.
• ay indică de câte ori, în medie, x este mai mare sau mai mic decât y.
Coeficientul de determinare 𝒓𝟐 și coeficientul de corelație liniară 𝒓
(coeficientul de corelație Pearson)
• Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,

respectiv a lui x în raport cu y, se defineşte produsul
(media geometrică a celor două pante de regresie);
• Parametrul 𝒓𝟐 se numeşte coeficientul de determinare.

• Parametrul 𝒓 se numeşte coeficientul corelaţiei liniare, sau coeficientul de
corelaţie Pearson.
• Formula de calcul a coeficientului de corelaţie liniară va fi:
• Coeficientul de determinare 𝒓𝟐 și coeficientul de corelație liniară 𝒓
(coeficientul de corelație Pearson)
• Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii

liniare între două variabile şi are valori cuprinse între -1 şi 1.
• Valorile apropiate de 0 indică absenţa corelaţiei între variabilele

respective, iar valorile apropiate de 1 sau de -1 indică prezenţa unei
corelaţii puternice între variabile.
• Valorile negative indică prezenţa unei corelaţii invers proporţionale

(atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile
scad corespunzător), iar
• Valorile pozitive indică prezenţa unei corelaţii direct proporţionale (atunci

când valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc şi
ele).
Reguli empirice pentru interpretarea coeficienților de corelație
• Colton (1974) a indicat următoarele reguli empirice pentru interpretarea

coeficienţilor de corelaţie:
– Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă

sau foarte slabă,
– Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
– Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
– Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.
APLICAŢIA #1
• Să se determine coeficienţii de corelaţie între VARSTA, GREUTATE şi
GLICEMIE la momentul 0, pentru a putea afla dacă VARSTA sau
GREUTATEA influenţează în vreun fel valorile GLICEMIEI.
• Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii

de corelaţie este ca variabilele pentru care dorim să calculăm aceşti
parametri să fie situate în coloane învecinate – condiţie realizată în cazul
tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate
separat.
Fereastra corespunzătoare calculului coeficienţilor de corelaţie
21
Modul de prezentare a rezultatului corelației între cele 3 variabile (VARSTA,
GREUTATE şi GLICEMIE la momentul de timp 0) – APLICAŢIA #1
• Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine

coeficienţii de corelaţie Pearson între toate perechile posibile de variabile
selectate prin comandă.
• În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci

pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.
22
APLICAŢIA #2
• Să se determine coeficienţii de covarianţă între VARSTA, GREUTATE şi
GLICEMIE la momentul 0, pentru a putea afla dacă VARSTA sau
GREUTATEA influenţează în vreun fel valorile GLICEMIEI.
• După cum am arătat, covarianţa este o măsură premergătoare calculului

coeficienţilor de corelaţie între două variabile, definită ca media produselor
deviaţiilor pentru fiecare pereche de puncte.
• Spre deosebire de coeficientul de corelaţie, valoarea coeficientului de

covarianţă nu aparţine unui interval fixat (dat) de valori, putând lua ca
valoare orice număr real.
• Covarianţa se foloseşte pentru a determina doar natura legăturii între cele

două variabile: valorile pozitive ale ei indică o legătură direct
proporţională între variabile, valorile negative indică o legătură invers
proporţională, iar valorile apropiate de 0 indică absenţa unei influenţe
între cele două variabile.
Fereastra corespunzătoare calculului covarianţei (APLICAŢIA #2)
24
Modul de prezentare a rezultatului covarianței între cele 3 variabile
(GREUTATE, VARSTA şi GLICEMIE) - APLICAŢIA #2
• Între toate cele 3 variabile există o legătură direct proporţională, mai

accentuată între GREUTATE şi VARSTA (69.0012), şi foarte slabă între
GLICEMIE şi VARSTA (6.3772), respectiv GLICEMIE și GREUTATE (7.7596).
25
Regresia liniară simplă (univariată)
• Termenul de regresie a fost introdus de

matematicianul englez Francis Galton în 1889.
• Metoda constă în determinarea unei funcţii liniare (cea mai simplă formă
de dependenţă) de forma
f(x) = y = a + bx ,
care să aproximeze calculul valorilor y prin valorile x

(y – variabila dependentă (efect),
x – variabila independentă sau variabila cauzală (predictor).
• Atât x cât şi y sunt variabile de tip continuu.

• Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)

constă în definirea unei erori şi minimizarea acesteia.
• Considerăm că avem două şiruri de date corespunzătoare variabilelor

aleatoare de interes X şi respectiv, Y (caracterizate ca fiind distribuite
normal sau gaussian).
• În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,

fiecare având același număr de valori:
Exemplu de regresia liniară realizată pentru un set de date corespunzător
variabilelor x şi y
28
• Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de

regresie) care definesc dreapta de regresie:
f(x) = y = a + bx
• Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor, adică a abaterilor dintre valorile yi
(extrase din experiment) şi valorile f(xi), calculate cu ajutorul formulei
dreptei de regresie.
• Pentru fiecare punct 𝑥𝑖 , 𝑦𝑖 se defineşte eroarea:
 i  f ( xi )  yi  a  bxi  yi
Definirea erorii totale în regresia liniară simplă (univariată)
• Unele valori ale erorii 𝜀𝑖 sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile atunci când 𝜀𝑖 ≠ 0 .
• Pentru a nu pierde această informaţie se va folosi pătratul erorii.
• Eroarea totală este definită ca suma tuturor erorilor determinate de cele n

valori experimentale:
n n
     a  b  x  y 
2 2
i i i
i 1 i 1
• În mod evident, această sumă a pătratelor diferenţelor este totdeauna

pozitivă.
• Privind problema cu necunoscutele a respectiv b, funcţia “eroare totală”

definită anterior va admite un minim (fiind suma pătratelor, aceasta va fi
numai pozitivă) strict pozitiv sau chiar valoarea 0.
• Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai

corectă a valorilor lui y în funcţie de valorile lui x.
• Condiţia pentru atingerea punctului de minim este ca derivata funcției

“eroarea totală” în raport cu fiecare variabilă în parte (a și b) să fie zero.
• Obţinem astfel sistemul de ecuaţii:
32
 n
 n   yi  b  xi 
 n  a   b  x  y   0  a  i 1  Y  b  X , (1)
 i 1
i i
n
n
 (a  xi  b  xi2  xi  yi )  0. (2)
i 1
33
• Înlocuim expresia de calcul a parametrului a din prima ecuaţie în a doua

ecuaţie şi aflăm parametrul b. [formula (3)]:
Y  b  X   xi  b  
n n n
(3) 2
xi   xi  y i  0
i 1 i 1 i 1
• Ne folosim de formula (4) de mai jos:
n
n  xi
i 1
 xi  n
n  X n
i 1
34
𝑛
• Înlocuim expresia 𝑖=1 𝑥𝑖 din formula anterioară (4) în formula (3) şi avem:
n n
Y n X bn X b 2 2
xi   xi  y i  0
i 1 i 1
• Extrăgând apoi parametrul b din formula de mai sus obţinem [formula (5)]:
n
n  X  Y   xi  y i
i 1
b n
n X  2 2
xi
i 1
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie
• Valoarea lui a se calculează conform celor demonstrate cu formula:
a  Y  bX (6)
• În concluzie, s-au dedus parametrii dreptei: y = a + bx.

• Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’.
• Dacă x = 0 atunci y = a.
• Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu
media tuturor valorilor pentru care x este 0.
• Trebuie avut în vedere următorul aspect: nu în orice situaţie este posibilă şi
are sens această intersecţie cu axa YY’.
• De exemplu, pentru predictor X , reprezentând presiunea sistolică sau
temperatura corpului, valoarea 0 nu are interpretare în cazuri normale
(studiem pacienţii deci persoane în viaţă!).
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie
Dreapta de regresie liniară simplă: y = a + bx
• Parametrul b reprezintă panta dreptei (tangenta unghiului dintre dreaptă

şi axa orizontală).
• Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două
variabile aleatoare este direct proporţională.
• Astfel, o creştere a valorii variabilei x va determina o creştere a valorii

variabilei y, respectiv o scădere a valorii variabilei x, va conduce la o
scădere a valorii variabilei y.
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie a şi b
Dreapta de regresie liniară simplă: y = a + bx
• Dacă valoarea parametrului b este negativă, atunci dependenţa între cele

două variabile aleatoare este invers proporţională.
• Variaţia într-un anume sens a variabilei x, va duce la o variaţie în sens

contrar a variabilei y.
• Cazul în care nu există dependenţă între cele două variabile x, respectiv y

se obţine pentru b = 0.
• În acest caz, oricât am modifica variabila x, variabila y va păstra o valoare

constantă, y = a.
Semnificația pantei dreptei de regresie b
• Dreapta de regresie liniară simplă: y = a + bx
• Panta dreptei reprezintă variaţia variabilei dependente y, pentru o

creştere sau descreştere a predictorului (x) cu o unitate.
• Avem ecuația dreptei de regresie: y = a + bx.
• Creştem valoarea lui x cu o unitate, x  x 1
• Noul y va fi: y1 = a + b (x+1) = a + bx + b.
• Se observă că diferenţa dintre y şi y1 este egală cu b (panta dreptei de

regresie).
Corelaţia dintre două variabile x şi y
• Cu cat zona haşurată indicată în figurile de mai jos (aria elipsei) este
mai mică, cu atat legătura dintre variabila x (independentă) şi variabila
y (dependentă) este mai puternică (grafic stanga).
• Cu cat zona haşurată (aria elipsei) este mai mare, cu atat legătura
dintre variabila x (independentă) şi variabila y (dependentă) este mai
slabă (grafic dreapta).
Y Y
X
X
Legătură puternică Legătură slabă

Coeficientul de corelaţie 𝝆
• Coeficientul de corelaţie 𝜌 este un parametru normalizat, în sensul că

valoarea sa se situează întotdeauna în intervalul [-1, +1], indiferent de
valorile variabilelor x şi y.
  x    yi   y 
n
 x i
 i 1
 
n

 i x i y
x    2
 y   2
i 1
Corelaţie între variabile direct proporţională
A,B
A B
1
0,4
Dependenţă deterministă Dependenţă stochastică

direct proporţională direct proporţională
Corelaţie între variabile invers proporţională
A,B
A B
1 0,6
Dependenţă deterministă Dependenţă stochastică

invers proporţională invers proporţională
REGRESIA LINIARĂ MULTIPLĂ
(MULTIVARIATĂ)
Corelaţia multiplă. Multicoliniaritate.
Alegerea modelului de analiză.
Regresia liniară multiplă standard.
Regresia liniară multiplă secvenţială (ierarhică).
Regresia liniară multiplă pas cu pas.
Modelul de validare.
Obiective de cercetare specifice analizei de regresie multiplă.
Exemplu de aplicare a regresiei liniare multiple cu programul SPSS
Prof. Dr. Gabriel Dimitriu

Regresie liniară multiplă (multivariată)
• Regresia multiplă este o metodă de predicţie a valorilor unei variabile

dependente pornind de la valorile mai multor variabile independente.
• De exemplu, în cazul evaluării rezultatelor la un examen, avem un set de

variabile independente (numite şi "predictori"), care reprezintă scoruri la
diferite teste utilizate, şi o variabilă dependentă (numită şi “performanţă”
sau "criteriu") ale cărei valori vrem sa le estimăm pornind de la relaţiile
acesteia cu toate variabilele independente.
• În esenţă, regresia multiplă reprezintă o procedură similară regresiei simple.

• Aşa cum regresia simplă se bazează pe corelaţia dintre două variabile,

regresia multiplă se bazează pe corelaţia multiplă dintre variabilele implicate.
• Dacă în cazul regresiei liniare simple căutăm o dreaptă care să aproximeze cel
mai bine distribuţia punctelor de intersecţie pentru două variabile, în regresia
liniară multiplă căutăm un hiperplan care să aproximeze cel mai bine tendinţa
(“direcţia”) norului de puncte al unei distribuţii cu mai multe variabile
simultan.
• Ecuaţia de regresie liniară multiplă va fi una similară celei de la regresia liniară

simplă, cu singura deosebire că vom avea mai mulţi coeficienţi b, sau în
terminologia consacrată pentru regresia multiplă, coeficienţi beta (β).
𝑌 = 𝑎1 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + ⋯ + 𝑏𝑘 𝑋𝑘
• În plus, aceştia vor fi calculati pe baza coeficientului de corelaţie partială,

după ce a fost eliminată influenţa pe care o exercită variabilele introduse
anterior în ecuaţie.
• În ecuaţia de mai sus am notat:
– Y este valoarea estimată pentru variabila criteriu (variabila dependentă)
– a1 este punctul de origine al dreptei de regresie
– b1, b2, b3... bk sunt coeficienţii beta (β) pentru cele k variabile predictor
– X1, X2, X3.... Xk sunt valorile celor k variabile predictor
Regresie liniară multiplă (multivariată). Corelaţia multiplă
• În cazul regresiei liniare simple, dreapta de regresie "caută" cea mai bună
traiectorie pentru a minimiza eroarea de estimare.
• Eroarea de estimare este definită printr-o metodă care asigură cea mai mică
sumă a pătratelor distanţelor dintre variabila "predictor" şi variabila
"criteriu".
• În mod natural, acest deziderat este asigurat de valoarea coeficientului de

corelaţie Pearson dintre cele două variabile.
• Cu cât corelaţia este mai mare, cu atât norul de puncte se apropie mai mult
de dreapta de regresie. La limită, pentru o corelaţie de 1, punctele respective
se plasează chiar pe dreapta de regresie.
Regresie liniară multiplă (multivariată). Corelaţia multiplă
• Situaţia se prezintă în mod similar şi în cazul regresiei liniare multiple. Doar că

de data aceasta, nu ne bazăm pe corelaţia simplă între două variabile, ci pe
corelaţia multiplă între mai multe variabile, notată cu R.
• Corelaţia multiplă este esenţialmente similară corelaţiei Pearson şi ne indică

câtă informaţie cu privire la o variabilă (variabila dependentă) este conţinută
în combinaţia simultană a mai multor variabile (independente) cu care
aceasta se află în asociere.
• Mai mult, la fel ca şi în cazul corelaţiei simple, avem şi pentru corelaţia

multiplă un coeficient de determinare (R2), care are o interpretare similară:
Valoarea coeficientului de determinare (exprimată procentual) reprezintă
procentul de variaţie a variabilei dependente determinat de variaţia
simultană a variabilelor independente.
• Semnificaţia lui R este calculată cu ajutorul unui test de varianţă (testul Fisher
F)
Regresie liniară multiplă (multivariată). Multicoliniaritatea
• Un alt aspect important în contextul regresiei multiple este

multicoliniaritatea.
• Acesta este un concept opus ortogonalităţii şi exprimă nivelul corelaţiei
dintre variabilele independente.
• Informaţia împărtăşită în comun de variabilele independente reduce
contribuţia lor la explicarea variaţiei variabilei dependente.
• Cu alte cuvinte, cu cât acestea corelează mai intens între ele, cu atât
corelaţia multiplă cu variabila dependentă (criteriu) este mai mică.
• În plus, multicoliniaritatea amplifică variabilitatea coeficienţilor de regresie,
fapt care are ca efect o imprecizie mai mare a predicţiei.
• Din acest motiv, analiza de regresie trebuie precedată de evaluarea
multicoliniarităţii.
• Una dintre metode este aceea de a analiza matricea de intercorelaţii dintre

variabilele independente.
• Corelaţiile mari sunt un indicator al liniarităţii.
• În principiu, variabilele independente a căror corelaţie este mai mare de 0.1

ridică problema multicoliniarităţii.
• O altă metodă este analiza "toleranţei", o opţiune oferită de programele de

prelucrări statistice.
• "Toleranţa" este o măsură specifică pentru coliniaritate care ia valori între 0

si 1.
• Valorile apropiate de 0 sunt un semn al coliniarităţii. Variabilele pentru care

"toleranţa" este mai mică de 0.1 ridică o problema de coliniaritate care ar
trebui rezolvată.
• Există două soluţii posibile în legătură cu variabilele cu probleme de

coliniaritate: eliminarea lor sau, combinarea lor, din moment ce aduc acelaşi
tip de informaţie (aceasta în cazul în care corelaţia lor este de 0.80 sau mai
mare).
Regresie liniară multiplă (multivariată). Alegerea modelului de analiză
• O importanţă deosebită prezintă alegerea modelului de analiză care să

permită selectarea unui set de predictori, având maximum de putere de
predicţie asupra variabilei criteriu (variabilei dependente).
• Scopul nu este acela de a aduna informaţie de la toate variabilele disponibile,

ci doar de la acelea care aduc contribuţia cea mai consistentă.
• O primă recomandare, cu caracter preliminar, este aceea de a avea în vedere

un anumit raport între numărul de subiecţi si numărul variabilelor
independente.
• Acest raport este recomandat la valoarea 15/1, adică pentru un eşantion de

150 de subiecţi se poate miza pe cel mult 10 variabile independente.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ STANDARD
• După ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia

dintre metodele de introducere a acestora în ecuaţia de regresie:
• Prin regresia multiplă standard, toate variabilele predictor sunt incluse în

ecuaţie, efectul fiecăreia fiind evaluat după şi independent de efectul tuturor
celorlalte variabile introduse anterior.
• Fiecare variabilă independentă este evaluată numai prin prisma contribuţiei

proprii la explicarea variabilei dependente.
REGRESIA MULTIPLĂ SECVENŢIALĂ (REGRESIE IERARHICĂ)
• În regresia multiplă secvenţială (numită şi regresie ierarhică) variabilele

independente sunt introduse în ecuaţie într-o anumită ordine, în funcţie de
opţiunile utilizatorului.
• Atunci când acesta are motive să creadă că o anumită variabilă are o influenţă
mai mare, o poate introduce în ecuaţie înaintea altora.
REGRESIA MULTIPLĂ PAS CU PAS
• Regresia multiplă pas cu pas este utilizată adesea în studii exploratorii, atunci
când există un număr mare de predictori, despre care nu se ştie exact care
este contribuţia fiecăruia la corelaţia de ansamblu cu variabila dependentă.
• Există trei variante ale acestui tip de analiză:

REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA ANTEROGRADĂ
• Toate variabilele independente sunt corelate cu variabila dependentă, după

care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie.
• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai
mare, după ce a fost eliminat efectul variabilei anterioare.
• Procesul continuă până ce nivelul contribuţiei variabilelor independente este

prea mic pentru a mai fi luat în considerare.
• O variabilă odată introdusă în ecuaţie rămâne acolo.

REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA PAS CU PAS
• Este o variantă a metodei anterioare.
• Diferenţa constă în faptul că la fiecare pas, fiecare variabilă deja introdusă

este retestată pentru a se evalua efectul lor, ca şi cum ar fi fost introdusă
ultima.
• Cu alte cuvinte, dacă o variabilă nou introdusă are o contribuţie mai

consistentă asupra variabilei dependente, va determina eliminarea unei
variabile anterioare, dar care se dovedeşte mai puţin predictivă.
REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA RETROGRADĂ
• Pasul iniţial al acestei metode este acela de determinare a unei ecuaţii de

regresie în care toate variabilele predictor sunt incluse.
• Ulterior, pentru fiecare variabilă predictor, este efectuat un test de
semnificatie "F", pentru a se evalua contribuţia fiecărui predictor la corelaţia
de ansamblu.
• Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele
care nu trec acest prag fiind eliminate din ecuaţie.
• Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un
nou test F este efectuat pentru variabilele rămase, urmat de eventuala
eliminare a unei alte variabile.
• Procesul continuă, până când doar variabilele semnificative rămân în ecuaţie.
Regresie liniară multiplă (multivariată). Alegerea modelului de analiză
• Este evident că metoda "secvenţială" şi cea "pas cu pas" sunt superioare

metodei "standard".
• Între primele două metode, diferenţa constă în faptul că, în cazul metodei
secvenţiale, decizia de selecţie a variabilelor introduse în ecuaţie aparţine
cercetătorului, în timp ce
• În cazul metodei “pas cu pas”, programul este cel care face în mod automat
selecţia, în funcţie de parametrii fixaţi de utilizator.
Regresie liniară multiplă (multivariată). Modelul de validare
• Ecuaţia de regresie multiplă are drept finalitate predicţia variabilei

dependente (variabila criteriu).
• Verificarea potenţialului real de predicţie este ceea ce se numeşte validarea

ecuaţiei de regresie.
• Este evident că modelul de validare prezintă o importanţă aparte.

Coeficientul de corelatie multiplă (R) are o valoare maximă pe eşantionul
pentru care a fost calculată ecuaţia de regresie.
• Dacă nivelul corelaţiei scade dramatic pe alt eşantion, atunci ecuaţia de

regresie nu prezintă utilitatea care a fost estimată.
Regresie liniară multiplă (multivariată). Modelul de validare
• Obţinerea unei ecuaţii sigure ţine în mod cert de deja menţionatul raport (15/1)
între volumul eşantionului (N) şi numărul variabilelor predictor (k).
• O altă recomandare sugerează utilizarea unui eşantion N≥50+8k pentru testarea

corelaţiei multiple şi N≥104+k, pentru testarea predictorilor individuali.
• Evaluarea validităţii se poate face, fie într-o procedură decalată în timp, pe un alt
eşantion extras din aceeaşi populatie, fie prin utilizarea simultană a două
eşantioane, unul pentru calcularea ecuaţiei de regresie, altul pentru validarea
acesteia.
• În ambele cazuri se va urmari respectarea criteriilor de constituire a eşantionului

enunţate mai sus.
Regresie liniară multiplă (multivariată). Efectul valorilor extreme (“outliers”)
• Ultimul aspect care trebuie luat în considerare este efectul valorilor extreme
(outliers) asupra ecuaţiei de regresie, care poate fi considerabil.
• Uneori, chiar şi una sau două valori excesive pot influenţa analiza de regresie.
• De aceea, aceste valori vor fi identificate şi tratate corespunzător, înaintea

calculării ecuaţiei de regresie multiplă.
Obiective de cercetare specifice analizei de regresie multiplă
• Analiza de regresie multiplă este utilizabilă în situaţii de predictie.
• Un caz tipic este acela în care dorim să selectăm candidaţi pentru o anumită
profesie pe baza performanţelor la un set de teste.
• Performanţa profesională, măsurată prin una din metodele posibile

(aprecierea pe bază de experţi, apreciere interpersonală, productivitate, etc.)
este variabila criteriu (dependentă).
• Indicatorii de performanţă la teste reprezintă variabilele predictor

(independente).
• Desigur, scopul esenţial este ca, odată stabilită ecuaţia de regresie pentru
eşantionul studiat, să putem utiliza setul de teste pentru a face predicţii de
evaluare profesională în cazul altor subiecţi.
• Este evident că o astfel de procedură este una de durată şi urmăreşte ceea ce

se numeşte "validarea testelor de selecţie".
• Într-un astfel de caz, subiecţii eşantionului ar fi supuşi testării înaintea

angajării, după care, la un interval adecvat de timp, ar urma sa fie evaluaţi sub
aspectul performanţei profesionale.
• Ulterior, dacă rezultatele analizei de regresie justifică aceasta, rezultatele la

teste vor putea fi utilizate pentru selecţie.
• Într-o situaţie de cercetare ca cea descrisă, întrebările pe care şi le pune

cercetătorul, atunci când alege să introducă în ecuaţia de regresie toţi
indicatorii testelor sunt, în mod explicit, următoarele:
• Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea mai
ridicată?
• Există indicatori care nu au relevanţă pentru predicţia performanţei
profesionale?
• Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie?
• Dacă modelul de analiză este unul secvenţial sau pas cu pas, atunci întrebările
la obiectivele implicite vor fi:
• Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a
performanţei profesionale?
• Are ecuaţia de regresie, astfel obtinută, o capacitate sigură de predicţie?
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări
• Efectuarea analizei de regresie multiplă presupune o serie de condiţii

prealabile.
• Aceste condiţii se referă, pe de o parte la variabile şi, pe de altă parte, la

distribuţia valorilor reziduale.
• Variabilele analizate:
– trebuie sa fie măsurate pe scala de interval raport, cu respectarea
condiţiilor de aplicare a testului de corelaţie (normalitatea distribuţiei, în
special);
– sunt fixe, ele urmează a fi păstrate în orice studiu de replicare;
– vor fi măsurate fără erori, iar cazurile extreme vor fi analizate şi tratate
corespunzător;
– se supun unui model de corelaţie liniară;
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări
• Valorile reziduale (erorile de predicţie):

– media valorilor reziduale în studii de replicare să fie zero;
– erorile în cazul unei variabile independente nu au nicio legătură cu erorile
altei sau altor variabile independente;
– erorile nu corelează cu variabilele independente;
– varianţa valorilor reziduale pe toată distribuţia variabilelor independente
este omogenă (homoscedasticitate);
– erorile au o distribuţie normală.
• Verificarea acestor condiţii presupune îndeplinirea tuturor procedurilor de

analiză preliminară a datelor, aşa cum au fost deja prezentate anterior.
Realizarea analizei de regresie multiplă cu SPSS
• APLICAŢIE: Presupunem că un psiholog doreşte să estimeze performanţa în

învăţarea unui set de cunoştinţe, pe baza aplicării a două teste, unul de
inteligenţă abstractă şi altul de inteligenţă verbală.
• Am construit o matrice de date ipotetică, introdusă cu editorul de date SPSS,

ca în figura de mai jos.
• Identificăm variabilele:
• Variabila dependentă (criteriu) este "performanta"
• Variabilele independente (predictor) sunt "abstract" şi "verbal“
• Verificăm liniaritatea asocierii dintre variabile cu ajutorul procedurii

Graphs/Legacy Dialogs/Scatter/Dot … opţiunea Matrix Scatter:
• Am trecut variabilele studiului în lista Matrix Variables, pentru a obţine o

matrice de grafice Scatter Plot care sa permită analiza comparativă a
acestora.
• Pentru a obţine şi dreptele de regresie în fiecare grafic vom edita matricea

obţinută astfel: dublu clic pe grafic şi apoi Chart/Options/Add Fit Line at Total
• Pentru a obţine şi dreptele de regresie în fiecare grafic vom edita matricea

obţinută astfel: dublu clic pe grafic şi apoi Chart/Options/Add Fit Line at Total
• Fiecare zonă din matrice reprezintă grafic asocierea variabilelor, două câte
două.
• Pe diagonala principală a matricii de corelaţie variabilele corelează cu ele

însele.
• Imaginile de deasupra şi dedesubtul ei fiind repetitive, vom privi numai într-o

singura zonă, să zicem deasupra diagonalei.
• Graficul din mijlocul primei linii reprezintă asocierea dintre variabila abstract
cu verbal, cel din colţul dreapta-sus, asocierea dintre abstract şi performanta
iar cel de pe linia de mijloc-dreapta, relaţia dintre verbal şi performanta.
• Analiza imaginilor ne spune următoarele lucruri:

• Toate relaţiile sunt de tip liniar (norul de puncte se situează, în general, în
jurul dreptei de regresie)
– abstract şi verbal corelează negativ
– abstract şi perform corelează pozitiv
– verbal şi perform corelează negativ
• Obţinem matricea de corelaţii a variabilelor aplicând procedura corelaţiei

bivariate (Pearson): Analyze/Correlate/Bivariate … şi selectăm toate
variabilele:

variabilele:

variabilele:
Correlations
Abstract Verbal Performanta
Pearson Correlation 1 -.712* .921**

Abstract Sig. (2-tailed) .032 .000
N 9 9 9
Pearson Correlation -.712* 1 -.902**
Verbal Sig. (2-tailed) .032 .001
N 9 9 9
Pearson Correlation .921** -.902** 1
Performanta Sig. (2-tailed) .000 .001
N 9 9 9
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
• Valorile din matricea de corelaţie confirmă constatările preliminare din

matricea Scatter/Dot.
• Variabilele predictor corelează negativ între ele (-0.712), variabila abstract
corelează pozitiv cu variabila dependentă performanta (+0.921), iar variabila
verbal corelează negativ cu variabila dependentă (-0.902).
• Ne amintim că, în mod ideal, variabilele independente nu trebuie să coreleze

între ele, dar trebuie să coreleze cu variabila dependentă (criteriul).
• Trebuie să evaluăm semnificaţia corelaţiilor din matrice.
• Fiind vorba de o matrice multivariată, semnificaţia coeficienţilor de corelaţie

se corectează cu ajutorul metodei Bonferoni.
• Pragul minim de 0.05 se împarte la numărul variabilelor din matrice şi se

obtine noul prag limită: 0.05/3=0.017.
• În aceste condiţii, constatăm că relaţia dintre variabilele predictor nu este

semnificativă (.032), (să nu uităm că lucrăm pe un număr foarte mic de
subiecţi). În acelaşi timp, corelaţiile dintre variabilele predictor şi criteriu
sunt semnificative (.000 respectiv, .001).
• După efectuarea acestor analize preliminare, putem trece la analiza de

regresie multiplă propriu-zisă, executând procedura:
Analyze/Regression/Linear …
• Am introdus variabile performanta în zona Dependent iar variabilele abstract

şi verbal în lista Independent(s)
• Am preferat metoda de analiză standard (Enter) care este cea implicită.
• Acţionăm butonul Statistics pentru alte opţiuni:

• În funcţie de nevoile de analiză, putem alege orice opţiuni dorim, aici am bifat
doar Descriptives.
• Alte opţiuni din această casetă determină obţinerea unor informaţii
suplimentare şi verificarea condiţiilor de aplicare a analizei de regresie
multiplă.
• Semnificaţia opţiunilor poate fi gasită în Help-ul casetei.
• Acţionăm Save pentru a genera o variabilă

nouă, care va conţine valorile prezise
nestandardizate (adică netransformate
în scoruri z)
• În fine, acţionăm butonul OK în caseta principală şi trecem la analiza

rezultatelor.
• Mai întâi, analizăm statistica descriptivă pentru fiecare variabilă şi matricea

de corelaţii care ne oferă informaţii de aceeaşi natură cu cele preliminare, pe
care le-am inspectat deja.
• Examinăm coeficientul de corelaţie multiplă:
Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 .985a .971 .961 4.777

a. Predictors: (Constant), Verbal, Abstract
b. Dependent Variable: Performanta
• Valoarea sa, 0.985 ne indică o corelaţie mare între variabilele predictor,

simultan cu variabila dependentă.
• Valoarea lui R2 (0.971) ne arata ca 97% din variaţia performanţei în însuşirea

setului de cunoştinţe este determinată de cele două tipuri de inteligenţă
(verbală şi abstractă) pe care le-am introdus în model.
• "Adjusted R Square" (R2adj = 0.961) este o valoare corectată a lui R2 care

depinde de numărul de predictori şi numărul de subiecţi.
Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 .985a .971 .961 4.777

a. Predictors: (Constant), Verbal, Abstract
b. Dependent Variable: Performanta
• Aceasta deoarece cu cât acestea sunt mai mari, cu atât coeficientul de

determinare tinde să fie mai mare.
• "Standard Error of the Estimate" indică acurateţea modelului de predicţie.
• Cu cât eroarea estimării este mai mică, cu atât predicţia este mai sigură.
• Acum trebuie să evaluăm corelaţia de ansamblu dintre predictori şi variabila

dependentă (variabila criteriu).
• Principala problemă la care trebuie să răspundem este dacă variabilele
predictor (independente) corelează semnificativ cu variabila dependentă.
• Pentru aceasta, inspectăm tabelul ANOVA:
ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
• Aşa cum am precizat deja, semnificaţia lui R se testează cu ajutorul analizei de

varianţă.
• În cazul nostru, valoarea lui F este 100.45 iar nivelul de semnificaţie,
Sig.=0.000.
• Aceste valori ne permit să respingem ipoteza nulă şi să acceptăm că cele
două variabile predictor influentează împreună variaţia variabilei criteriu.
ANOVAa
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
• Examinăm coeficienţii individuali de regresie.
• Utilizând constanta (care ne dă punctul de origine al dreptei de regresie) şi

valorile coeficienţilor B (beta), putem scrie ecuaţia de regresie liniară
multiplă dintre variabilele independente (predictorii) şi variabila dependentă
(criteriu).
• Performanţa estimată pentru însuşirea setului de conoştinţe
= 138.555 + (0.706) * abstract + (-4.862) * verbal
Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
• Examinăm coeficienţii individuali de regresie.
• Aceeaşi ecuaţie poate fi scrisă şi utilizând coeficienţii Beta (standardizaţi):
Zperformanta =(0.565) * abstract + (-0.500) * verbal
Observaţie. În cazul valorilor beta standardizate, termenul liber al ecuaţiei este 0
Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
• La rândul ei, semnificaţia coeficienţilor individuali de regresie trebuie analizată

pentru a vedea dacă aceştia descriu cu adevărat o relaţie între variabilele
independente (predictorii) şi variabila dependentă (variabila criteriu).
• Ipoteza nulă se defineşte astfel:
Coeficienţii de regresie aleşi sunt egali cu 0.
• Ipoteza alternativă se defineşte astfel:
Coeficienţii de regresie sunt diferiţi de 0.
• Rezultatul testului este afişat în ultimele două coloane din tabelul de mai sus şi
sunt exprimaţi în forma unui test t.
• Valorile lui t (t=coeficientul B/eroarea standard B ) exprimă semnificaţia
diferenţei dintre coeficienţii respectivi şi 0. În cazul nostru, ambii coeficienţi au
valori semnificative (Sig. este mai mic de 0.05), ceea ce ne permite să tragem
concluzia că ambii coeficienţi sunt semnificativ diferiţi de 0 şi, deci, ambele
variabile predictor sunt importante pentru estimarea variabilei criteriu.
• După examinarea corelaţiei dintre fiecare predictor şi criteriu, vom efectua

analiza relaţiei globale, pentru toţi coeficienţii de regresie în ansamblu.
• Întrebarea la care trebuie sa răspundem este dacă există o relaţie liniară între
variabila dependentă (variabila criteriu) şi întregul set de variabile
independente (predictori).
• Testul ANOVA din tabelul următor conţine soluţia problemei noastre:
ANOVAa
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
• Valoarea testului F (F=100.45) este semnificativă la un prag p=0.000, ceea ce

permite concluzia că există o asociere de tip liniar între predictori şi variabila
dependentă.
ANOVAa
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
• Dacă privim datele din Data Editor, vom descoperi că a fost creată variabila
PRE_1, care conţine valorile estimate pentru variabila dependentă
(performanţa) pe baza ecuaţiei de regresie.
• Putem calcula corelaţia bivariată între performanţa şi estimarea ei (pre_1) şi

obţinem R=0.985 (Sig.=.000), ceea ce este foarte aproape de valoarea
coeficientului de corelaţie multiplă.
• Desigur, nu trebuie să considerăm această corelaţie ca fiind o "validare" a

predicţiei.
• Aşa cum am spus deja, acest lucru nu se poate face decât pe un alt eşantion
decât cel de cercetare, fie prin rezervarea unui eşantion de control din
eşantionul iniţial investigat, fie prin repetarea investigaţiei.
• Într-o situaţie de selecţie, valorile pentru variabilele predictor obţinute

pentru fiecare subiect ar fi puse într-o ecuaţie de regresie utilizând
coeficienţii B din analiza de regresie multiplă, iar subiecţii care ar obţine
estimare a performanţei sub o anumită valoare considerată convenabilă, ar fi
declaraţi inapţi pentru a fi incluşi în programul de instruire (învăţare).
Realizarea analizei de regresie multiplă cu SPSS.
Raportarea rezultatelor
• În raportul de cercetare vor fi incluse cele mai importante dintre

caracteristicile datelor preliminare precum şi datele obţinute prin prelucrare:
– datele iniţiale şi eventualele eliminări sau transformări efectuate

– indicatorii statistici descriptivi (medii, abateri standard), matricele de
corelaţie, graficele ilustrative pentru diferitele distribuţii
– coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de
libertate)
– dacă a fost utilizată metoda “pas cu pas” se vor sintetiza valorile (R2, R2adj)
pentru fiecare pas şi nivelul lor de semnificaţie
– tabelul cu coeficienţii B (sau beta), coeficienţii R bivariaţi şi corelaţia
parţială pentru fiecare variabilă independentă inclusă în model
– se vor trage concluzii de ansamblu
• Rezultatele studiului demonstrativ de mai sus pot fi sintetizate în felul

următor (facem precizarea că datele prezentate nu au nici o legătură cu vreun
studiu real pe această temă, având doar o semnificaţie didactică):
• Analiza de regresie multiplă a urmărit evaluarea capacităţii de predicţie a

succesului în învăţarea unui set de cunoştinţe pe baza inteligenţei abstracte şi
verbale.
• A fost identificată o relaţie de tip liniar între variabila dependentă

(performanţa) şi predictori (abstract şi verbal) (F = 100.45, p value < .001).
• Coeficientul de corelaţie multiplă a fost determinat cu valoarea R=0.985.
• Aproximativ 97% (R Square = 0.971) din varianţa succesului în învăţarea

setului de cunoştinţe poate fi explicată prin contribuţia simultană a celor două
variabile.
• Subiecţii care dovedesc aptitudini pentru însuşirea setului de cunoştinţe au un

nivel mai ridicat de inteligenţă abstractă, concomitent cu un nivel mai scăzut
al inteligenţei verbale.
VĂ MULŢUMESC !

Modul VII SD Curs1

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modul VII SD Curs1

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESIA LINIARĂ SIMPLĂ

Prof. Dr. Gabriel Dimitriu

• Să găsim o relaţie matematică care să exprime o variabilă în funcţie de

• În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu

• De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie

• Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi

• Corelaţia şi regresia pun în evidenţă relaţiile ce exista între două serii de

• De obicei, aceste serii de obtin prin măsurarea a două caracteristici

• Un coeficient de corelaţie mare indică o legatură puternică.

• Daca ne interesează daca o variabilă depinde de cealaltă, şi in ce fel, se

• Cele două variabile sunt numite: variabila independentă şi variabila

• Se poate vizualiza cu ajutorul unei diagrame de dispersie

• Măsuratorile sunt pereche! Fluctuaţiile celor două variabile se “corelează”

• Totuşi, corelarea statistică nu ne indică nicio cauzalitate.

• Reprezintă o măsură a corelaţiei

• Observatie. Cu cat valoarea coeficientului de corelaţie Pearson se

Limite ale coeficientului Pearson:

deviaţiile standard pentru variabilele x si y

• Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul

• Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:

• Variaţia proporţională a celor doi parametri x, y este exprimată, din punct

• Analog, variaţia invers proporţională a celor doi parametri x, y este

• Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează

• care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi

• Grafic, această dependenţă proporţională între două variabile este

• Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:

• ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care

• În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de

• ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care

• Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,

(media geometrică a celor două pante de regresie);

• Parametrul 𝒓𝟐 se numeşte coeficientul de determinare.

• Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii

• Valorile apropiate de 0 indică absenţa corelaţiei între variabilele

• Valorile negative indică prezenţa unei corelaţii invers proporţionale

• Valorile pozitive indică prezenţa unei corelaţii direct proporţionale (atunci

• Colton (1974) a indicat următoarele reguli empirice pentru interpretarea

– Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă

• Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii

• Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine

• În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci

• După cum am arătat, covarianţa este o măsură premergătoare calculului

• Spre deosebire de coeficientul de corelaţie, valoarea coeficientului de

• Covarianţa se foloseşte pentru a determina doar natura legăturii între cele

• Între toate cele 3 variabile există o legătură direct proporţională, mai

• Termenul de regresie a fost introdus de

care să aproximeze calculul valorilor y prin valorile x

• Atât x cât şi y sunt variabile de tip continuu.

• Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)

• Considerăm că avem două şiruri de date corespunzătoare variabilelor

• În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,

• Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de

• Pentru fiecare punct 𝑥𝑖 , 𝑦𝑖 se defineşte eroarea:

• Pentru a nu pierde această informaţie se va folosi pătratul erorii.

• Eroarea totală este definită ca suma tuturor erorilor determinate de cele n

• În mod evident, această sumă a pătratelor diferenţelor este totdeauna

• Privind problema cu necunoscutele a respectiv b, funcţia “eroare totală”

• Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai

• Condiţia pentru atingerea punctului de minim este ca derivata funcției

• Obţinem astfel sistemul de ecuaţii:

• Înlocuim expresia de calcul a parametrului a din prima ecuaţie în a doua

• Valoarea lui a se calculează conform celor demonstrate cu formula:

• În concluzie, s-au dedus parametrii dreptei: y = a + bx.

Dreapta de regresie liniară simplă: y = a + bx