Sunteți pe pagina 1din 104

REGRESIA LINIARĂ SIMPLĂ

(UNIVARIATĂ) ŞI CORELAŢIA
Noţiunea de corelaţie. Noţiunea de covarianţă.
Coeficientul de determinare 𝑟 2 și coeficientul de corelație liniară 𝑟.
Reguli empirice (Colton) pentru interpretarea coeficienților de corelație.
Ecuaţia dreptei de regresie. Coeficienţii dreptei de regresie.
Aplicaţii.

Prof. Dr. Gabriel Dimitriu


• Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre
două sau mai multe variabile, sau

• Să găsim o relaţie matematică care să exprime o variabilă în funcţie de


altele implicate în procesul studiat.

• În ştiinţele experimentale şi în particular, în medicină şi biologie, un studiu


de interes este nu doar variaţia unui singur parametru, ci şi a doi parametri
cantitativi, despre care presupunem că se influenţează unul pe altul.

• De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie


între greutate şi înălţime, între tensiunea arterială şi valoarea
colesterolului, etc.

• Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi


joacă un rol important în ştiinţele vieţii, şi în particular în medicină.

• Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre
mărimi variază direct/invers proporţional cu alta, ambele mărimi fiind
numerice sau cantitative.
• În domeniul medical se întalnesc numeroase stări (variabile) ce au o
tendinţa naturală de a se modifica împreună.

• Corelaţia şi regresia pun în evidenţă relaţiile ce exista între două serii de


observaţii considerate simultan.

• De obicei, aceste serii de obtin prin măsurarea a două caracteristici


cantitative (variabile) pentru acelaşi esantion.

• Daca ne interesează doar existenta unei legături între cele două variabile,
se calculează coeficientul de corelaţie.

• Un coeficient de corelaţie mare indică o legatură puternică.

• Daca ne interesează daca o variabilă depinde de cealaltă, şi in ce fel, se


determină funcţia de regresie.

• Cele două variabile sunt numite: variabila independentă şi variabila


dependentă.
Corelaţia (asocierea) dintre două variabile

• Se poate vizualiza cu ajutorul unei diagrame de dispersie

• Măsuratorile sunt pereche! Fluctuaţiile celor două variabile se “corelează”


suficient de bine pentru a exclude asocierea aleatoare.

• Totuşi, corelarea statistică nu ne indică nicio cauzalitate.


Tipuri de corelaţie
Tipuri de corelaţie
Corelaţia – trei caracteristici importante:

• Direcţia:
– pozitivă (+)
– negativă (-)

• Forma:
– liniară
– neliniară

• Gradul de asociere:
– între -1 si +1
– valoarea absolută semnifică puterea asocierii
Coeficienţii de corelaţie

• Reprezintă o măsură a corelaţiei

• Sunt adimensionali

• Au valori între -1 şi +1
– -1  corelaţie perfect negativă
– +1  corelaţie perfect pozitivă
– 0  nu există corelaţie (asociere aleatoare)

• Tipuri de coeficienţi
– Coeficient Pearson 𝑟𝑥𝑦
– Coeficient Spearman 𝑟𝑠
Coeficientul de corelaţie Pearson

• Observatie. Cu cat valoarea coeficientului de corelaţie Pearson se


apropie de 1 (în valoare absolută), cu atat "intensitatea" relaţiei
liniare dintre cele 2 variabile va fi mai mare!

Limite ale coeficientului Pearson:


• Calculul se poate face numai pentru date scalate pe un interval.
• Este un coeficient parametric, deci variabilele trebuie să fie normal
distribuite.
• Relaţia dintre cele două variable trebuie să fie liniară si să aibă o
tendinţă (“direcţie”).
Coeficientul de corelaţie Pearson

• 𝑛 = mărimea eşantionului
• 𝑥 = valorile individuale ale variabilei x
• 𝑦 = valorile individuale ale variabilei y
• 𝑥 = media aritmetică a tuturor valorilor x
• 𝑦 = media aritmetică a tuturor valorilor y
• 𝑠𝑥 = deviaţia standard a tuturor valorilor x
• 𝑠𝑦 = deviaţia standard a tuturor valorilor y
Coeficientul de corelaţie Pearson

deviaţiile standard pentru variabilele x si y


Covarianţa a două variabile

• Pentru a se determina o expresie precisă (exactă) a influenţei pe care unul


dintre parametri o exercită asupra celuilalt, în cazul unei variaţii
proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă.

• Astfel, pentru un eşantion selectat dintr-o populaţie dată, se calculează:


– mediile aritmetice ale celor doi parametri analizaţi, şi , precum şi
– abaterile de la medie ale valorilor individuale, şi .

• Variaţia proporţională a celor doi parametri x, y este exprimată, din punct


de vedere matematic, prin faptul că suma produselor abaterilor de la
medie ale celor doi parametri este un număr pozitiv:
Covarianţa a două variabile

• Analog, variaţia invers proporţională a celor doi parametri x, y este


exprimată prin faptul că suma produselor abaterilor de la medie ale celor
doi parametri este un număr negativ:

• iar absenţa corelaţiei este exprimată prin faptul că această expresie este
egală sau tinde către valoarea 0:
Covarianţa a două variabile

• Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează


la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă a două
variabile , notată prin:

• care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi


parametri cantitativi.

• Grafic, această dependenţă proporţională între două variabile este


caracterizată printr-o dreaptă, care se numeşte „dreaptă de regresie” şi, de
asemenea, poate fi definită precis din punct de vedere matematic.
Dreapta de regresie. Ecuația dreptei de regresie a lui y în raport cu x

• Ecuaţia generală a dreptei de regresie, cu notaţiile de mai sus, va fi:

unde

• ax se numeşte coeficientul liniar de regresie a lui y în raport cu x, care


măsoară panta dreptei de regresie față de axa absciselor (axa orizontală
Ox).

• ax indică de câte ori, în medie, y este mai mare sau mai mic decât x.

• ax este pozitiv sau negativ, după cum dreapta are o pantă ascendentă sau
descendentă, de la stânga la dreapta.
Dreapta de regresie. Ecuația dreptei de regresie a lui x în raport cu y

• În mod simetric (schimbând x cu y şi y cu x), se defineşte dreapta de


regresie a lui x în raport cu y, care corespunde ecuaţiei:

unde

• ay se numeşte coeficientul liniar de regresie a lui x în raport cu y, care


măsoară panta dreptei de regresie față de axa verticală Oy.

• ay indică de câte ori, în medie, x este mai mare sau mai mic decât y.
Coeficientul de determinare 𝒓𝟐 și coeficientul de corelație liniară 𝒓
(coeficientul de corelație Pearson)

• Pe baza acestor doi coeficienţi liniari de regresie, a lui y în raport cu x,


respectiv a lui x în raport cu y, se defineşte produsul

(media geometrică a celor două pante de regresie);

• Parametrul 𝒓𝟐 se numeşte coeficientul de determinare.


• Parametrul 𝒓 se numeşte coeficientul corelaţiei liniare, sau coeficientul de
corelaţie Pearson.
• Formula de calcul a coeficientului de corelaţie liniară va fi:
• Coeficientul de determinare 𝒓𝟐 și coeficientul de corelație liniară 𝒓
(coeficientul de corelație Pearson)

• Coeficientul de corelaţie Pearson reprezintă măsura intensităţii legăturii


liniare între două variabile şi are valori cuprinse între -1 şi 1.

• Valorile apropiate de 0 indică absenţa corelaţiei între variabilele


respective, iar valorile apropiate de 1 sau de -1 indică prezenţa unei
corelaţii puternice între variabile.

• Valorile negative indică prezenţa unei corelaţii invers proporţionale


(atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile
scad corespunzător), iar

• Valorile pozitive indică prezenţa unei corelaţii direct proporţionale (atunci


când valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc şi
ele).
Reguli empirice pentru interpretarea coeficienților de corelație

• Colton (1974) a indicat următoarele reguli empirice pentru interpretarea


coeficienţilor de corelaţie:

– Un coeficient de corelaţie între 0,00 şi 0,25, semnifică o corelaţie nulă


sau foarte slabă,
– Un coeficient de corelaţie între 0,25 şi 0,50 semnifică o corelaţie
acceptabilă,
– Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie
moderată spre bună,
– Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună.
APLICAŢIA #1
• Să se determine coeficienţii de corelaţie între VARSTA, GREUTATE şi
GLICEMIE la momentul 0, pentru a putea afla dacă VARSTA sau
GREUTATEA influenţează în vreun fel valorile GLICEMIEI.

• Una dintre condiţiile practice necesare pentru a putea calcula coeficienţii


de corelaţie este ca variabilele pentru care dorim să calculăm aceşti
parametri să fie situate în coloane învecinate – condiţie realizată în cazul
tabelului nostru – altfel, coloanele respective ar trebui copiate şi rearanjate
separat.
Fereastra corespunzătoare calculului coeficienţilor de corelaţie

21
Modul de prezentare a rezultatului corelației între cele 3 variabile (VARSTA,
GREUTATE şi GLICEMIE la momentul de timp 0) – APLICAŢIA #1

• Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine


coeficienţii de corelaţie Pearson între toate perechile posibile de variabile
selectate prin comandă.

• În cazul nostru, corelaţia între greutate şi vârstă este 0.3879, deci


pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697),
respectiv glicemie şi greutate (0.0660) sunt practic nule.

22
APLICAŢIA #2
• Să se determine coeficienţii de covarianţă între VARSTA, GREUTATE şi
GLICEMIE la momentul 0, pentru a putea afla dacă VARSTA sau
GREUTATEA influenţează în vreun fel valorile GLICEMIEI.

• După cum am arătat, covarianţa este o măsură premergătoare calculului


coeficienţilor de corelaţie între două variabile, definită ca media produselor
deviaţiilor pentru fiecare pereche de puncte.

• Spre deosebire de coeficientul de corelaţie, valoarea coeficientului de


covarianţă nu aparţine unui interval fixat (dat) de valori, putând lua ca
valoare orice număr real.

• Covarianţa se foloseşte pentru a determina doar natura legăturii între cele


două variabile: valorile pozitive ale ei indică o legătură direct
proporţională între variabile, valorile negative indică o legătură invers
proporţională, iar valorile apropiate de 0 indică absenţa unei influenţe
între cele două variabile.
Fereastra corespunzătoare calculului covarianţei (APLICAŢIA #2)

24
Modul de prezentare a rezultatului covarianței între cele 3 variabile
(GREUTATE, VARSTA şi GLICEMIE) - APLICAŢIA #2

• Între toate cele 3 variabile există o legătură direct proporţională, mai


accentuată între GREUTATE şi VARSTA (69.0012), şi foarte slabă între
GLICEMIE şi VARSTA (6.3772), respectiv GLICEMIE și GREUTATE (7.7596).

25
Regresia liniară simplă (univariată)

• Termenul de regresie a fost introdus de


matematicianul englez Francis Galton în 1889.

• Metoda constă în determinarea unei funcţii liniare (cea mai simplă formă
de dependenţă) de forma

f(x) = y = a + bx ,

care să aproximeze calculul valorilor y prin valorile x


(y – variabila dependentă (efect),
x – variabila independentă sau variabila cauzală (predictor).

• Atât x cât şi y sunt variabile de tip continuu.


Regresia liniară simplă (univariată)

• Metoda de calcul pentru parametrii dreptei de regresie (coeficienții a și b)


constă în definirea unei erori şi minimizarea acesteia.

• Considerăm că avem două şiruri de date corespunzătoare variabilelor


aleatoare de interes X şi respectiv, Y (caracterizate ca fiind distribuite
normal sau gaussian).

• În tabelul următor sunt prezentate cele două şiruri, notate X, respectiv Y,


fiecare având același număr de valori:
Exemplu de regresia liniară realizată pentru un set de date corespunzător
variabilelor x şi y

28
Regresia liniară simplă (univariată)

• Dorim să determinăm parametrii a şi b (coeficienții ecuației dreptei de


regresie) care definesc dreapta de regresie:

f(x) = y = a + bx

• Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor, adică a abaterilor dintre valorile yi
(extrase din experiment) şi valorile f(xi), calculate cu ajutorul formulei
dreptei de regresie.

• Pentru fiecare punct 𝑥𝑖 , 𝑦𝑖 se defineşte eroarea:

 i  f ( xi )  yi  a  bxi  yi
Definirea erorii totale în regresia liniară simplă (univariată)

• Unele valori ale erorii 𝜀𝑖 sunt pozitive, altele sunt negative, dar eroare
există în toate cazurile atunci când 𝜀𝑖 ≠ 0 .

• Pentru a nu pierde această informaţie se va folosi pătratul erorii.

• Eroarea totală este definită ca suma tuturor erorilor determinate de cele n


valori experimentale:

n n
     a  b  x  y 
2 2
i i i
i 1 i 1
Regresia liniară simplă (univariată)

• În mod evident, această sumă a pătratelor diferenţelor este totdeauna


pozitivă.

• Privind problema cu necunoscutele a respectiv b, funcţia “eroare totală”


definită anterior va admite un minim (fiind suma pătratelor, aceasta va fi
numai pozitivă) strict pozitiv sau chiar valoarea 0.

• Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai


corectă a valorilor lui y în funcţie de valorile lui x.

• Condiţia pentru atingerea punctului de minim este ca derivata funcției


“eroarea totală” în raport cu fiecare variabilă în parte (a și b) să fie zero.
Regresia liniară simplă (univariată)

• Obţinem astfel sistemul de ecuaţii:

32
Regresia liniară simplă (univariată)

 n
 n   yi  b  xi 
 n  a   b  x  y   0  a  i 1  Y  b  X , (1)
 i 1
i i
n
n
 (a  xi  b  xi2  xi  yi )  0. (2)
i 1

33
Regresia liniară simplă (univariată)

• Înlocuim expresia de calcul a parametrului a din prima ecuaţie în a doua


ecuaţie şi aflăm parametrul b. [formula (3)]:

Y  b  X   xi  b  
n n n
(3) 2
xi   xi  y i  0
i 1 i 1 i 1
• Ne folosim de formula (4) de mai jos:
n
n  xi
i 1
 xi  n
n  X n
i 1

34
Regresia liniară simplă (univariată)

𝑛
• Înlocuim expresia 𝑖=1 𝑥𝑖 din formula anterioară (4) în formula (3) şi avem:

n n
Y n X bn X b 2 2
xi   xi  y i  0
i 1 i 1

• Extrăgând apoi parametrul b din formula de mai sus obţinem [formula (5)]:
n
n  X  Y   xi  y i
i 1
b n
n X  2 2
xi
i 1
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie

• Valoarea lui a se calculează conform celor demonstrate cu formula:

a  Y  bX (6)

• În concluzie, s-au dedus parametrii dreptei: y = a + bx.


• Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’.
• Dacă x = 0 atunci y = a.
• Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu
media tuturor valorilor pentru care x este 0.
• Trebuie avut în vedere următorul aspect: nu în orice situaţie este posibilă şi
are sens această intersecţie cu axa YY’.
• De exemplu, pentru predictor X , reprezentând presiunea sistolică sau
temperatura corpului, valoarea 0 nu are interpretare în cazuri normale
(studiem pacienţii deci persoane în viaţă!).
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie

Dreapta de regresie liniară simplă: y = a + bx

• Parametrul b reprezintă panta dreptei (tangenta unghiului dintre dreaptă


şi axa orizontală).

• Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două
variabile aleatoare este direct proporţională.

• Astfel, o creştere a valorii variabilei x va determina o creştere a valorii


variabilei y, respectiv o scădere a valorii variabilei x, va conduce la o
scădere a valorii variabilei y.
Regresia liniară simplă. Coeficienţii (parametrii) dreptei de regresie a şi b

Dreapta de regresie liniară simplă: y = a + bx

• Dacă valoarea parametrului b este negativă, atunci dependenţa între cele


două variabile aleatoare este invers proporţională.

• Variaţia într-un anume sens a variabilei x, va duce la o variaţie în sens


contrar a variabilei y.

• Cazul în care nu există dependenţă între cele două variabile x, respectiv y


se obţine pentru b = 0.

• În acest caz, oricât am modifica variabila x, variabila y va păstra o valoare


constantă, y = a.
Semnificația pantei dreptei de regresie b

• Dreapta de regresie liniară simplă: y = a + bx

• Panta dreptei reprezintă variaţia variabilei dependente y, pentru o


creştere sau descreştere a predictorului (x) cu o unitate.

• Avem ecuația dreptei de regresie: y = a + bx.

• Creştem valoarea lui x cu o unitate, x  x 1

• Noul y va fi: y1 = a + b (x+1) = a + bx + b.

• Se observă că diferenţa dintre y şi y1 este egală cu b (panta dreptei de


regresie).
Corelaţia dintre două variabile x şi y

• Cu cat zona haşurată indicată în figurile de mai jos (aria elipsei) este
mai mică, cu atat legătura dintre variabila x (independentă) şi variabila
y (dependentă) este mai puternică (grafic stanga).

• Cu cat zona haşurată (aria elipsei) este mai mare, cu atat legătura
dintre variabila x (independentă) şi variabila y (dependentă) este mai
slabă (grafic dreapta).
Y Y

X
X

Legătură puternică Legătură slabă


Coeficientul de corelaţie 𝝆

• Coeficientul de corelaţie 𝜌 este un parametru normalizat, în sensul că


valoarea sa se situează întotdeauna în intervalul [-1, +1], indiferent de
valorile variabilelor x şi y.

  x    yi   y 
n

 x i
 i 1

 
n

 i x i y
x    2
 y   2

i 1
Corelaţie între variabile direct proporţională

A,B
A B

1
0,4

Dependenţă deterministă Dependenţă stochastică


direct proporţională direct proporţională
Corelaţie între variabile invers proporţională

A,B
A B

1 0,6

Dependenţă deterministă Dependenţă stochastică


invers proporţională invers proporţională
REGRESIA LINIARĂ MULTIPLĂ
(MULTIVARIATĂ)
Corelaţia multiplă. Multicoliniaritate.
Alegerea modelului de analiză.
Regresia liniară multiplă standard.
Regresia liniară multiplă secvenţială (ierarhică).
Regresia liniară multiplă pas cu pas.
Modelul de validare.
Obiective de cercetare specifice analizei de regresie multiplă.
Exemplu de aplicare a regresiei liniare multiple cu programul SPSS

Prof. Dr. Gabriel Dimitriu


Regresie liniară multiplă (multivariată)

• Regresia multiplă este o metodă de predicţie a valorilor unei variabile


dependente pornind de la valorile mai multor variabile independente.

• De exemplu, în cazul evaluării rezultatelor la un examen, avem un set de


variabile independente (numite şi "predictori"), care reprezintă scoruri la
diferite teste utilizate, şi o variabilă dependentă (numită şi “performanţă”
sau "criteriu") ale cărei valori vrem sa le estimăm pornind de la relaţiile
acesteia cu toate variabilele independente.

• În esenţă, regresia multiplă reprezintă o procedură similară regresiei simple.


Regresie liniară multiplă (multivariată)

• Aşa cum regresia simplă se bazează pe corelaţia dintre două variabile,


regresia multiplă se bazează pe corelaţia multiplă dintre variabilele implicate.

• Dacă în cazul regresiei liniare simple căutăm o dreaptă care să aproximeze cel
mai bine distribuţia punctelor de intersecţie pentru două variabile, în regresia
liniară multiplă căutăm un hiperplan care să aproximeze cel mai bine tendinţa
(“direcţia”) norului de puncte al unei distribuţii cu mai multe variabile
simultan.
Regresie liniară multiplă (multivariată)

• Ecuaţia de regresie liniară multiplă va fi una similară celei de la regresia liniară


simplă, cu singura deosebire că vom avea mai mulţi coeficienţi b, sau în
terminologia consacrată pentru regresia multiplă, coeficienţi beta (β).

𝑌 = 𝑎1 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + ⋯ + 𝑏𝑘 𝑋𝑘

• În plus, aceştia vor fi calculati pe baza coeficientului de corelaţie partială,


după ce a fost eliminată influenţa pe care o exercită variabilele introduse
anterior în ecuaţie.
• În ecuaţia de mai sus am notat:
– Y este valoarea estimată pentru variabila criteriu (variabila dependentă)
– a1 este punctul de origine al dreptei de regresie
– b1, b2, b3... bk sunt coeficienţii beta (β) pentru cele k variabile predictor
– X1, X2, X3.... Xk sunt valorile celor k variabile predictor
Regresie liniară multiplă (multivariată). Corelaţia multiplă

• În cazul regresiei liniare simple, dreapta de regresie "caută" cea mai bună
traiectorie pentru a minimiza eroarea de estimare.

• Eroarea de estimare este definită printr-o metodă care asigură cea mai mică
sumă a pătratelor distanţelor dintre variabila "predictor" şi variabila
"criteriu".

• În mod natural, acest deziderat este asigurat de valoarea coeficientului de


corelaţie Pearson dintre cele două variabile.

• Cu cât corelaţia este mai mare, cu atât norul de puncte se apropie mai mult
de dreapta de regresie. La limită, pentru o corelaţie de 1, punctele respective
se plasează chiar pe dreapta de regresie.
Regresie liniară multiplă (multivariată). Corelaţia multiplă

• Situaţia se prezintă în mod similar şi în cazul regresiei liniare multiple. Doar că


de data aceasta, nu ne bazăm pe corelaţia simplă între două variabile, ci pe
corelaţia multiplă între mai multe variabile, notată cu R.

• Corelaţia multiplă este esenţialmente similară corelaţiei Pearson şi ne indică


câtă informaţie cu privire la o variabilă (variabila dependentă) este conţinută
în combinaţia simultană a mai multor variabile (independente) cu care
aceasta se află în asociere.

• Mai mult, la fel ca şi în cazul corelaţiei simple, avem şi pentru corelaţia


multiplă un coeficient de determinare (R2), care are o interpretare similară:
Valoarea coeficientului de determinare (exprimată procentual) reprezintă
procentul de variaţie a variabilei dependente determinat de variaţia
simultană a variabilelor independente.
• Semnificaţia lui R este calculată cu ajutorul unui test de varianţă (testul Fisher
F)
Regresie liniară multiplă (multivariată). Multicoliniaritatea

• Un alt aspect important în contextul regresiei multiple este


multicoliniaritatea.
• Acesta este un concept opus ortogonalităţii şi exprimă nivelul corelaţiei
dintre variabilele independente.
• Informaţia împărtăşită în comun de variabilele independente reduce
contribuţia lor la explicarea variaţiei variabilei dependente.
• Cu alte cuvinte, cu cât acestea corelează mai intens între ele, cu atât
corelaţia multiplă cu variabila dependentă (criteriu) este mai mică.
• În plus, multicoliniaritatea amplifică variabilitatea coeficienţilor de regresie,
fapt care are ca efect o imprecizie mai mare a predicţiei.
• Din acest motiv, analiza de regresie trebuie precedată de evaluarea
multicoliniarităţii.
Regresie liniară multiplă (multivariată). Multicoliniaritatea

• Una dintre metode este aceea de a analiza matricea de intercorelaţii dintre


variabilele independente.

• Corelaţiile mari sunt un indicator al liniarităţii.

• În principiu, variabilele independente a căror corelaţie este mai mare de 0.1


ridică problema multicoliniarităţii.
Regresie liniară multiplă (multivariată). Multicoliniaritatea

• O altă metodă este analiza "toleranţei", o opţiune oferită de programele de


prelucrări statistice.

• "Toleranţa" este o măsură specifică pentru coliniaritate care ia valori între 0


si 1.

• Valorile apropiate de 0 sunt un semn al coliniarităţii. Variabilele pentru care


"toleranţa" este mai mică de 0.1 ridică o problema de coliniaritate care ar
trebui rezolvată.

• Există două soluţii posibile în legătură cu variabilele cu probleme de


coliniaritate: eliminarea lor sau, combinarea lor, din moment ce aduc acelaşi
tip de informaţie (aceasta în cazul în care corelaţia lor este de 0.80 sau mai
mare).
Regresie liniară multiplă (multivariată). Alegerea modelului de analiză

• O importanţă deosebită prezintă alegerea modelului de analiză care să


permită selectarea unui set de predictori, având maximum de putere de
predicţie asupra variabilei criteriu (variabilei dependente).

• Scopul nu este acela de a aduna informaţie de la toate variabilele disponibile,


ci doar de la acelea care aduc contribuţia cea mai consistentă.

• O primă recomandare, cu caracter preliminar, este aceea de a avea în vedere


un anumit raport între numărul de subiecţi si numărul variabilelor
independente.

• Acest raport este recomandat la valoarea 15/1, adică pentru un eşantion de


150 de subiecţi se poate miza pe cel mult 10 variabile independente.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ STANDARD

• După ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia


dintre metodele de introducere a acestora în ecuaţia de regresie:

• Prin regresia multiplă standard, toate variabilele predictor sunt incluse în


ecuaţie, efectul fiecăreia fiind evaluat după şi independent de efectul tuturor
celorlalte variabile introduse anterior.

• Fiecare variabilă independentă este evaluată numai prin prisma contribuţiei


proprii la explicarea variabilei dependente.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ SECVENŢIALĂ (REGRESIE IERARHICĂ)

• În regresia multiplă secvenţială (numită şi regresie ierarhică) variabilele


independente sunt introduse în ecuaţie într-o anumită ordine, în funcţie de
opţiunile utilizatorului.

• Atunci când acesta are motive să creadă că o anumită variabilă are o influenţă
mai mare, o poate introduce în ecuaţie înaintea altora.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ PAS CU PAS

• Regresia multiplă pas cu pas este utilizată adesea în studii exploratorii, atunci
când există un număr mare de predictori, despre care nu se ştie exact care
este contribuţia fiecăruia la corelaţia de ansamblu cu variabila dependentă.

• Există trei variante ale acestui tip de analiză:


Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA ANTEROGRADĂ

• Toate variabilele independente sunt corelate cu variabila dependentă, după


care variabila care are corelaţia cea mai mare este introdusă prima în ecuaţie.

• Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai
mare, după ce a fost eliminat efectul variabilei anterioare.

• Procesul continuă până ce nivelul contribuţiei variabilelor independente este


prea mic pentru a mai fi luat în considerare.

• O variabilă odată introdusă în ecuaţie rămâne acolo.


Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA PAS CU PAS

• Este o variantă a metodei anterioare.

• Diferenţa constă în faptul că la fiecare pas, fiecare variabilă deja introdusă


este retestată pentru a se evalua efectul lor, ca şi cum ar fi fost introdusă
ultima.

• Cu alte cuvinte, dacă o variabilă nou introdusă are o contribuţie mai


consistentă asupra variabilei dependente, va determina eliminarea unei
variabile anterioare, dar care se dovedeşte mai puţin predictivă.
Regresie liniară multiplă (multivariată).
Metode de introducere a variabilelor predictor:
REGRESIA MULTIPLĂ PAS CU PAS – SELECŢIA RETROGRADĂ

• Pasul iniţial al acestei metode este acela de determinare a unei ecuaţii de


regresie în care toate variabilele predictor sunt incluse.
• Ulterior, pentru fiecare variabilă predictor, este efectuat un test de
semnificatie "F", pentru a se evalua contribuţia fiecărui predictor la corelaţia
de ansamblu.
• Valorile testului F sunt comparate cu o valoare limită prestabilită, variabilele
care nu trec acest prag fiind eliminate din ecuaţie.
• Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este calculată şi un
nou test F este efectuat pentru variabilele rămase, urmat de eventuala
eliminare a unei alte variabile.
• Procesul continuă, până când doar variabilele semnificative rămân în ecuaţie.
Regresie liniară multiplă (multivariată). Alegerea modelului de analiză

• Este evident că metoda "secvenţială" şi cea "pas cu pas" sunt superioare


metodei "standard".

• Între primele două metode, diferenţa constă în faptul că, în cazul metodei
secvenţiale, decizia de selecţie a variabilelor introduse în ecuaţie aparţine
cercetătorului, în timp ce

• În cazul metodei “pas cu pas”, programul este cel care face în mod automat
selecţia, în funcţie de parametrii fixaţi de utilizator.
Regresie liniară multiplă (multivariată). Modelul de validare

• Ecuaţia de regresie multiplă are drept finalitate predicţia variabilei


dependente (variabila criteriu).

• Verificarea potenţialului real de predicţie este ceea ce se numeşte validarea


ecuaţiei de regresie.

• Este evident că modelul de validare prezintă o importanţă aparte.


Coeficientul de corelatie multiplă (R) are o valoare maximă pe eşantionul
pentru care a fost calculată ecuaţia de regresie.

• Dacă nivelul corelaţiei scade dramatic pe alt eşantion, atunci ecuaţia de


regresie nu prezintă utilitatea care a fost estimată.
Regresie liniară multiplă (multivariată). Modelul de validare

• Obţinerea unei ecuaţii sigure ţine în mod cert de deja menţionatul raport (15/1)
între volumul eşantionului (N) şi numărul variabilelor predictor (k).

• O altă recomandare sugerează utilizarea unui eşantion N≥50+8k pentru testarea


corelaţiei multiple şi N≥104+k, pentru testarea predictorilor individuali.

• Evaluarea validităţii se poate face, fie într-o procedură decalată în timp, pe un alt
eşantion extras din aceeaşi populatie, fie prin utilizarea simultană a două
eşantioane, unul pentru calcularea ecuaţiei de regresie, altul pentru validarea
acesteia.

• În ambele cazuri se va urmari respectarea criteriilor de constituire a eşantionului


enunţate mai sus.
Regresie liniară multiplă (multivariată). Efectul valorilor extreme (“outliers”)

• Ultimul aspect care trebuie luat în considerare este efectul valorilor extreme
(outliers) asupra ecuaţiei de regresie, care poate fi considerabil.

• Uneori, chiar şi una sau două valori excesive pot influenţa analiza de regresie.

• De aceea, aceste valori vor fi identificate şi tratate corespunzător, înaintea


calculării ecuaţiei de regresie multiplă.
Regresie liniară multiplă (multivariată).
Obiective de cercetare specifice analizei de regresie multiplă

• Analiza de regresie multiplă este utilizabilă în situaţii de predictie.

• Un caz tipic este acela în care dorim să selectăm candidaţi pentru o anumită
profesie pe baza performanţelor la un set de teste.

• Performanţa profesională, măsurată prin una din metodele posibile


(aprecierea pe bază de experţi, apreciere interpersonală, productivitate, etc.)
este variabila criteriu (dependentă).

• Indicatorii de performanţă la teste reprezintă variabilele predictor


(independente).
Regresie liniară multiplă (multivariată).
Obiective de cercetare specifice analizei de regresie multiplă

• Desigur, scopul esenţial este ca, odată stabilită ecuaţia de regresie pentru
eşantionul studiat, să putem utiliza setul de teste pentru a face predicţii de
evaluare profesională în cazul altor subiecţi.

• Este evident că o astfel de procedură este una de durată şi urmăreşte ceea ce


se numeşte "validarea testelor de selecţie".

• Într-un astfel de caz, subiecţii eşantionului ar fi supuşi testării înaintea


angajării, după care, la un interval adecvat de timp, ar urma sa fie evaluaţi sub
aspectul performanţei profesionale.

• Ulterior, dacă rezultatele analizei de regresie justifică aceasta, rezultatele la


teste vor putea fi utilizate pentru selecţie.
Regresie liniară multiplă (multivariată).
Obiective de cercetare specifice analizei de regresie multiplă

• Într-o situaţie de cercetare ca cea descrisă, întrebările pe care şi le pune


cercetătorul, atunci când alege să introducă în ecuaţia de regresie toţi
indicatorii testelor sunt, în mod explicit, următoarele:
• Care dintre indicatorii testelor utilizate are capacitatea de predicţie cea mai
ridicată?
• Există indicatori care nu au relevanţă pentru predicţia performanţei
profesionale?
• Are ecuaţia de regresie astfel obţinută o capacitate sigură de predicţie?

• Dacă modelul de analiză este unul secvenţial sau pas cu pas, atunci întrebările
la obiectivele implicite vor fi:
• Care dintre indicatorii testelor utilizate pot fi incluse în ecuaţia de predicţie a
performanţei profesionale?
• Are ecuaţia de regresie, astfel obtinută, o capacitate sigură de predicţie?
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări

• Efectuarea analizei de regresie multiplă presupune o serie de condiţii


prealabile.

• Aceste condiţii se referă, pe de o parte la variabile şi, pe de altă parte, la


distribuţia valorilor reziduale.

• Variabilele analizate:
– trebuie sa fie măsurate pe scala de interval raport, cu respectarea
condiţiilor de aplicare a testului de corelaţie (normalitatea distribuţiei, în
special);
– sunt fixe, ele urmează a fi păstrate în orice studiu de replicare;
– vor fi măsurate fără erori, iar cazurile extreme vor fi analizate şi tratate
corespunzător;
– se supun unui model de corelaţie liniară;
Regresie liniară multiplă (multivariată). Analiza de regresie multiplă.
Condiţii şi limitări

• Valorile reziduale (erorile de predicţie):


– media valorilor reziduale în studii de replicare să fie zero;
– erorile în cazul unei variabile independente nu au nicio legătură cu erorile
altei sau altor variabile independente;
– erorile nu corelează cu variabilele independente;
– varianţa valorilor reziduale pe toată distribuţia variabilelor independente
este omogenă (homoscedasticitate);
– erorile au o distribuţie normală.

• Verificarea acestor condiţii presupune îndeplinirea tuturor procedurilor de


analiză preliminară a datelor, aşa cum au fost deja prezentate anterior.
Realizarea analizei de regresie multiplă cu SPSS

• APLICAŢIE: Presupunem că un psiholog doreşte să estimeze performanţa în


învăţarea unui set de cunoştinţe, pe baza aplicării a două teste, unul de
inteligenţă abstractă şi altul de inteligenţă verbală.

• Am construit o matrice de date ipotetică, introdusă cu editorul de date SPSS,


ca în figura de mai jos.
Realizarea analizei de regresie multiplă cu SPSS

• Identificăm variabilele:
• Variabila dependentă (criteriu) este "performanta"
• Variabilele independente (predictor) sunt "abstract" şi "verbal“

• Verificăm liniaritatea asocierii dintre variabile cu ajutorul procedurii


Graphs/Legacy Dialogs/Scatter/Dot … opţiunea Matrix Scatter:
Realizarea analizei de regresie multiplă cu SPSS
Realizarea analizei de regresie multiplă cu SPSS
Realizarea analizei de regresie multiplă cu SPSS

• Am trecut variabilele studiului în lista Matrix Variables, pentru a obţine o


matrice de grafice Scatter Plot care sa permită analiza comparativă a
acestora.
Realizarea analizei de regresie multiplă cu SPSS

• Pentru a obţine şi dreptele de regresie în fiecare grafic vom edita matricea


obţinută astfel: dublu clic pe grafic şi apoi Chart/Options/Add Fit Line at Total
Realizarea analizei de regresie multiplă cu SPSS

• Pentru a obţine şi dreptele de regresie în fiecare grafic vom edita matricea


obţinută astfel: dublu clic pe grafic şi apoi Chart/Options/Add Fit Line at Total
Realizarea analizei de regresie multiplă cu SPSS

• Fiecare zonă din matrice reprezintă grafic asocierea variabilelor, două câte
două.

• Pe diagonala principală a matricii de corelaţie variabilele corelează cu ele


însele.

• Imaginile de deasupra şi dedesubtul ei fiind repetitive, vom privi numai într-o


singura zonă, să zicem deasupra diagonalei.
Realizarea analizei de regresie multiplă cu SPSS

• Graficul din mijlocul primei linii reprezintă asocierea dintre variabila abstract
cu verbal, cel din colţul dreapta-sus, asocierea dintre abstract şi performanta
iar cel de pe linia de mijloc-dreapta, relaţia dintre verbal şi performanta.
Realizarea analizei de regresie multiplă cu SPSS

• Analiza imaginilor ne spune următoarele lucruri:


• Toate relaţiile sunt de tip liniar (norul de puncte se situează, în general, în
jurul dreptei de regresie)
– abstract şi verbal corelează negativ
– abstract şi perform corelează pozitiv
– verbal şi perform corelează negativ
Realizarea analizei de regresie multiplă cu SPSS

• Obţinem matricea de corelaţii a variabilelor aplicând procedura corelaţiei


bivariate (Pearson): Analyze/Correlate/Bivariate … şi selectăm toate
variabilele:
Realizarea analizei de regresie multiplă cu SPSS

• Obţinem matricea de corelaţii a variabilelor aplicând procedura corelaţiei


bivariate (Pearson): Analyze/Correlate/Bivariate … şi selectăm toate
variabilele:
Realizarea analizei de regresie multiplă cu SPSS

• Obţinem matricea de corelaţii a variabilelor aplicând procedura corelaţiei


bivariate (Pearson): Analyze/Correlate/Bivariate … şi selectăm toate
variabilele:
Correlations
Abstract Verbal Performanta

Pearson Correlation 1 -.712* .921**


Abstract Sig. (2-tailed) .032 .000
N 9 9 9
Pearson Correlation -.712* 1 -.902**
Verbal Sig. (2-tailed) .032 .001
N 9 9 9
Pearson Correlation .921** -.902** 1
Performanta Sig. (2-tailed) .000 .001
N 9 9 9
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Realizarea analizei de regresie multiplă cu SPSS

• Valorile din matricea de corelaţie confirmă constatările preliminare din


matricea Scatter/Dot.
• Variabilele predictor corelează negativ între ele (-0.712), variabila abstract
corelează pozitiv cu variabila dependentă performanta (+0.921), iar variabila
verbal corelează negativ cu variabila dependentă (-0.902).
Realizarea analizei de regresie multiplă cu SPSS

• Ne amintim că, în mod ideal, variabilele independente nu trebuie să coreleze


între ele, dar trebuie să coreleze cu variabila dependentă (criteriul).

• Trebuie să evaluăm semnificaţia corelaţiilor din matrice.

• Fiind vorba de o matrice multivariată, semnificaţia coeficienţilor de corelaţie


se corectează cu ajutorul metodei Bonferoni.

• Pragul minim de 0.05 se împarte la numărul variabilelor din matrice şi se


obtine noul prag limită: 0.05/3=0.017.

• În aceste condiţii, constatăm că relaţia dintre variabilele predictor nu este


semnificativă (.032), (să nu uităm că lucrăm pe un număr foarte mic de
subiecţi). În acelaşi timp, corelaţiile dintre variabilele predictor şi criteriu
sunt semnificative (.000 respectiv, .001).
Realizarea analizei de regresie multiplă cu SPSS

• După efectuarea acestor analize preliminare, putem trece la analiza de


regresie multiplă propriu-zisă, executând procedura:
Analyze/Regression/Linear …
Realizarea analizei de regresie multiplă cu SPSS

• Am introdus variabile performanta în zona Dependent iar variabilele abstract


şi verbal în lista Independent(s)
• Am preferat metoda de analiză standard (Enter) care este cea implicită.
Realizarea analizei de regresie multiplă cu SPSS

• Acţionăm butonul Statistics pentru alte opţiuni:


• În funcţie de nevoile de analiză, putem alege orice opţiuni dorim, aici am bifat
doar Descriptives.
• Alte opţiuni din această casetă determină obţinerea unor informaţii
suplimentare şi verificarea condiţiilor de aplicare a analizei de regresie
multiplă.
• Semnificaţia opţiunilor poate fi gasită în Help-ul casetei.
Realizarea analizei de regresie multiplă cu SPSS

• Acţionăm Save pentru a genera o variabilă


nouă, care va conţine valorile prezise
nestandardizate (adică netransformate
în scoruri z)
Realizarea analizei de regresie multiplă cu SPSS

• În fine, acţionăm butonul OK în caseta principală şi trecem la analiza


rezultatelor.

• Mai întâi, analizăm statistica descriptivă pentru fiecare variabilă şi matricea


de corelaţii care ne oferă informaţii de aceeaşi natură cu cele preliminare, pe
care le-am inspectat deja.
Realizarea analizei de regresie multiplă cu SPSS
• Examinăm coeficientul de corelaţie multiplă:

Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate

1 .985a .971 .961 4.777


a. Predictors: (Constant), Verbal, Abstract
b. Dependent Variable: Performanta

• Valoarea sa, 0.985 ne indică o corelaţie mare între variabilele predictor,


simultan cu variabila dependentă.

• Valoarea lui R2 (0.971) ne arata ca 97% din variaţia performanţei în însuşirea


setului de cunoştinţe este determinată de cele două tipuri de inteligenţă
(verbală şi abstractă) pe care le-am introdus în model.
Realizarea analizei de regresie multiplă cu SPSS

• "Adjusted R Square" (R2adj = 0.961) este o valoare corectată a lui R2 care


depinde de numărul de predictori şi numărul de subiecţi.

Model Summaryb
Adjusted Std. Error of
Model R R Square R Square the Estimate

1 .985a .971 .961 4.777


a. Predictors: (Constant), Verbal, Abstract
b. Dependent Variable: Performanta

• Aceasta deoarece cu cât acestea sunt mai mari, cu atât coeficientul de


determinare tinde să fie mai mare.
• "Standard Error of the Estimate" indică acurateţea modelului de predicţie.
• Cu cât eroarea estimării este mai mică, cu atât predicţia este mai sigură.
Realizarea analizei de regresie multiplă cu SPSS

• Acum trebuie să evaluăm corelaţia de ansamblu dintre predictori şi variabila


dependentă (variabila criteriu).
• Principala problemă la care trebuie să răspundem este dacă variabilele
predictor (independente) corelează semnificativ cu variabila dependentă.
• Pentru aceasta, inspectăm tabelul ANOVA:

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS

• Aşa cum am precizat deja, semnificaţia lui R se testează cu ajutorul analizei de


varianţă.
• În cazul nostru, valoarea lui F este 100.45 iar nivelul de semnificaţie,
Sig.=0.000.
• Aceste valori ne permit să respingem ipoteza nulă şi să acceptăm că cele
două variabile predictor influentează împreună variaţia variabilei criteriu.

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS

• Examinăm coeficienţii individuali de regresie.

• Utilizând constanta (care ne dă punctul de origine al dreptei de regresie) şi


valorile coeficienţilor B (beta), putem scrie ecuaţia de regresie liniară
multiplă dintre variabilele independente (predictorii) şi variabila dependentă
(criteriu).
• Performanţa estimată pentru însuşirea setului de conoştinţe
= 138.555 + (0.706) * abstract + (-4.862) * verbal

Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
a. Dependent Variable: Performanta
Realizarea analizei de regresie multiplă cu SPSS

• Examinăm coeficienţii individuali de regresie.

• Aceeaşi ecuaţie poate fi scrisă şi utilizând coeficienţii Beta (standardizaţi):

Zperformanta =(0.565) * abstract + (-0.500) * verbal

Observaţie. În cazul valorilor beta standardizate, termenul liber al ecuaţiei este 0

Coefficientsa
Unstandardized Standardized
Model Coefficients Coefficients t Sig.
B Std. Error Beta
(Constant) 138.555 28.748 4.820 .003
1 Abstract .706 .124 .565 5.704 .001
Verbal -4.862 .962 -.500 -5.055 .002
a. Dependent Variable: Performanta
Realizarea analizei de regresie multiplă cu SPSS

• La rândul ei, semnificaţia coeficienţilor individuali de regresie trebuie analizată


pentru a vedea dacă aceştia descriu cu adevărat o relaţie între variabilele
independente (predictorii) şi variabila dependentă (variabila criteriu).
• Ipoteza nulă se defineşte astfel:
Coeficienţii de regresie aleşi sunt egali cu 0.
• Ipoteza alternativă se defineşte astfel:
Coeficienţii de regresie sunt diferiţi de 0.
• Rezultatul testului este afişat în ultimele două coloane din tabelul de mai sus şi
sunt exprimaţi în forma unui test t.
• Valorile lui t (t=coeficientul B/eroarea standard B ) exprimă semnificaţia
diferenţei dintre coeficienţii respectivi şi 0. În cazul nostru, ambii coeficienţi au
valori semnificative (Sig. este mai mic de 0.05), ceea ce ne permite să tragem
concluzia că ambii coeficienţi sunt semnificativ diferiţi de 0 şi, deci, ambele
variabile predictor sunt importante pentru estimarea variabilei criteriu.
Realizarea analizei de regresie multiplă cu SPSS

• După examinarea corelaţiei dintre fiecare predictor şi criteriu, vom efectua


analiza relaţiei globale, pentru toţi coeficienţii de regresie în ansamblu.
• Întrebarea la care trebuie sa răspundem este dacă există o relaţie liniară între
variabila dependentă (variabila criteriu) şi întregul set de variabile
independente (predictori).
• Testul ANOVA din tabelul următor conţine soluţia problemei noastre:

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS

• Valoarea testului F (F=100.45) este semnificativă la un prag p=0.000, ceea ce


permite concluzia că există o asociere de tip liniar între predictori şi variabila
dependentă.

ANOVAa
Model Sum of df Mean Square F Sig.
Squares
Regression 4585.283 2 2292.641 100.452 .000b
1 Residual 136.939 6 22.823
Total 4722.222 8
a. Dependent Variable: Performanta
b. Predictors: (Constant), Verbal, Abstract
Realizarea analizei de regresie multiplă cu SPSS

• Dacă privim datele din Data Editor, vom descoperi că a fost creată variabila
PRE_1, care conţine valorile estimate pentru variabila dependentă
(performanţa) pe baza ecuaţiei de regresie.
Realizarea analizei de regresie multiplă cu SPSS

• Putem calcula corelaţia bivariată între performanţa şi estimarea ei (pre_1) şi


obţinem R=0.985 (Sig.=.000), ceea ce este foarte aproape de valoarea
coeficientului de corelaţie multiplă.
Realizarea analizei de regresie multiplă cu SPSS

• Desigur, nu trebuie să considerăm această corelaţie ca fiind o "validare" a


predicţiei.

• Aşa cum am spus deja, acest lucru nu se poate face decât pe un alt eşantion
decât cel de cercetare, fie prin rezervarea unui eşantion de control din
eşantionul iniţial investigat, fie prin repetarea investigaţiei.

• Într-o situaţie de selecţie, valorile pentru variabilele predictor obţinute


pentru fiecare subiect ar fi puse într-o ecuaţie de regresie utilizând
coeficienţii B din analiza de regresie multiplă, iar subiecţii care ar obţine
estimare a performanţei sub o anumită valoare considerată convenabilă, ar fi
declaraţi inapţi pentru a fi incluşi în programul de instruire (învăţare).
Realizarea analizei de regresie multiplă cu SPSS.
Raportarea rezultatelor

• În raportul de cercetare vor fi incluse cele mai importante dintre


caracteristicile datelor preliminare precum şi datele obţinute prin prelucrare:

– datele iniţiale şi eventualele eliminări sau transformări efectuate


– indicatorii statistici descriptivi (medii, abateri standard), matricele de
corelaţie, graficele ilustrative pentru diferitele distribuţii
– coeficienţii de regresie şi semnificaţiile lor (R2, R2adj şi gradele de
libertate)
– dacă a fost utilizată metoda “pas cu pas” se vor sintetiza valorile (R2, R2adj)
pentru fiecare pas şi nivelul lor de semnificaţie
– tabelul cu coeficienţii B (sau beta), coeficienţii R bivariaţi şi corelaţia
parţială pentru fiecare variabilă independentă inclusă în model
– se vor trage concluzii de ansamblu
Realizarea analizei de regresie multiplă cu SPSS.
Raportarea rezultatelor

• Rezultatele studiului demonstrativ de mai sus pot fi sintetizate în felul


următor (facem precizarea că datele prezentate nu au nici o legătură cu vreun
studiu real pe această temă, având doar o semnificaţie didactică):

• Analiza de regresie multiplă a urmărit evaluarea capacităţii de predicţie a


succesului în învăţarea unui set de cunoştinţe pe baza inteligenţei abstracte şi
verbale.

• A fost identificată o relaţie de tip liniar între variabila dependentă


(performanţa) şi predictori (abstract şi verbal) (F = 100.45, p value < .001).
Realizarea analizei de regresie multiplă cu SPSS.
Raportarea rezultatelor

• Coeficientul de corelaţie multiplă a fost determinat cu valoarea R=0.985.

• Aproximativ 97% (R Square = 0.971) din varianţa succesului în învăţarea


setului de cunoştinţe poate fi explicată prin contribuţia simultană a celor două
variabile.

• Subiecţii care dovedesc aptitudini pentru însuşirea setului de cunoştinţe au un


nivel mai ridicat de inteligenţă abstractă, concomitent cu un nivel mai scăzut
al inteligenţei verbale.
VĂ MULŢUMESC !

S-ar putea să vă placă și