Sunteți pe pagina 1din 35

Aplicații computerizate ale datelor

Cursul 3.
Corelaţia și regresia liniară
Exemple de studii corelaţionale:
 Există vreo legătură între scorurile la testele
de inteligenţă şi performanţa şcolară?
 Există asociere între înălţime şi greutate?
 Există asociere între inteligenţa părinţilor şi
inteligenţa copiilor?
 Există o relaţie între numărul orelor de studiu
la statistică şi punctajul obţinut la evaluări?
Corelaţia nu implică o cauzalitate
Ce fel de date au fost colectate?
Care sunt condiţiile de aplicare?

• Date numerice
• Variabile măsurate pe scale de interval sau de raport
• Variabile normal distribuite
• Numărul de subiecţi este mai mare de 30
• Absenţa outlierilor sau a valorilor extreme
• Relaţia dintre variabile este liniară
• Norul de puncte indică homoscedasticitate
Folosim corelaţia Spearman, atunci când…

• Cel puţin una dintre variabile este măsurată pe


scală ordinală
• Cel puţin una dintre variabile nu este normal
distribuită
• Numărul de subiecţi este mai mic de 30
7) Cum interpretăm asocierea dintre două
variabile?
Indică direcţia sau relaţia
(pozitivă sau negativă)

Coeficient de
corelatie r = +.37

Indică puterea
asocierii
Coeficient de corelaţie Interpretare
0.0-0.1 Foarte mic, negliabil
0.1-0.3 Mic, minor
0.3-0.5 Moderat, mediu
0.5-0.7 Mare, ridicat
0.7-0.9 Foarte mare, foarte ridicat
0.9-1 Aproape perfect

 Corelaţia pozitivă arată relaţia de directă proporţionalitate


între cele două variabile: cu cât creşte x, cu atât creşte şi Y.

Corelaţia negativă arată relaţia de inversă proporţionalitate:


cu cît creşte X, cu atât scade Y.
Coeficient de corelație (r)

Prag de semnificație (p)

Număr de participanți (N)


Norul de puncte ca modalitate a a testa
normalitatea distribuției
• Norul de puncte evidențiază patternul de organizare a datelor,
fiind și o modalitate de a testa normalitatea distribuției.
• Atunci când normalitatea este încălcată, norul de puncte tinde
să fie asimetric la unul dintre capete (Tabachnick, & Fidell,
2007).
• Forma norului de puncte ne oferă detalii și despre variabilitatea
datelor. Cu cât variabilitatea crește, cu atât corelația scade.
• Variabilitatea scăzută se obține în cazul datelor omogene,
leptocurtice, asimetrice pozitiv sau negativ.
• De asemenea, norul de puncte este o modalitate eficientă de a
depista outlierii bivarați sau valorile aberante.
Norul de puncte ca modalitate a a testa
normalitatea distribuției
Intensitatea asocierii dintre variabile –
coeficientul de determinare
r 2 x 100 –coeficientul de determinare
- procentul din
dispersia variabilei
depndente explicat
evoluţia variabilei
independente (cât
de mare este
influenţa variabilei
independente
asupra celei
dependente)
Cauzele care pot afecta precizia unui
coeficient de corelaţie
• Presupunerea că între x şi y există coliniaritate, adică faptul că
norului de puncte ce materializează corelaţia i-ar putea fi ajustată
o linie dreaptă numită linia de regresie a lui y în raport cu x.
• Distribuţiile atipice care, prezintă valori atipice la extremele seriei
de variaţie
• Erorile de introducere a datelor
• Erorile de eşantionare: cu cât omogenitatea grupului este mai
mare, cu atât corelaţia descreşte
• Erorile de măsurătoare sau de testare
Corelaţia şi mărimea eşantionului
• O corelaţie slabă poate fi semnificativă statistic dacă eşantionul
este mare → cu cât creşte numărul de subiecţi, creşte
variabilitatea eşantionului → scăderea coeficientului de corelaţie
dar → creşte semnificaţia statistică. Este greşit să afirmăm că am
obţinut o corelaţie slabă din cauza numărului mic de subiecţi!!!
• D.p.d.v teoretic şi corelaţiile slabe pot fi importante
• Exemplu: un grup de cercetători a demonstrat că între consumul
aspirinei şi atacul de cord există o corelaţie de -.034, ceea ce
înseamnă că folosirea aspirinei explică doar 1% din variaţia
apariţiei atacului de cord, → adică dintr-un grup de 20.000
persoane care nu consumau aspirină, 72 făceau atac de cord !!!
Corelația parțială

• Relația dintre două variabile este


afectată de o a treia variabilă. Acest
lucru este evident în cazul unor relații
false sau a unor relații de moderare.
Relații false între două variabile
C Y X Y

X C

Exemplul 1:
Zilele ploioase duc la o dispoziție afectivă negativă.
In realitate, există alți factori precum presiunea atmosferică, gradul de
luminozitate pot influența dispoziția afectivă, nu ploaia propriu-zis.
 
Exemplul 2:
Persoanele mai scunde au părul mai lung.
Dacă avem în vedere variabila gen care corelează atât cu lungimea părului cât și
cu înălțimea, obținem un alt rezultat. Femeile au păr mai lung și sunt mai
scunde, iar relația dintre X și Y devine nesemnificativă, dacă ținem cont de gen.
Relație între X și Y moderată de a treia
variabilă
X Y

Exemplul 3:
Relația dintre timpul stat la soare și nivelul de bronzare.
Dacă avem în vedere variabila tip de ten, rezultatele sunt
diferite.
Relația între X și Y mediată de a treia
variabilă

X C Y

Exemplul 4:
Relația dintre motivația pentru învățare și performanțele
școlare este mediată de strategiile de învățare.
Motivația pentru învățare duce la alegerea unor strategii mai
eficiente care, la rândul lor, duc la rezultate școlare ridicate.
Pași SPSS pentru calculul corelației parțiale
Pași SPSS pentru calculul corelației parțiale
1. există o corelație bivariată (Pearson) puternică semnificativă statistic
între reprezentări spațiale și calcul aritmetic.
2. ! QI corelează semnificativ cu ambele variabile!
3. In partea a doua a tabelului (Controlling for QI) observăm că de această
dată corelația dintre Reprezentarea spațială și calculul aritmetic devine
nesemnificativă legătura dintre cele două variabile nu era decât efectul
influenței pe care o exercita inteligența asupra lor.
(Marian Popa, 2009, Statistică psihologică – nivel intermediar, note de
curs).
• Dacă relația dintre Reprezentarea spațială și Calculul aritmetic ar fi
rămas semnificativă, în condițiile în care influența QI este eliminată, am
fi putut vorbi despre existența uni corelații parțiale.
Regresia liniară
Regresia liniară
• frecvent utilizată în cercetarea psihologică
– pentru validarea unor modele teoretice
– pentru scopuri practice, precum selecția.

Exemplu
Cunoscând nivelul inteligenței unui elev, putem prezice performanța
sa școlară.
• permite să estimăm rezultatele viitoare pe baza unor indicatori
din prezent

• Variabila ale cărei valori dorim să le prezicem, se numește


criteriu,
• Variabila ale cărei valori le utilizăm pentru a prezice valorile
criteriului, se numește predictor
Regresia liniară
• pleacă de la premisa unei corelații puternice între predictor și
criteriu
• Măsura în care norul de puncte descrie o relație liniară între
variabile poate fi ilustrată prin trasarea unei drepte prin acest
nor de puncte care conturează patternul norului de puncte și
care se numește linie de regresie
• Regresia liniară simplă - există un singur predictor (variabila
independentă) şi un singur criteriu (variabila dependentă)
• Regresia multiliniară sau multiplă presupune mai multe surse
de variaţie, ecuaţia de regresie include mai mulţi factori ce
intervin cu ponderi diferite în predicţia criteriului.
Ecuația de regresie
•Scorul
  prezis al unei persoane este egal cu constanta regresiei plus rezultatul
înmulțirii coeficientului de regresie cu scorul persoanei la variabila predictor.

• Y = scor prezis, variabila dependentă, criteriul;


• X = scor obținut de persoană la variabila predictor, variabila independentă,
predictor;
• a = constanta (un număr fix care se adaugă predicției);
• b = coeficientul nestandardizat de regresie (număr multiplicat cu scorul persoanei
obținut la variabila predictor, ca parte a regulii de predicție liniară).

• a se mai numește intercept, adică punctul de intersecţie al liniei de regresie cu


ordonata (axa OY);
• b indică panta liniei de regresie; deoarece el este dat de valoarea tangentei
unghiului teta (θ) - acesta indică cu cât creşte Y atunci când X creşte cu o unitate;
panta este ascendentă pentru corelaţiile pozitive şi descendentă pentru cele
negative.
Ecuația de regresie
• Regresia
  liniară simplă, în cazul în care datele
sunt exprimate în note standard sau note z
Cunoscând nota z a unei persoane la o variabilă,
vom prezice nota sa z la cealaltă variabilă după
formula:

în care B se numește chiar coeficient de


regresie.
Linia de regresie
• Desenați și etichetați axele
9
•  unui nor de puncte.
8.5
• Identificați valoarea prezisă
pentru variabila criteriu pentru
8
o valoare scăzută a variabilei
Medie matematica

7.5
medie
predictor și marcați punctul pe
7
matematica grafic. Veți face predicția
Linear (medie folosind formula învățată .
6.5 matematica)
• Faceți același lucru, dar
6
pentru o valoare ridicată a
5.5
80 85 90 95 100 105 110 115 120
variabilei predictor.
QI • Desenați o linie care trece prin
ambele puncte. Aceasta este
linia de regresie.
Regresia liniară multiplă
• Regresia liniară multiplă presupune folosirea
mai multor predictori.

• Ecuația de regresie este următoarea:

Y = B0 + B1·X1 + B2·X2 + ... + Bn·Xn


 
Condiţii de aplicare pentru regresia liniară simplă şi multiplă

1. Variabila dependentă (VD) să fie variabile cantitative normal


distribuite.
2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix).
3. Erorile (reziduurile) să fie normal distribuite (histogramă sau
Kolmogorov-Smirnov).
4. Evitarea multicoliniarităţii (corelaţii mari 0,50 – 0,60 între oricare
două VI).
5. Evitare cazurilor extreme şi a cazurilor influente (inspectarea
tabelului Residuals statitics).
6. Evitarea homoscedasticităţii : reziduurile vor avea aceeaşi
varianţă pentru fiecare nivel al variabilelor predictor (VI).
Calculul regresiei liniare simple (Pasul 1)
Calculul regresiei liniare simple (Pasul 2)
• Primul tabel arată variabilele din modelul de predicție.
• Al doilea tabel, Model Summary, oferă coeficientul de corelație dintre
variabila dependentă și variabila independentă (R – coeficientul de
corelație multiplă, pentru regresia multiliniară), coeficientul de
determinare (R2) care arată procentul de variație al variabilei criteriu
explicat de variabila predictor.
• Al treilea tabel, ANOVA, testul F arată în ce măsură există diferențe
semnificative statistic între estimările oferite pe baza ecuației de
regresie implicate în comparație cu estimările bazate pe valoarea mediei
(Sava, 2004). Pentru un model eficient, F este semnificativ statistic.
• Al patrulea tabel, Coefficients, conține coeficienții standardizați și
nestandardizați de regresie și valoarea constantei. Testul t de pe ultima
coloană arată dacă fiecare coeficient de regresie este semnificativ diferit
de 0. Pragul de semnificație mai mic de 0,05 arată că predictorul ales
este un predictor semnificativ.

S-ar putea să vă placă și