Sunteți pe pagina 1din 11

Corelaţia parţială

Conf. univ. dr. M. Popa

Conceptul de corelaţie

Conceptul de corelaţie se bazează pe concepţia lui Galton şi Pearson conform căreia


cauzalitatea este doar limita extremă categoriei de relaţie între două fenomene. În concepţia
lor, principiul explicator al faptelor şi fenomenelor ar putea fi extins de la riguros demonstrata
„cauzalitate”, specifică ştiinţelor fizice şi naturale, la cel de „asociere”. Aceasta poate fi pusă
mai uşor în evidenţă în lumea realităţii social-umane, unde cauzalitatea are un caracter prea
complex pentru a fi întotdeauna demonstrată. Deşi mai puţin riguroasă, asocierea fenomenelor
poate fi evidenţiată prin măsurarea variaţiei lor concomitente, indiferent de natura exactă,
adesea insondabilă, a cauzei care produce această co-variaţie. Este suficient să obţinem
măsurători concomitente ale unor variabile pentru a fi în măsură să aflăm gradul lor de
variaţie reciprocă. Astfel s-a deschis posibilitatea de a se aduce în domeniul ştiinţelor sociale
şi umane rigoarea specifică ştiinţelor fizice şi naturale.
Precursorul teoretic al coeficientului de corelaţie este coeficientul de covarianţă. El se
defineşte ca sumă a produselor dintre valorile celor două variabile, raportată la numărul
perechilor de valori din cele două distribuţii.

cov xy =
∑x* y
N

Problema pe care o avem cu coeficientul de covarianţă este aceea legată de unităţile de


măsură. Valorile perechi se pot exprima fiecare în unităţi de măsură diferite, ceea ce poate
face dificilă interpretarea semnificaţiei coeficientului. Soluţia problemei constă în
transformarea valorilor celor două variabile în scoruri standard, ceea ce produce un rezultat
care nu mai are legătură cu unitatea de măsură. Ca urmare, formula de definiţie a
coeficientului de corelaţie Pearson (r), probabil unul dintre cele mai utilizate teste utilizate în
statistica aplicată la ştiinţele social-umane, este:

∑z x * zy
r=
N

unde zx şi zy sunt transformările în note standard z ale variabilelor x, respectiv y, iar N este
volumul eşantionului (numărul perechilor de valori pe care se calculează corelaţia).

Nu facem decât să reamintim aici că r poate lua valori pe o plajă între +1 (corelaţie
pozitivă, directă, perfectă) şi -1 (corelaţie negativă, inversă, perfectă). Între aceste limite
extreme, un coeficient de corelaţie 0 (zero), indică absenţa totală a corelaţiei sau, cu alte
cuvinte, independenţa acestora una faţă de alta. Pe de altă parte, coeficientul de corelaţie
Pearson se bazează pe un model de asociere liniară între variabile. De aceea, absenţa unei
valori suficient de mari, ori semnificative, nu exprimă neapărat absenţa unei legături între
variabile ci, poate, existenţa unui alt tip de variaţie concomitentă decât cel liniar (curbiliniu).
Mai adăugăm, de asemenea, că în studiile bazate pe coeficientul de corelaţie nu avem
variabilă „independentă”, ambele variabile fiind considerate „dependente”. Cu alte cuvinte,

-1–
Actualizare: 24.11.2005; 12:35
nici una variabile nu este considerată ca având o „influenţă” asupra celeilalte (cel puţin din
punctul de vedere al raţionamentului statistic).

Conceptul de corelaţie parţială

Aşa cum am văzut, coeficientul de corelaţie măsoară gradul de variaţie simultană


dintre două variabile, considerate fără nici o legătură cu alte variabile. Dar puţine aspecte ale
realităţii social-umane interacţionează în mod izolat de altele. Regula este, mai degrabă, aceea
de a avea intercondiţionări multiple. Variaţia concomitentă a două variabile poate fi
determinată de o legătură intrinsecă dintre ele şi, în acelaşi timp, de o anumită influenţa pe
care fiecare o suportă din partea uneia sau mai multor variabile de altă natură. Cu alte cuvinte,
putem avea efecte exterioare care să contribuie la mărimea coeficientului de corelaţie
bivariată. De exemplu, putem obţine o corelaţie negativă, puternică şi semnificativă, între
lungimea părului şi înălţime (persoanele scunde au parul mai lung). Dacă, însă, luăm în
considerare influenţa variabilei „sex”, şi îi excludem efectul (deoarece femeile sunt, de regulă,
mai scunde decât bărbaţii), atunci este foarte posibil să obţinem o cu totul altă valoare a
corelaţiei dintre lungimea părului şi înălţime, cel mai probabil mai mică şi nesemnificativă. Să
luăm şi un alt exemplu: Se iniţiază un studiu cu privire la relaţia dintre nivelul salarizării şi
vârstă. Rezultatele ne pot indica o legătură semnificativă între aceste două variabile dar, dacă
izolăm efectul nivelului de instruire, putem ajunge la un coeficient de corelaţie mai mic decât
cel obţinut iniţial (ceea ce sugerează că, nu atât vârsta în sine, cât timpul alocat procesului de
instruire este factorul determinant al nivelului de salarizare atins).
Soluţia statistică a problemei enunţate mai sus este coeficientul de corelaţie parţială
care ne oferă o posibilitate de calculare a corelaţiei dintre două variabile cu menţinerea
constantă a influenţei externe din partea uneia sau mai multor variabile. Chiar dacă în
exemplele prezentate am sugerat doar influenţa unei a treia variabile, modelul de analiză, dar
şi cel de calcul, al corelaţiei parţiale pot fi extinse la oricât de multe variabile externe.
Coeficientul de corelaţie parţială nu este inclus în mod obişnuit printre testele statistice
multivariate. Considerăm, însă, că introducerea lui aici este justificată, pe de o parte, ca o
dezvoltare necesară a atât de utilizatului coeficient de corelaţie şi, pe de altă parte, de faptul
că, totuşi, în acest caz se iau în analiză mai mult de două variabile.

Calcularea coeficientului de corelaţie parţială

Deşi nu vom o utiliza în mod direct, redăm mai jos formula de calcul pentru
coeficientul de corelaţie parţială:

r12 − r13 * r23


r12.3 =
2 2
(1 − r13 ) * (1 − r23 )

unde: r12.3 este corelaţia parţială dintre variabila 1 şi variabila 2 cu izolarea efectului
variabilei 3; r12 este corelaţia dintre variabila 1 şi 2; r13 corelaţia dintre variabila 1 şi 3 iar r23
corelaţia dintre variabila 2 şi 3.
Vom prezenta în continuare modul de calcul al coeficientului de corelaţie parţială prin
utilizarea programului SPSS. Să luăm în considerare un studiu ipotetic al cărui scop ar fi
evidenţierea relaţiei dintre rezultatele la un test de reprezentare spaţială şi cele de la un test de
calcul aritmetic. Deşi interesul cercetării vizează relaţia dintre aceste două variabile, ne putem
pune problema influenţei inteligenţei asupra celor două tipuri de performanţă, motiv pentru

-2–
Actualizare: 24.11.2005; 12:35
care aplicăm şi un test de inteligenţă. Matricea de date, introdusă în Editorul de date SPSS,
arată ca mai jos:

Pentru a fi siguri cu privire la relaţia dintre variabilele care ne interesează, prin


excluderea efectului celei de a treia, vom proceda la calcularea coeficientului de corelaţie
parţială, care se lansează în execuţie din meniul Statistics-Correlate-Partial, cu deschiderea
casetei Partial Correlation, în care variabilele cercetate sunt trecute in lista Variables, iar
variabila pe care dorim să o izolăm, în lista Controlling for:

Acţionăm butonul Options, care deschide caseta corespunzătoare, unde bifăm opţiunile
Means and standard deviation (dacă dorim să avem statistica descriptivă a variabilelor) şi,
mai ales, Zero-order correlations, pentru a obţine şi matricea de corelaţie a tuturor
variabilelor, fără eliminarea vreuneia dintre ele.
După acţionarea succesivă a comenzilor Continue şi, apoi, OK, rezultatele procedurii
vor fi afişate în fereastra Viwer.
Primul lucru pe care îl analizăm în fereastra Output este matricea corelaţiilor complete,
care apare ca în imaginea alăturată, care nu este diferită de matricea produsă de procedura
clasică a corelaţiei bivariate.

-3–
Actualizare: 24.11.2005; 12:35
Rezultatele indică corelaţii ridicate între (de peste 0.80) între toate cele trei variabile.
Dar, aşa cum am spus, avem motive teoretice să credem că relaţia dintre cele două variabile
(reprezentare spaţială şi calcul aritmetic) este „intermediată” de inteligenţă. Din această cauză
semnificaţia coeficienţilor nu poate fi acceptată ca şi cum variabilele ar fi total independente
(presupunerea tipică pentru corelaţia bivariată). Aşa cum ştim, fiecare dintre coeficienţii de
corelaţie este purtător al unei Erori de tip I (probabilitatea de a respinge ipoteza de nul, deşi ea
ar putea fi adevărată). Acceptând acest lucru ar însemna că, la un set de trei coeficienţi de
corelaţie, cantitatea de eroare de tip I ar însuma 0.15 adică de trei ori 0.05, cea ce este
inacceptabil. Ca urmare, se aplică metoda Bonferonni de control pentru „eroarea de tip I”, la
ansamblul celor trei perechi de corelaţii: 0.05/3=0.017. Adică, se repartizează în mod egal
valoare lui alfa pentru un singur test (0.05) la toţi cei trei coeficienţi calculaţi. Nu ne rămâne
decât să constatăm în ce măsură coeficienţii obţinuţi sunt semnificativi la acest prag corectat
de siguranţă. După cum se observă, privind fie deasupra, fie sub diagonala matricei, în toate
cazurile coeficienţii de corelaţie dintre cele trei variabile sunt semnificativi la un p<0.017 ceea
ce sugerează că toate perechile de variabile corelează semnificativ. Principala concluzie este
aceea că ambele variabile cercetate (reprezentarea spaţială şi operaţiile aritmetice) au o
variaţie comună, semnificativă, cu inteligenţa.

Mai departe citim rezultatul procedurii de calcul după ce influenţa inteligenţei a fost
eliminată:

Din matricea alăturată se observă că, după excluderea


contribuţiei variabilei QI, corelaţia celorlalte două
variabile devine 0.094, care corespunde cu p=0.823.
Astfel ajungem la concluzia de acceptare a ipotezei de
nul (inexistenţa unei asocieri între reprezentarea
spaţială şi capacitatea de calcul aritmetic1). Cu alte
cuvinte, ceea ce părea a fi o legătură între
reprezentarea spaţială şi operarea aritmetică nu era
decât efectul „influenţei” pe care o exercita inteligenţa
asupra ambelor variabile. Sau altfel spus, ambele
variabile cercetate sunt componente ale inteligenţei şi, în acelaşi timp, independente între ele.

Dacă încercăm să reprezentăm relaţia dintre


cele trei variabile pe o diagramă Venn, ele ar putea
QI arăta ca în imaginea alăturată. Variabilele Repr_sp şi
Calc_ar au în comun cu variabila QI o mare cantitate
de variaţie care se traduce într-un „fals coeficient de
Repr_sp Calc_ar
corelaţie” între ele. Odată înlăturată influenţa QI,
relaţia dintre reprezentarea spaţială şi operarea
aritmetică apare în adevărata ei lumină, adică fără nici
o relevanţă.

1
Facem precizarea că acesta este un studiu ipotetic, fără nici o legătură cu date reale

-4–
Actualizare: 24.11.2005; 12:35
Interpretarea coeficientului de corelaţie parţială

Plaja de valori şi modul de interpretare pentru coeficientul de corelaţie parţială sunt


întru-totul similare coeficientului de corelaţie bivariat. Diferenţa constă doar în menţionarea
eliminării efectului sau efectelor externe din partea altor variabile. Utilizarea sa aduce mai
multă informaţie tocmai pentru că permite cercetătorului să ia în calcul relaţii mai complexe
dintre variabile decât cele surprinse de corelaţia clasică.
Aşa cum am spus deja, avem o corelaţie perfectă atunci când r este egal cu +1 sau –1.
Interpretarea coeficientului de corelaţie ţine cont de două aspecte: semnificaţia şi mărimea.
Un coeficient de corelaţie care se află sub pragul de semnificaţie (nivelul alfa), fixat anterior
analizei calculelor, nu va putea fi luat în discuţie, indiferent de valoarea lui r. Desigur, atunci
când această valoare este promiţător de mare iar studiul nu s-a bazat decât pe un număr relativ
mic de subiecţi, se poate avea în vedere reluarea cercetării pe un eşantion cu mai muţi
subiecţi. În ceea ce priveşte valoarea în sine a lui r, desigur, cu cât este mai mare, cu atât ea
exprimă o asociere mai intensă între variaţiile concomitente dintre cele două variabile. De-a
lungul timpului au fost propuse diverse astfel de scale de valorizare. Astfel, Jacob Cohen, într-
o lucrare clasică2 sugera că o corelaţie de 0.5 este „mare” pe când una de 0.1, este „mică”. De
aici ar rezulta că toate valorile peste 0.5 sunt „mari”, cele între 0.3 si 0.5 sunt „moderate”, iar
cele între 0.1 şi 0.3 sunt „mici”. De reţinut este, în primul rând, faptul că o corelaţie sub
valoarea de 0.1 va fi considerată ca „neglijabilă”.
Reluând subiectul într-o manieră analitică, Hopkins3 propune o variantă mai sensibilă
de interpretare a valorii coeficienţilor de corelaţie, după cum urmează:

Coeficientul de corelaţie Descriptor


←0.1 Foarte mic, neglijabil, nesubstanţial
0.1↔0.3 Mic, minor
0.3↔0.5 Moderat, mediu
0.5↔0.7 Mare, ridicat, major
0.7↔0.9 Foarte mare, foarte ridicat
0.9→ Aproape perfect, descrie relaţia dintre două variabile practic indistincte

În orice caz, prima condiţie pentru a lua în considerare existenţa unei corelaţii între două
variabile rămâne atingerea pragului de semnificaţie (alfa). Dacă valoarea lui r corespunde unui nivel
alfa mai mare de 0.05, existenţa unei corelaţii este de neluat în seamă, indiferent de mărimea
coeficientului Pearson. Aceasta, deoarece nu avem temei pentru a accepta că se îndepărtează suficient
de o valoare care ar fi putut decurge din jocul hazardului.
Mai departe, în interpretarea coeficientului trebuie să operăm cu distincţia dintre
„semnificaţia statistică” şi „relevanţa practică” a valorii obţinute. Un coeficient de corelaţie
puternic semnificativ nu înseamnă că are, automat, şi o relevanţă practică pe măsură. Ne ajută
în înţelegerea acestei distincţii ceea ce se numeşte „coeficientul de determinare” şi care nu
este altceva decât valoarea lui r ridicată la pătrat. Coeficientul de determinare este utilizat în
mod uzual în forma sa procentuală (r2*100) şi indică procentul de varianţă pe care cele două
variabile o au în comun. Cu alte cuvinte, cît la sută din gradul de împrăştiere a unei variabile
este „determinat” de variaţia (împrăştierea) celeilalte variabile.

2
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). New Jersey: Lawrence
Erlbaum
3
Hopkins, W. G. (2000). A new view of statistics. Internet Society for Sport Science:
http://www.sportsci.org/resource/stats/

-5–
Actualizare: 24.11.2005; 12:35
R r2 Dacă observăm cu atenţie tabelul alăturat, vom observa că valoarea
1.00 1.00 coeficientului de determinare scade mult mai accentuat decât valorile lui r ,
.90 .81 datorită efectului ridicării la pătrat a unor numere subunitare.
.80 .64 Dacă obţinem un r=+0.80 între inteligenţă şi performanţa şcolară, vom putea
.70 .49 spune că doar 64% din variaţia celor două variabile este comună, restul de 36%
.60 .36 datorându-se altor influenţe. Ca regulă generală, la capătul procedurii de testare
.50 .25 a corelaţiei se recomandă interpretarea coeficientului de determinare şi nu a
.40 .16 celui de corelaţie, acesta din urmă sugerând o covarianţă mai mare decât există
.30 .09 în mod real.
.20 .04
.10 .01
.0 .0

În cele din urmă, ce trebuie să luăm în considerare, semnificaţia sau intensitatea


asocierii? Desigur, răspunsul este unul relativ. Dacă finalitatea studiului este aceea de a lua
decizii, ca în cazul selecţiei de personal, de exemplu, se vor căuta valori cât mai mari ale
coeficientului de corelaţie (r), implicit ale celui de determinare (r2). Dar dacă obiectivul este
preponderent teoretic, de a pune în evidenţă relaţii „ascunse” între variabile, atunci indiferent
de mărimea lor, coeficienţii de corelaţie vor fi luaţi în considerare (desigur, dacă sunt mai
mari de 0.1).

Limitele de încredere pentru coeficientul de corelaţie

Semnificaţia limitelor de încredere

Atunci când calculăm coeficientul de corelaţie pentru valorile măsurate pe un eşantion


o facem, desigur, cu scopul de a avea o estimare asupra gradului în care cele două variabile au
o variaţie comună la nivelul întregii populaţii. Deoarece calcularea corelaţiei pe „valorile
populaţiei” este practic imposibilă, tot ce putem face este să o estimăm, cu o anumită marjă de
eroare, prin utilizarea eşantionului. Astfel, în termeni formali, r (calculat pentru eşantion) este
o estimare pentru ρ (ro), corelaţia „adevărată” la nivelul populaţiei. Nu vom putea şti
niciodată dacă această estimare este corectă, cu excepţia cazului în care am avea acces la toate
valorile populaţiei, dar putem evalua probabilitatea ca intensitatea asocierii în populaţie să se
afle între anumite limite, numite din acest motiv, limite de încredere. Este evident că, cu cât
aceste limite vor fi mai largi, cu atât acurateţea estimării pentru o anumită valoare calculată a
coeficientului de corelaţie este mai scăzută. Este evident din cele spuse, că „distanţa” dintre
limitele de încredere (superioară şi inferioară) este dată de „eroarea standard” a valorii
calculate a lui r. Adică, de variabilitatea estimată pentru o distribuţie de coeficienţi r, pe care
o vom numi rs (de la sample distribution, distribuţia de eşantionare) dacă am efectua corelaţii
pe toate eşantioanele posibile, de aceeaşi mărime, din respectiva populaţie.

Calcularea limitelor de încredere

Construirea intervalelor de încredere pentru coeficientul de corelaţie la nivelul


populaţiei (ρ) nu este la fel de simplă ca în cazul mediei, de exemplu. Atunci când ρ=0,
valorile rs (cele care ar fi calculate pe eşantioanele extrase din aceeaşi populaţie) ar forma o
distribuţie simetrică, în jurul lui zero („normală”, dacă volumul eşantionului este suficient de

-6–
Actualizare: 24.11.2005; 12:35
mare). Dar dacă ρ=+0.7 distribuţia lui rs are o împrăştiere asimetrică în jurul lui acestei
valori. Motivul este simplu: este mai mult „loc” pentru valori sub +0.7 decât peste această
valoare (deoarece ştim că r ia valori între -1 şi +1). Cu cît estimarea pentru ρ este mai aproape
de limitele teoretice ale lui r, cu atât distribuţia rs este mai asimetrică spre partea opusă.
Această particularitate creează o piedică în transformarea coeficienţilor rs în scoruri Z (cu
majusculă, pentru a se evita confuzia cu scorurile z, clasice), necesare construirii limitelor
intervalului de încredere pentru ρ. Problema a fost rezolvată de Fisher, care a elaborat un
algoritm pe baza căruia valorile rs sunt transformate în valori Z, a căror arie de distribuţie sub
curba normală este cunoscută:

Z = 0.5log[(1 + r)/(1 - r)]

Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi
Anexa) care, chiar dacă nu conţine toate valorile intermediare, este suficient pentru a acoperi
nevoile practice.
Să luăm ca exemplu valoarea coeficientului de corelaţie parţială obţinut de noi mai
sus: r=0.094. Ne propunem să aflăm care sunt limitele de încredere ale acestei valori, adică să
definim intervalul în care se poate afla o astfel de valoare, cu o probabilitate asumată. De
regulă, aşa cum ştim, această probabilitate asumată este de 0.05 sau, exprimată altfel, un nivel
de încredere de 95%.
Practic, aflare limitelor se face astfel:
- Transformăm r calculat în valoare Z, citind tabela Fisher: în cazul nostru, pentru
r=0.094 avem o valoare Z=0.095 (o aproximare acceptabilă între cele două valori
tabelare apropiate de r-ul nostru). Pe o distribuţie normală, cum este distribuţia de
eşantionare Z, ştim că aproximativ 95% dintre valori se întind între -1.96 şi +1.96.
Adică, pe o distanţă de aproximativ două abateri standard în jurul mediei (abaterea
standard a valorilor Z fiind 1).
- Calculăm eroarea standard a transformării Z, în formula:

1 1
re = = = 0,40 unde N este
N −3 9−3 volumul eşantionului

Calculăm limita superioară/inferioară a intervalului: ρ = r ± z critic * re , adică:


Limita superioară: 0.095+1.96*0.40=+0.87
Limita inferioară: 0.095-1.96*0.40=-0.68
Limitele astfel calculate sunt exprimate în valori transformate Z, ori noi avem nevoie
să ştim limitele pentru coeficientul de corelaţie. Ca urmare, facem acum transformarea
inversă, citind valorile lui r în tabela Fisher, corespunzătoare celor două limite de mai sus,
exprimate în valori Z:
Limita superioara de încredere pentru r=+0.70
Limita inferioară de încredere pentru r=-0.59

Utilizarea limitelor de încredere

Faptul că pe o populaţie având caracteristicile eşantionului nostru, coeficientul de


corelaţie „adevărat” dintre cele două variabile are 95% şanse să se afle oriunde undeva între
-0.59 şi +0.70. Cu alte cuvinte, poate fi inclusiv 0. Este un argument în plus pentru a accepta
ipoteza de nul şi a nu accepta ipoteza unei legături între cele două variabile.

-7–
Actualizare: 24.11.2005; 12:35
Mai trebuie să observăm, de asemenea, că amplitudinea intervalului de încredere este
direct dependentă de volumul eşantionului. Cu cât N este mai mare, cu atât valoarea erorii
standard tinde să scadă, ceea ce aduce limitele intervalului de încredere mai aproape de
valoarea calculată a lui r.
Iată un alt exemplu, ilustrat grafic. Într-un studiu pe 64 de subiecţi, coeficientul de
corelaţie dintre înălţime şi greutate a fost 0.68, cu un interval de încredere cuprins între +0.52
şi +0.79, aşa cum se vede în imaginea de mai jos:

În acest caz limitele de încredere nu intersectează valoarea zero, fapt care indică un
coeficient de corelaţie semnificativ. Dar utilizarea limitelor de încredere ne poate fi de folos şi
în evaluarea şanselor de a obţine o corelaţie semnificativă după ce am obţinut un coeficient
nesemnificativ. Şi aceasta datorită evaluării efectului mărimii eşantionului.
Să ne imaginăm că am efectuat un calcul de corelaţie pe 30 de subiecţi şi am obţinut
r=0.30. Limitele de încredere pentru acesta sunt între -0.07 şi +0.60, ceea ce arată că este
nesemnificativ, dat fiind faptul că între cele două limite este şi valoarea zero, aceea care este
vizată de ipoteza de nul. Dar, dat fiind faptul că în formula erorii standard a lui r volumul
eşantionului de află la numitor, cu cât N va fi mai mare, cu atât valoarea lui re va fi mai mică
iar limitele intervalului de încredere pentru r, mai aproape de r. Pentru exemplul anterior,
calculele ne arată că, dacă am creşte volumul eşantionului la 50 de subiecţi, limita inferioară
trece deja peste valoarea zero. Celelalte linii din tabel prezintă efectul de mărime al
eşantionului în cazul creşterii lui N până la 100 de subiecţi.

Niv. de Limite de încredere


Pearson
N încredere
r inferioară Superioară
(%)
30 0,30 95 -0,07 0,60
40 0,30 95 -0,01 0,56
50 0,30 95 0,02 0,53
60 0,30 95 0,05 0,51
70 0,30 95 0,07 0,50
80 0,30 95 0,09 0,49
90 0,30 95 0,10 0,48
100 0,30 95 0,11 0,47

Corecţia restricţiei de amplitudine

Un factor recunoscut de subapreciere validităţii metodelor de selecţie psihologică este


aşa numitul ”efect de restricţie al amplitudinii”. Studiile asupra relaţiei dintre performanţa la

-8–
Actualizare: 24.11.2005; 12:35
testele de selecţie şi performanţa în procesul de instruire se efectuează frecvent pe eşantioane
limitate, rezultate în urma unei decizii de selecţie, prin care doar o parte a candidaţilor sunt
declaraţi admişi. În fapt, calculele de validare se efectuează numai pe acest eşantion, pentru
care performanţa la testele psihologice are un grad de variaţie mai mic, tocmai din cauza
respingerii celor cu performanţe mai mici. Acest fenomen a fost denumit „restricţie de
amplitudine” şi este considerat responsabil pentru concluzii incorecte în studiile de validare.
Thorndike (1949), citat de Carreta & Ree (2003), a oferit un dramatic exemplu al acestui
efect. Un grup experimental de 1036 candidaţi piloţi din US Army Air Corps au fost admişi în
procesul de instruire în anul 1944, indiferent de scorul obţinut la cinci teste de aptitudini.
Ulterior, au fost calculate corelaţiile dintre performanţa la teste şi un criteriu de performanţă
de instruire pentru toţi cei 1036 candidaţi şi, separat, pentru 136 de candidaţi care ar fi fost
admişi dacă s-ar fi aplicat standardul de selecţie existent în uz. Scorul compozit rezultat din
cele cinci teste psihologice a obţinut o corelaţie de 0.64 pentru întregul lot evaluat (fără
restricţie de amplitudine) şi numai 0.18 pentru lotul care ar fi putut fi selectat conform
standardului (cu restricţie de amplitudine). Cea mai dramatică diferenţă s-a constatat pentru
testul de coordonare psihomotorie, unde corelaţia pentru lotul nerestricţionat a fost de 0.40,
iar pentru lotul restricţionat de -0.03! În medie, coeficienţii de corelaţie pentru lotul
nerestricţionat s-au dovedit mai mari cu 0.29 faţă de lotul restricţionat.
Exemplul de mai sus este dovada clară că validitatea calculată pe loturi restricţionate
în amplitudine (o expresie care are în vedere o împrăştiere mai mică a variabilelor predictor),
are o valoare mai mică decât în realitate, prin reducerea importanţei cauzale a variabilei
predictor asupra variabilei criteriu (Goldberg, 1991). Ca urmare, calcularea şi raportarea
coeficienţilor de corelaţie fără a se ţine cont de efectul de restricţie a amplitudinii poate
conduce la decizii de selecţie greşite. Soluţia acestei probleme constă în procedura de
„corecţie de continuitate a coeficientului de corelaţie”. Ea se poate face, fie la nivel univariat,
atunci când avem un singur predictor, fie la nivel multivariat, atunci când există mai mulţi
predictori (teste psihologice) pentru un anumit criteriu de performanţă (Ree & Carretta, 1994).
Pentru exemplificare, vom reda mai jos doar un calcul al corecţiei de continuitate
univariată, utilizând una dintre formulele uzuale pentru acest scop:

σ X rxy
rXY =
( )
σ x 2 1 − rxy 2 + σ X 2 rxy 2

unde:
rXY=corelaţia corectată
rxy=corelaţia necorectată
σX=abaterea standard a grupului integral (totalul celor evaluaţi iniţial)
σx=abaterea standard a grupului selecţionat (cei admişi)

Este evident faptul că pentru a putea efectua corecţia este necesar să păstrăm datele
pentru întregul lot testat la selecţie. Să presupunem că valoarea coeficientului de corelaţie
dintre scorul la un test de inteligenţă şi performanţa şcolară, calculat pe un lot de elevi admişi
în urma unui examen de selecţie, este de 0.29. Tabelul de mai jos cuprinde parametrii lotului
integral (nerestricţionat) şi cei ai lotului admis (restricţionat).

Parametrii lotului integral Parametrii lotului restricţionat


(totalul candidaţilor evaluaţi) (candidaţii admişi)
mX=110 mx=127
σX=17 σx=11

-9–
Actualizare: 24.11.2005; 12:35
Înlocuim datele în formulă:
17 * 0.29
rXY = = 0.42
( )
112 * 1 − 0.29 2 + 17 2 * 0.29 2

Aşadar, corelaţia corectată dintre testul de inteligenţă şi criteriul de validare este mai
mare decât cea obţinută (r=0.42). Vom reţine că, în măsura în care împrăştierea datelor
restricţionate (prin selecţie) este mai mică decât împrăştierea datelor integrale, iar media
datelor restricţionate este mai mare decât cea a datelor integrale, coeficientul de corelaţie
corectat („adevărat”) este mai mare decât cel calculat. Cu alte cuvinte, în situaţii de acest gen,
coeficienţii de corelaţie obţinuţi subapreciază valoarea reală a legăturii dintre variabile. Chiar
şi după aplicarea corecţiei, se apreciază că se menţine o tendinţă de subestimare a validităţii
(Linn, Harnish, & Dunbar, 1981).
Atunci când se utilizează procedura de corecţie este recomandabil să se raporteze atât
valoarea necorectată cât şi valoarea corectată a coeficientului de corelaţie, chiar dacă doar
aceasta din urmă va fi luată în considerare la elaborarea concluziilor. Această procedură de
corecţie este extrem de utilă mai ales pentru situaţiile în care se urmăreşte validarea unor teste
în procedurile de selecţie a personalului.

- 10 –
Actualizare: 24.11.2005; 12:35
Tabela Fisher de transformare a valorilor r în scoruri Z
(Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)

R Z r Z r Z R Z
0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454
0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714
0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986
0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270
0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568
0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881
0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212
0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562
0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933
0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331
0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758
0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219
0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722
0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275
0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890
0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584
0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380
0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318
0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459
0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923
0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976
0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467
0.2200 0.2237 0.4800 0.5230 0.7400 0.9505
0.2300 0.2342 0.4900 0.5361 0.7500 0.9730
0.2400 0.2448 0.5000 0.5493 0.7600 0.9962
0.2500 0.2554 0.5100 0.5627 0.7700 1.0203

- 11 –
Actualizare: 24.11.2005; 12:35

S-ar putea să vă placă și