Documente Academic
Documente Profesional
Documente Cultură
CAPITOLUL 5
Acest modul se concentrează asupra caracteristicilor psihometrice ale
unui scor (sau, în sens mai larg, ale unei metode, instrument etc.).
Caracteristicile psihometrice cele mai importante sunt definite drept
fidelitatea și validitatea. Este explicată apoi fidelitatea, în toate formele
sale, de la stabilitatea test-retest, la fidelitatea prin forme paralele, prin
metoda înjumătățirii și ajungând apoi la consistența internă. Sunt
explicate pragurile de fidelitate și este explicată eroarea standard de
măsurare și utilitatea ei practică. Se trece apoi la validitate, care este
definită drept corpus integrat și complex de cunoștințe și demonstrații
empirice și teoretice privind relațiile unui scor. Sursele validității sunt
discutate în continuare, prin concentrarea pe validitatea de conținut, de
construct, de criteriu, predictivă etc. Sunt apoi atacate două capitole mai
complexe dar cu ramificații serioase pentru practică, în mod special sub
aspectul utilității și etice. Se discută validitatea incrementală, sau creșterea
de validitate adusă prin aportul unor surse multiple de informație (metode,
trăsături, evaluatori etc.). Este apoi discutată validitatea diferențială, sau
impactul advers și o parte din implicațiile sale, precum și modalitatea de
detecție.
OBIECTIVE:
1. Caracteristicile psihometrice
2. Fidelitatea măsurării
3. Validitatea
4. Validitatea incrementală
5. Validitatea diferențială
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Caracteristicile psihometrice
De ce avem nevoie De bună seamă că nu se poate să avem un curs de măsurare psihologică (și
de o discuție despre comportamentală) fără să avem și o discuție despre caracteristicile
caracteristici psihometrice ale măsurării: fidelitatea (reliability) și validitatea măsurării.
psihometrice
Cele două concepte sunt centrale pentru modul în care înțelegem
măsurarea în științele sociale și comportamentale și fără o înțelegere
corectă a acestor două concepte multe din motivele pentru care o decizie
se ia într-un fel și nu în altul vor scăpa. Un specialist veritabil în acest
domeniu stăpânește aceste două concepte și le include în deciziile sale
despre ce măsoară, cum măsoară, cu ce măsoară etc. Ele stau în ultimă
instanță la baza întregului proces de măsurare.
Vom utiliza în acest curs termenul de ”test” în sens larg, pentru a desemna
orice efort de măsurare: din acest punct de vedere un chestionar este un
”test”, un interviu sau o observație pot fi ”teste”, dacă ele măsoară o
realitate și oferă un scor numeric.
Fidelitatea măsurării
Definirea fidelității În orice măsurare a fidelității, referirea se face la consistența și
reproductibilitatea unei observații (cotă, scor, notă) sau set de observații
(distribuția scorurilor). Dacă, atunci când utilizăm același instrument de
măsură pentru a face determinări în timpi succesivi, de fiecare dată
ajungem la aceleași valori, spunem că am obținut o măsurare cu o fidelitate
mare.
Deci, cu cât eroarea este mai mică, cu atât scorul observat (măsurat în mod
efectiv) este mai corect, mai apropiat de “realitate” (de scorul “adevărat”).
Proceduri pentru Pentru determinarea fidelității sunt posibile mai multe proceduri și se pot
determinarea folosi metode diferite de evaluare sau chiar de măsurare.
fidelității
Metodele considerate în genere metode de măsurare a fidelității sunt legate
de corelare empirică a două măsurări, realizate de obicei la două momente
diferite în timp - aceste metode aplică exact principiul repetabilității
enunțat în definiția fidelității și din acest motiv sunt considerate mai
puternice. Aceste metode sunt: metoda test-retest și metoda formelor
echivalente și se consideră că ele oferă acei indici de fidelitate care se
numesc ”indici de stabilitate”.
Așadar, pentru această metodă este critic să estimăm corect echilibrul între
dezideratul unui timp cât mai lung existent între cele două administrări ale
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Din acest motiv, metoda se aplică pe baza unor eșantioane mici. În plus, de
obicei aceste eșantioane sunt necontrolate, nu sunt foarte bine echilibrate
pentru reprezentativitate - aceasta și din cauza faptului că este dificil de
controlat cine rămâne și cine pleacă din eșantion la a doua administrare a
testului și abandonul este o problemă serioasă.
Metoda formelor Metoda formelor paralele sau, așa cum se mai numește, a formelor
echivalente echivalente, are aceleași principii precum metoda test-retest: se
administrează testul de două ori pe un eșantion de participanți și se
calculează coeficientul de corelație între cele două administrări.
Metoda split-half Metoda split-half este bazată pe un artificiu logic pe care vom încerca să îl
explicăm aici. Itemii unui test ”trag” toți în aceeași direcție, adică măsoară
același construct. De exemplu, dacă avem un chestionar care măsoară
extraversia, care conține 10 itemi, toți se vor referi la extraversie. Ei sunt
”consistenți”, coerenți, sunt instanțe diferite ale aceluiași construct.
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Desigur, metoda are minusurile ei. Unul din aceste minusuri este referitor
la modul în care vom împărți itemii: de ce prima jumătate și ultima
jumătate? De ce nu parii vs. imparii? În mod cert în cazul testelor de
cunoștințe sa de aptitudini, par vs. impar ar fi o împărțire mai rațională,
căci este posibil ca unii participanți să nu ajungă niciodată la ultimii itemi
ai testului din cauza presiunii timpului. Și, la urma urmei, de ce nu itemii
1,3,4,8,9 vs. itemii 2,5,6,7,10? Orice împărțire ar trebui să funcționeze - și
de fapt funcționează - ceea ce înseamnă că avem în total un număr foarte
mare de posibili indici split-half și se pune, pe bună dreptate, problema
privind care este ”cel adevărat”. Nemaivorbind de faptul că e posibil să
avem în testul mare un număr impar de itemi, deci vom avea jumătăți de
test care sunt inegale în numărul de itemi (și nu, aceasta nu este o problemă
pentru corelație, deci metoda funcționează și în acest caz).
Indicele Alpha al Indicele Alpha, propus de Lee Cronbach și cunoscut din acest motiv drept
lui Cronbach indicele α-Cronbach, este o rezolvare elegantă a dilemei care grefează
metoda split-half: indicele Alpha (la fel ca și ceilalți indici echivalenți,
precum indicii KR 20 și KR 21 ai lui Kuder și Richardson, cei 6 coeficienți
Lambda ai lui Guttman, dintre care λ3 este complet identic cu Alpha-
Cronbach etc.) poate fi înțeles ca o medie a tuturor posibilelor split-half-uri
pentru un test.
Exemplificare Imaginea mai jos exemplifică vizual aceste relații, pentru un interval de
vizuală 90% calculat pe un scor de IQ măsurat la 98, pentru un test cu fidelitatea de
.95 (verde), .70 (negru) și .50 (roșu).
Grafic SEM
Utilizarea în Eroarea de măsurare ilustrează mai clar de ce nu putem lucra în orice fel de
probleme de decizie cu orice fel de scală: la fidelități plasate sub .70, SEM crește foarte
comparație mult și scala nu mai poate fi utilizată pentru decizii majore, căci nu ne mai
putem încrede în intervalul în care variază probabil scorurile, iar la
fidelități de peste .90, SEM scade la un nivel la care putem spune că se
poate lucra coerent cu scala căci plaja pe care scorurile variază este foarte
redusă.
doilea candidat are IQ mai mare? Dacă vom compara direct numerele da -
dar ar fi o eroare. Asta pentru că de fapt acest scor observat variază în
intervalul SEM. Dacă am calculat SEM la 3 puncte, atunci cu o
probabilitate de 90% (2SEM=6) scorul primului candidat este cuprins între
96 și 108 puncte, iar scorul celui de-al doilea candidat între 99 și 111
puncte. Așadar, ”cozile” intervalelor de încredere pentru scorurile celor doi
candidați se acoperă, există o probabilitate ca de fapt ierarhia lor să fie
inversă decât cea observată la măsurare, iar primul dintre ei să aibă un IQ
de 108 și al doilea de 99 ...
Validitatea
Validitatea: Validitatea este conceptul central pe care se bazează psihodiagnosticul, atât
Definiție în cazul aptitudinilor cât și al personalității. Ea ne permite formularea de
aserțiuni privind gradul de dezvoltare al unei caracteristici care ne
interesează sau emiterea de predicții în ceea ce privește comportamentul
viitor al persoanei evaluate.
Validitatea: câteva Așadar, în linii generale, validitatea exprimă gradul în care un test măsoară
clarificări și ceea ce își propune să măsoare. La această calitate se mai poate adăuga și o
exemple alta, anume dacă testul poate fi utilizat în luarea unor decizii corecte. Cu alte
cuvinte (exemplu), dacă noi cunoaștem performanțele unei persoane la un
test (predictor), cât de precis vom putea estima ce performanțe profesionale
va obține? Validitatea poate fi definită în termeni operaționali ca fiind
corelația dintre predictor și criteriu (de ex. performanțele profesionale ale
unui eșantion de indivizi). Rezultatul este cunoscut și sub numele de
”coeficient de validitate”, chiar dacă un astfel de coeficient nu este decât
rezultatul unui singur studiu, care tratează o singură sursă de validitate și nu
ar trebui confundat cu actuala semnificație a termenului de validitate, anume
aceea de corp integrat de cunoștințe și dovezi teoretice și empirice. Un test
poate avea mai mulți coeficienți de validitate, în funcție de numărul de
dimensiuni profesionale (calitatea muncii, disciplina, categoria profesională
etc.) care corelează cu el și de studiile realizate.
Din punct de vedere situațional, întrebarea care se pune este dacă testul are
dovezi de validitate pe situații exact similare cu cea la care se dorește
utilizarea la un anumit moment. Această întrebare se alătură cu întrebarea
privind utilitatea testului (este el util în contextul dorit?). De exemplu, dacă
trebuie sa selectăm dintr-o clasă de copii pe cei care sunt susceptibili să facă
sport de performanță și avem la dispoziție un test care măsoară Extraversia,
Nevrotismul și Psihotismul (este evident la ce test facem referire), este acest
test valid? Testul (este vorba de EPQ, Eysenck Personality Questionnaire)
este desigur valid pentru a măsura cele 3 variabile amintite mai sus și avem
nenumărate dovezi de validitate privind acest lucru - însă în situația dată
testul nu va fi valid, căci nu poate prezice criteriul dorit.
Așadar, dacă vom întreba cum se poate evalua validitatea unei metode,
răspunsul este simplu: evident, prin prisma potențialului său de a genera
informație validă. Astfel, de principiu, metodele sunt diferite din acest punct
de vedere: interviul tradițional (nestructurat sau semistructurat) nu atinge de
regulă o validitate mai mare de r = .05-.19; referințele obținute de la locul
de muncă anterior ating o validitate de aproximativ r = .23; datele biografice
ating o validitate de aproximativ r = .38; chestionarele de personalitate ating
o validitate de aproximativ r = .39; testele de integritate ating o validitate de
aproximativ r = .51; testele de aptitudini ating o validitate de aproximativ r
= .53; testele de performanta directa (work sample) ating o validitate de
aproximativ r = .54; interviul comportamental atinge o validitate de
aproximativ r = .40-.60; centrul de evaluare (assessment center) poate
atinge, pentru predicția potențialului de dezvoltare, o validitate de
aproximativ r = .65 etc.
Schemă sumativă Imaginea de mai jos, preluată după Robertson & Smith (2001, p. 443)
privind validitatea ilustrează aceste validități. În partea stângă a graficului sunt prezentate
metodelor validitățile pentru criteriul ”performanță în training”, iar în partea dreaptă
validitățile pentru criteriul ”performanță în muncă”.
Imagine, cf.
Robertson & Smith
(2001)
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Validitatea ca O altă importantă întrebare care se pune în acest context este referitoare la
funcție a întinderii gradul în care validitatea unui test (a unei măsurări) depinde de lungimea sa.
testului Întrebarea este importantă, pentru că în mod special în context
organizațional sunt preferate testele - sau măsurătorile - cât mai scurte.
Lipsa de timp și uneori lipsă de resurse (de exemplu lipsa de buget) ne poate
împinge deseori spre utilizarea unor metode scurte, pe care le asumăm ca
fiind mai puțin bune, dar nu realizăm deseori cât de mult mai slabe sunt.
Numărul de itemi (adică numărul de instanțe comportamentale care sunt
eșantionate) determină validitatea, nu doar fidelitatea testului; de aceea un
test mai lung (sau un interviu mai lung) este mai valid (presupunând că este
bine construit) decât unul mai scurt. Ținând orice altă variabilă constantă,
testele mai lungi sunt mai valide.
Validitatea incrementală
Două probleme Există două probleme mai speciale care țin de validitate și pe care dorim să
speciale: le discutăm în încheierea acestui capitol: anume validitatea incrementală și
validitatea validitatea diferențială (impactul advers). Ambele sunt importante în
incrementală și evaluare în general, dar sunt în mod special importante în domeniul
validitatea organizațional.
diferențială
Ce este validitatea Validitatea incrementală se referă nu la capacitatea unui predictor de a
incrementală prezice bine un criteriu (de a fi valid pentru acesta), ci la capacitatea unui
predictor suplimentar de a fi valid după un alt predictor, pentru predicția
unui criteriu. În mod special validitatea incrementală se referă la
suplimentul de validitate adus de al doilea predictor.
Utilitatea evaluării Înțelegem astfel că validitatea incrementală aduce în discuție aspecte legate
de utilitatea evaluării: este util de exemplu să administrăm ambele aceste
scale de personalitate? Evident, administrarea uneia din ele este o pierdere
de timp și de resurse și, deși este un predictor eficient de una singură, în
ansamblul de metode (mixul de metode) nu reușește să aducă un aport
relevant la predicție.
Relația simplă
predictor-criteriu
Predictori Dar un criteriu este rareori sau niciodată prezis de un singur predictor: de
suplimentari obicei concură mai mulți predictori la această relație. Imaginea de mai jos
ilustrează o relația în care predictorul nostru anterior exemplificat este
însoțit de alți doi predictori, mai slabi, dar totuși relevanți. Pentru
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Relația dintre
predictori multipli
și criteriu
Predicția comună Predicția comună a acestor 3 predictori este teoretic suma predicțiilor lor,
nu e sumativă ceea ce ar însemna 64% + 36% + 16% = 116% - și evident acesta este un
nonsens. De ce? Pentru că aceste predicții nu sunt sumative - și nu sunt
sumative pentru că există corelații și între acești predictori, ei sunt și ei
corelați între ei. Imaginea de mai jos exemplifică situația.
Exemplificarea
intercorelațiilor
dintre predictori
Un alt mod de a Situația poate fi ilustrată și în alt mod - așa cum se vede în figura de mai
ilustra exemplul jos. Am notat predictorul cu VI (variabilă independentă) și criteriul cu VD
(variabilă dependentă) și dacă am ilustra teritoriul varianței celor două
variabile, suprafața teritoriului lor comun de varianță, r2, ar fi de în cazul
primului nostru exemplu de 64% din suprafața totală acoperită de cele
două.
Varianță comună
dintre predictor și
criteriu
Varianța comună În cazul unor predictori multipli, după cum se vede în schema de mai jos, al
în cazul mai multor doilea predictor nu poate aduce întreaga sa varianță comună cu criteriul în
variabile predicția acestuia, pentru că o parte din aceasta a fost deja adusă de primul
intercorelate predictor. Validitatea incrementală a celui de-al doilea predictor,
suplimentar față de primul, în predicția criteriului, este doar o fracțiune din
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Exemplificarea
varianței comune
în cazul mai multor
variabile
intercorelate
Inteligența ca cel Într-un astfel de context, cel mai bun predictor al performanței profesionale
mai bun predictor este inteligența - aptitudinile mentale generale. Vom discuta acest lucru pe
larg în cursul dedicat testării aptitudinilor și inteligenței.
Validitatea diferențială
Sinonime ale Validitatea diferențială (differential validity) este un fenomen interesant
fenomenului din punct de vedere statistic, dar care pune specialistul în evaluare în
dificultate din punct de vedere etic și legal. Sinonime pentru acest fenomen
sunt predicția diferențială (differential prediction), sau impactul advers
(adverse impact); atunci când nu este o problemă a constructului ci a
instrumentului de evaluare, de exemplu a testului, se mai numește și
distorsiune generată de test (test bias).
Problemă legală și Problema pe care o pune validitatea diferențială este una legala si etică: în
etică: discriminare ce măsură putem utiliza pentru a fundamenta decizii de personal, un
construct (variabilă) sau un instrument de măsurare (de ex. test sau
interviu) la care anumite categorii de participanți obțin in mod sistematic
scoruri mai mici decât altele? Nu este aceasta o discriminare împotriva
celor care obțin scoruri mai mici?
Utilizarea normelor O posibilitate pentru a evita această dilemă ar fi utilizarea unor norme
diferite ca posibilă diferite pentru bărbați și pentru femei: dacă utilizăm norme dependente de
soluție gen, atunci șansa de a atinge un anumit scor standardizat este egală pentru
bărbați și pentru femei - însă este important de reținut că asta nu face ca o
femeie și un bărbat cu scoruri standard egale să aibă și comportamente
egale.
Dependența de Așadar, regula pe care o vom utiliza în astfel de decizii este aceea că
sarcină ca indicator niciodată o diferență pe bază de gen, de vârstă, de etnie etc. nu este o
problemă etică și nu denotă discriminare dacă este legată cu o sarcină
specifică de muncă (job-dependent). La urma urmei, dacă vom face
selecție pentru a angaja hamali în port, avem nevoie ca angajații să poată
ridica și căra 100kg - nu ne pasă dacă sunt bărbați sau femei, dar e o șansa
mică să avem multe femei care corespund acestei descrieri. Este aceasta
discriminare? Nu, cu siguranță că nu.
Validitatea unui Problema începe însă să fie spinoasă atunci când nu scorurile unui
predictor și panta predictor, ci validitatea unui predictor diferă în funcție de o variabilă - de
de regresie ex. în funcție de gen. Cu alte cuvinte, dacă avem un eșantion compus din
bărbați și femei, și testăm variabila X, să spunem că vom constata o
corelație între X și criteriul nostru de r = .60, ceea ce denotă o predicție
corectă în 36% din cazuri. Într-o analiză de regresie, graficul va denota o
anumită pantă în dreapta de regresie.
Diferența de Dar dacă am realiza analiza separat pentru bărbați și pentru femei, și am
validitate și pantele observa că pentru cele două grupuri corelațiile celor două variabile sunt
diferite de regresie diferite, am avea o problemă. Să zicem de exemplu că pentru bărbați avem
o corelație de r = .70 și pentru femei de r = .50, ceea ce înseamnă că pentru
bărbați prezicem corect în 49% din cazuri, iar pentru femei în 25% din
cazuri. Prezicem aproape dublu de bine pentru bărbați decât pentru femei,
și dacă nu avem înțelegerea fenomenului nu știm despre asta. Vom spune
că ecuația noastră inițială supra-prezice pentru femei (overprediction) și
sub-prezice (underprediction) pentru bărbați.
Moderarea ca efect Din punct de vedere statistic dacă vom desena dreptele de regresie pentru
statistic cele două grupuri vom vedea că dreptele au pante de regresie diferite.
Acest fenomen se detectează foarte ușor prin regresie ierarhică, iar
fenomenul mai este cunoscut și sub numele de ”moderare”. Cu alte
cuvinte, moderarea relației de predicție de o variabilă demografică denotă
predicție diferențială pe baza acelei variabile. De ce este aceasta o
problemă? Evident, decizia va fi mai corectă pentru unele persoane și mai
greșită pentru altele: variabila noastră (sau testul nostru) va avea un impact
advers asupra deciziei.
Vizualizarea dreptei
de regresie pentru
grupul comun
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Vizualizarea dreptei
de regresie pentru
grupul majoritar
Vizualizarea dreptei
de regresie pentru
grupul minoritar
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Categorii protejate Categoriile demografice pentru care este în mod special important să
evaluăm în ce măsură o variabilă sau un test au într-o anumită situație
predicție diferențială sunt 3: gen, vârstă și etnie. Aceste categorii sunt
considerate în multe state categorii protejate. Ar trebui să demonstrăm de
aceea că nu există diferențe în predicție pentru variabilele utilizate în
funcție de gen (femei vs. bărbați), de vârstă (sub vs. peste 40 de ani, unde
categoria protejată sunt cei de peste 40 de ani) și de etnie (unde categoria
protejată sunt minoritățile etnice și culturale). Însă și alte criterii care țin de
apartenența la grupuri diverse pot fi moderatori și nu ar trebui ignorate.
CONCEPTE-CHEIE:
- psihometrie
- caracteristică psihometrică
- fidelitate
- test-retest
- forme paralele (echivalente)
- split-half (înjumătățire)
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
- consistență internă
- acord interevaluator
- acord inter-sursă
- eroare standard de măsurare
- validitate
- validitate de conținut
- validitate de construct
- validitate de aspect
- validitate predictivă
- validitate incrementală
- validitate diferențială
- impact advers
- test bias
ÎNTREBARI DE VERIFICARE:
TEME PENTRU APLICAȚII:
BIBLIOGRAFIE:
[Fidelitate]
[Validitate]
[Validitate incrementală]
Lievens, F., & Patterson, F. (2011). The Validity and Incremental Validity
of Knowledge Tests, Low-Fidelity Simulations, and High-Fidelity
Simulations for Predicting Job Performance in Advanced-Level
High-Stakes Selection. Journal of Applied Psychology, 96, 927-
940.
[Validitate diferențială]