Curs TalentMng - Modul 05

Note de curs.
Managementul talentului: Evaluarea diferențelor individuale în resurse umane
CAPITOLUL 5
Principii ale măsurării în științele comportamentale: fidelitate și validitate

Acest modul se concentrează asupra caracteristicilor psihometrice ale
unui scor (sau, în sens mai larg, ale unei metode, instrument etc.).
Caracteristicile psihometrice cele mai importante sunt definite drept
fidelitatea și validitatea. Este explicată apoi fidelitatea, în toate formele
sale, de la stabilitatea test-retest, la fidelitatea prin forme paralele, prin
metoda înjumătățirii și ajungând apoi la consistența internă. Sunt
explicate pragurile de fidelitate și este explicată eroarea standard de
măsurare și utilitatea ei practică. Se trece apoi la validitate, care este
definită drept corpus integrat și complex de cunoștințe și demonstrații
empirice și teoretice privind relațiile unui scor. Sursele validității sunt
discutate în continuare, prin concentrarea pe validitatea de conținut, de
construct, de criteriu, predictivă etc. Sunt apoi atacate două capitole mai
complexe dar cu ramificații serioase pentru practică, în mod special sub
aspectul utilității și etice. Se discută validitatea incrementală, sau creșterea
de validitate adusă prin aportul unor surse multiple de informație (metode,
trăsături, evaluatori etc.). Este apoi discutată validitatea diferențială, sau
impactul advers și o parte din implicațiile sale, precum și modalitatea de
detecție.

OBIECTIVE:
- Înțelegerea sensului caracteristicilor psihometrice

- Explicarea fidelității și a formelor sale
- Explicarea validității și a surselor sale
- Explicarea principiului validității incrementale
- Explicarea principiului validității diferențiale
Cuprinsul acestui capitol

1. Caracteristicile psihometrice
2. Fidelitatea măsurării
3. Validitatea
4. Validitatea incrementală
5. Validitatea diferențială
Note de curs. Managementul talentului: Evaluarea diferențelor individuale în resurse umane
Caracteristicile psihometrice
De ce avem nevoie De bună seamă că nu se poate să avem un curs de măsurare psihologică (și
de o discuție despre comportamentală) fără să avem și o discuție despre caracteristicile
caracteristici psihometrice ale măsurării: fidelitatea (reliability) și validitatea măsurării.
psihometrice
Cele două concepte sunt centrale pentru modul în care înțelegem
măsurarea în științele sociale și comportamentale și fără o înțelegere
corectă a acestor două concepte multe din motivele pentru care o decizie
se ia într-un fel și nu în altul vor scăpa. Un specialist veritabil în acest
domeniu stăpânește aceste două concepte și le include în deciziile sale
despre ce măsoară, cum măsoară, cu ce măsoară etc. Ele stau în ultimă
instanță la baza întregului proces de măsurare.
Vom utiliza în acest curs termenul de ”test” în sens larg, pentru a desemna
orice efort de măsurare: din acest punct de vedere un chestionar este un
”test”, un interviu sau o observație pot fi ”teste”, dacă ele măsoară o
realitate și oferă un scor numeric.
Fidelitatea măsurării
Definirea fidelității În orice măsurare a fidelității, referirea se face la consistența și
reproductibilitatea unei observații (cotă, scor, notă) sau set de observații
(distribuția scorurilor). Dacă, atunci când utilizăm același instrument de
măsură pentru a face determinări în timpi succesivi, de fiecare dată
ajungem la aceleași valori, spunem că am obținut o măsurare cu o fidelitate
mare.
Prin fidelitate se înțelege finețea cu care testul măsoară constructele sale

componente, respectiv gradul de exactitate și lipsa greșelilor de măsurare.
Fidelitatea indică utilizatorului gradul în care poate avea încredere în
rezultatele testului: dacă scoruri obținute în momente diferite de timp
despre aceeași realitate nu sunt relativ egale, atunci ele au eroare și nu ne
putem baza pe ele. Dacă, dimpotrivă, instrumentul este de atât de bună
calitate încât măsurători realizate la momente diferite de timp referitor la o
realitate sunt relativ identice, atunci eroarea e mică, fidelitatea e mare si ne
putem baza pe aceste scoruri (”we can rely on them”, de aici și termenul
englez de ”reliability” pentru fidelitate).
Fidelitatea este “gradul în care scorurile testului sunt consistente sau

repetabile, adică gradul în care ele nu sunt afectate de erorile de măsură
(APA Standards, 2014).
Fidelitatea în Așadar, fidelitatea vorbește despre exactitate, lipsă de eroare, repetabilitate

Teoria Clasică a în măsurare.
Testării
În teoria clasica a testării (Classical Test Theory, CTT), rezultatul unei
măsurări psihologice (adică scorul măsurat, numit scor observat, Observed
score) este definit drept sumă dintre scorul adevărat (True score) și eroare.
Relația se scrie in CTT precum mai jos.
Observed score = True score + Error
Evident, relația poate fi scrisă și invers, adică:

True score = Observed score + Error
Deci, cu cât eroarea este mai mică, cu atât scorul observat (măsurat în mod
efectiv) este mai corect, mai apropiat de “realitate” (de scorul “adevărat”).
În științele sociale și comportamentale problema fidelității se pune cu mult

mai mare stringență decât este cazul în științele fizice, pentru că gradul de
eroare asociat măsurării este semnificativ. De bună seamă că și în științele
fizice există eroare de măsurare, însă aceasta este relativ scăzută, fiind doar
o infimă fracțiune din variabilitatea posibilă a scorurilor. Fluctuația
scorurilor în științele sociale și comportamentale este, dimpotrivă, atât de
obișnuită și capătă o amploare atât de mare uneori încât înțelegerea ei și
includerea ei în decizii devine critică.
Proceduri pentru Pentru determinarea fidelității sunt posibile mai multe proceduri și se pot
determinarea folosi metode diferite de evaluare sau chiar de măsurare.
fidelității
Metodele considerate în genere metode de măsurare a fidelității sunt legate
de corelare empirică a două măsurări, realizate de obicei la două momente
diferite în timp - aceste metode aplică exact principiul repetabilității
enunțat în definiția fidelității și din acest motiv sunt considerate mai
puternice. Aceste metode sunt: metoda test-retest și metoda formelor
echivalente și se consideră că ele oferă acei indici de fidelitate care se
numesc ”indici de stabilitate”.
Metodele considerate în genere metode de estimare a fidelității sunt legate

de artificii statistice care analizează date provenind de la o singură
administrare a testului (măsurării) și oferă acei indici de fidelitate care se
numesc ”indici de consistență internă”. Aceste metode sunt metoda split-
half, indicele Cronbach’s alpha și o pleiadă de alți indici specializați care
provin din aceeași tradiție dar care se potrivesc unor tipuri de date și situații
deosebite (Guttman’s lambda, Kuder Richardson’s KR-20 și KR-21 etc.).
Metoda test-retest Metoda test-retest de măsurare a fidelității pune în aplicare principiul de

bază din definiția acesteia, anume administrarea aceluiași test de două ori,
la o oarecare distanță între administrări, corelând apoi rezultatele de la cele
două administrări. Evident, administrarea se face la un eșantion de
participanți, iar scorurile acestui eșantion la prima administrare sunt
corelate cu cele obținute la a doua administrare.
Distanța în timp este dependentă de tipicul testului (aptitudini generale,

aptitudini specifice, personalitate etc.), căci una din problemele acestei
metode este legată de faptul că uneori constructele psihologice măsurate se
modifică în timp. Bunăoară, dacă am încerca să utilizăm această metodă
pentru a măsura un set de cunoștințe la un interval de 6 luni, este oarecum
de la sine înțeles că aceste cunoștințe se modifică: dacă metoda stabilește
că ele s-au modificat atunci nu ar trebui să concluzionăm de fapt asupra
unei probleme a metodei de măsurare: scorurile nu sunt stabile căci
realitatea măsurată s-a modificat.
Așadar, pentru această metodă este critic să estimăm corect echilibrul între
dezideratul unui timp cât mai lung existent între cele două administrări ale
testului și dezideratul unui timp suficient de scurt încât să nu se fi modificat

constructul măsurat. Dacă cele două administrări sunt realizate imediat una
după alte e posibil să apară variabile confundate, precum memorarea
răspunsurilor date la prima administrare etc. - așadar e nevoie de un timp
rezonabil de lung între cele două momente în timp.
Metoda test-retest are problemele ei, de bună seamă. De exemplu, nu este

posibil să o realizăm pe eșantioane foarte mari: chiar dacă normarea unui
test poate fi realizată pe mii de participanți și chiar dacă multe studii cross-
secționale se realizează pe sute de participanți, este dificil să avem
eșantioane foarte mari pe care să administrăm nu o dată, ci de două ori un
test, astfel încât pentru toți participanții cele două administrări să se
realizeze aproximativ la aceeași distanță în timp și aproximativ în aceleași
condiții.
Din acest motiv, metoda se aplică pe baza unor eșantioane mici. În plus, de
obicei aceste eșantioane sunt necontrolate, nu sunt foarte bine echilibrate
pentru reprezentativitate - aceasta și din cauza faptului că este dificil de
controlat cine rămâne și cine pleacă din eșantion la a doua administrare a
testului și abandonul este o problemă serioasă.
Metoda test-retest raportează un indice de fidelitate test-retest, rtt, care este

coeficientul de corelație între seturile de date obținute în test și retest și
care se supune principiilor unui indice de corelație. Se raportează de
asemenea întotdeauna distanța de retest (de ex. 2 săptămâni, 5 zile etc.).
Metoda formelor Metoda formelor paralele sau, așa cum se mai numește, a formelor
echivalente echivalente, are aceleași principii precum metoda test-retest: se
administrează testul de două ori pe un eșantion de participanți și se
calculează coeficientul de corelație între cele două administrări.
Avantajul este că nu este necesar să se administreze testul la două momente

diferite în timp, căci testul nu este administrat în aceeași formă, ci în două
forme diferite, dar echivalente. De bună seamă, această metodă nu va
funcționa decât dacă există pentru respectivul test două forme diferite, dar
echivalente. Iar dezvoltarea de forme echivalente pentru un test este o
procedură suficient de laborioasă încât să existe de fapt foarte puține teste
în lume care să fi făcut acest pas. Formele nu trebuie să fie doar dezvoltate,
ci sunt necesare dovezi empirice privind această echivalență. Desigur,
avantajul este legat de faptul că administrarea ambelor forme se face pe
loc, una după alta, astfel încât procentul de abandon este mult mai mic
decât în cazul metodei test-retest sau este chiar inexistent.
Pentru această metodă se raportează rab, coeficientul de corelație între

seturile de date obținute cu Forma A și cu Forma B a testului.
Metoda split-half Metoda split-half este bazată pe un artificiu logic pe care vom încerca să îl
explicăm aici. Itemii unui test ”trag” toți în aceeași direcție, adică măsoară
același construct. De exemplu, dacă avem un chestionar care măsoară
extraversia, care conține 10 itemi, toți se vor referi la extraversie. Ei sunt
”consistenți”, coerenți, sunt instanțe diferite ale aceluiași construct.
Dacă însă îi vom împărți în 2 jumătăți, să zicem primii 5 și ultimii 5,

fiecare din aceste jumătăți reprezintă un test - desigur, vor fi două teste mai
scurte și mai puțin competitive, dar ambele aceste teste vor fi relaționate cu
constructul (”extraversie” în exemplul nostru) deci ar trebui să coreleze. De
fapt, este ca și cum am avea 2 forme echivalente. Da, este adevărat, nu
avem dovezi privind echivalența acestor două teste, însă ne așteptăm să
coreleze, iar gradul în care cele două forme corelează între ele ne dă de fapt
chiar un indicator al gradului în care itemii testului mare sunt coerenți,
adică testul este ”consistent” intern. Și metoda are și marele avantaj că nu
este necesară decât o singură administrare a testului...
Desigur, metoda are minusurile ei. Unul din aceste minusuri este referitor
la modul în care vom împărți itemii: de ce prima jumătate și ultima
jumătate? De ce nu parii vs. imparii? În mod cert în cazul testelor de
cunoștințe sa de aptitudini, par vs. impar ar fi o împărțire mai rațională,
căci este posibil ca unii participanți să nu ajungă niciodată la ultimii itemi
ai testului din cauza presiunii timpului. Și, la urma urmei, de ce nu itemii
1,3,4,8,9 vs. itemii 2,5,6,7,10? Orice împărțire ar trebui să funcționeze - și
de fapt funcționează - ceea ce înseamnă că avem în total un număr foarte
mare de posibili indici split-half și se pune, pe bună dreptate, problema
privind care este ”cel adevărat”. Nemaivorbind de faptul că e posibil să
avem în testul mare un număr impar de itemi, deci vom avea jumătăți de
test care sunt inegale în numărul de itemi (și nu, aceasta nu este o problemă
pentru corelație, deci metoda funcționează și în acest caz).
Metoda split-half nu încearcă să rezolve aceste dileme. Orice indice split-

half este acceptat ca măsură a fidelității, dar este necesar să se specifice în
mod explicit ce metodă s-a utilizat pentru împărțirea testului în subteste.
De obicei indicele de fidelitate split-half se raportează ca rxy, coeficientul
de corelație între cele două subteste, de obicei rpar-impar.
Indicele Alpha al Indicele Alpha, propus de Lee Cronbach și cunoscut din acest motiv drept
lui Cronbach indicele α-Cronbach, este o rezolvare elegantă a dilemei care grefează
metoda split-half: indicele Alpha (la fel ca și ceilalți indici echivalenți,
precum indicii KR 20 și KR 21 ai lui Kuder și Richardson, cei 6 coeficienți
Lambda ai lui Guttman, dintre care λ3 este complet identic cu Alpha-
Cronbach etc.) poate fi înțeles ca o medie a tuturor posibilelor split-half-uri
pentru un test.
De fapt, în calcularea indicelui Alpha Cronbach se raportează media

deviațiilor fiecărui item de la valoarea medie, la deviația scorului total
pentru test. Însă indicele Alpha ar trebui înțeles tot ca indice de corelație,
fiind așadar cuprins tot în intervalul [0.00, 1.00].
Praguri de Pentru ca concluziona cele discutate până la acest moment: fidelitatea se

fidelitate: .70 și .90 poate măsura sau estima, iar metodele de măsurare sunt mai puternice
decât cele de estimare. Indicele de fidelitate e cuprins între 0 și 1 - teoretic
el poate fi negativ, însă este o așteptare legitimă ca itemii unui test, chiar
dacă nu corelează mult, să coreleze totuși pozitiv.
O întrebare care o să apară este cea referitoare la interpretarea indicelui:

care sunt pragurile de la care în sus un indice poate fi considerat bun sau
mai degrabă slab? Aceste praguri au fost recomandate în urmă cu 50 de ani
Bernstein & Nunnally și reiterate de atunci (Nunnally & Bernstein, 1994,

pp. 264-265). Este recomandat conform acestor autori să operăm cu praguri
de .70 si de .90 pentru fidelitate, atunci când o aplicăm unor probleme de
măsurare. O fidelitate mai ridicată de .90 ne spune că testul poate fi utilizat
pentru decizii cu impact major. O fidelitate plasată în intervalul .70-.90 ne
arată că testul ar putea fi utilizat doar în decizii cu impact minor, dau ar
putea fi utilizat, coroborat și cu alte teste, din alte surse, pentru decizii mai
serioase. O fidelitate plasată sub nivelul de .70 ne indică faptul că testul nu
ar trebui utilizat. În fapt, în practică se utilizează măsurători care au
fidelități mai scăzute de .70, de ex. în zona lui .60 sau chiar .50, însă este
important de reținut că acestea trebuie privite cu reținere și utilizate doar în
coroborare cu alte măsurători.
Fidelitatea Mai este important de menționat în acest context că metode de evaluare

metodelor de diferite generează principial fidelități diferite în scorurile lor.
măsurare De obicei metodele cantitative au fidelități bune, iar metodele calitative
sunt caracterizate de fidelități mai puțin bune. De exemplu observația ca
metodă generează acorduri inter-evaluator (fidelități) de α = .05-.25, rareori
mai înalte (deși e posibil pentru observația comportamentală realizată pe
baza unor grile de observație robuste, așa cum vom discuta în alt curs).
Interviul ca metodă generează de obicei acorduri interevaluatori de α = .05-
.50, rareori mai înalte (deși și aici e posibil, în cadrul interviului
comportamental, așa cum vom discuta în alt curs). Testele și chestionarele
generează fidelități de α = .50-.90, adică foarte bune. Aceste este un motiv
suplimentar pentru care metodele cantitative sunt preferate celor calitative
în măsurarea robustă și pentru care metodele calitative sunt utilizate doar
împreună cu cele cantitative și nu ar trebui niciodată utilizate singure
pentru a lua decizii cu impact major.
Eroarea Standard Am transmis probabil convingător importanța fidelității și modalitatea în

de Măsurare și care ea poate fi măsurată. Însă trebuie să o spunem răspicat: dacă ne
Eroarea Standard întoarcem la ecuația tipică pentru Teoria Clasic a Testării, descrisă la
de Predicție începutul acestui curs, observăm că problema nu a fost rezolvată:
fidelitatea nu are un sens direct în măsurare! Întrebarea care ar trebui pusă
este aceasta: dacă ne întoarcem la ecuația conform căreia ”Observed score
= True score + Error”, cum este relaționată fidelitatea cu termenul de
eroare? De exemplu pot spune cât de mare este eroarea pentru o fidelitate
de .70? Această relaționare se face prin intermediul conceptului de “Eroare
Standard de Măsurare” (Standard Error of Measurement).
Eroarea de măsurare standard (SEM) se calculează potrivit formulei de mai

jos, unde SEM = eroarea de măsurare standard, SD = abaterea standard,
alpha = coeficientul de fidelitate: SEM este radical din unu-minus-
fidelitate, totul înmulțit cu abaterea standard a scorurilor pentru care facem
transformarea: SEM = SD √ (1-alpha)
Atunci când în locul fidelității de tip consistență internă se folosește

fidelitatea test-retest, indicele se numește SEP: Eroarea Standard de
Predicție (Standard Error of Prediction).
Exemplificare Vom da un exemplu: Scala staninelor are o medie de 5 și o abatere

pentru SEM standard de 1.96. Fidelitatea unui test este alpha = .70. SEM pentru acest
test, pentru scala staninelor, este de SEM = 1.96 √ (1-.70) = 1.07. Un alt
exemplu: Scala IQ are media de 100 si abaterea standard de 15. Fidelitatea

unui test este alpha = .95. Înlocuind în formulă, SEM = 3.35 puncte pentru
acest test, pe scala de IQ.
Eroarea Standard de măsurare ne spune care este eroarea asociată scorului

măsurat și mai ales ne spune cu ce probabilitate scorul adevărat al
persoanei cade într-un anume interval. Cu o probabilitate de 68% scorul
adevărat al persoanei cade în intervalul +- 1 SEM în jurul scorului observat
(măsurat). Cu o probabilitate de 90% scorul adevărat al persoanei cade în
intervalul +-2 SEM, iar cu o probabilitate de 9% el cade în intervalul +-3
SEM.
Ca să ilustrăm, continuând exemplul de mai sus pentru scala de IQ: dacă

măsurăm la un participant la testare un scor de 105, vom ști cu o
probabilitate de 68% că scorul adevărat al acestei persoane nu este mai mic
de 101.65 și nici mai mare de 108.35. Vom ști de asemenea cu o
probabilitate de 90% că scorul adevărat al acestei persoane nu este mai mic
de 98.3 și nici mai mare de 111.7. Și tot așa...
Aceste intervale de încredere pot fi înțelese și în alt fel. Haideți să ne

referim la intervalul de încredere de 90%: dacă eu aș măsura IQ-ul
persoanei de dinainte de 100 de ori consecutiv, 90 din aceste scoruri vor
pica în intervalul 98.3-111.7, iar 10% din scoruri vor pica în afara acestui
interval.
Exemplificare Imaginea mai jos exemplifică vizual aceste relații, pentru un interval de
vizuală 90% calculat pe un scor de IQ măsurat la 98, pentru un test cu fidelitatea de
.95 (verde), .70 (negru) și .50 (roșu).
Grafic SEM
Utilizarea în Eroarea de măsurare ilustrează mai clar de ce nu putem lucra în orice fel de
probleme de decizie cu orice fel de scală: la fidelități plasate sub .70, SEM crește foarte
comparație mult și scala nu mai poate fi utilizată pentru decizii majore, căci nu ne mai
putem încrede în intervalul în care variază probabil scorurile, iar la
fidelități de peste .90, SEM scade la un nivel la care putem spune că se
poate lucra coerent cu scala căci plaja pe care scorurile variază este foarte
redusă.
SEM ajută foarte mult de asemenea la probleme de comparație. De

exemplu, dacă vom compara scorul obținut de o persoană cu scorul obținut
de altă persoană, vom putea compara cele două scoruri cu adevărat doar
ținând cont de SEM.
De exemplu: dacă doi candidați pentru un post au unul un IQ măsurat de

102 și unul un IQ măsurat de 105, putem să afirmăm fără probleme că al
doilea candidat are IQ mai mare? Dacă vom compara direct numerele da -
dar ar fi o eroare. Asta pentru că de fapt acest scor observat variază în
intervalul SEM. Dacă am calculat SEM la 3 puncte, atunci cu o
probabilitate de 90% (2SEM=6) scorul primului candidat este cuprins între
96 și 108 puncte, iar scorul celui de-al doilea candidat între 99 și 111
puncte. Așadar, ”cozile” intervalelor de încredere pentru scorurile celor doi
candidați se acoperă, există o probabilitate ca de fapt ierarhia lor să fie
inversă decât cea observată la măsurare, iar primul dintre ei să aibă un IQ
de 108 și al doilea de 99 ...
Problema se pune la fel atunci când comparăm scorul observat al unei

persoane cu un prag anume - de exemplu dacă respingem toți candidații cu
un IQ plasat sub limita de 85, ar trebui să ne asigurăm că nu există nici o
șansă ca un candidat să aibă un IQ de 85 sau mai mare, ceea ce înseamnă
că scorul observat trebuie să fie mai mic de 85 chiar după ce i se adaugă
SEM (sau 2SEM sau 3SEM, în funcție de probabilitatea pe care dorim să o
asociem).
Concluzie Suntem convinși că acum este mai clară semnificația fidelității și a

intervalului de eroare asociat cu scorurile din cauza lipsei de fidelitate.
Probabil că este și mai clară insistența pentru teste bune, cu fidelitate mare:
erorile de decizie asociate cu fidelitatea mică sunt atât de mari încât un
specialist în măsurare psihologică și comportamentală le va evita cu
rigoare. În mod cert, se înțelege acum mai bine de ce spunem că fidelitatea
este o condiție a validității: un test nu poate fi valid dacă nu este fidel.
Validitatea
Validitatea: Validitatea este conceptul central pe care se bazează psihodiagnosticul, atât
Definiție în cazul aptitudinilor cât și al personalității. Ea ne permite formularea de
aserțiuni privind gradul de dezvoltare al unei caracteristici care ne
interesează sau emiterea de predicții în ceea ce privește comportamentul
viitor al persoanei evaluate.
Concepția actuală despre validitate spune că aceasta reprezintă un corpus

complex și integrat de demonstrații și cunoștințe științifice care examinează
variabilele psihologice măsurate de test (AERA, APA & NCME, 2014).
Aceste demonstrații ne parvin într-o varietate de forme, iar înțelegerea
validității unui test necesită examinarea lor atentă.
Surse ale Validitatea se definește în mod tradițional prin intermediul metodelor

validității utilizate în verificarea ei și discutăm în acest sens mai general de exemplu
despre validitate de criteriu, validitate de conținut etc. Totuși, concepția
modernă despre validitate a încetat să mai primească acestea ca forme sau
tipuri de validitate și le privește mai degrabă drept surse de validitate.
Validitatea de Validitatea de conținut (content validity) se preocupă cu gradul în care

conținut conținutul unui test (de exemplu problemele unui test de cunoștințe sau de
inteligență, enunțurile unui chestionar de personalitate, întrebările unui
interviu, comportamentele observate într-o observație) este aliniat cu
intenția testului. Ne așteptăm de exemplu ca în cazul unui chestionar de
extraversie, enunțurile să se refere la extraversie, să acopere așadar
conținutul corect iar când acest lucru se întâmplă spunem că acest
chestionar are validitate de conținut.
Acest verdict se poate referi mai în profunzime la validitatea de construct

(construct validity), adică la gradul în care itemii urmează o operaționalizare
”corectă” sau acceptată de comunitatea științifică pentru constructul
măsurat), la validitatea de aspect (face validity), adică la gradul în care
itemii testului par să se potrivească intenției sale, la validitatea de traducere
(translation validity), în cazul acelor teste care au fost dezvoltate în altă
limbă (de ex. engleză) și au fost apoi adaptate la limba în care sunt
administrate (de ex. română) și așa mai departe.
Validitatea de Validitatea de criteriu (criterion-related validity) se referă și ea la mai multe

criteriu aspecte posibile. Avem astfel validitate convergentă (convergent validity),
care arată măsura în care testul corelează cu alte operaționalizări ale
conceptului (sau măsuri ale acestuia), validitate concurentă (concurrent
validity) care arată gradul în care testul coincide cu alte modalități, raportate
la criteriu, de a lua decizia pe care testul o afirmă - de exemplu dacă testul
distinge între grupuri-criteriu între care ar trebui să distingă, validitate
predictivă (predictive validity), adică gradul în care testul prezice ce afirmă
că trebuie să prezică (caz în care criteriul este măsurat mai departe în timp
decât predictorul măsurat de test), validitate discriminantă sau divergentă
(discriminant/divergent validity), adică gradul în care operaționalizarea
diferențiază față de alte concepte similare acolo unde este cazul să
diferențieze (de exemplu gradul în care un test de depresie măsoară doar
depresie și nu și anxietatea, care are comorbiditate atât de mare, după cum
știm, cu depresia) etc.
Validitatea: câteva Așadar, în linii generale, validitatea exprimă gradul în care un test măsoară
clarificări și ceea ce își propune să măsoare. La această calitate se mai poate adăuga și o
exemple alta, anume dacă testul poate fi utilizat în luarea unor decizii corecte. Cu alte
cuvinte (exemplu), dacă noi cunoaștem performanțele unei persoane la un
test (predictor), cât de precis vom putea estima ce performanțe profesionale
va obține? Validitatea poate fi definită în termeni operaționali ca fiind
corelația dintre predictor și criteriu (de ex. performanțele profesionale ale
unui eșantion de indivizi). Rezultatul este cunoscut și sub numele de
”coeficient de validitate”, chiar dacă un astfel de coeficient nu este decât
rezultatul unui singur studiu, care tratează o singură sursă de validitate și nu
ar trebui confundat cu actuala semnificație a termenului de validitate, anume
aceea de corp integrat de cunoștințe și dovezi teoretice și empirice. Un test
poate avea mai mulți coeficienți de validitate, în funcție de numărul de
dimensiuni profesionale (calitatea muncii, disciplina, categoria profesională
etc.) care corelează cu el și de studiile realizate.
Validitatea trebuie Validitatea trebuie judecată atât general cât și situațional

judecată atât
general cât și Din punct de vedere general, privim validitatea principială a unui test: avem
situațional dovezi orice fel de dovezi, sau suficiente dovezi, privind faptul că testul
acesta este valid pentru domeniul pe care îl afirmă? Un test pentru care nu
există deloc sau nu există suficiente dovezi de validitate nu ar trebui utilizat.
Desigur, poate nu au fost culese date de validitate cu acel test exact în
situația care ne interesează, dar faptul ca există totuși unele date ne face să
avem mai multă încredere în acel test. De exemplu, dacă un test de
persuasiune a fost demonstrat o oarecare validitate în contextul unui studiu
experimental cu elevi care trebuiau să convingă clasa să acționeze într-un
anumit fel, poate fi el utilizat pentru a evalua agenți de vânzări? Cu

siguranță că nu avem dovezi de validitate despre validitatea acestui test în
contextul în care dorim să îl utilizăm, dar el nu este invalid - el este un test
valid de persuasiune într-un context și e mult mai departe din punct de
vedere științific decât un test despre care se afirmă că este construit pentru a
evalua persuasiunea la agenții de vânzări dar pentru care nu există nici o
dovadă de validitate.
Din punct de vedere situațional, întrebarea care se pune este dacă testul are
dovezi de validitate pe situații exact similare cu cea la care se dorește
utilizarea la un anumit moment. Această întrebare se alătură cu întrebarea
privind utilitatea testului (este el util în contextul dorit?). De exemplu, dacă
trebuie sa selectăm dintr-o clasă de copii pe cei care sunt susceptibili să facă
sport de performanță și avem la dispoziție un test care măsoară Extraversia,
Nevrotismul și Psihotismul (este evident la ce test facem referire), este acest
test valid? Testul (este vorba de EPQ, Eysenck Personality Questionnaire)
este desigur valid pentru a măsura cele 3 variabile amintite mai sus și avem
nenumărate dovezi de validitate privind acest lucru - însă în situația dată
testul nu va fi valid, căci nu poate prezice criteriul dorit.
Validitatea La fel cum fidelitatea diferă principial de la o metodă de măsurare la alta, și

metodelor validitatea diferă. În mod evident, validitatea se refera mai degrabă la
măsurători specifice (de ex. teste specifice) decât la metode. Mai specific
chiar, vorbim astăzi nu despre validitatea testelor, ci despre validitatea
scorurilor (adică a informațiilor obținute cu aceste teste). Totuși, cunoaștem
faptul că unele metode sunt mai valide decât sunt altele - adică sunt mai
susceptibile să ne ofere scoruri (informații) valide pentru a fi incluse în
decizii.
Așadar, dacă vom întreba cum se poate evalua validitatea unei metode,
răspunsul este simplu: evident, prin prisma potențialului său de a genera
informație validă. Astfel, de principiu, metodele sunt diferite din acest punct
de vedere: interviul tradițional (nestructurat sau semistructurat) nu atinge de
regulă o validitate mai mare de r = .05-.19; referințele obținute de la locul
de muncă anterior ating o validitate de aproximativ r = .23; datele biografice
ating o validitate de aproximativ r = .38; chestionarele de personalitate ating
o validitate de aproximativ r = .39; testele de integritate ating o validitate de
aproximativ r = .51; testele de aptitudini ating o validitate de aproximativ r
= .53; testele de performanta directa (work sample) ating o validitate de
aproximativ r = .54; interviul comportamental atinge o validitate de
aproximativ r = .40-.60; centrul de evaluare (assessment center) poate
atinge, pentru predicția potențialului de dezvoltare, o validitate de
aproximativ r = .65 etc.
Schemă sumativă Imaginea de mai jos, preluată după Robertson & Smith (2001, p. 443)
privind validitatea ilustrează aceste validități. În partea stângă a graficului sunt prezentate
metodelor validitățile pentru criteriul ”performanță în training”, iar în partea dreaptă
validitățile pentru criteriul ”performanță în muncă”.
Imagine, cf.
Robertson & Smith
(2001)
Validitatea ca O altă importantă întrebare care se pune în acest context este referitoare la
funcție a întinderii gradul în care validitatea unui test (a unei măsurări) depinde de lungimea sa.
testului Întrebarea este importantă, pentru că în mod special în context
organizațional sunt preferate testele - sau măsurătorile - cât mai scurte.
Lipsa de timp și uneori lipsă de resurse (de exemplu lipsa de buget) ne poate
împinge deseori spre utilizarea unor metode scurte, pe care le asumăm ca
fiind mai puțin bune, dar nu realizăm deseori cât de mult mai slabe sunt.
Numărul de itemi (adică numărul de instanțe comportamentale care sunt
eșantionate) determină validitatea, nu doar fidelitatea testului; de aceea un
test mai lung (sau un interviu mai lung) este mai valid (presupunând că este
bine construit) decât unul mai scurt. Ținând orice altă variabilă constantă,
testele mai lungi sunt mai valide.
Pentru a da un exemplu dintr-o cercetare personală realizată cu General

Adult Mental Ability (GAMA), un test de abilități cognitive (N = 270,
criteriul a fost performanța academică la școlari din anul terminal al
liceului): validitatea crește dacă testul este administrat pentru perioada
întreagă (25 de minute) și scade dacă este administrat pentru perioade mai
scurte. Corelațiile scorurilor testului cu criteriul sunt indicate mai jos:
- 1 minut: r = .21
- 2 minute: r = .30
- 3 minute: r = .36
- 5 minute: r = .39
- 10 minute: r = .41
- 15 minute: r = .45
- 20 minute: r = .48
- 25 minute: r = .51
Validitatea incrementală
Două probleme Există două probleme mai speciale care țin de validitate și pe care dorim să
speciale: le discutăm în încheierea acestui capitol: anume validitatea incrementală și
validitatea validitatea diferențială (impactul advers). Ambele sunt importante în
incrementală și evaluare în general, dar sunt în mod special importante în domeniul
validitatea organizațional.
diferențială
Ce este validitatea Validitatea incrementală se referă nu la capacitatea unui predictor de a
incrementală prezice bine un criteriu (de a fi valid pentru acesta), ci la capacitatea unui
predictor suplimentar de a fi valid după un alt predictor, pentru predicția
unui criteriu. În mod special validitatea incrementală se referă la
suplimentul de validitate adus de al doilea predictor.
Un exemplu De exemplu, știm că diverse caracteristici de personalitate pot să prezică

performanța în anumite sarcini. De exemplu, atât emoțiile calde (o fațetă a
extraversiei) cât și altruismul (o fațetă a agreabilității) prezic interacțiunea
cu un client, într-o sarcină de ajutorare. Ambele aceste variabile sunt
predictori buni. Însă emoțiile calde (”warmth”) nu aduce nici un aport în
predicție, în plus față de altruism.
Utilitatea evaluării Înțelegem astfel că validitatea incrementală aduce în discuție aspecte legate
de utilitatea evaluării: este util de exemplu să administrăm ambele aceste
scale de personalitate? Evident, administrarea uneia din ele este o pierdere
de timp și de resurse și, deși este un predictor eficient de una singură, în
ansamblul de metode (mixul de metode) nu reușește să aducă un aport
relevant la predicție.
Un exemplu O să încercăm să exemplificăm motivul pentru care apare acest fenomen. În

genere discutăm legătura dintre un predictor și un criteriu sub forma
ecuației de mai jos: avem o relație cauzală (săgeată) și un indice de
corelație pe această săgeată. În exemplul de mai jos acest indice este de
r=.80. Puterea de predicție a predictorului pentru criteriu este întotdeauna
egală cu pătratul corelației, care se mai numește și indice de determinare: r2.
În cazul nostru r2=.64, adică 64 de sutimi, sau 64% din varianța celor două
variabile este comună. Sau, cu alte cuvinte, dacă vom încerca să prezicem
scorurile la criteriu pe baza scorurilor la predictor pentru un număr de 100
de angajați, vom nimeri la fix în cazul a 64 din ei.
În paranteză fie spus, astfel de indici de validitate nu se obțin niciodată în

viața reală, dar îi utilizăm aici pentru a exemplifica situația - și a arăta
nonsensul la care se poate ajunge dacă nu înțelegem principiile din spatele
validității incrementale.
Relația simplă
predictor-criteriu
Predictori Dar un criteriu este rareori sau niciodată prezis de un singur predictor: de
suplimentari obicei concură mai mulți predictori la această relație. Imaginea de mai jos
ilustrează o relația în care predictorul nostru anterior exemplificat este
însoțit de alți doi predictori, mai slabi, dar totuși relevanți. Pentru
exemplificare, am stabilit corelațiile dintre aceștia și criteriu la .60 și .40,

adică r2=.36 și r2=.16.
Relația dintre
predictori multipli
și criteriu
Predicția comună Predicția comună a acestor 3 predictori este teoretic suma predicțiilor lor,
nu e sumativă ceea ce ar însemna 64% + 36% + 16% = 116% - și evident acesta este un
nonsens. De ce? Pentru că aceste predicții nu sunt sumative - și nu sunt
sumative pentru că există corelații și între acești predictori, ei sunt și ei
corelați între ei. Imaginea de mai jos exemplifică situația.
Exemplificarea
intercorelațiilor
dintre predictori
Un alt mod de a Situația poate fi ilustrată și în alt mod - așa cum se vede în figura de mai
ilustra exemplul jos. Am notat predictorul cu VI (variabilă independentă) și criteriul cu VD
(variabilă dependentă) și dacă am ilustra teritoriul varianței celor două
variabile, suprafața teritoriului lor comun de varianță, r2, ar fi de în cazul
primului nostru exemplu de 64% din suprafața totală acoperită de cele
două.
Varianță comună
dintre predictor și
criteriu
Varianța comună În cazul unor predictori multipli, după cum se vede în schema de mai jos, al
în cazul mai multor doilea predictor nu poate aduce întreaga sa varianță comună cu criteriul în
variabile predicția acestuia, pentru că o parte din aceasta a fost deja adusă de primul
intercorelate predictor. Validitatea incrementală a celui de-al doilea predictor,
suplimentar față de primul, în predicția criteriului, este doar o fracțiune din
validitatea pe care acest al doilea predictor ar avea-o dacă ar fi de sine

stătător.
Exemplificarea
varianței comune
în cazul mai multor
variabile
intercorelate
Semnificația Semnificația validității incrementale este mare: ea ne ajută să facem

validității raționamente de utilizate dincolo de bunul simț și ne indică ce variabile se
incrementale completează reciproc, sau ce metode se completează reciproc etc.
Cadrele multiple Principiile cadrelor multiple de evaluare (cei 5 ”multi”) se bazează pe

de evaluare validitatea incrementală: de exemplu tratamentul multi-trăsătură întreabă
cum crește validitatea sistemului, dacă în loc de o trăsătură aducem în
predicție și o a doua, a treia etc. trăsătură. Dar la fel ne putem întreba cum
crește validitatea sistemului (care este validitatea incrementală) atunci când
utilizăm al doilea evaluator peste primul (multi-evaluator), sau a doua
metodă, de ex. interviul, peste prima metodă, de ex. un test (multi-metodă)
etc.
Numărul În mod cert, nu toate variabilele sunt la fel de puternice ca predictori.

predictorilor Dincolo de diferențele de validitate de criteriu, de la al treilea, al patrulea
sau al cincilea predictor încolo incrementul scade atât de mult încât nu mai
este semnificativ statistic. Acesta este motivul pentru care nu este indicat să
evaluăm mai mult de 3-4, cel mult 5 variabile. Rareori sau chiar niciodată o
a șasea variabilă poate să mai aducă un increment - evident, dacă primele 5
au fost cu adevărat alese corect.
Ordinea Ordinea predictorilor este de obicei una descrescătoare în ordinea validității

predictorilor de criteriu al fiecăruia. Există și abateri de la această regulă, e de exemplu
posibil să avem ca prim predictor nu pe cel mai valid ci pe cel mai ieftin de
evaluat și este posibil să îl avem ca al doilea predictor nu pe al doilea ca
validitate de criteriu, ci pe primul ca validitate incrementală. Dar de regulă
se respectă ordinea descrescătoare a validităților simple de criteriu.
Inteligența ca cel Într-un astfel de context, cel mai bun predictor al performanței profesionale
mai bun predictor este inteligența - aptitudinile mentale generale. Vom discuta acest lucru pe
larg în cursul dedicat testării aptitudinilor și inteligenței.
Mixabilitatea Validitatea incrementală ne dă însă indicii și privind ”mixabilitatea”

predictorilor predictorilor: ce ”merge” bine cu ce altceva. De exemplu, după testarea
inteligenței, orice alt predictor cognitiv (memorie, atenție etc.) va avea o
validitate incrementală foarte scăzută sau chiar nulă, iar un mix bun va fi
atins dacă sunt incluși predictori non-cognitiv, de exemplu trăsături de
personalitate. De aceea o decizie bună, care duce la validitate mare a
sistemului, este combinarea testelor de inteligență cu cele de personalitate.
”Mixuri” bune mai sunt legate de includerea motivației peste inteligență,

sau a integrității peste inteligență.
Validitatea diferențială
Sinonime ale Validitatea diferențială (differential validity) este un fenomen interesant
fenomenului din punct de vedere statistic, dar care pune specialistul în evaluare în
dificultate din punct de vedere etic și legal. Sinonime pentru acest fenomen
sunt predicția diferențială (differential prediction), sau impactul advers
(adverse impact); atunci când nu este o problemă a constructului ci a
instrumentului de evaluare, de exemplu a testului, se mai numește și
distorsiune generată de test (test bias).
Problemă legală și Problema pe care o pune validitatea diferențială este una legala si etică: în
etică: discriminare ce măsură putem utiliza pentru a fundamenta decizii de personal, un
construct (variabilă) sau un instrument de măsurare (de ex. test sau
interviu) la care anumite categorii de participanți obțin in mod sistematic
scoruri mai mici decât altele? Nu este aceasta o discriminare împotriva
celor care obțin scoruri mai mici?
Diferențele de medii Un exemplu: Este posibil ca analiza muncii să ne releve că un predictor

între grupuri sunt bun pentru un anumit rol este nevrotismul (trăsătură de personalitate care
discriminare? descrie instabilitatea emoțională), sau mai degrabă inversul său, stabilitatea
emoțională - persoanele mai stabile emoțional par să fie mai adaptate
pentru rolul respectiv. Dar noi știm că acest construct este caracterizat de
diferențe de gen accentuate. Din toate trăsăturile largi de personalitate,
nevrotismul dovedește cele mai accentuate diferențe de gen, femeile
scorând semnificativ statistic (și cu o putere a efectului mare) mai sus
decât bărbații pe această variabilă. Dacă vom utiliza o scală care măsoară
nevrotismul pentru a fundamenta decizii, știm de aceea că femeile vor avea
șanse principial mai mici să intre în setul de candidați admiși. Statistic
vorbind, dacă vom eșantiona aleator 100 de persoane din populație și vom
extrage pentru selecție cele 10 persoane care au cele mai mici scoruri la
nevrotism (cele mai mari scoruri la stabilitate emoțională), atunci vom
avea un număr mai mare de bărbați decât de femei în acest grup. Este
aceasta discriminare?
Utilizarea normelor O posibilitate pentru a evita această dilemă ar fi utilizarea unor norme
diferite ca posibilă diferite pentru bărbați și pentru femei: dacă utilizăm norme dependente de
soluție gen, atunci șansa de a atinge un anumit scor standardizat este egală pentru
bărbați și pentru femei - însă este important de reținut că asta nu face ca o
femeie și un bărbat cu scoruri standard egale să aibă și comportamente
egale.
De fapt utilizarea De fapt, aceasta ar fi o discriminare. Să presupunem că realizăm selecția

normelor diferite ar pentru Poliția Română și suntem responsabili de proba de condiție fizică.
fi o discriminare Știm că în general la alergarea de rezistență, 1000 de metri, bărbații scot
timpi mai mici (mai buni) decât femeile. Avem așadar o diferență de gen.
Să zicem că vom norma însă performanța brută a tuturor candidaților în
funcție de timpii medii scoși de fiecare gen. Să zicem că avem un candidat
bărbat care a alergat 1000 de metri în 3:30 minute. Printre bărbați, se
plasează la centila 50, deci este un timp mediu (comparat cu alți bărbați,
nu a alergat foarte rapid). Să zicem că avem și un candidat femeie, care a
alergat 1000 de metri în 3:50 minute. Printre femei, ea se plasează la
centila 75 (comparată cu alte femei, a alergat foarte repede). Dacă vom

angaja femeia, care are un scor standardizat mai mare, de fapt vom
discrimina împotrivă bărbatului. Asta pentru că, la urma urmei, activitatea
pentru care această probă este un predictor este, de exemplu, prinderea
unui hoț care aleargă de polițist - și indubitabil bărbatul candidat, care
aleargă mai repede decât femeia candidat (3:30 față de 3:50 minute) este
într-o poziție mai bună să aibă performanță la această sarcină.
Dependența de Așadar, regula pe care o vom utiliza în astfel de decizii este aceea că
sarcină ca indicator niciodată o diferență pe bază de gen, de vârstă, de etnie etc. nu este o
problemă etică și nu denotă discriminare dacă este legată cu o sarcină
specifică de muncă (job-dependent). La urma urmei, dacă vom face
selecție pentru a angaja hamali în port, avem nevoie ca angajații să poată
ridica și căra 100kg - nu ne pasă dacă sunt bărbați sau femei, dar e o șansa
mică să avem multe femei care corespund acestei descrieri. Este aceasta
discriminare? Nu, cu siguranță că nu.
Validitatea unui Problema începe însă să fie spinoasă atunci când nu scorurile unui
predictor și panta predictor, ci validitatea unui predictor diferă în funcție de o variabilă - de
de regresie ex. în funcție de gen. Cu alte cuvinte, dacă avem un eșantion compus din
bărbați și femei, și testăm variabila X, să spunem că vom constata o
corelație între X și criteriul nostru de r = .60, ceea ce denotă o predicție
corectă în 36% din cazuri. Într-o analiză de regresie, graficul va denota o
anumită pantă în dreapta de regresie.
Diferența de Dar dacă am realiza analiza separat pentru bărbați și pentru femei, și am
validitate și pantele observa că pentru cele două grupuri corelațiile celor două variabile sunt
diferite de regresie diferite, am avea o problemă. Să zicem de exemplu că pentru bărbați avem
o corelație de r = .70 și pentru femei de r = .50, ceea ce înseamnă că pentru
bărbați prezicem corect în 49% din cazuri, iar pentru femei în 25% din
cazuri. Prezicem aproape dublu de bine pentru bărbați decât pentru femei,
și dacă nu avem înțelegerea fenomenului nu știm despre asta. Vom spune
că ecuația noastră inițială supra-prezice pentru femei (overprediction) și
sub-prezice (underprediction) pentru bărbați.
Moderarea ca efect Din punct de vedere statistic dacă vom desena dreptele de regresie pentru
statistic cele două grupuri vom vedea că dreptele au pante de regresie diferite.
Acest fenomen se detectează foarte ușor prin regresie ierarhică, iar
fenomenul mai este cunoscut și sub numele de ”moderare”. Cu alte
cuvinte, moderarea relației de predicție de o variabilă demografică denotă
predicție diferențială pe baza acelei variabile. De ce este aceasta o
problemă? Evident, decizia va fi mai corectă pentru unele persoane și mai
greșită pentru altele: variabila noastră (sau testul nostru) va avea un impact
advers asupra deciziei.
Un exemplu Mai jos se găsește o vizualizare a problemei, urmând exemplificarea lui

Wurtz (2009) (http://www.cba.uni.edu/wurtz/).
Vizualizarea dreptei
de regresie pentru
grupul comun
de regresie pentru
grupul majoritar
de regresie pentru
grupul minoritar
Conștientizarea Validitatea diferențială (impactul advers) este o problemă serioasă, care

problemei trebuie tratată cu deferență de specialistul în evaluare. În multe state este o
problemă descrisă explicit din punct de vedere legale. În România este una
din acele multe probleme care sunt ignorate și sunt puțini ”specialiști” în
domeniul evaluării din organizații care sunt conștienți de existența ei.
Atragem atenția asupra faptului că există foarte multe variabile clasice, des
utilizate în decizii importante, care au de fapt impact advers. Faptul că în
România majoritatea psihologilor și specialiștilor în evaluare nu sunt
conștienți de acest lucru nu este motiv pentru ca noi să nu fim: standardele
nu ni le stabilește nivelul actual de practică, ci propriile repere profesionale
și etice.
Categorii protejate Categoriile demografice pentru care este în mod special important să
evaluăm în ce măsură o variabilă sau un test au într-o anumită situație
predicție diferențială sunt 3: gen, vârstă și etnie. Aceste categorii sunt
considerate în multe state categorii protejate. Ar trebui să demonstrăm de
aceea că nu există diferențe în predicție pentru variabilele utilizate în
funcție de gen (femei vs. bărbați), de vârstă (sub vs. peste 40 de ani, unde
categoria protejată sunt cei de peste 40 de ani) și de etnie (unde categoria
protejată sunt minoritățile etnice și culturale). Însă și alte criterii care țin de
apartenența la grupuri diverse pot fi moderatori și nu ar trebui ignorate.

CONCEPTE-CHEIE:
- psihometrie
- caracteristică psihometrică
- fidelitate
- test-retest
- forme paralele (echivalente)
- split-half (înjumătățire)
- consistență internă
- acord interevaluator
- acord inter-sursă
- eroare standard de măsurare
- validitate
- validitate de conținut
- validitate de construct
- validitate de aspect
- validitate predictivă
- validitate incrementală
- validitate diferențială
- impact advers
- test bias

ÎNTREBARI DE VERIFICARE:
Termenul englez de "reliability" se traduce

(a) fidelitate
(b) validitate
(c) reliabilitate
Este important sa utilizam ca baza a deciziilor de resurse umane, în mod

special a deciziilor cu impact major, doar chestionare validate, pentru ca
(a) altfel suntem în ilegalitate
(b) altfel nu putem garanta ca deciziile se iau pe baza unor informații
reale
(c) altfel vom avea costuri sporite cu aspecte care țin de comunicarea
rezultatelor către persoanele care trebuie sa implementeze
schimbările organizaționale
O fidelitate de 1.25, obținuta de un chestionar de motivație, este

(a) posibil de atins si chiar apare destul de des
(b) posibil de atins, dar foarte rar
(c) imposibil de atins
Validitatea de criteriu a unui chestionar

(a) ne spune daca acel chestionar se relaționează la o teorie consacrata
a respectivului concept
(b) ne spune daca acel chestionar se relaționează cu comportamentele
sau efectele cu care pretinde ca se relaționează
(c) ne spune daca acel chestionar este sau nu lipsit de eroare de
măsurare
O scala de conștiinciozitate este valida

(a) atunci când corelează puternic cu diverse scale de aptitudini
cognitive
(b) daca a fost alcătuită cu grijă, de un autor cunoscut, recunoscut ca
somitate în măsurarea acestui concept
(c) daca persoanele cu scoruri mari sunt descrise prin repere obiective,
exterioare scalei, ca fiind mai meticuloase si mai responsabile
decât cele cu scoruri mici

TEME PENTRU APLICAȚII:
- Discutați de ce fidelitatea este o precondiție a validității. De ce nu este

posibil să avem validitate fără fidelitate?
- Discutați de ce nu mai vorbim astăzi despre forme de validitate, ci

despre surse de validitate.
- Discutați problemele etice și legale care pot să apară din lipsa de

conștientizare a existenței unei predicții diferențiale într-una din
variabilele utilizate în decizie. În ce fel acest fenomen poate să
genereze lipsă de corectitudine față de unii candidați?

BIBLIOGRAFIE:
[Fidelitate]
American Educational Research Association (AERA), American

Psychological Association (APA), & National Council on
Measurement in Education (NCME). (2014). Standards for
educational and psychological testing. Washington, D.C.: AERA.
(Reliability, pp. 33-47).
Anastasi, A., & Urbina, S. (1997). Reliability. In A. Anastasi, & S. Urbina

(Eds.), Psychological Testing (pp. 84-112). New Delhi: Pearson
Education.
Kerlinger, F. N., & Lee, H. B. (2000). Reliability. In F. N. Kerlinger, &

H. B. Lee (Eds.), Foundations of Behavioral Research (pp. 641-
664). Belmont, Calif.: Wadsworth.
[Validitate]
American Educational Research Association (AERA), American

Psychological Association (APA), & National Council on
Measurement in Education (NCME). (2014). Standards for
educational and psychological testing. Washington, D.C.: AERA.
(Validity, pp. 11-31).
Anastasi, A., & Urbina, S. (1997). Validity. In A. Anastasi, & S. Urbina

(Eds.), Psychological Testing (pp. 113-171). New Delhi: Pearson
Education.
Hunter, J. E., Schmidt, F. L., & Judiesch, M. K. (1990). Individual

Differences in Output Variability as a Function of Job Complexity.
Journal of Applied Psychology, 75, 28-42.
Kerlinger, F. N., & Lee, H. B. (2000). Validity. In F. N. Kerlinger, & H.

B. Lee (Eds.), Foundations of Behavioral Research (pp. 665-688).
Belmont, Calif.: Wadsworth.
Robertson, I. T., & Smith, M. (2001). Personnel Selection. Journal of

Occupational and Organizational Psychology, 74, 441-472.
[Validitate incrementală]
Hunter, J. E., & Hunter, R. F. (1984). Validity and Utility of Alternative

Predictors of Job Performance. Psychological Bulletin, 96, 72-98.
Lievens, F., & Patterson, F. (2011). The Validity and Incremental Validity
of Knowledge Tests, Low-Fidelity Simulations, and High-Fidelity
Simulations for Predicting Job Performance in Advanced-Level
High-Stakes Selection. Journal of Applied Psychology, 96, 927-
940.
Ree, M. J., & Carretta, T. R. (2011). The Observation of Incremental

Validity Does Not Always Mean Unique Contribution to
Prediction. International Journal of Selection and Assessment, 19,
276-279.
Schmidt, F. L., & Hunter, J. E. (1998). The Validity and Utility of

Selection Methods in Personnel Psychology: Practical and
Theoretical Implications of 85 Years of Research Findings.
Psychological Bulletin, 124, 262-274.
[Validitate diferențială]
Brogden, H. E. (1946). An Approach to the Problem of Differential

Prediction. Psychometrika, 11, 139-154.
Hunter, J. E., & Hunter, R. F. (1984). Validity and Utility of Alternative

Predictors of Job Performance. Psychological Bulletin, 96, 72-98.
Ployhart, R. E., & Holtz, B. C. (2008). The Diversity-Validity Dilemma:

Strategies for Reducing Racioethnic and Sex Subgroup Differences
and Adverse Impact in Selection. Personnel Psychology, 61, 153-
172.

Curs TalentMng - Modul 05

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs TalentMng - Modul 05

Încărcat de

Drepturi de autor:

Formate disponibile

Note de curs.

Managementul talentului: Evaluarea diferențelor individuale în resurse umane

Principii ale măsurării în științele comportamentale: fidelitate și validitate

- Înțelegerea sensului caracteristicilor psihometrice

Cuprinsul acestui capitol

Prin fidelitate se înțelege finețea cu care testul măsoară constructele sale

Fidelitatea este “gradul în care scorurile testului sunt consistente sau

Fidelitatea în Așadar, fidelitatea vorbește despre exactitate, lipsă de eroare, repetabilitate

Observed score = True score + Error

Evident, relația poate fi scrisă și invers, adică:

True score = Observed score + Error

În științele sociale și comportamentale problema fidelității se pune cu mult

Metodele considerate în genere metode de estimare a fidelității sunt legate

Metoda test-retest Metoda test-retest de măsurare a fidelității pune în aplicare principiul de

Distanța în timp este dependentă de tipicul testului (aptitudini generale,

testului și dezideratul unui timp suficient de scurt încât să nu se fi modificat

Metoda test-retest are problemele ei, de bună seamă. De exemplu, nu este

Metoda test-retest raportează un indice de fidelitate test-retest, rtt, care este

Avantajul este că nu este necesar să se administreze testul la două momente

Pentru această metodă se raportează rab, coeficientul de corelație între

Dacă însă îi vom împărți în 2 jumătăți, să zicem primii 5 și ultimii 5,

Metoda split-half nu încearcă să rezolve aceste dileme. Orice indice split-

De fapt, în calcularea indicelui Alpha Cronbach se raportează media

Praguri de Pentru ca concluziona cele discutate până la acest moment: fidelitatea se

O întrebare care o să apară este cea referitoare la interpretarea indicelui:

Bernstein & Nunnally și reiterate de atunci (Nunnally & Bernstein, 1994,

Fidelitatea Mai este important de menționat în acest context că metode de evaluare

Eroarea Standard Am transmis probabil convingător importanța fidelității și modalitatea în

Eroarea de măsurare standard (SEM) se calculează potrivit formulei de mai

Atunci când în locul fidelității de tip consistență internă se folosește

Exemplificare Vom da un exemplu: Scala staninelor are o medie de 5 și o abatere

exemplu: Scala IQ are media de 100 si abaterea standard de 15. Fidelitatea

Eroarea Standard de măsurare ne spune care este eroarea asociată scorului

Ca să ilustrăm, continuând exemplul de mai sus pentru scala de IQ: dacă

Aceste intervale de încredere pot fi înțelese și în alt fel. Haideți să ne

SEM ajută foarte mult de asemenea la probleme de comparație. De

De exemplu: dacă doi candidați pentru un post au unul un IQ măsurat de

Problema se pune la fel atunci când comparăm scorul observat al unei

Concluzie Suntem convinși că acum este mai clară semnificația fidelității și a

Concepția actuală despre validitate spune că aceasta reprezintă un corpus

Surse ale Validitatea se definește în mod tradițional prin intermediul metodelor

Validitatea de Validitatea de conținut (content validity) se preocupă cu gradul în care

Acest verdict se poate referi mai în profunzime la validitatea de construct

Validitatea de Validitatea de criteriu (criterion-related validity) se referă și ea la mai multe

Validitatea trebuie Validitatea trebuie judecată atât general cât și situațional

anumit fel, poate fi el utilizat pentru a evalua agenți de vânzări? Cu

Validitatea La fel cum fidelitatea diferă principial de la o metodă de măsurare la alta, și

Pentru a da un exemplu dintr-o cercetare personală realizată cu General

Un exemplu De exemplu, știm că diverse caracteristici de personalitate pot să prezică

Un exemplu O să încercăm să exemplificăm motivul pentru care apare acest fenomen. În

În paranteză fie spus, astfel de indici de validitate nu se obțin niciodată în

exemplificare, am stabilit corelațiile dintre aceștia și criteriu la .60 și .40,

validitatea pe care acest al doilea predictor ar avea-o dacă ar fi de sine

Semnificația Semnificația validității incrementale este mare: ea ne ajută să facem

Cadrele multiple Principiile cadrelor multiple de evaluare (cei 5 ”multi”) se bazează pe

Numărul În mod cert, nu toate variabilele sunt la fel de puternice ca predictori.

Ordinea Ordinea predictorilor este de obicei una descrescătoare în ordinea validității

Mixabilitatea Validitatea incrementală ne dă însă indicii și privind ”mixabilitatea”

”Mixuri” bune mai sunt legate de includerea motivației peste inteligență,

Diferențele de medii Un exemplu: Este posibil ca analiza muncii să ne releve că un predictor

De fapt utilizarea De fapt, aceasta ar fi o discriminare. Să presupunem că realizăm selecția

centila 75 (comparată cu alte femei, a alergat foarte repede). Dacă vom

Un exemplu Mai jos se găsește o vizualizare a problemei, urmând exemplificarea lui

Conștientizarea Validitatea diferențială (impactul advers) este o problemă serioasă, care