Sunteți pe pagina 1din 20

Capitolul 5

CONSTRUCŢIA TESTELOR PSIHOLOGICE

Introducere
Construcţia testelor psihologice este un demers care a dus la crearea unei
adevărate ştiinţe. Aşa cum s-a putut observa în capitolele anterioare, în care au fost
prezentate secvenţe metodologice specifice elaborării de teste sau chestionare
psihologice, procesul de construcţie a unui test presupune numeroase experimentări şi
abordări metodologice destul de complexe. Putem chiar afirma că a construi un test de pe
poziţii ştiinţifice nu reprezintă un demers întâmplător sau o speculaţie de fotoliu, ci el
constituie rezultatul unui demers bine gândit de aplicare a principiilor impuse de procesul
construirii testului. Acest capitol va fi dedicat punctării elementelor de bază ale
metodologiei de construire a testelor psihologice. Desigur, noi ne vom referi
preponderent la testele standardizate, care au intrat în patrimoniul psihodiagnozei
individuale sau organizaţionale. Bineînţeles, referiri vor fi făcute şi la aşa-zisele teste care
aparţin unor elaborări bazate pe simţul comun şi care fac obiectul unor intervenţii
ocazionale, cum ar fi testele de cunoştinţe construite de profesori pentru verificarea
periodică a elevilor, sau cele care se administrează după parcurgerea unui curs de
instruire iniţiat de o firmă de consultanţă, ori testele construite cu ocazia unui studiu de
cercetare etc. Acestora li se mai spune şi teste empirice.
Demersul procesual de proiectare a unui test presupune parcurgerea a cinci etape
(Albu, 2000; Cohen, Montague, Nathanson, Swerdlik, 1988; Murphy & Davidshofer,
1991):
 conceptualizarea testului
 construirea testului
 aplicarea iniţială a testului
 analiza itemilor
 revizuirea testului
Pe scurt, prima etapă a proiectării testului debutează cu definirea conceptului care
se doreşte a fi măsurat (conceptualizarea testului) Urmează apoi procesul de culegere şi
sau construire a itemilor care intră (potenţial) în structura de conţinut al testului şi despre
care se crede că ar defini cel mai bine conceptul studiat (construirea testului). După
construirea bazei de itemi se structurează o primă formă ipotetică a testului care va fi
administrată unui lot de subiecţi (studiu pilot). Datelor rezultate în urma studiului pilot
vor fi analizate realizîndu-se un studiu preliminar de analiză a fiecărui item şi unul
global. Procedura statistică utilizată este cunoscută sub denumirea de "analiză de itemi”,
ea furnizându-ne informaţii asupra calităţii itemilor testului. În urma acestui demers, unii
itemi vor fi revizuiţi, alţii respinşi şi alţii menţinuţi în test/chestionar. Desigur, procesul
de analiză de itemi poate include la fel de bine şi studiul consistenţei interne a probei,
validitatea şi capacitatea lor discriminativă, nivelul de dificultate al itemilor etc. Pe baza
analizei de itemi testul va fi restructurat şi administrat unui lot reprezentativ de subiecţi.
Procedura de revizuire va fi repetată periodic din diferite raţiuni legate mai mult de
perimarea în timp a versiunii iniţiale a probei. (Amintim în acest sens că timpul a fost
acela care a erodat prima versiune a testului Binet-Simon, progresul socio-economic

1
impunând restandardizarea periodică a acestuia.) Figura 5.1 ne prezintă o schemă
generală de derulare a etapelor de construire a unei probe psihologice.

Definirea testului sau


conceptualizarea testului

Scrierea itemilor de test şi


alcătuirea băncii de itemi

Construirea variantei
iniţiale a testului

Experimentarea iniţială a
testului. Studiu pilot

Analiza de itemi

Revizuirea testului şi
redactarea formei finale

Studii de validare.
Elaborarea normelor

Redactarea manualului
testului

Figura 5.1. Demersul de proiectare a unui test psihologic.

Conceptualizarea testului
De fapt, intenţia de a construi un test, indiferent de natura sa, pleacă de la o
trebuinţă de ordin practic, de selecţie de personal, iniţierea unei cercetări, testarea
cunoştinţelor, publicarea unui articol într-o revistă care oferă diverse amuzamente etc.
Altfel spus, creatorul unui test, îşi construieşte în mintea sa tipul de test pe care doreşte

2
să-l proiecteze. Întotdeauna însă, proiectantul unui test îl va gândi pe acesta în termeni
comportamentali: "Doresc să construiesc un test care să măsoare inteligenţa emoţională la
manageri" sau "Testul meu trebuie să măsoare cantitatea de cunoştinţe achiziţionate în
urma cursului pe care l-am predat şi deprinderile de a le operaţionaliza". În general, la
baza creării de noi teste pot sta foarte multe cauze cum ar fi apariţia unor concepte noi
(inteligenţa emoţională) sau necesitatea de a stabili diferite nivele de expertiză pentru
profesiile relativ noi apărute pe piaţă (agent comercial, asistent director/manager,
proiectant de interfeţe cu calculatorul etc.)
Indiferent de stimulul sau trebuinţa care determină necesitatea de proiectare a
unui test, proiectantul va trebui să răspundă la o serie de întrebări, aceasta pentru a fi luat
în serios de specialişti şi să poată fi luat în considerare în vederea unei eventuale publicări
şi distribuţii pe piaţa testelor (Cohen, Montague, Nathanson, Swerdlik, 1988):
 Care este obiectivul testului? Diferă acesta de cele ale testelor deja existente şi
proiectate să măsoare acelaşi construct? Cum va fi pus în aplicare obiectivul
respectiv?
 Este într-adevăr nevoie de acest test? La ce nivel va fi testul mai bune decât
cele existente? Va fi mai consistent? Mai valid? Mai uşor de înţeles? Care vor
fi punctele slabe ale acestuia? Cine va folosi testul şi de ce?
 Care este categoria de subiecţi cărora le va fi aplicat testul? Cine va avea
nevoie de datele rezultate în urma aplicării lui? De ce, în ce scop?
 Ce arie va acoperii testul din punctul de vedere al conţinutului? Ce diferenţe
există între conţinutul testului nou şi cea a testelor similare, deja existente?
 Cum va fi administrat testul? Se va aplica individual sau în grup, sau ambele?
Ce diferenţe vor exista între administrarea individuală şi cea de grup? Cum se
vor reflecta aceste diferenţe în scorurile obţinute la test?
 Care este formatul ideal pentru test? De ce? Va putea fi administrat cu ajutorul
calculatorului, va putea fi cotat şi/sau interpretat?
 Ar trebui să fie dezvoltate mai multe forme paralele ale testului?
 Ce instruire ar trebui să aibă utilizatorul testului pentru a-l administra sau
interpreta corect? Ce experienţă şi calificare trebuie să aibă cel ce va utiliza
datele rezultate din aplicarea testului? Ce restricţii, în cazul în care există, vor
trebui impuse pentru distribuirea şi utilizarea testului?
 Ce tip de răspunsuri presupun itemii testului? Ce comportamente “din lumea
reală” vor putea fi anticipate prin corelarea diferitelor comportamente cu
răspunsurile la test? De ce rezultatele la acest test sunt importante?
În funcţie de natura testului şi de întrebările specifice, răspunsurile la întrebările
menţionate vor direcţiona intervenţia proiectantului de test în activitatea de raţionament
pe care o va utiliza, îi va ghida studiul literaturii de specialitate chiar şi modalităţile de
experimentare. Când toate aceste elemente vor fi rezolvate, cercetătorul sau creatorul de
test va putea începe procesul propriu-zis de construire a acestuia.

Construirea testului
Scalarea. Am menţionat în Capitolul 2 , că măsurarea reprezintă procesul de “atribuire
de numere în funcţie de anumite reguli” şi că scalele reprezintă aceste reguli de măsurare.
Scalarea se poate defini ca procesul de stabilire a regulilor de atribuire a numerelor în
scop de măsurare. Altfel spus, scalarea se referă la procesul prin care instrumentele de

3
măsurare sunt construite şi “calibrate”, modul în care numerele (sau alţi indici) – valorile
scalare – sunt atribuite pentru a identifica diferite nivele/intensităţi ale trăsăturilor,
atributelor sau caracteristicilor care sunt măsurate.
Tipuri de scale. Scalele reprezintă instrumente utilizate pentru a măsura ceva. Aceste
instrumente pot fi categorizate după o varietate de tipologii ca o funcţie a diferitelor
caracteristici.
În domeniul testelor psihologice, scalele pot fi concepute ca şi „instrument
utilizate pentru a măsura ceva” – acest „ceva” fiind, în general, o trăsătură psihologică, o
caracteristică sau atribut. Se poate discuta despre diferite tipuri de scale. Am văzut, de
pildă, că scalele pot fi clasificate de-a lungul unui nivel continuu de măsurare; ne referim
aici la scalele nominale, ordinale, de interval şi de raport. Dar am putea descrie scalele şi
altfel. Dacă, spre exemplu, răspunsul subiecţilor cărora li s-a aplicat un test este influenţat
de vârsta lor atunci ne vom referi la o „scală a vârstei”. Dacă răspunsul subiecţilor se
referă la note şcolare, se poate spune că testul în cauză este „o scală a notelor şcolare”.
Dacă toate scorurile brute la test vor fi transformate în scoruri cuprinse între 1 şi 9, atunci
ne vom referi la test ca fiind o scală exprimată în stanine. Dacă avem în vedere nivelul de
măsurare pe care-l permite un test, atunci acesta poate fi definit ca: nominal, ordinal, de
interval sau de raport. De asemenea, o scală poate fi unidimensională sau
multidimensională, comparativă sau categorială.
Autorii testului sunt întotdeauna în măsură să stabilească metoda de măsurare
(adică, scalarea testului) în funcţie de cum cred ei că aceasta este potrivită modului în
care au conceptualizat măsurarea trăsăturii(lor) de interes. Menţionăm că nu există doar o
singură modalitate de scalare, acest lucru se poate realiza prin diferite metode. De
asemenea, nu putem afirma că există un singur tip de scală calificat ca fiind cel mai bun”;
o scală poate fi nominală, ordinală, de interval sau de raport, depinde de tipul de variabile
măsurate, de obiectivele scalei şi legimitatea matematică a manipulărilor şi
transformărilor datelor rezultate. În acest context, în cazul scalelor nominale se admite
utilizarea unui număr redus de proceduri statistice, în timp ce scalele de raport le pot
include orice tip de prelucrări statistice.
Metode de scalare. În general, se presupune că un subiect ar poseda mai multe sau mai
puţine din caracteristicile măsurate de un test în funcţie de scorurile obţinute; cu cât
scorul este mai mare sau mai mic cu atât putem afirma că subiectul în cauză posedă mai
multe sau mai puţine din calităţile măsurate. Cum sunt atribuite numerele răspunsurilor la
un test?
Să presupunem că se doreşte crearea unei „scale a nivelului de profunzime a
transei hipnotice la care cu cât scorurile unui subiect sunt mai mari cu atât se consideră că
acesta se află într-o transă hipnotică (TH) mai profundă (Cohen, Montague, Nathanson,
Swerdlik, 1988). Două dintre condiţiile acestui test sunt: să fie scurt şi uşor de
administrat. Se ia decizia preliminară ca testul să cuprindă doar 10 itemi şi că scorurile
posibile la test vor varia de la 0 la 10 (unde 0 reprezintă o stare lipsită de hipnoză, iar 10
indică o stare de transă hipnotică profundă).
Următorul pas presupune realizarea unei baze de itemi care să cuprindă
aproximativ 20 itemi din care se vor selecta ulterior doar 10 itemi, cei care măsoară cel
mai bine constructul studiat. O metodă de realizare a acestei baze de itemi constă în
consultarea unor experţi în problema hipnozei care vor avea ca sarcină să genereze, în

4
ordine crescătoare, 10 comportamente care, din experienţa lor, ar reprezenta 10 indicatori
ai diferitelor niveluri de manifestare a acesteia.
Prin urmare, scala va rezulta din confruntarea rezultatelor obţinute de la experţi şi
prin rezolvarea discrepanţelor de raţionament, prin metode cum ar fi: intervievarea
experţilor sau consultarea literaturii de specialitate. Unii itemi ai scalei la care se
răspunde cu Da sau Nu (cu un punct atribuit pentru fiecare răspuns Da) sunt de tipul (în
ordine crescătoare, indicată de experţi):
1. Subiectul nu ascultă nici o comandă.
2. Subiectul ascultă doar comenzile simple conform căreia pleoapele îi sunt închise
şi nu poate deschide ochii.
5. Subiectul răspunde la sugestii de halucinaţie pozitivă (exemplu, „există un elefant
alb în cameră”).
6. Subiectul răspunde la sugestii de halucinaţie negativă (exemplu, „în cameră nu
suntem decât tu şi eu” – când în realitate camera este plină de oameni)
10. Sugestii de analgezie (incapacitatea de a simţii durerea) este atât de puternică încât
pacientul poate fi supus unei operaţii chirurgicale serioase fără anestezie.
Anumite informaţii despre TH şi metoda utilizarea lor pentru a proiecta scala
respectivă sunt utile pentru clarificarea conţinutului scalei. TH este o scală ordinală
pentru că diferitele „niveluri de profunzime” sunt nu numai denumite ci şi ierarhizate.
Totuşi, nu vom găsi o nivelare a intervalelor de măsurare, având în vedre că nu se solicită
intervale egale între punctele scalei. Scalele ordinale, precum TH, pot fi obţinute prin
diferite metode, cum ar fi aceea de utilizare a tehnicilor de sortare în cadrul căreia
indivizii (numiţi şi „judecători”) care fac ierarhizarea, sortează un pachet de cartonaşe ce
se referă la măsura în care o anumită trăsătură este reflectată de ceea ce este ilustrat pe
cartonaş. De exemplu, un mod de utilizare a tehnicilor de sortare în vederea construirii
unei scale pentru măsurarea „atractivităţii fizice a femeilor din punctul de vedere al
colegilor studenţi de sex masculin” ar consta în folosirea cartonaşelor pe care să fie
reprezentat un desen sau o poză a unei femei la care se va schimba câte unul dintre
atributele sale de la un cartonaş la altul (precum: înălţimea, greutatea, culoarea părului,
etc.). Un eşantion reprezentativ de bărbaţi vor fi instruiţi să sorteze cartonaşele de la „cea
mai atractivă” la „cea mai neatractivă”.
Tehnicile de sortare pot fi utilizate şi pentru construirea scalelor nominale. În
acest scop subiecţii vor trebui să sorteze cartonaşe (sau obiecte, etc) în categorii exclusive
mutual, fiecărei categorii fiindu-i atribuit un număr şi sau un nume. Sarcina de sortare
poate fi folosită şi pentru obţinerea scalelor de interval – sau a scalelor cu intervale
aparent egale.
Pentru edificarea asupra tehnicilor de scalare, se poate consulta H.D. Pitariu (2000).
Managementul resurselor umane. Evaluarea performanţelor profesionale. Bucureşti:
All/Beck.

Scrierea itemilor testului – crearea băncii de itemi.


În scrierea itemilor unui test, autorul acestuia trebuie să răspundă la trei întrebări:
 Care va fi aria de acoperire a itemilor?
 Care dintre tipurile de format ale itemilor va fi utilizat?
 Câţi itemi va conţine testul?

5
Când se construieşte un test standardizat ce conţine itemi cu răspunsuri multiple
se recomandă ca numărul itemilor dezvoltaţi pentru prima aplicare să fie dublu faţă de
versiunea finală a testului. De asemenea, trebuie luat în considerare şi numărul formelor
sub care va fi proiectat testul, astfel, se va înmulţi numărul de itemi necesari pentru
crearea bazei de itemi pentru o singură formă a testului cu numărul de forme pe care-l
dorim să-l acoperim.
Nu trebuie omise nici variabile precum scopul testului şi numărul de subiecţi ce
urmează a fi testat la o administrare a acestuia. Dacă, de exemplu, scopul testului este de
a evalua un număr mare de militari din punctul de vedere al capacităţii intelectuale
minimale, utilizarea unui test care presupune construirea răspunsului, ca şi a unuia cu
itemi uşori ar fi inadecvată. Este preferabilă folosirea unui test care solicită din partea
subiecţilor să aleagă dintre mai multe răspunsuri alternative pe cel corect. Acest tip de
itemi facilitează cotarea computerizată şi poate opera cu un număr mare de subiecţi.
Formatul itemilor testului Itemii care presupun alegerea răspunsului corect din mai
multe alternative, constituie baza constructivă pentru multe teste de aptitudini, dar mai
ales de cunoştinţe. Dacă testul este proiectat să măsoare intensitatea unei anumite
trăsături/calităţi, sarcina subiecţilor este de a selecta alternativa care răspunde cel mai
bine întrebării raportându-se la propria persoană.
Există trei tipuri de formate de selectare a răspunsului: răspunsuri cu alegere
multiplă, potrivire şi de tipul adevărat/fals (Cohen, Montague, Nathanson, Swerdlik,
1988). Aşa cum este ilustrat de itemul A, răspunsul multiplu este constituit din trei
elemente: (1) rădăcină, (2) o alternativă corectă şi (3) o serie de alternative incorecte,
cunoscute sub numele de distractori:

Itemul A
Rădăcină  un test psihologic, interviu şi studiu de caz sunt:
Alternativa corectă  (a) ìnstrumente de evaluare psihologică
(b) modele comportamentale standardizate
Distractori  (c) instrumente de evaluare de încredere
(d) măsuri relaţionate teoretic

Acum analizaţi itemul B:

Itemul B
Un bun item cu răspunsuri la alegere dintr-un test care măsoară nivelul de realizare
personală:
(a) are un singur răspuns corect
(b) are alternative care sunt paralele din punct de vedere gramatical
(c) are alternative similare ca lungime
(d) are alternative care se potrivesc din punct de vedere gramatical cu rădăcina
(e) include pe cât mai mult posibil din conţinutul itemului în rădăcină pentru a
evita repetiţia
(f) evită distractorii ridicoli
(g) nu este exagerat de lung
(h) toate de mai sus
(i) nici una de mai sus

6
Dacă selectezi (h) la itemul B ai răspuns corect. În procesul de parcurgere a listei
de alternative se poate observa că itemul B încalcă multe din regulile pe care le propune.
Gruparea itemilor prin potrivire/cuplare este un gen de item cu răspunsuri
multiple. Subiectului i se prezintă două coloane cu răspunsuri, acesta trebuind să
identifice care din alternativele din prima coloană se potrivesc cu cele din a doua.
Exemplu:

Potriviţi numele următorilor actori cu rolurile pe care l-au interpretat scriind


numărul adecvat în dreptul literei din prima coloană:
______ A. Sylvester Stalone 1. Topper
______ B. Leo G. Carroll 2. Victor
______ C. Ernest Borgnine 3. Arthur
______ D. Cliff Robertson 4. Rocky
______ E. Dustin Hoffman 5. Charly
______ F. Christopher Reeve6. Marty
______G. Barbra Streisand 7. Luke
______ H. Robin Williams 8. Superman
______ I. Julie Andrews 9. Popeye
______ J. Paul Newman 10. Tootsie
______ K. Dudley Moore 11. Yentl

Itemul cu răspuns de tipul adevărat/fals este constituit dintr-o propoziţie care


trebuie examinată pentru a indica dacă aceasta este un fapt sau nu. Această propoziţie
trebuie să conţină doar o singură idee, să nu fie excesiv de lungă şi să nu se refere la un
subiect care să necesite o dezbatere, adică să fie ori adevărat ori fals.
Ca şi itemii cu răspunsuri multiple, itemul – adevărat/fals are avantajul de a putea
fi aplicat fără probleme la o varietate largă de situaţii şi tematici. În cazul acestuia nu mai
este nevoie de alternative distractoare, ca în cazul itemilor cu răspunsuri la alegere. Prin
urmare, este şi mai uşor de construit. Unul dintre dezavantaje ar fi acela că probabilitatea
de a obţine un răspuns corect doar datorită şansei (prin ghicire) este pentru fiecare item
de .5 sau 50% (în comparaţie cu .25 sau 25% în cazul întrebărilor cu răspunsuri multiple
cu patru alternative).
O alternativă la formatul de tipul alegerii răspunsului corect este aceea care
presupune construirea lui – subiectul trebuie să compună şi să dea răspunsul corect sau
să-l selecteze. Există trei tipuri de astfel de itemi: (1) care presupun completarea, (2) cei
care impun un răspuns scurt şi (3) eseul. În primul caz, subiectul trebuie să completeze o
propoziţie incompletă, fie cu un cuvânt fie cu o frază; de exemplu:
Abaterea standard este considerată în general cea mai utilă modalitate
de măsurare a ____________.
Un astfel de item trebuie să fie astfel compus încât răspunsul corect care trebuie
dat să fie unul specific. Itemul care presupune o completare şi la care se poate răspunde
în mai multe moduri poate duce la probleme de cotare. Răspunsul corect la itemul de mai
sus este "variabilitatea". O metodă alternativă de a-l scrie este sub forma unui item care
cere un răspuns scurt:
Ce statistică descriptivă este în general considerată ca fiind cea mai

7
utilă pentru a măsura variabilitatea?____________
Un răspuns succint bun, presupune un cuvânt, un termen, o propoziţie sau un
paragraf – deşi ceea ce depăşeşte un paragraf poate fi considerat ca răspuns de tip eseu;
de exemplu:
Comparaţi definiţiile şi tehnicile celor două tipuri de condiţionare:
clasică versus operantă. Includeţi şi exemple ale modului în care
principiile fiecăreia au fost aplicate în domeniul clinic ca şi în cel
educaţional.
Răspunsul de tip eseu este util atunci când autorul vrea ca subiectul să
demonstreze profunzimea cunoştinţelor sale cu privire la un singur subiect. Faţă de toate
celelalte tipuri de itemi, acesta permite o reproducere a materialului învăţat, dar şi
oferirea unui răspuns creativ prin exprimarea informaţiei cerute de test utilizând propriile
cuvinte. De asemenea, abilităţile pe care le presupune un astfel de item diferă de cele
implicate în oferirea răspunsului la itemi cu variante multiple sau de tipul adevărat/fals;
astfel, eseul presupune abilităţi de reactualizare a informaţiei, organizare, planificare şi
scriere, în timp ce ceilalţi itemi presupun doar recunoaştere. Dezavantajul testelor cu
itemi de tip eseu este acela că necesită un timp mare de completare şi un anumit grad de
subiectivitate în cotare (Cohen, Montague, Nathanson, Swerdlik, 1988).
Itemii conţinuţi în baza de date vor conţine şi sistemul de cotare, uneori se poate
menţiona şi gradul de dificultate, acţiune utilă atunci când se selecţionează itemii din
componenţa testului respectiv. Banca de itemi este indicat să conţină cu 20% mai mulţi
itemi decât lungimea testului pe care îl construim. În cazul testelor de cunoştinţe se
recomandă ca numărul itemilor să depăşească cu mult numărul itemilor din care se va
alcătui testul.

8
Construirea şi experimentarea variantei iniţiale a testului.
După crearea bazei de itemi din care vor fi extraşi itemii din versiunea finală a
testului, se alcătuieşte prima versiune a acestuia care va face obiectul unui studiu pilot.
Pentru aceasta, se are în vedere nivelul de dificultate al fiecărui item deoarece, în general,
testele cognitive este bine să conţină itemi aranjaţi în ordinea gradului de dificultate,
aceasta din raţiuni psihologice de motivare a subiectului pe parcursul rezolvării testului
(rezolvarea iniţială a unor itemi cu un grad mic de dificultate, va mobiliza subiectul
pentru a obţine performanţe din ce în ce mai mari). În principiu, nu există variabilă lipsită
de varianţă. Varianţa zero, arată F.J Landy, este un caz absolut particular, dar care trebuie
amintit (Guion, 1984). În practică, varianţa zero apare când răspunsurile unui grup de
subiecţi la itemul unui test sunt constant aceleaşi. Varianţa zero ne informează asupra
unui viciu de construcţie sau o ipoteză greşit formulată, ori, adesea, introducerea ei este
este o măsură voită. De obicei, constructorii de test, utilizează itemi cu varianţă zero ca
itemi de start, pentru a nu descuraja subiecţii şi pentru a-i motiva să continue proba. Deci,
în baza de date, este admisă prezenţa unor itemi cu varianţă zero. Ei vor fi incluşi
întotdeauna ca itemi de start ai testului sau la începutul unui subtest.
În multe teste, mai ales la cele cognitive, itemii sunt aranjaţi în ordinea nivelului
de dificultate. De la acest principiu fac excepţie testele de cunoştinţe.
Odată testul construit, următorul pas este aplicarea pe un lot reprezentativ de
subiecţi.. Aici se poate face precizarea că lotul de subiecţi pe care se va aplica testul,
trebuie să fie aproximativ identic cu cel pentru care acesta a fost creat. De exemplu, dacă
un test de reprezentări spaţiale a fost proiectat pentru a realiza selecţia prelucrătorilor prin
aşchiere, este indicat ca experimentarea testului să se facă pe un lot de prelucrători prin
aşchiere şi nu pe studenţi de la psihologie.
În ceea ce priveşte dimensiunea lotului experimental, este recomandat ca acesta să
nu fie mai mic de 50 (unii autori susţin că dacă numărul itemilor dintr-un test creşte,
acelaşi lucru ar trebui să se întâmple şi cu numărul subiecţilor implicaţi în testarea
iniţială). În funcţie de ceea ce se intenţionează să se facă, numărul subiecţilor poate să
crească. De exemplu, dacă se lucrează cu două grupe contrastante, se impune ca în
fiecare grup să existe cel puţin 50 de subiecţi.
Experimentatorul va fi, de asemenea, atent ca situaţia şi mediul de testare să fie
aproximativ identice cu condiţiile propriu-zise de testare. Astfel autorul testului trebuie să
se asigure pe cât posibil că rezultatul obţinut de subiecţi se datorează testului şi nu unor
factori externi (variabile confundate).
Pentru a identifica itemii buni, autorul testului are la îndemână atât metode statistice
calitative, cât şi cantitative.
De exemplu, o metodă calitativă de evaluare a itemilor unui test este aceea de a utiliza
în administrarea testului metoda de rezolvare cu „voce tare”. În acest context,
examinatorul îi cere subiectului să „gândească cu voce tare”, să exprime verbal ceea ce
gândeşte în timp ce rezolvă fiecare item al testului. Dacă testul este proiectat pentru a
măsura performanţa, o astfel de verbalizare ajută nu numai la identificarea interpretărilor
greşite pe care subiecţii le-au făcut, ci şi la identificarea cauzei acestor interpretări. La fel
se pot identifica strategiile de rezolvare pe care le utilizează subiectul. Dacă testul este
proiectat să măsoare un anumit aspect al personalităţii, de exemplu managementul
impresiei, o astfel de procedură poate oferi informaţii valoroase despre modul în care
subiectul – ca şi membru al unui grup profesional – percepe, interpretează şi răspunde la

9
itemii chestionarului respectiv. O altă metodă calitativă frecvent utilizată, constă în
dezbaterea cu un grup de aşa-numiţi experţi a testului luat în totalitatea sa, discuţia
continuând apoi cu fiecare item în parte. Grupul de experţi poate fi alcătuit din persoane
cărora li s-a aplicat testul sau din persoanele care l-au administrat, cotat sau interpretat,
sau un grup de experţi dintr-un anumit domeniu – apartenenţa la grup poate fi
determinată de interesele şi obiectivele autorului testului.
După ce a fost administrată prima formă a testului pe un grup reprezentativ de
subiecţi, autorul trebuie să analizeze scorurile globale obţinute la test şi răspunsurile
pentru fiecare item în parte. Procedura statistică prin care se realizează acest lucru poartă
denumirea de „analiză de itemi”.

Analiza itemilor testului


Analiza de itemi este în prezent o practică curentă, ea avansând în complexitate şi
precizie odată cu lărgirea posibilităţilor de prelucrare statistică a datelor prin intermediul
calculatoarelor şi a unor soft-uri specializate pe această problemă.
Un item este analizat folosind una sau mai multe din următoarele prelucrări (Albu,
2000):
 calculul frecvenţei cu care au fost alese răspunsurile şi identificarea cauzelor care
au determinat frecvenţele foarte mari sau foarte mici ale unor răspunsuri'
 examinarea redactării itemului pentru evidenţierea termenilor ambigui, a absenţei
unor informaţii necesare formulării unui răspuns corect şi identificarea
răspunsurilor neplauzibile (pe care nu le alege nimeni) sau evidente (pe care le
aleg toţi subiecţii);
 verificarea comportării itemului vizavi de diverse criterii;
 determinarea capacităţii itemului de a face deosebire între examinaţii care au nivel
scăzut şi cei cu nivel ridicat la variabila măsurată sau prognozată de test.
Vom prezenta în continuare procedurile utilizate, în mod obişnuit, de către
proiectanţii de teste pentru a selecta itemii cei mai reprezentativi dintr-o bază iniţială de
itemi. Menţionăm faptul că criteriile de evaluare a unui item depind de obiectivele
proiectantului testului. De pildă, un anumit autor poate considera că itemii buni sunt cei
care contribuie în mod optim la consistenţa internă a testului, în timp ce un altul ar vrea
să proiecteze un test cu cea mai mare validitate faţă de un anumit criteriu, selectând acei
itemi care să-l ajute să-şi atingă obiectivul său. În continuare, vom avea în vedere
următoarele procedee statistice care stau la baza analizei de itemi:
 Indicele de dificultate al unui item
 Indicele de validitate al unui item
 Indicele de fidelitate al unui item
 Indicele de discriminare al unui item
 Curba caracteristică a itemului
 Alte consideraţii privind analiza de itemi

Indicele de dificultate al unui item


Calcului indicelui de dificultate al itemilor este se referă la frecvenţa relativă a
persoanelor care au rezolvat corect un anumit item al unui test, din totalul celor cărora li
s-a administrat testul respectiv (Murphy & Davidshofer, 1991).

10
Indicele de dificultate al unui item se notează cu p. El reprezintă scorul mediu
care se poate obţine la item dacă s-ar acorda un punct pentru răspunsul corect şi zero
puncte pentru răspunsul greşit sau omis. p este întotdeauna cuprins între 0 şi 1. Dacă 50
de subiecţi din 100 au răspuns corect la itemul 2, atunci indicele de dificultate al itemului
este de 50 împărţit la 100, adică .5. Dacă 75 dintre subiecţi au răspuns corect la itemul 3,
p va fi egal cu .75 şi putem spune că itemul 3 a fost mai uşor decât itemul 2. Se poate
observa că, cu cât indicele de dificultate este mai mare, cu atât itemul este mai uşor.
În calcul trebuie însă, luată în considerare şi posibilitatea apariţiei efectului dat de
ghicirea răspunsului corect mai ales atunci când vorbim de itemii cu variante multiple de
răspuns; în acest caz, dificultatea medie optimă pentru un item este de obicei valoarea de
mijloc între 1.00 şi proporţia de succes datorată şansei. În cazul itemilor cu răspuns de
tipul adevărat/fals, probabilitatea de a ghici răspunsul corect este de ½ sau .50. Prin
urmare, dificultatea optimă va fi valoarea de mijloc între .50 şi 1.00, adică .75. În general,
valoarea de mijloc ce reprezintă dificultatea optimă a itemului se obţine prin calcularea
sumei dintre proporţia ratei de a ghici răspunsul şi 1.00, divizată cu 2:
.50 + 1.00 = 1.5
1.5
 .75
2
Pentru un item cu cinci variante posibile de răspuns, probabilitatea de a ghici
răspunsul corect este de 1/5 sau .20. Dificultatea optimă a itemului este de .60:
.20 + 1.00 = 1.20
1.20
 .60
2

Unele teste sunt administrate cu limită de timp şi vor exista subiecţi care nu le vor
parcurge integral. În acest caz se recomandă ca la calculul frecvenţei relativ la p, pentru
un anumit item, să se utilizeze la numitor numărul acelor subiecţi au răspuns la item şi nu
efectivul lotului căruia i s-a administrat testul. Pentru fiecare persoană vor fi considerate
necitite toţi itemii care se situează după ultimul item rezolvat.
Itemii a căror indice de dificultate ia valori cuprinse între .3 şi .7 se consideră că
realizează o diferenţiere bună între subiecţi.

Indicele de validitate al unui item


Pentru aprecierea validităţii itemilor se apelează la un criteriu extern care poate fi
un alt test despre care ştim că prezice sau măsoară acelaşi lucru ca şi testul analizat. În
practică, operarea cu un criteriu extern este greu de realizat.
Indicele de validitate poate fi calculat doar dacă se cunosc următoarele două valori
statistice:
 abaterea standard a scorului la itemul în cauză
 corelaţia biserială dintre scorul obţinut de subiect la item şi scorul-criteriu.
Abaterea standard a scorului la itemul 1 (notată cu s1) poate fi calculată folosind
indicele de dificultate a itemului (p1) după următoarea formulă:
s1  p1 1  p1 
Corelaţia biserială între scorul la itemul 1 şi scorul-criteriu (notată cu r1C ) este
înmulţită cu abaterea standard a itemului 1 ( s1 ), rezultatul fiind un indice de validitate al

11
itemului 1 ( s1 r1C ). Pentru calculul lui punct biserial se poate apela la formula din
Capitolul 2.
Pentru a maximiza validitatea relativă la criteriu este indicat să se utilizeze
reprezentarea grafică a norului de puncte şi să se elimine manual acei itemi care
fac notă discordantă cu obiectivul propus.

Indicele de fidelitate al unui item


Indicele de fidelitate a itemului este un indicator al consistenţei interne a testului;
cu cât acest indice este mai mare, cu atât consistenţa internă a testului este mai bună. El
este egal cu produsul dintre abaterea standard a itemului (s) şi corelaţia biserială (r) dintre
scorul la item şi scorul total la test.
Analiza factorială şi consistenţa internă a itemilor. O metodă statistică utilă pentru a
determina dacă itemii unui test măsoară acelaşi lucru este analiza factorială. Itemii care
nu încarcă pe factorul pentru care au fost construiţi (adică, itemii care nu măsoară ceea ce
ar trebui să măsoare) pot fi revizuiţi sau eliminaţi. Dacă există prea mulţi itemi care
măsoară acelaşi lucru se pot elimina cei mai slabi dintre ei. Analiza factorială poate folosi
procesului de interpretare a testului, mai ales atunci când se compară constelaţia de
răspunsuri la itemii a două sau mai multe grupuri. De exemplu, dacă un test de
personalitate este administrat la două grupuri de pacienţi internaţi într-o clinică de
psihiatrie (fiecare grup având un diagnostic diferit), se poate observa că aceşti itemi
încarcă factori diferiţi, în funcţie de grup. Astfel, autorul testul sau chiar utilizatorul lui
trebuie să revizuiască sau să elimine anumiţi itemi, sau să menţioneze existenţa acestor
diferenţe în manualul testului.

Indicele de discriminare al unui item


Indicele de discriminare al unui item indică cât de bine discriminează itemul între
subiecţii cu scoruri mari şi cei cu scoruri mici, adică, puterea de discriminare a itemului.
Astfel, un item cu variante multiple la un test de evaluare a performanţei este un item bun
dacă: (1) majoritatea persoanelor cu scoruri mari la test au răspuns corect la itemul
respectiv şi (2) cei care au obţinut scoruri mici la test au răspuns greşit la acel item. Dacă
majoritatea celor care au obţinut scoruri mari au răspuns greşit la un item, atunci este
posibil ca subiecţii să realizeze interpretări alternative ale răspunsurilor destinate a fi un
distractor. În acest caz, autorul testului trebuie să procedeze la un interviu cu subiecţii
pentru a identifica raţionamentul utilizat pentru a răspunde, după care va revizui sau sau
elimina itemii necorespunzători.
Există mai multe metode de a măsura capacitatea de discriminare a itemilor,
alegerea unei metode depinzând de natura datelor. Dacă autorul testului vrea să coreleze o
variabilă dihotomică cu o variabilă continuă, atunci corelaţia biserială reprezintă metoda
cea mai adecvată. Însă, atunci când variabila dihotomică a fost creată dintr-o distribuţie
continuă (ca de exemplu, rezultatul unui test de evaluare a performanţelor la care pe baza
răspunsurilor date a fost împărţit în două categorii: admis/respins) se recomandă
utilizarea corelaţiei biseriale. Dacă se doreşte măsurarea relaţiei dintre două variabile
dihotomice se foloseşte coeficientul phi.
Indicele de discriminare este o măsură a capacităţii de discriminare a itemilor
reprezentat prin coeficientul D. Murphy şi Davidshofer (1991) propun ca pentru calculul

12
puterii de discriminare a unui item să se folosească metoda grupelor contrastante.
Metoda constă în alcătuirea a două loturi de subiecţi:
 grupul subiecţilor care au obţinut valori mari la variabila criteriu
 Grupa care a obţinut valori mici la variabila criteriu
Se compară performanţa la un anumit item cu performanţa încadrată în partea
superioară şi inferioară a distribuţiei scorurilor. Adică, se vor lua în calcul scorurile
cuprinse între 27% din partea superioară şi 27% din partea inferioară a distribuţiei de
frecvenţă – cu condiţia ca distribuţia să fie normală. Pe măsură ce distribuţia scorurilor
devine mai plată, se abate de la legea normală, limitele optime ce definesc performanţele
mari şi mici se lărgesc, apropiindu-se de 33% În general se acceptă că pentru majoritatea
aplicaţiilor, orice procentaj situat între 25 şi 33 este util.
Indicele de discriminare a itemilor este o măsură a diferenţei dintre proporţia
scorurilor corecte mari şi proporţia scorurilor mici clasificate ca răspunsuri incorecte. Cu
cât valoarea lui D este mai mare, cu atât mai mare va fi şi numărul scorurilor mari
obţinute prin darea de răspunsuri corecte. O valoare negativă a lui D la un anumit item
este un semnal de alarmă pentru că indică existenţa situaţiei în care subiecţii cu scoruri
mici la test ar putea răspunde corect la item într-o proporţie mai mare decât cei care obţin
scoruri mari. Aceşti itemi trebuie revizuiţi sau eliminaţi.
Formula de calcul aplicabilă fiecărui item este:
C C
D B  S
NB NS
unde:
NB, NS = numărul de persoane din grupa bună, respectiv grupa slabă. În cazul că
testul a fost administrat cu limită de timp, NB, şi NS reprezintă numărul
celor care au parcurs itemul în cele două grupe;
CB, CS = numărul persoanelor care au rezolvat itemul corect, în grupa bună,
respectiv în grupa slabă.

Indicele de discriminare variază între -1 (când toţi cei din grupa slabă au rezolvat
itemul corect şi toţi cei din grupa bună au greşit) şi +1,(când itemul a fost rezolvat corect
de către toţi cei din grupa bună. Şi greşit de către cei din grupa slabă). Cu cât indicele de
discriminare este mai mare, cu atât el reuşeşte să diferenţieze mai bine grupul "bun" şi
grupul "slab".
Când avem de-a face cu scoruri dihotomice, se face apel la un indice de
discriminare adecvat cazurilor în care itemii admit scoruri formate din mai multe valori:
Dm  M B  M S
unde MB şi MS reprezintă media scorurilor itemului în grupa bună, respectiv în aceea
slabă.
Un exemplu (Murphy & Davidshofer, 1991). Un test format din mai 40 itemi a fost
analizat de un grup de experţi care au apreciat că toţi itemii măsoară acelaşi lucru. Testul
a fost administrat unui lot de 100 studenţi. 27 cu scoruri mari la test au format grupa
bună, iar 27 cu scoruri mici la test, grupa slabă. S-a calculat frecvenţa relativă a celor care
au răspuns corect la fiecare item al testului, în fiecare din cele două grupe. Tabelul 5.1
prezintă rezultatele obţinute la patru din itemii testului.

Tabelul 5.1

13
Frecvenţa relativă a subiecţilor care au răspuns corect la primii 4 itemi ai testului
Item Grupa bună Grupa slabă D
1 .71 .42 .29
2 .60 .24 .36
3 .47 .42 .05
4 .38 .61 -.23

Coloana D a Tabelului 5.1 ne indică faptul că itemul 3 are o putere de discriminare


slabă. Ele este aproape la fel de dificil pentru ambele grupe, nediferenţiind între grupa
bună şi slabă. Itemul 4 are putere mare de discriminare, dar cu semn negativ (itemul este
uşor pentru studenţii cu performanţe slabe şi dificil pentru cei cu performanţe bune.
Probabil că a apărut un viciu de formulare, acest item va trebui regândit..
Pentru mai multe detalii şi explicaţii critice asupra acestui subiect, a se vedea M.
Albu (1998).

Curbele caracteristice itemilor sau teoria răspunsului la itemi


O reprezentare grafică a dificultăţii itemilor şi a gradului în care discriminează
poate fi făcută printr-o curbă caracteristică itemului (CCI). Aşa cum se observă în figura
5-2, o astfel de curbă este un grafic în care aptitudinea măsurată este reprezentată pe axa
orizontală, în timp ce probabilitatea răspunsului corect e reprezentată pe axa verticală. De
remarcat este faptul că măsura în care un item discriminează între subiectii cu scoruri
mari şi cei cu scoruri mici, este dată de înclinaţia curbei. Cu cât mai abruptă înclinaţia, cu
atât mai mult discriminează itemul respectiv. De asemenea, dacă înclinaţia este pozitivă,
atunci mai mulţi subiecţi cu scoruri mari răspund corect decât subiecţi cu scoruri mici, iar
reciproca este şi ea valabilă. Dar, să ne concentrăm pe curba caracteristică itemului (a).
Oare acest item putem să considerăm un item bun? Răspunsul este negativ; probabilitatea
unui subiect de a răspunde corect - răspuns corect înseamnă ceea ce e stabilit de cel ce a
construit testul - este mare pentru subiecţi cu aptitudini scăzute şi mică pentru subiecţii cu
aptitudini crescute. Ce putem afirma despre itemul (b); este el un item bun? Din nou,
răspunsul este negativ. Curba ne spune că subiecţii cu aptitudini moderate vor avea cea
mai mare probabilitate de a răspunde corect; subiecţii cu aptitudini crescute, respectiv
scăzute vor avea probabilitate mai mică de a răspunde corect. Itemul (b) este unul din
acei itemi pentru care dacă gândeşti prea mult, atunci e foarte probabil să greşeşti.
Itemul (c) este un item bun; observăm că probabilitatea de a răspunde corect
creşte odată cu aptitudinea subiectului. Ce putem zice de itemul (d)? Curba caracteristică
itemului discriminează pentru un singur punct al continuumului aptitudinii, probabilitatea
de a răspunde corect este foarte mare pentru toţi subiecţii care se situează deasupra
acestui punct de pe axa aptitudinii. Un item ca (d) este foarte bun pentru un test, de
exemplu, pentru a selecta candidaţii in funcţie de un scor critic. Totuşi acest item nu e
foarte bun pentru a ne oferi informaţii despre aptitudinile subiectului, la toate nivelele
acestei aptitudini - cum ar putea fi cazul unui diagnostic sau test de aptitudini
matematice.
Modelul trăsăturilor latente Un test sau chestionar este construit pentru a estima nivelul
unor cunoştinţe sau aptitudini ori a unor trăsături de personalitate ale unui individ.
Variabila de care depinde performanţa la test, fie ea de cunoştinţe, aptitudini, trasaturi de
personalitate sau altceva, nu este direct măsurabilă. Printr-un test se obţine doar o
estimare a valorii variabilei. Conform modelului trăsăturilor latente, această variabilă

14
neobservabilă, care stă la baza oricărei măsurări psihometrice este considerată latentă. Ea
este una unidimensională. Se presupune că toţi itemii testului măsoară o anumită trăsătură

Probabilitatea de a
răspunde corect
de personalitate, gradul in care fiecare item îndeplineşte acest obiectiv este dat de curba
caracteristică a itemului. În contrast cu teoria clasică a “scorului adevărat” în care nu se
fac presupuneri despre Mare
distribuţia de frecvenţă a scorurilor la test, teoria trăsăturilor
latente avansează idei referitoare la probabilitatea de apariţie a scorurilor observate
obţinute de subiecţi şi scorurile adevărate. Teoriile trăsăturilor latente propun modele care
descriu cum această trăsătură latentă influenţează performanţa aferentă fiecărui item al
testului. Spre deosebire de scorurile la test sau scorurile adevărate, scorurile latente pot să
ia valori de la + la -,

Mică
(a)
Mic Aptitudine Mare
Probabilitatea de a
răspunde corect

Mare

(b) Mică

Mic Aptitudine Mare


Probabilitatea de a
răspunde corect

Mare

Mică
(c) Mic Aptitudine Mare
Probabilitatea de a
răspunde corect

Mare

Mică 15
(d)
Mic Aptitudine Mare
Aplicabilitatea modelului trăsăturilor
Figura 5.3 Exemple de curbe cu caracteristici ale itemilor latente la testele psihologice a fost pusă
la îndoială de câţiva teoreticieni. S-a
susţinut, de exemplu, că unidimensionalitatea testelor ar fi violată dacă avem în vedere
testele psihologice. S-a susţinut şi că acelaşi item al unui test psihologic poate să măsoare
abilitaţi sau aptitudini diferite ale subiecţilor, în funcţie de experienţele de viaţă ale
acestora. Deşi are unele limite fireşti, modelul trăsăturilor latente pare să joace un rol din
ce in ce mai important în crearea şi dezvoltarea noilor teste şi programe de testare.

Precizări utile
“Ghicirea” răspunsurilor la teste, indiferent de natura lor, nu este privită ca o
problemă. În domeniul testării s-au încercat diferite soluţii de estompare a
fenomenului ghicirii, mai ales la testele cu răspunsuri la alegere. Totuşi ghicirea
rămâne un fapt. În faţa unui test, mai ales de performanţă, subiecţii sunt puşi
frecvent în situaţia să ghicească răspunsul corect. S-au încercat o serie de soluţii
de a evita ghicirea, dar rezultatele nu au fost edificatoare. Astfel, pe lângă
intervenţiile la nivelul scorurilor prin utilizarea “corecţiilor pentru ghicire”, s-au
propus şi unele intervenţii la nivelul instrucţiunilor pe care le primesc subiecţii
De pildă, subiecţii primesc instrucţiuni de a nu omite nici un item şi de a nu ghici
atunci când au îndoieli. Deocamdată nu există soluţii satisfăcătoare pentru a
rezolva aceasta problemă. Cel care a construit testul previne problema prin
includerea în manualul testului de 1) instrucţiuni explicite care să fie transmise
subiecţilor şi 2) instrucţiuni care să vizeze itemii omişi de subiecţi.

16
Corectitudinea itemilor. Curbele caracteristice itemilor ne oferă o modalitate de
a identifica care dintre itemi sunt corecţi şi care sunt distorsionaţi. Dacă un item e
considerat corect de două sau mai multe grupuri de subiecţi (care diferă ca şi grup
în funcţie de caracteristici de rasă, sex sau vârstă) atunci curba caracteristică lui
nu ar trebui sa fie semnificativ diferită între grupuri. Invers, dacă un item are
curbe semnificativ diferite pentru un grup faţă de altul - grupurile fiind diferite
doar în ceea ce priveşte caracteristicilor irelevante ale testului - atunci acel item e
distorsionat.
Justificarea acestui criteriu al ICC în ceea ce priveşte distorsionarea
itemilor este aceea că orice persoană care manifestă aceeaşi abilitate
măsurată de testul integral,ar trebui să aibă aceeaşi probabilitate de a
marca orice item corespunzător abilităţii respective, independent de
rasa, clasa socială, sex sau alte caracteristici. Cu alte cuvinte, aceeaşi
proporţie de persoane din fiecare grup ar trebui să marcheze orice
item al testului, având în vedere că toţi au obţinut acelaşi scor general.
O identificare statistică a itemului distorsionat necesită utilizarea unei măsurători
adecvate a ipotezei nule, aceea prin care se susţine că nu există diferenţe între
curbele caracteristice itemilor pentru două grupuri diferite. Itemii care
înregistrează diferenţe semnificative în ceea ce priveşte curbele caracteristice ar
trebui să fie eliminaţi sau revizuiţi. Dacă un număr relativ mare de itemi
distorsionează în favoarea unui grup vor exista un număr relativ egal de itemi care
vor distorsiona în favoarea altui grup. În acest caz, nu se poate susţine că testul ar
măsura aceeaşi aptitudine în cele două grupuri, chiar dacă scorurile globale la test
sunt aproximativ egale.
Analiza curbelor caracteristice itemilor reprezintă doar o modalitate de a
observa distorsiunile existente la nivelul itemilor testului. În acest sens au fost
realizate o serie de studii de evaluare diferitelor metode de detectare a
distorsiunilor itemilor între grupe diferite, incluzând diferenţele existente în
dificultatea itemilor, discriminarea, curbele caracteristice ale itemilor şi distribuţia
răspunsurilor incorecte. Aceste cercetări au ajuns la concluzia că alegerea metodei
de analiză a itemilor este aceea care afectează într-adevăr distorsionarea acestora.
Teste de viteză. Analiza de itemi a testelor care se administrează cu limită de timp
creează numeroase probleme datorită înmulţirii rezultatelor neinterpretabile sau
greşite datorate în mare parte faptului că itemii dinspre finalul testului nu pot fi
rezolvaţi de către toţi subiecţii, fiind astfel percepuţi ca mai dificili. Chiar şi itemii
ceilalţi pot fi afectaţi de erori nu de rezolvare ci datorate lucrului sub presiune.
Itemii care apar la sfârşit într-un test cu limită de timp este mai probabil să aibă o
corelaţie item-total pozitivă, pentru că ei sunt abordaţi de un grup selecţionat de
subiecţi. O soluţie ar fi aceea să restrângem analiza itemilor doar la acei itemi
completaţi de subiecţi. Totuşi, această soluţie nu se recomandă din cel puţin trei
motive: (1) analiza itemilor din ultimele poziţii se va face pe un număr din ce in
ce mai mic de subiecţi, ducând la rezultate neconsistente (2) dacă subiecţii cu mai
multe cunoştinţe ajung la sfârşitul testului, atunci parte din analiză se face pe tot
eşantionul, iar parte se face pe un eşantion deja selecţionat şi (3) pentru că
subiecţii cu mai multe cunoştinţe sau cu aptitudini mai dezvoltate vor ajunge la
sfârşitul testului presupuându-se că îl vor rezolva mai bine, atunci este foarte

17
probabil să ajungem la concluzia că ultimii itemi sunt mai uşor de rezolvat decât
ceilalţi itemi.
Proiectantului unui test i se poate face recomandarea că dacă limita de
timp nu este o componentă a aptitudinii măsurate de test iar aceasta poate cauza
obţinerea de informaţii distorsionate asupra performanţelor, este indicat ca cel
care a construit testul să lase suficient timp pentru rezolvarea testului cu scopul de
a evita acest efect.

Revizuirea testului şi redactarea formei finale


Un test psihologic sau de cunoştinţe odată experimentat, se va putea proceda la
revizuirea sa în vederea redactării formei finale. Autorul sau proiectantul testului îşi va
concentra activitatea asupra băncii de itemi care a fost supusă acţiunii de analiză de itemi.
În primul rând, el va elimina din banca de itemi pe aceia care s-au dovedit a fi
nerelevanţi. Tot cu această ocazie se fac şi îndreptările legate de reformularea unor itemi,
de adaptarea lor nivelului cultural al celor cărora li se adresează testul respectiv.
Rezultatul acestei acţiuni va fi obţinerea unui test care măsoară mai bine obiectivele
formulate de proiectantul testului în termeni de dificultate a itemului, discriminarea
itemului, consistenţa itemilor si validitatea lor. Următorul demers în evoluţia testului va fi
aplicarea unei versiuni revizuite în condiţii standardizate populaţiei ţinta. Pe baza unei
analize de itemi efectuate pe datele obţinute de la această experimentare, cel care a
proiectat testul îl poate finisa şi redacta forma sa finală. Daca datele colecţionate indică
faptul că testul nu este într-o formă finală, se reiau procesele de revizuire si analiza
itemilor.
La acest moment final, proiectantul se va concentra asupra validităţii de aspect a
testului, a sistemului de completare a acestuia şi cel de corectare.
Un test este acceptat cu mai multă uşurinţă de către subiecţi dacă are validitate de
aspect. Desigur, acest atribut se are în vedere încă din momentul iniţial de proiectare în
sensul că nu ne vom prezenta la nişte mecanici de locomotivă cu itemi de test care să
includă elemente de aplicare a legilor pârghiilor utilizând unelte din agricultură. Dar, în
afară de acest lucru, un design al testului se impune. Redactarea acestuia pe un suport de
hârtie de calitate cu instrucţiuni de lucru exprimate clar, este una din primele condiţii ale
redactării variantei finale a testului. Chiar insistăm asupra formulării instrucţiunilor de
lucru. Acestea trebuie să conţină pe scurt obiectivul testului, date despre
confidenţialitatea rezultatelor, condiţiile de introducere şi păstrare a rezultatelor într-o
bază de date sau renunţarea la acest lucru. Dacă este cazul se va face referire la
problemele respectării drepturilor omului, la diferenţele de sex şi rasă.
Sistemul de cotare a testului este şi acesta un aspect important. În prezent se
obişnuieşte ca scorarea să fie efectuată direct pe foaia de răspuns a testului, pe verso
indicându-se scorurile corecte. Astfel, subiectul îşi poate examina singur performanţa
obţinută. Testele şi chestionarele de personalitate sunt adesea prezentate pe calculator sau,
există numeroase variante pe internet. În acest caz, corectarea şi feedback-ul au loc
aproape instantaneu, subiectul intrând în posesia performanţei realizate, a profilului
psihologic şi chiar a unei caracterizări imediat după completarea testului sau
chestionarului respectiv.
Toate aceste intervenţii, caracteristice acestei faze de elaborare a testului, necesită
multă muncă şi creativitate din partea proiectantului.

18
Studii de validare şi etalonare
Procesul de elaborare a unui test sau chestionar de personalitate continuă prin
dezvoltarea unor studii care privesc atât testul/chestionarul în sine, dar şi utilizarea
acestuia în practică. Procedurile utilizate se referă la acţiuni de validare şi la culegerea în
continuare de date pentru elaborarea unor norme de interpretare generale şi sau specifice.
În ceea ce priveşte continuarea validării itemilor testului, se utilizează frecvent
tehnica validării încrucişate (cross validation). Validarea încrucişată se referă la reluarea
procesului de validare testului pe un lot de subiecţi, altul decât cel care a participat la
construirea propriu-zisă a testului. În mod normal, ne aşteptăm ca itemii selecţionaţi în
versiunea finală a testului (în parte din cauza unei corelaţii cu criteriul) vor avea scoruri
de validitate mai mici când aceştia sunt administraţi unui alt lot de subiecţi - aceasta din
cauza factorilor care ţin de şansă. Scăderea constantă în validitate după validarea
încrucişată se numeşte reducerea/minimizarea validităţii (“validity shrinkage”). Aceasta
scădere este de aşteptat şi este privită ca o parte integrantă a procesului de construcţie a
testului. Pe de alta parte, o astfel de diminuare este preferabilă unui scenariu în care
validitatea mare a itemilor este publicată în manualul testului ca rezultat al utilizării
inadecvate a unor eşantioane identice utilizate la standardizarea şi validarea încrucişată.
Un test sau chestionar, după ce a fost construit, va fi studiat cum se va comporta
în practică. Astfel, el poate fi folosit în multe scopuri, evaluare şcolară, orientare şcolară
şi profesională, selecţie de personal etc. În toate aceste contexte se impune iniţierea unor
studii de validitate prin raportarea la unul sau mai multe criterii externe. De fapt, aceste
studii vor da utilizatorului testului reperele necesare evaluării calităţilor pe care testul în
cauză le posedă. Aceste date vor fi luate în considerare atunci când utilizatorul testului va
dezvolta o procedură de intervenţie cu testul respectiv.

Redactarea manualului testului


Toate datele despre construcţia testului vor fi cuprinse în aşa-numitul manual al
testului. Desigur, nu există o restricţie precisă a ceea ce trebuie să conţină sau nu
manualul testului. Totuşi, el trebuie să aibă câteva capitole necesare utilizării testului
respectiv.
Orice manual al unui test sau chestionar psihologic va debuta cu o parte care se
referă la teoria pe care se bazează construcţia probei respective, la o sistematizare
bibliografică legată de această teorie. Acest lucru este necesar deoarece utilizatorul
testului trebuie avertizat asupra a ce calităţi trebuie să întrunească testul, care sunt
obiectivele pe care acesta le evidenţiază, ce studii s-au mai făcut în testarea teoriei
respective etc.
Al doilea capitol al manualului este destinat modului de administrare şi cotare a
testului. Aici vor fi incluse în detaliu instrucţiunile de administrare ale probei. Va fi apoi
explicată maniera în care se face cotarea (manual sau prin intermediul calculatorului).
Capitolul al treilea va fi dedicat modului de interpretare a testului sau
chestionarului. În acest caz vor fi introduse rezultatele obţinute cu ocazia construcţiei
probei respective. Se vor da unele date interpretative generale şi strategiile de
interpretare. Când avem de-a face cu chestionare de personalitate de genul 16PF sau CPI,
sunt date descrierile scalelor cu semnificaţia cotelor mari şi mici, corelaţia factorilor între

19
ei şi cu alte scale de la alte chestionare etc. Toate aceste date trebuie să pună utilizatorul
probei cu detaliile şi demersurile interpretative.
Uneori avem de-a face cu revizuiri ale probei sau cu versiuni diferite ale acesteia.
În această situaţie, un capitol separat va fi destinat explicării completărilor aduse şi,
bineînţeles, avantajelor aduse de noua versiune. Fireşte, vor fi incluse toate procedurile
statistice pe care autorul le-a efectuat cu versiunea nouă.
Un capitol separat va fi dedicat studiilor de fidelitate şi validitate a testului. Acest
capitol este unul foarte important. Tot aici vor fi incluse, alături de studiile care privesc
analiza de itemi şi cele realizate în scopul determinării fidelităţii generale a probei şi a
validităţii sale în diferite contexte.
Ultimul capitol poate fi dedicat modului de comunicare a rezultatelor la test,
redactării raportului final.
În anexe se dau normele de interpretare
Pentru detalii asupra conţinutului manualului testului se poate consulta: H.D.
Pitariu (2002); 16PF ediţia a cincea. Manualul testului. Cluj-Napoca: ASCR.

BIBLIOGRAFIE

Albu. M. (1998). Construirea şi utilizarea testelor psihologice. Cluj-Napoca: Clusium.

Albu, M. (2000): Metode şi instrumente de evaluare în psihologie. Cluj-Napoca:


Argonaut.

Cohen, R.J., Montague, P., Nathanson, L.S., Swerdlik, M.E. (1988). Psychological
testing. An introduction to tests & measurement. Mountain View: Mayfield Publishing
Company.

Guion, R.M. (1984). On the concept of individual differences. Paper presented at the
XIXth International Congress of Psychology. Acapulco, September.

Murphy, K.R. & Davidshofer, Ch.O. (1991). Psychological testing. Principles and
applications.New Jersey: Prentice-Hall International, Inc.

Pitariu, H.D. (2000). Managementul resurselor umane. Evaluarea performanţelor


profesionale. Bucureşti: All/Beck.

Pitariu, H.D. (2002); 16PF ediţia a cincea. Manualul testului. Cluj-Napoca: ASCR

20