Documente Academic
Documente Profesional
Documente Cultură
Introducere
Construcţia testelor psihologice este un demers care a dus la crearea unei
adevărate ştiinţe. Aşa cum s-a putut observa în capitolele anterioare, în care au fost
prezentate secvenţe metodologice specifice elaborării de teste sau chestionare
psihologice, procesul de construcţie a unui test presupune numeroase experimentări şi
abordări metodologice destul de complexe. Putem chiar afirma că a construi un test de pe
poziţii ştiinţifice nu reprezintă un demers întâmplător sau o speculaţie de fotoliu, ci el
constituie rezultatul unui demers bine gândit de aplicare a principiilor impuse de procesul
construirii testului. Acest capitol va fi dedicat punctării elementelor de bază ale
metodologiei de construire a testelor psihologice. Desigur, noi ne vom referi
preponderent la testele standardizate, care au intrat în patrimoniul psihodiagnozei
individuale sau organizaţionale. Bineînţeles, referiri vor fi făcute şi la aşa-zisele teste care
aparţin unor elaborări bazate pe simţul comun şi care fac obiectul unor intervenţii
ocazionale, cum ar fi testele de cunoştinţe construite de profesori pentru verificarea
periodică a elevilor, sau cele care se administrează după parcurgerea unui curs de
instruire iniţiat de o firmă de consultanţă, ori testele construite cu ocazia unui studiu de
cercetare etc. Acestora li se mai spune şi teste empirice.
Demersul procesual de proiectare a unui test presupune parcurgerea a cinci etape
(Albu, 2000; Cohen, Montague, Nathanson, Swerdlik, 1988; Murphy & Davidshofer,
1991):
conceptualizarea testului
construirea testului
aplicarea iniţială a testului
analiza itemilor
revizuirea testului
Pe scurt, prima etapă a proiectării testului debutează cu definirea conceptului care
se doreşte a fi măsurat (conceptualizarea testului) Urmează apoi procesul de culegere şi
sau construire a itemilor care intră (potenţial) în structura de conţinut al testului şi despre
care se crede că ar defini cel mai bine conceptul studiat (construirea testului). După
construirea bazei de itemi se structurează o primă formă ipotetică a testului care va fi
administrată unui lot de subiecţi (studiu pilot). Datelor rezultate în urma studiului pilot
vor fi analizate realizîndu-se un studiu preliminar de analiză a fiecărui item şi unul
global. Procedura statistică utilizată este cunoscută sub denumirea de "analiză de itemi”,
ea furnizându-ne informaţii asupra calităţii itemilor testului. În urma acestui demers, unii
itemi vor fi revizuiţi, alţii respinşi şi alţii menţinuţi în test/chestionar. Desigur, procesul
de analiză de itemi poate include la fel de bine şi studiul consistenţei interne a probei,
validitatea şi capacitatea lor discriminativă, nivelul de dificultate al itemilor etc. Pe baza
analizei de itemi testul va fi restructurat şi administrat unui lot reprezentativ de subiecţi.
Procedura de revizuire va fi repetată periodic din diferite raţiuni legate mai mult de
perimarea în timp a versiunii iniţiale a probei. (Amintim în acest sens că timpul a fost
acela care a erodat prima versiune a testului Binet-Simon, progresul socio-economic
1
impunând restandardizarea periodică a acestuia.) Figura 5.1 ne prezintă o schemă
generală de derulare a etapelor de construire a unei probe psihologice.
Construirea variantei
iniţiale a testului
Experimentarea iniţială a
testului. Studiu pilot
Analiza de itemi
Revizuirea testului şi
redactarea formei finale
Studii de validare.
Elaborarea normelor
Redactarea manualului
testului
Conceptualizarea testului
De fapt, intenţia de a construi un test, indiferent de natura sa, pleacă de la o
trebuinţă de ordin practic, de selecţie de personal, iniţierea unei cercetări, testarea
cunoştinţelor, publicarea unui articol într-o revistă care oferă diverse amuzamente etc.
Altfel spus, creatorul unui test, îşi construieşte în mintea sa tipul de test pe care doreşte
2
să-l proiecteze. Întotdeauna însă, proiectantul unui test îl va gândi pe acesta în termeni
comportamentali: "Doresc să construiesc un test care să măsoare inteligenţa emoţională la
manageri" sau "Testul meu trebuie să măsoare cantitatea de cunoştinţe achiziţionate în
urma cursului pe care l-am predat şi deprinderile de a le operaţionaliza". În general, la
baza creării de noi teste pot sta foarte multe cauze cum ar fi apariţia unor concepte noi
(inteligenţa emoţională) sau necesitatea de a stabili diferite nivele de expertiză pentru
profesiile relativ noi apărute pe piaţă (agent comercial, asistent director/manager,
proiectant de interfeţe cu calculatorul etc.)
Indiferent de stimulul sau trebuinţa care determină necesitatea de proiectare a
unui test, proiectantul va trebui să răspundă la o serie de întrebări, aceasta pentru a fi luat
în serios de specialişti şi să poată fi luat în considerare în vederea unei eventuale publicări
şi distribuţii pe piaţa testelor (Cohen, Montague, Nathanson, Swerdlik, 1988):
Care este obiectivul testului? Diferă acesta de cele ale testelor deja existente şi
proiectate să măsoare acelaşi construct? Cum va fi pus în aplicare obiectivul
respectiv?
Este într-adevăr nevoie de acest test? La ce nivel va fi testul mai bune decât
cele existente? Va fi mai consistent? Mai valid? Mai uşor de înţeles? Care vor
fi punctele slabe ale acestuia? Cine va folosi testul şi de ce?
Care este categoria de subiecţi cărora le va fi aplicat testul? Cine va avea
nevoie de datele rezultate în urma aplicării lui? De ce, în ce scop?
Ce arie va acoperii testul din punctul de vedere al conţinutului? Ce diferenţe
există între conţinutul testului nou şi cea a testelor similare, deja existente?
Cum va fi administrat testul? Se va aplica individual sau în grup, sau ambele?
Ce diferenţe vor exista între administrarea individuală şi cea de grup? Cum se
vor reflecta aceste diferenţe în scorurile obţinute la test?
Care este formatul ideal pentru test? De ce? Va putea fi administrat cu ajutorul
calculatorului, va putea fi cotat şi/sau interpretat?
Ar trebui să fie dezvoltate mai multe forme paralele ale testului?
Ce instruire ar trebui să aibă utilizatorul testului pentru a-l administra sau
interpreta corect? Ce experienţă şi calificare trebuie să aibă cel ce va utiliza
datele rezultate din aplicarea testului? Ce restricţii, în cazul în care există, vor
trebui impuse pentru distribuirea şi utilizarea testului?
Ce tip de răspunsuri presupun itemii testului? Ce comportamente “din lumea
reală” vor putea fi anticipate prin corelarea diferitelor comportamente cu
răspunsurile la test? De ce rezultatele la acest test sunt importante?
În funcţie de natura testului şi de întrebările specifice, răspunsurile la întrebările
menţionate vor direcţiona intervenţia proiectantului de test în activitatea de raţionament
pe care o va utiliza, îi va ghida studiul literaturii de specialitate chiar şi modalităţile de
experimentare. Când toate aceste elemente vor fi rezolvate, cercetătorul sau creatorul de
test va putea începe procesul propriu-zis de construire a acestuia.
Construirea testului
Scalarea. Am menţionat în Capitolul 2 , că măsurarea reprezintă procesul de “atribuire
de numere în funcţie de anumite reguli” şi că scalele reprezintă aceste reguli de măsurare.
Scalarea se poate defini ca procesul de stabilire a regulilor de atribuire a numerelor în
scop de măsurare. Altfel spus, scalarea se referă la procesul prin care instrumentele de
3
măsurare sunt construite şi “calibrate”, modul în care numerele (sau alţi indici) – valorile
scalare – sunt atribuite pentru a identifica diferite nivele/intensităţi ale trăsăturilor,
atributelor sau caracteristicilor care sunt măsurate.
Tipuri de scale. Scalele reprezintă instrumente utilizate pentru a măsura ceva. Aceste
instrumente pot fi categorizate după o varietate de tipologii ca o funcţie a diferitelor
caracteristici.
În domeniul testelor psihologice, scalele pot fi concepute ca şi „instrument
utilizate pentru a măsura ceva” – acest „ceva” fiind, în general, o trăsătură psihologică, o
caracteristică sau atribut. Se poate discuta despre diferite tipuri de scale. Am văzut, de
pildă, că scalele pot fi clasificate de-a lungul unui nivel continuu de măsurare; ne referim
aici la scalele nominale, ordinale, de interval şi de raport. Dar am putea descrie scalele şi
altfel. Dacă, spre exemplu, răspunsul subiecţilor cărora li s-a aplicat un test este influenţat
de vârsta lor atunci ne vom referi la o „scală a vârstei”. Dacă răspunsul subiecţilor se
referă la note şcolare, se poate spune că testul în cauză este „o scală a notelor şcolare”.
Dacă toate scorurile brute la test vor fi transformate în scoruri cuprinse între 1 şi 9, atunci
ne vom referi la test ca fiind o scală exprimată în stanine. Dacă avem în vedere nivelul de
măsurare pe care-l permite un test, atunci acesta poate fi definit ca: nominal, ordinal, de
interval sau de raport. De asemenea, o scală poate fi unidimensională sau
multidimensională, comparativă sau categorială.
Autorii testului sunt întotdeauna în măsură să stabilească metoda de măsurare
(adică, scalarea testului) în funcţie de cum cred ei că aceasta este potrivită modului în
care au conceptualizat măsurarea trăsăturii(lor) de interes. Menţionăm că nu există doar o
singură modalitate de scalare, acest lucru se poate realiza prin diferite metode. De
asemenea, nu putem afirma că există un singur tip de scală calificat ca fiind cel mai bun”;
o scală poate fi nominală, ordinală, de interval sau de raport, depinde de tipul de variabile
măsurate, de obiectivele scalei şi legimitatea matematică a manipulărilor şi
transformărilor datelor rezultate. În acest context, în cazul scalelor nominale se admite
utilizarea unui număr redus de proceduri statistice, în timp ce scalele de raport le pot
include orice tip de prelucrări statistice.
Metode de scalare. În general, se presupune că un subiect ar poseda mai multe sau mai
puţine din caracteristicile măsurate de un test în funcţie de scorurile obţinute; cu cât
scorul este mai mare sau mai mic cu atât putem afirma că subiectul în cauză posedă mai
multe sau mai puţine din calităţile măsurate. Cum sunt atribuite numerele răspunsurilor la
un test?
Să presupunem că se doreşte crearea unei „scale a nivelului de profunzime a
transei hipnotice la care cu cât scorurile unui subiect sunt mai mari cu atât se consideră că
acesta se află într-o transă hipnotică (TH) mai profundă (Cohen, Montague, Nathanson,
Swerdlik, 1988). Două dintre condiţiile acestui test sunt: să fie scurt şi uşor de
administrat. Se ia decizia preliminară ca testul să cuprindă doar 10 itemi şi că scorurile
posibile la test vor varia de la 0 la 10 (unde 0 reprezintă o stare lipsită de hipnoză, iar 10
indică o stare de transă hipnotică profundă).
Următorul pas presupune realizarea unei baze de itemi care să cuprindă
aproximativ 20 itemi din care se vor selecta ulterior doar 10 itemi, cei care măsoară cel
mai bine constructul studiat. O metodă de realizare a acestei baze de itemi constă în
consultarea unor experţi în problema hipnozei care vor avea ca sarcină să genereze, în
4
ordine crescătoare, 10 comportamente care, din experienţa lor, ar reprezenta 10 indicatori
ai diferitelor niveluri de manifestare a acesteia.
Prin urmare, scala va rezulta din confruntarea rezultatelor obţinute de la experţi şi
prin rezolvarea discrepanţelor de raţionament, prin metode cum ar fi: intervievarea
experţilor sau consultarea literaturii de specialitate. Unii itemi ai scalei la care se
răspunde cu Da sau Nu (cu un punct atribuit pentru fiecare răspuns Da) sunt de tipul (în
ordine crescătoare, indicată de experţi):
1. Subiectul nu ascultă nici o comandă.
2. Subiectul ascultă doar comenzile simple conform căreia pleoapele îi sunt închise
şi nu poate deschide ochii.
5. Subiectul răspunde la sugestii de halucinaţie pozitivă (exemplu, „există un elefant
alb în cameră”).
6. Subiectul răspunde la sugestii de halucinaţie negativă (exemplu, „în cameră nu
suntem decât tu şi eu” – când în realitate camera este plină de oameni)
10. Sugestii de analgezie (incapacitatea de a simţii durerea) este atât de puternică încât
pacientul poate fi supus unei operaţii chirurgicale serioase fără anestezie.
Anumite informaţii despre TH şi metoda utilizarea lor pentru a proiecta scala
respectivă sunt utile pentru clarificarea conţinutului scalei. TH este o scală ordinală
pentru că diferitele „niveluri de profunzime” sunt nu numai denumite ci şi ierarhizate.
Totuşi, nu vom găsi o nivelare a intervalelor de măsurare, având în vedre că nu se solicită
intervale egale între punctele scalei. Scalele ordinale, precum TH, pot fi obţinute prin
diferite metode, cum ar fi aceea de utilizare a tehnicilor de sortare în cadrul căreia
indivizii (numiţi şi „judecători”) care fac ierarhizarea, sortează un pachet de cartonaşe ce
se referă la măsura în care o anumită trăsătură este reflectată de ceea ce este ilustrat pe
cartonaş. De exemplu, un mod de utilizare a tehnicilor de sortare în vederea construirii
unei scale pentru măsurarea „atractivităţii fizice a femeilor din punctul de vedere al
colegilor studenţi de sex masculin” ar consta în folosirea cartonaşelor pe care să fie
reprezentat un desen sau o poză a unei femei la care se va schimba câte unul dintre
atributele sale de la un cartonaş la altul (precum: înălţimea, greutatea, culoarea părului,
etc.). Un eşantion reprezentativ de bărbaţi vor fi instruiţi să sorteze cartonaşele de la „cea
mai atractivă” la „cea mai neatractivă”.
Tehnicile de sortare pot fi utilizate şi pentru construirea scalelor nominale. În
acest scop subiecţii vor trebui să sorteze cartonaşe (sau obiecte, etc) în categorii exclusive
mutual, fiecărei categorii fiindu-i atribuit un număr şi sau un nume. Sarcina de sortare
poate fi folosită şi pentru obţinerea scalelor de interval – sau a scalelor cu intervale
aparent egale.
Pentru edificarea asupra tehnicilor de scalare, se poate consulta H.D. Pitariu (2000).
Managementul resurselor umane. Evaluarea performanţelor profesionale. Bucureşti:
All/Beck.
5
Când se construieşte un test standardizat ce conţine itemi cu răspunsuri multiple
se recomandă ca numărul itemilor dezvoltaţi pentru prima aplicare să fie dublu faţă de
versiunea finală a testului. De asemenea, trebuie luat în considerare şi numărul formelor
sub care va fi proiectat testul, astfel, se va înmulţi numărul de itemi necesari pentru
crearea bazei de itemi pentru o singură formă a testului cu numărul de forme pe care-l
dorim să-l acoperim.
Nu trebuie omise nici variabile precum scopul testului şi numărul de subiecţi ce
urmează a fi testat la o administrare a acestuia. Dacă, de exemplu, scopul testului este de
a evalua un număr mare de militari din punctul de vedere al capacităţii intelectuale
minimale, utilizarea unui test care presupune construirea răspunsului, ca şi a unuia cu
itemi uşori ar fi inadecvată. Este preferabilă folosirea unui test care solicită din partea
subiecţilor să aleagă dintre mai multe răspunsuri alternative pe cel corect. Acest tip de
itemi facilitează cotarea computerizată şi poate opera cu un număr mare de subiecţi.
Formatul itemilor testului Itemii care presupun alegerea răspunsului corect din mai
multe alternative, constituie baza constructivă pentru multe teste de aptitudini, dar mai
ales de cunoştinţe. Dacă testul este proiectat să măsoare intensitatea unei anumite
trăsături/calităţi, sarcina subiecţilor este de a selecta alternativa care răspunde cel mai
bine întrebării raportându-se la propria persoană.
Există trei tipuri de formate de selectare a răspunsului: răspunsuri cu alegere
multiplă, potrivire şi de tipul adevărat/fals (Cohen, Montague, Nathanson, Swerdlik,
1988). Aşa cum este ilustrat de itemul A, răspunsul multiplu este constituit din trei
elemente: (1) rădăcină, (2) o alternativă corectă şi (3) o serie de alternative incorecte,
cunoscute sub numele de distractori:
Itemul A
Rădăcină un test psihologic, interviu şi studiu de caz sunt:
Alternativa corectă (a) ìnstrumente de evaluare psihologică
(b) modele comportamentale standardizate
Distractori (c) instrumente de evaluare de încredere
(d) măsuri relaţionate teoretic
Itemul B
Un bun item cu răspunsuri la alegere dintr-un test care măsoară nivelul de realizare
personală:
(a) are un singur răspuns corect
(b) are alternative care sunt paralele din punct de vedere gramatical
(c) are alternative similare ca lungime
(d) are alternative care se potrivesc din punct de vedere gramatical cu rădăcina
(e) include pe cât mai mult posibil din conţinutul itemului în rădăcină pentru a
evita repetiţia
(f) evită distractorii ridicoli
(g) nu este exagerat de lung
(h) toate de mai sus
(i) nici una de mai sus
6
Dacă selectezi (h) la itemul B ai răspuns corect. În procesul de parcurgere a listei
de alternative se poate observa că itemul B încalcă multe din regulile pe care le propune.
Gruparea itemilor prin potrivire/cuplare este un gen de item cu răspunsuri
multiple. Subiectului i se prezintă două coloane cu răspunsuri, acesta trebuind să
identifice care din alternativele din prima coloană se potrivesc cu cele din a doua.
Exemplu:
7
utilă pentru a măsura variabilitatea?____________
Un răspuns succint bun, presupune un cuvânt, un termen, o propoziţie sau un
paragraf – deşi ceea ce depăşeşte un paragraf poate fi considerat ca răspuns de tip eseu;
de exemplu:
Comparaţi definiţiile şi tehnicile celor două tipuri de condiţionare:
clasică versus operantă. Includeţi şi exemple ale modului în care
principiile fiecăreia au fost aplicate în domeniul clinic ca şi în cel
educaţional.
Răspunsul de tip eseu este util atunci când autorul vrea ca subiectul să
demonstreze profunzimea cunoştinţelor sale cu privire la un singur subiect. Faţă de toate
celelalte tipuri de itemi, acesta permite o reproducere a materialului învăţat, dar şi
oferirea unui răspuns creativ prin exprimarea informaţiei cerute de test utilizând propriile
cuvinte. De asemenea, abilităţile pe care le presupune un astfel de item diferă de cele
implicate în oferirea răspunsului la itemi cu variante multiple sau de tipul adevărat/fals;
astfel, eseul presupune abilităţi de reactualizare a informaţiei, organizare, planificare şi
scriere, în timp ce ceilalţi itemi presupun doar recunoaştere. Dezavantajul testelor cu
itemi de tip eseu este acela că necesită un timp mare de completare şi un anumit grad de
subiectivitate în cotare (Cohen, Montague, Nathanson, Swerdlik, 1988).
Itemii conţinuţi în baza de date vor conţine şi sistemul de cotare, uneori se poate
menţiona şi gradul de dificultate, acţiune utilă atunci când se selecţionează itemii din
componenţa testului respectiv. Banca de itemi este indicat să conţină cu 20% mai mulţi
itemi decât lungimea testului pe care îl construim. În cazul testelor de cunoştinţe se
recomandă ca numărul itemilor să depăşească cu mult numărul itemilor din care se va
alcătui testul.
8
Construirea şi experimentarea variantei iniţiale a testului.
După crearea bazei de itemi din care vor fi extraşi itemii din versiunea finală a
testului, se alcătuieşte prima versiune a acestuia care va face obiectul unui studiu pilot.
Pentru aceasta, se are în vedere nivelul de dificultate al fiecărui item deoarece, în general,
testele cognitive este bine să conţină itemi aranjaţi în ordinea gradului de dificultate,
aceasta din raţiuni psihologice de motivare a subiectului pe parcursul rezolvării testului
(rezolvarea iniţială a unor itemi cu un grad mic de dificultate, va mobiliza subiectul
pentru a obţine performanţe din ce în ce mai mari). În principiu, nu există variabilă lipsită
de varianţă. Varianţa zero, arată F.J Landy, este un caz absolut particular, dar care trebuie
amintit (Guion, 1984). În practică, varianţa zero apare când răspunsurile unui grup de
subiecţi la itemul unui test sunt constant aceleaşi. Varianţa zero ne informează asupra
unui viciu de construcţie sau o ipoteză greşit formulată, ori, adesea, introducerea ei este
este o măsură voită. De obicei, constructorii de test, utilizează itemi cu varianţă zero ca
itemi de start, pentru a nu descuraja subiecţii şi pentru a-i motiva să continue proba. Deci,
în baza de date, este admisă prezenţa unor itemi cu varianţă zero. Ei vor fi incluşi
întotdeauna ca itemi de start ai testului sau la începutul unui subtest.
În multe teste, mai ales la cele cognitive, itemii sunt aranjaţi în ordinea nivelului
de dificultate. De la acest principiu fac excepţie testele de cunoştinţe.
Odată testul construit, următorul pas este aplicarea pe un lot reprezentativ de
subiecţi.. Aici se poate face precizarea că lotul de subiecţi pe care se va aplica testul,
trebuie să fie aproximativ identic cu cel pentru care acesta a fost creat. De exemplu, dacă
un test de reprezentări spaţiale a fost proiectat pentru a realiza selecţia prelucrătorilor prin
aşchiere, este indicat ca experimentarea testului să se facă pe un lot de prelucrători prin
aşchiere şi nu pe studenţi de la psihologie.
În ceea ce priveşte dimensiunea lotului experimental, este recomandat ca acesta să
nu fie mai mic de 50 (unii autori susţin că dacă numărul itemilor dintr-un test creşte,
acelaşi lucru ar trebui să se întâmple şi cu numărul subiecţilor implicaţi în testarea
iniţială). În funcţie de ceea ce se intenţionează să se facă, numărul subiecţilor poate să
crească. De exemplu, dacă se lucrează cu două grupe contrastante, se impune ca în
fiecare grup să existe cel puţin 50 de subiecţi.
Experimentatorul va fi, de asemenea, atent ca situaţia şi mediul de testare să fie
aproximativ identice cu condiţiile propriu-zise de testare. Astfel autorul testului trebuie să
se asigure pe cât posibil că rezultatul obţinut de subiecţi se datorează testului şi nu unor
factori externi (variabile confundate).
Pentru a identifica itemii buni, autorul testului are la îndemână atât metode statistice
calitative, cât şi cantitative.
De exemplu, o metodă calitativă de evaluare a itemilor unui test este aceea de a utiliza
în administrarea testului metoda de rezolvare cu „voce tare”. În acest context,
examinatorul îi cere subiectului să „gândească cu voce tare”, să exprime verbal ceea ce
gândeşte în timp ce rezolvă fiecare item al testului. Dacă testul este proiectat pentru a
măsura performanţa, o astfel de verbalizare ajută nu numai la identificarea interpretărilor
greşite pe care subiecţii le-au făcut, ci şi la identificarea cauzei acestor interpretări. La fel
se pot identifica strategiile de rezolvare pe care le utilizează subiectul. Dacă testul este
proiectat să măsoare un anumit aspect al personalităţii, de exemplu managementul
impresiei, o astfel de procedură poate oferi informaţii valoroase despre modul în care
subiectul – ca şi membru al unui grup profesional – percepe, interpretează şi răspunde la
9
itemii chestionarului respectiv. O altă metodă calitativă frecvent utilizată, constă în
dezbaterea cu un grup de aşa-numiţi experţi a testului luat în totalitatea sa, discuţia
continuând apoi cu fiecare item în parte. Grupul de experţi poate fi alcătuit din persoane
cărora li s-a aplicat testul sau din persoanele care l-au administrat, cotat sau interpretat,
sau un grup de experţi dintr-un anumit domeniu – apartenenţa la grup poate fi
determinată de interesele şi obiectivele autorului testului.
După ce a fost administrată prima formă a testului pe un grup reprezentativ de
subiecţi, autorul trebuie să analizeze scorurile globale obţinute la test şi răspunsurile
pentru fiecare item în parte. Procedura statistică prin care se realizează acest lucru poartă
denumirea de „analiză de itemi”.
10
Indicele de dificultate al unui item se notează cu p. El reprezintă scorul mediu
care se poate obţine la item dacă s-ar acorda un punct pentru răspunsul corect şi zero
puncte pentru răspunsul greşit sau omis. p este întotdeauna cuprins între 0 şi 1. Dacă 50
de subiecţi din 100 au răspuns corect la itemul 2, atunci indicele de dificultate al itemului
este de 50 împărţit la 100, adică .5. Dacă 75 dintre subiecţi au răspuns corect la itemul 3,
p va fi egal cu .75 şi putem spune că itemul 3 a fost mai uşor decât itemul 2. Se poate
observa că, cu cât indicele de dificultate este mai mare, cu atât itemul este mai uşor.
În calcul trebuie însă, luată în considerare şi posibilitatea apariţiei efectului dat de
ghicirea răspunsului corect mai ales atunci când vorbim de itemii cu variante multiple de
răspuns; în acest caz, dificultatea medie optimă pentru un item este de obicei valoarea de
mijloc între 1.00 şi proporţia de succes datorată şansei. În cazul itemilor cu răspuns de
tipul adevărat/fals, probabilitatea de a ghici răspunsul corect este de ½ sau .50. Prin
urmare, dificultatea optimă va fi valoarea de mijloc între .50 şi 1.00, adică .75. În general,
valoarea de mijloc ce reprezintă dificultatea optimă a itemului se obţine prin calcularea
sumei dintre proporţia ratei de a ghici răspunsul şi 1.00, divizată cu 2:
.50 + 1.00 = 1.5
1.5
.75
2
Pentru un item cu cinci variante posibile de răspuns, probabilitatea de a ghici
răspunsul corect este de 1/5 sau .20. Dificultatea optimă a itemului este de .60:
.20 + 1.00 = 1.20
1.20
.60
2
Unele teste sunt administrate cu limită de timp şi vor exista subiecţi care nu le vor
parcurge integral. În acest caz se recomandă ca la calculul frecvenţei relativ la p, pentru
un anumit item, să se utilizeze la numitor numărul acelor subiecţi au răspuns la item şi nu
efectivul lotului căruia i s-a administrat testul. Pentru fiecare persoană vor fi considerate
necitite toţi itemii care se situează după ultimul item rezolvat.
Itemii a căror indice de dificultate ia valori cuprinse între .3 şi .7 se consideră că
realizează o diferenţiere bună între subiecţi.
11
itemului 1 ( s1 r1C ). Pentru calculul lui punct biserial se poate apela la formula din
Capitolul 2.
Pentru a maximiza validitatea relativă la criteriu este indicat să se utilizeze
reprezentarea grafică a norului de puncte şi să se elimine manual acei itemi care
fac notă discordantă cu obiectivul propus.
12
puterii de discriminare a unui item să se folosească metoda grupelor contrastante.
Metoda constă în alcătuirea a două loturi de subiecţi:
grupul subiecţilor care au obţinut valori mari la variabila criteriu
Grupa care a obţinut valori mici la variabila criteriu
Se compară performanţa la un anumit item cu performanţa încadrată în partea
superioară şi inferioară a distribuţiei scorurilor. Adică, se vor lua în calcul scorurile
cuprinse între 27% din partea superioară şi 27% din partea inferioară a distribuţiei de
frecvenţă – cu condiţia ca distribuţia să fie normală. Pe măsură ce distribuţia scorurilor
devine mai plată, se abate de la legea normală, limitele optime ce definesc performanţele
mari şi mici se lărgesc, apropiindu-se de 33% În general se acceptă că pentru majoritatea
aplicaţiilor, orice procentaj situat între 25 şi 33 este util.
Indicele de discriminare a itemilor este o măsură a diferenţei dintre proporţia
scorurilor corecte mari şi proporţia scorurilor mici clasificate ca răspunsuri incorecte. Cu
cât valoarea lui D este mai mare, cu atât mai mare va fi şi numărul scorurilor mari
obţinute prin darea de răspunsuri corecte. O valoare negativă a lui D la un anumit item
este un semnal de alarmă pentru că indică existenţa situaţiei în care subiecţii cu scoruri
mici la test ar putea răspunde corect la item într-o proporţie mai mare decât cei care obţin
scoruri mari. Aceşti itemi trebuie revizuiţi sau eliminaţi.
Formula de calcul aplicabilă fiecărui item este:
C C
D B S
NB NS
unde:
NB, NS = numărul de persoane din grupa bună, respectiv grupa slabă. În cazul că
testul a fost administrat cu limită de timp, NB, şi NS reprezintă numărul
celor care au parcurs itemul în cele două grupe;
CB, CS = numărul persoanelor care au rezolvat itemul corect, în grupa bună,
respectiv în grupa slabă.
Indicele de discriminare variază între -1 (când toţi cei din grupa slabă au rezolvat
itemul corect şi toţi cei din grupa bună au greşit) şi +1,(când itemul a fost rezolvat corect
de către toţi cei din grupa bună. Şi greşit de către cei din grupa slabă). Cu cât indicele de
discriminare este mai mare, cu atât el reuşeşte să diferenţieze mai bine grupul "bun" şi
grupul "slab".
Când avem de-a face cu scoruri dihotomice, se face apel la un indice de
discriminare adecvat cazurilor în care itemii admit scoruri formate din mai multe valori:
Dm M B M S
unde MB şi MS reprezintă media scorurilor itemului în grupa bună, respectiv în aceea
slabă.
Un exemplu (Murphy & Davidshofer, 1991). Un test format din mai 40 itemi a fost
analizat de un grup de experţi care au apreciat că toţi itemii măsoară acelaşi lucru. Testul
a fost administrat unui lot de 100 studenţi. 27 cu scoruri mari la test au format grupa
bună, iar 27 cu scoruri mici la test, grupa slabă. S-a calculat frecvenţa relativă a celor care
au răspuns corect la fiecare item al testului, în fiecare din cele două grupe. Tabelul 5.1
prezintă rezultatele obţinute la patru din itemii testului.
Tabelul 5.1
13
Frecvenţa relativă a subiecţilor care au răspuns corect la primii 4 itemi ai testului
Item Grupa bună Grupa slabă D
1 .71 .42 .29
2 .60 .24 .36
3 .47 .42 .05
4 .38 .61 -.23
14
neobservabilă, care stă la baza oricărei măsurări psihometrice este considerată latentă. Ea
este una unidimensională. Se presupune că toţi itemii testului măsoară o anumită trăsătură
Probabilitatea de a
răspunde corect
de personalitate, gradul in care fiecare item îndeplineşte acest obiectiv este dat de curba
caracteristică a itemului. În contrast cu teoria clasică a “scorului adevărat” în care nu se
fac presupuneri despre Mare
distribuţia de frecvenţă a scorurilor la test, teoria trăsăturilor
latente avansează idei referitoare la probabilitatea de apariţie a scorurilor observate
obţinute de subiecţi şi scorurile adevărate. Teoriile trăsăturilor latente propun modele care
descriu cum această trăsătură latentă influenţează performanţa aferentă fiecărui item al
testului. Spre deosebire de scorurile la test sau scorurile adevărate, scorurile latente pot să
ia valori de la + la -,
Mică
(a)
Mic Aptitudine Mare
Probabilitatea de a
răspunde corect
Mare
(b) Mică
Mare
Mică
(c) Mic Aptitudine Mare
Probabilitatea de a
răspunde corect
Mare
Mică 15
(d)
Mic Aptitudine Mare
Aplicabilitatea modelului trăsăturilor
Figura 5.3 Exemple de curbe cu caracteristici ale itemilor latente la testele psihologice a fost pusă
la îndoială de câţiva teoreticieni. S-a
susţinut, de exemplu, că unidimensionalitatea testelor ar fi violată dacă avem în vedere
testele psihologice. S-a susţinut şi că acelaşi item al unui test psihologic poate să măsoare
abilitaţi sau aptitudini diferite ale subiecţilor, în funcţie de experienţele de viaţă ale
acestora. Deşi are unele limite fireşti, modelul trăsăturilor latente pare să joace un rol din
ce in ce mai important în crearea şi dezvoltarea noilor teste şi programe de testare.
Precizări utile
“Ghicirea” răspunsurilor la teste, indiferent de natura lor, nu este privită ca o
problemă. În domeniul testării s-au încercat diferite soluţii de estompare a
fenomenului ghicirii, mai ales la testele cu răspunsuri la alegere. Totuşi ghicirea
rămâne un fapt. În faţa unui test, mai ales de performanţă, subiecţii sunt puşi
frecvent în situaţia să ghicească răspunsul corect. S-au încercat o serie de soluţii
de a evita ghicirea, dar rezultatele nu au fost edificatoare. Astfel, pe lângă
intervenţiile la nivelul scorurilor prin utilizarea “corecţiilor pentru ghicire”, s-au
propus şi unele intervenţii la nivelul instrucţiunilor pe care le primesc subiecţii
De pildă, subiecţii primesc instrucţiuni de a nu omite nici un item şi de a nu ghici
atunci când au îndoieli. Deocamdată nu există soluţii satisfăcătoare pentru a
rezolva aceasta problemă. Cel care a construit testul previne problema prin
includerea în manualul testului de 1) instrucţiuni explicite care să fie transmise
subiecţilor şi 2) instrucţiuni care să vizeze itemii omişi de subiecţi.
16
Corectitudinea itemilor. Curbele caracteristice itemilor ne oferă o modalitate de
a identifica care dintre itemi sunt corecţi şi care sunt distorsionaţi. Dacă un item e
considerat corect de două sau mai multe grupuri de subiecţi (care diferă ca şi grup
în funcţie de caracteristici de rasă, sex sau vârstă) atunci curba caracteristică lui
nu ar trebui sa fie semnificativ diferită între grupuri. Invers, dacă un item are
curbe semnificativ diferite pentru un grup faţă de altul - grupurile fiind diferite
doar în ceea ce priveşte caracteristicilor irelevante ale testului - atunci acel item e
distorsionat.
Justificarea acestui criteriu al ICC în ceea ce priveşte distorsionarea
itemilor este aceea că orice persoană care manifestă aceeaşi abilitate
măsurată de testul integral,ar trebui să aibă aceeaşi probabilitate de a
marca orice item corespunzător abilităţii respective, independent de
rasa, clasa socială, sex sau alte caracteristici. Cu alte cuvinte, aceeaşi
proporţie de persoane din fiecare grup ar trebui să marcheze orice
item al testului, având în vedere că toţi au obţinut acelaşi scor general.
O identificare statistică a itemului distorsionat necesită utilizarea unei măsurători
adecvate a ipotezei nule, aceea prin care se susţine că nu există diferenţe între
curbele caracteristice itemilor pentru două grupuri diferite. Itemii care
înregistrează diferenţe semnificative în ceea ce priveşte curbele caracteristice ar
trebui să fie eliminaţi sau revizuiţi. Dacă un număr relativ mare de itemi
distorsionează în favoarea unui grup vor exista un număr relativ egal de itemi care
vor distorsiona în favoarea altui grup. În acest caz, nu se poate susţine că testul ar
măsura aceeaşi aptitudine în cele două grupuri, chiar dacă scorurile globale la test
sunt aproximativ egale.
Analiza curbelor caracteristice itemilor reprezintă doar o modalitate de a
observa distorsiunile existente la nivelul itemilor testului. În acest sens au fost
realizate o serie de studii de evaluare diferitelor metode de detectare a
distorsiunilor itemilor între grupe diferite, incluzând diferenţele existente în
dificultatea itemilor, discriminarea, curbele caracteristice ale itemilor şi distribuţia
răspunsurilor incorecte. Aceste cercetări au ajuns la concluzia că alegerea metodei
de analiză a itemilor este aceea care afectează într-adevăr distorsionarea acestora.
Teste de viteză. Analiza de itemi a testelor care se administrează cu limită de timp
creează numeroase probleme datorită înmulţirii rezultatelor neinterpretabile sau
greşite datorate în mare parte faptului că itemii dinspre finalul testului nu pot fi
rezolvaţi de către toţi subiecţii, fiind astfel percepuţi ca mai dificili. Chiar şi itemii
ceilalţi pot fi afectaţi de erori nu de rezolvare ci datorate lucrului sub presiune.
Itemii care apar la sfârşit într-un test cu limită de timp este mai probabil să aibă o
corelaţie item-total pozitivă, pentru că ei sunt abordaţi de un grup selecţionat de
subiecţi. O soluţie ar fi aceea să restrângem analiza itemilor doar la acei itemi
completaţi de subiecţi. Totuşi, această soluţie nu se recomandă din cel puţin trei
motive: (1) analiza itemilor din ultimele poziţii se va face pe un număr din ce in
ce mai mic de subiecţi, ducând la rezultate neconsistente (2) dacă subiecţii cu mai
multe cunoştinţe ajung la sfârşitul testului, atunci parte din analiză se face pe tot
eşantionul, iar parte se face pe un eşantion deja selecţionat şi (3) pentru că
subiecţii cu mai multe cunoştinţe sau cu aptitudini mai dezvoltate vor ajunge la
sfârşitul testului presupuându-se că îl vor rezolva mai bine, atunci este foarte
17
probabil să ajungem la concluzia că ultimii itemi sunt mai uşor de rezolvat decât
ceilalţi itemi.
Proiectantului unui test i se poate face recomandarea că dacă limita de
timp nu este o componentă a aptitudinii măsurate de test iar aceasta poate cauza
obţinerea de informaţii distorsionate asupra performanţelor, este indicat ca cel
care a construit testul să lase suficient timp pentru rezolvarea testului cu scopul de
a evita acest efect.
18
Studii de validare şi etalonare
Procesul de elaborare a unui test sau chestionar de personalitate continuă prin
dezvoltarea unor studii care privesc atât testul/chestionarul în sine, dar şi utilizarea
acestuia în practică. Procedurile utilizate se referă la acţiuni de validare şi la culegerea în
continuare de date pentru elaborarea unor norme de interpretare generale şi sau specifice.
În ceea ce priveşte continuarea validării itemilor testului, se utilizează frecvent
tehnica validării încrucişate (cross validation). Validarea încrucişată se referă la reluarea
procesului de validare testului pe un lot de subiecţi, altul decât cel care a participat la
construirea propriu-zisă a testului. În mod normal, ne aşteptăm ca itemii selecţionaţi în
versiunea finală a testului (în parte din cauza unei corelaţii cu criteriul) vor avea scoruri
de validitate mai mici când aceştia sunt administraţi unui alt lot de subiecţi - aceasta din
cauza factorilor care ţin de şansă. Scăderea constantă în validitate după validarea
încrucişată se numeşte reducerea/minimizarea validităţii (“validity shrinkage”). Aceasta
scădere este de aşteptat şi este privită ca o parte integrantă a procesului de construcţie a
testului. Pe de alta parte, o astfel de diminuare este preferabilă unui scenariu în care
validitatea mare a itemilor este publicată în manualul testului ca rezultat al utilizării
inadecvate a unor eşantioane identice utilizate la standardizarea şi validarea încrucişată.
Un test sau chestionar, după ce a fost construit, va fi studiat cum se va comporta
în practică. Astfel, el poate fi folosit în multe scopuri, evaluare şcolară, orientare şcolară
şi profesională, selecţie de personal etc. În toate aceste contexte se impune iniţierea unor
studii de validitate prin raportarea la unul sau mai multe criterii externe. De fapt, aceste
studii vor da utilizatorului testului reperele necesare evaluării calităţilor pe care testul în
cauză le posedă. Aceste date vor fi luate în considerare atunci când utilizatorul testului va
dezvolta o procedură de intervenţie cu testul respectiv.
19
ei şi cu alte scale de la alte chestionare etc. Toate aceste date trebuie să pună utilizatorul
probei cu detaliile şi demersurile interpretative.
Uneori avem de-a face cu revizuiri ale probei sau cu versiuni diferite ale acesteia.
În această situaţie, un capitol separat va fi destinat explicării completărilor aduse şi,
bineînţeles, avantajelor aduse de noua versiune. Fireşte, vor fi incluse toate procedurile
statistice pe care autorul le-a efectuat cu versiunea nouă.
Un capitol separat va fi dedicat studiilor de fidelitate şi validitate a testului. Acest
capitol este unul foarte important. Tot aici vor fi incluse, alături de studiile care privesc
analiza de itemi şi cele realizate în scopul determinării fidelităţii generale a probei şi a
validităţii sale în diferite contexte.
Ultimul capitol poate fi dedicat modului de comunicare a rezultatelor la test,
redactării raportului final.
În anexe se dau normele de interpretare
Pentru detalii asupra conţinutului manualului testului se poate consulta: H.D.
Pitariu (2002); 16PF ediţia a cincea. Manualul testului. Cluj-Napoca: ASCR.
BIBLIOGRAFIE
Cohen, R.J., Montague, P., Nathanson, L.S., Swerdlik, M.E. (1988). Psychological
testing. An introduction to tests & measurement. Mountain View: Mayfield Publishing
Company.
Guion, R.M. (1984). On the concept of individual differences. Paper presented at the
XIXth International Congress of Psychology. Acapulco, September.
Murphy, K.R. & Davidshofer, Ch.O. (1991). Psychological testing. Principles and
applications.New Jersey: Prentice-Hall International, Inc.
Pitariu, H.D. (2002); 16PF ediţia a cincea. Manualul testului. Cluj-Napoca: ASCR
20