C5 - Construirea Si Experimentarea Testelor

CURSUL 5
CONSTRUIREA ŞI EXPERIMENTAREA TESTELOR

TEORII PRIVITOARE LA CONSTRUCŢIA TESTELOR PSIHOLOGICE
Cuprins:
1. Cerinţe: paşii standard în elaborarea unui test

2. Analiza de itemi
3. Teoria clasică privind construcţia testelor psihologice
4. Teoria răspunsului la itemi
1. Cerinţe: paşii standard în elaborarea unui test
În general, construirea unui test psihologic sau a unei scale dintr-un test, se desfăşoară
în mai mulţi paşi, nesecvenţial, cu reveniri repetate până la realizarea condiţiilor dorite
(validitate, fidelitate, putere de discriminare, dificultate, etc.). Algoritmul general de
construire a unui test este redat în figura următoare (Albu, 1998, p.199):
1
În majoritatea lucrărilor de teorie a testelor psihologice, metodele de construcţie a
testelor sunt împărţite în următoarele categorii (Burisch, 1986, apud Albu, 1998, p.200):
1. Metodele deductive, denumite şi raţionale sau bazate pe simţul comun, sunt
cele în care construirea itemilor şi selectarea celor care vor compune testul se bazează
exclusiv pe părerile unor persoane (experţi sau nu). Sunt alese constructele, apoi elaboraţi
itemii, care realizează o definire explicită sau implicită a constructelor, singurul ghid în
această operaţie fiind intuiţia autorilor itemilor.
2. Metodele inductive sau interne pornesc de la o colecţie mare, eterogenă de
itemi (de obicei extraşi din testele aflate în circulaţie), considerată a fi reprezentativă pentru
constructele care trebuiesc măsurate. Prin procedee statistice, cum sunt analiza factorială şi
analiza de clusteri, se urmăreşte să se depisteze grupările de itemi care corespund
constructelor respective.
3. Metodele empirice sau externe necesită precizarea, de la început, a relaţiilor
care vor trebui să existe între scorurile testului care va fi construit şi diverse criterii externe.
Se porneşte de la o colecţie mare, eterogenă, de itemi, se compară scorurile acestora cu
criteriile şi se reţin cei care au comportarea pe care trebuie să o aibă întregul test.
Paşii de urmărit în construcţia testelor psihologice sunt (Minulescu, 2003, p.119):
1. stabilirea unei necesităţi: luarea în considerare a cerinţelor formale şi
informale pentru test. Trebuie realizată o achetă socială pentru a vedea dacă această necesitate
este reală sau ţine de imaginar. În egală măsură, trebuie verificat dacă există o probă similară,
pentru a nu repeta;
2. definirea obiectivelor şi parametrilor testelor: stabilirea scopului testului
(cine e testat şi de ce a fost ales acest test), clarificarea modului în care informaţia utilizată de
test va fi utilă şi celui care dă testul, şi beneificiarului. Trebuie luat în considerare tipul de
format al itemilor şi tipul de format al răspunsurilor, dar şi numărul de itemi ce vor fi incluşi;
3. selectarea unui grup de experţi în domeniul respectiv: se discută din nou
obiectivele, scopurile şi parametrii testului şi se determină o primă machetă a testului;
4. scrierea itemilor: se utilizează experţii din domeniul testului sau specialişti din
aria domeniului respectiv pentru a scrie itemii. După ce au fost scrişi, itemii trebuie să fie
revizuiţi (şi din punctul de vedere al conţinutului) de cel puţin o persoană sau de către o
echipă care nu a fost implicată în scrierea lor;
5. faza de teren: itemii sunt supuşi realităţii. Un prim eşantion de itemi este
utilizat pentru a testa subiecţi reali, dintr-un anumit grup ţintă (grup realizat în funcţie de
vârstă, sex, pregătire profesională, etc.). În urma testării, se va calcula gradul de dificultate şi
de discriminare al itemilor (aceasta reprezintă analiza de itemi);
6. revizuirea itemilor, care se produce în urma analizei de itemi. Se verifică dacă
există o anumită încărcătură nedorită de itemi sau prejudecăţi (de exemplu, sexuale sau legate
de minorităţi). Sunt eliminaţi itemii care pot să fie incorecţi, nedrepţi sau pot să lezeze
anumite grupuri de indivizi;
7. alcătuirea formei finale a testului. Se verifică adecvarea grilei de scorare,
mergându-se până la subtilităţi în ceea ce priveşte scorarea răspunsurilor. Se întâmplă foarte
multe accidente în faza finală, astfel că este necesară intervenţia unui “cap limpede” (cineva
care este scos din paşii experimentării şi care verifică tot, inclusiv forma finală; de obicei, este
cineva din afară). Se reverifică itemii şi grila de scorare;
8. construirea normelor şi calcularea finalităţii şi validităţii:
➔ datele tehnice ale testului sunt verificate. Se fac procedurile de eşantionare sau
de constituire a loturilor de experimentare;
➔ administrarea şi scorarea formei finale a testului;
➔ se calculează finalitatea şi itemii de finalitate;
➔ construirea normelor adecvate de interpretare.
2
2. Analiza de itemi
2.1. Ce este analiza de itemi
Analiza de itemi are ca obiectiv de bază descifrarea mecanismelor cognitive

aplicate de subiecţi pentru formularea răspunsurilor la itemi şi verificarea calităţilor
itemilor ca instrumente de măsură sau de predicţie. Pe baza analizei de itemi se obţin
informaţiile care permit selectarea itemilor care intră în componenţa testului (Albu,
1998, p.212).
Itemii pot fi analizaţi dintr-o dublă perspectivă – cantitativă şi calitativă.
Analiza cantitativă se referă la proprietăţile statistice ale itemilor şi este focalizată, în
principal, pe clasificarea problemelor privind dificultatea şi capacitatea de discriminare a
itemilor.
Analiza calitativă se referă, în principal, la aspecte de conţinut şi de formă, incluzând
problema evaluării eficienţei procedurilor de redactare şi a validităţii de conţinut.
Analiza de itemi se poate rezuma prin următorul algoritm (Minulescu, 2003, p.120):
➔ calculului indicelui de dificultate pentru toţi itemii şi eliminarea celor care sunt
rezolvaţi de toţi subiecţii şi a celor nerezolvaţi de nici un subiect;
➔ depistarea cauzelor pentru care unii indici de dificultate sunt foarte mari sau
foarte mici şi eliminarea itemilor cu greşeli;
➔ în situaţia itemilor cu răspunsuri la alegere, se analizează răspunsurile
incorecte şi se elimină aceia în care unele răspunsuri greşite au fost alese de foarte mulţi sau
foarte puţini subiecţi;
➔ aplicarea uneia dintre producedurile analizei de itemi în funcţie de condiţiile pe
care trebuie să le îndeplinească testul ce se construieşte, respectiv:
● dacă testul trebuie să discrimineze între 2 grupe constante, respectiv să
permită scoruri care diferă mult de la o grupă la opusul ei, se va calcula pentru fiecare
item indicele de discriminare, eliminându-se itemii necorespunzători;
● dacă testul trebuie să se comporte într-o manieră prestabilită faţă de un
anume criteriu, se vor elimina itemii necorespunzători;
➔ se vor elimina itemii cu indicele de dificultate necorespunzător scopului pe
care urmează să-l îndeplinească testul. În pricipiu, se vor elimina cei foarte uşori şi foarte
dificili. Dacă cerinţa este ca testul să identifice pe cei care prezintă nivele foarte scăzute şi
foarte ridicate pentru o anume trăsătură sau facultate, se vor reţine doar aceste tipuri de itemi;
➔ se va calcula coeficientul de corelaţie între scorurile testului şi scorurile
itemului şi se vor elimina itemii care prezintă corelaţii nesemnificative sau negative.
2.2. Relaţia itemului cu testul
Testul cuprinde un anumit număr de itemi şi urmăreşte să măsoare o anumită însuşire

sau o anumită caracteristică psihică. Obiectivul va fi atins însă dacă fiecare dintre itemi va
urmări şi va avea “puterea” să măsoare aceeaşi însuşire sau caracteristică psihică.
Reuchelin (1992, apud Mitrofan, 2009, p.138) defineşte itemul ca “un element al unui
test, constituind o situaţie particulară şi jucând rolul unui stimul la care subiectul nu poate da
decât un răspuns dintre 2 sau mai multe răspunsuri teoretice prevăzute de test”.
Itemul este deci, o secvenţă, o componentă a testului care are o anumită
individualitate. Pentru a fi o individualitate, itemul trebuie să contribuie distinct, clar şi
conturat la scorul total al testului (Stan, 2002, apud Mitrofan, 2009, p.138).
S-a pus întrebarea: câţi itemi trebuie să aibă un test? Privind spre practică, întâlnim
teste cu puţini itemi, dar şi teste cu foarte mulţi itemi. De exemplu, testul pentru măsurarea
3
imaginii de sine a lui Rosenberg are doar 10 itemi, iar chestionare de personalitate precum
CPI sau MMPI, au câte 4-500 de itemi. Reamintim faptul că uin test este de aşteptat să fie
mai fidel şi mai valid cu cât are mai mulţi itemi.
Referitor la cel mai mic număr de itemi pe care poate să-l aibă un test, Paul Kline
(1993, apud Mitrofan, 2009, p.138) susţine că acesta nu poate fi mai mic de 10.
Un alt aspect important este legat de modul în care se formulează itemii. Unii autori
au elaborat un ghid ce cuprinde mai multe recomandări, din care Kaplan şi Saccuzzo (2005,
apud Mitrofan, 2009, p.138) reţin următoarele 7:
1. definiţi clar ceea ce vreţi să măsuraţi;
2. creaţi o bancă de itemi;
3. evitaţi itemii redundanţi;
4. evitaţi, pe cât posibil, itemii cu lungime mare;
5. menţineţi nivelul de dificultate a lecturii şi înţelegerii cât mai potrivit pentru
cei care vor răspunde la test;
6. evitaţi itemii cu caracter echivoc;
7. combinaţi itemii formulaţi pozitiv şi negativ.
2.3. Gradul de dificultate al itemului
Cea mai obişnuită măsură a dificultăţii unui item este frecvenţa relativă a persoanelor
care au rezolvat corect itemul, din totalul celor cărora li s-a administrat testul (Murphy şi
Davidshofer, 1987, apud Albu, 1998, p.213).
1. Pentru diferite loturi de subiecţi, cu caracteristici diferite privind de exemplu
vârsta, nivelul de pregătire academică, tipul de pregătire, mediul de provenienţă, etc., aceiaşi
itemi pot conduce la diferite procente sau ponderi de subiecţi care răspund corect.
2. Majoritatea testelor sunt construite cu itemi având grade de dificultate diferite,
astfel se pune problema asigurării unui nivel de dificultate optim şi a posibilităţii de a
compensa inter-itemi gradul de dificultate.
3. Nivelul de dificultate recomandabil este .50 (50% reuşită). Cu cât un item se
apropie de 0% sau 100%, cu atât este ineficient în diferenţierea subiecţilor. Itemul trebuie să
fie capabil să diferenţieze între toţi cei care îl reuşesc şi cei care nu îl reuşesc pentru a avea
valoare de informaţie diferenţială (Minulescu, 2003, p.122).
Indicele de dificultate se notează cu p şi reprezintă scorul mediu care s-ar obţine la
item dacă s-ar acorda 1 punct pentru răspunsul corect şi 0 puncte pentru răspunsul greşit sau
omis. Se observă deci că p va fi întotdeauna cuprins între 0 şi 1.
Davids (1995, apud Albu, 1998, p.213) recomandă ca atunci când testul este
administrat cu limită de timp şi există persoane care nu au reuşit să-l parcurgă integral, la
calculul frecvenţei relative p pentru un anumit item să se utilizeze drept numitor numărul
examinaţilor care au citit întrebarea şi nu efectivul lotului căruia i s-a administrat testul.
Pentru fiecare persoană vor fi considerate necitite toate întrebările aflate după ultimul item
rezolvat.
Indicele de dificultate este o caracteristică atât a itemului, cât şi a populaţiei căreia i s-
a administrat testul.
Valorile extreme ale lui p restrâng variabilitatea scorurilor la test. Itemii cu p = 0
(care nu au fost rezolvaţi corect de nici o persoană) şi cei cu p = 1 (care au fost rezolvaţi
corect de toţi subiecţii) nu contribuie la măsurarea variabilei vizate de test şi, prin urmare,
sunt inutili.
În general, itemii al căror grad de dificultate ia valori între 0,3 şi 0,7 permit o
diferenţiere bună între subiecţi (Gregory, 1992, apud Albu, 1998, p.213).
Pentru itemii dihotomici şi cei cu răspunsuri la alegere, în care un singur răspuns este
4
corect, se recomandă să se păstreze itemii al căror indice de dificultate este apropiat de
valoarea 0,5 + g/2, unde g reprezintă probabilitatea de a greşi răspunsul corect, adică este egal
cu raportul 1/numărul de răspunsuri posibile.
Atunci când testul va fi folosit pentru selecţia persoanelor care vor face parte dintr-un
grup extrem (cu valori foarte mari sau foarte mici ale caracteristicii măsurate la test), se vor
folosi itemii care au indicele de dificultate sub 0,3 şi peste 0,7.
Nivelul de dificultate a itemului se calculează în baza formulei:
p = Nr. răspunsuri corecte la item

N
unde p reprezintă valoarea de dificultate a itemului,
iar N se referă la numărul total al subiecţilor care au răspuns la item.
Deoarece dificultatea itemul exprimată în funcţie de curba normală, ce presupune

abaterea standard ca distanţă, implică valori negative şi zecimale, ele sunt convertite într-o
scală uşor de mânuit şi care este desemnată prin litera grecească delta, Δ. Relaţia dintre Δ şi
curba normală – distanţele σ (valori z) este următoarea (Anastasi, 1988, apud Mitrofan, 2009,
p.144):
Δ = 13 + 4z
În această formulă, 13 şi 4 sunt constante alese pentru a oferi o scală care să elimine
valorile negative şi zecimale. Z indică de deviaţii standard de la medie (sigme).
2.4. Puterea distractorului
La mai multe categorii de teste se foloseşte, referitor la modul de răspundere la item,

sistemul alegerii multiple (de exemplu, la testele de cunoştinţe, testele de aptitudini). Concret,
pe lângă răspunsul corect, există mai multe răspunsuri, considerate răspunsuri greşite, numite
distractori.
De exemplu:
Item: Cât fac 6 x 5?
Răspunsuri:
a) 11
b) 30 – răspuns corect
c) 25
d) 15
În cazul în care un distractor nu este ales de nici un subiect, este clar că el trebuie
exclus sau reformulat. La fel şi în cazul în care este ales de mulţi subiecţi.
Unii autori fac distincţie între puterea aşteptată a distractorului şi puterea actuală a
distractorului (Friedenberg, 1995, apud Mitrofan, 2009, p.147).
Puterea aşteptată a distractorului se poate calcula după formula:
PDA = Nr. subiecţi ce răspund incorect la item

Nr. de distractori
Puterea actuală a distractorului este dată de numărul de subiecţi care aleg fiecare câte
un distractor.
5
2.5. Capacitatea de discriminare a itemului
Dacă nivelul de dificultate a unui item arată cât de uşor sau cât de dificil este un item,
nivelul de discriminare arată în ce măsură subiecţii, care obţin rezultate bune la întregul test,
reuşesc şi la acest item şi, pe de altă parte, în ce măsură subiecţii, care obţin rezultate slabe la
întregul test, nu reuşesc la acest item (Mitrofoan, 2009, p.151).
Există mai multe modalităţi ce pot fi folosite pentru evaluarea capacităţii de
discriminare a itemului, dar cel mai frecvent întâlnite sunt (Mitrofan, 2009, p.152):
1. indexul discriminării itemului;
2. corelaţie scor item – scor total al testului.
Diferenţa dintre ele constă în faptul că prima formă de evaluare poate fi folosită
pentru categoria de teste la care modul de răspuns este de tipul “corect-incorect”, în timp ce a
doua formă poate fi aplicată şi pe categoriile de teste la care modul de răspuns presupune fie
sistemul alegerii multiple, fie răspunsul liber.
În practică, există foarte multe proceduri ce pot fi folosite pentru calcularea indexului
de discriminare a itemului. Cea mai frecvent utilizată ia în atenţie 3 grupe de subiecţi, care, la
rândul lor, alcătuiesc numărul total al subiecţilor ce răspund la un test (N):
1. grupul celor care au obţinut răspunsuri bune la test;
2. grupul celor care au obţinut răspunsuri mediocre la test;
3. grupul celor care au obţinut rezultate slabe la test.
Primul grup se notează cu U (de la Upper), al doilea cu M (de la Middle) şi al treilea
cu L (de la Lower).
După unii autori se pot lua în considerare numai grupele extreme, U şi L. în acest caz
se vorbeşte despre metoda grupelor extreme (Friedenberg, 1995, apud Mitrofan, 2009, p.153).
Aceasta este utilizată mai frecvent pe testele de abilităţi, testele de personalitate, testele de
interese şi testele de aptitudini.
Din punct de vedere strict tehnic, după aplicarea testului se calculează, pentru fiecare
din grupele extreme, proporţia subiecţilor care au răspuns corect la fiecare item şi apoi se face
diferenţa între cele 2 grupuri.
În felul acesta, se obţine valoarea indexului discriminării intemului pentru fiecare item
în parte. Se poate utiliza următoarea formulă:
D = pU - pL
în care:
D = indexul de discriminare a itemului,
pU = Nr. răspunsuri corecte în grupul superior

Nr. total de subiecţi din grupul superior
Nr. răspunsuri corecte în grupul inferior
pL =
Nr. total de subiecţi din grupul inferior
În ceea ce priveşte valoarea indexului discriminării itemului, se pot observa mai multe
aspecte (Mitrofan, 2009, p.154):
➔ valoarea diferă de la un item la atul,
➔ există valori pozitive şi valori negative,
➔ există itemi cu valori foarte mici ale lui D,
➔ valoarea lui D poate să varieze între +1,00 (când toţi subiecţii din grupul
superior răspund corect la item şi nici un membru al grupului inferior nu răspunde corect) şi
6
-1,00 (când toţi membrii grupului superior răspund incorect şi toţi membrii grupului inferior
răspund corect),
➔ există cazuri de itemi la care valoarea lui D este 0,00, ceea ce înseamnă că
pentru ambele grupuri, un număr egal de subiecţi au răspuns corect la item.
Luând în considerare toate aceste valori posibile ale lui D, putem trage câteva
concluzii (Mitrofan, 2009, p.154):
1. itemii ai căror valoare a lui D se apropie de +1,00 au o bună capacitate de
discriminare a subiecţilor care au abilitatea măsurată de test, faţă de cei care nu o au,
2. itemii care au valori negative, sunt consideraţi a fi cei mai slabi dintre toţi
itemii testului,
3. itemii care au valoarea lui D egală cu 0,00 sunt lipsiţi, de asemenea, de
capacitatea de a diferenţia subiecţii cu abilităţi de cei fără abilităţi.
R.L. Ebel (1965, apud Stan, 2002, cf. Mitrofan, 2009, p.156) a propus o scală de
repere pentru interpretarea valorică a indicelui de discriminare D:
Interval valoric al lui D Interpretarea discriminării
De la 0,40 şi mai mult Discriminare foarte bună
De la 0,30 la 0,39 Discriminare bună
De la 0,20 la 0,29 Discriminare slabă
De la 0,10 la 0,19 Discriminare de limită
Sub 0,10 Fără utilitate
Valoarea indicelui discriminării testului (D), acceptabilă pentru a decide că itemul are
o bună capacitate de discriminare, este de la 0,30 în sus, maximul posibil fiind +1,00.
2.6. Corelaţia item – scor total al testului
Tehnica corelării item – scor total al testului constă în calculul corelaţiei dintre fiecare
item şi scorul total obţinut de aceiaşi subiecţi la întregul test. Sunt păstraţi acei itemi care au
corelaţii semnificative cu scorul global al testului. Ceilalţi itemi, cu coeficienţi mici, sunt
consideraţi a fi nesiguri, aleatori sau depinzând de alt criteriu intern decât cel măsurat
(Martin, 2007, p.175).
Deoarece, de cele mai multe ori, itemii comportă răspunsuri dihotomice (0-1, corect-
incorect), se utilizează metoda coeficienţilor de corelaţie biseriali – r bis
Presupunem următorul demers pentru primul item al unui test, la care au răspuns 113
subiecţi, 59 cu răspunsuri corecte, 54 cu răspunsuri greşite.
Test/Item 0 1 2 3 4 5 6 7 8 9 10
1 0 1 0 3 5 10 16 14 6 3 1 59
0 1 3 4 7 13 12 9 4 2 - - 54
Total 1 4 4 10 18 22 25 18 8 3 1 113
7
proporţia subiecţilor cu rezolvări corecte p = 59 = 0,52
113
proporţia subiecţilor cu rezolvări incorecte q = 54 = 0,48

113
m' – m''
rbis = x √pq
σ
unde:
m' = media la întregul test a celor cu reuşită la itemul analizat,
359
m' = = 6,08
59
m'' = media la întregul test a celor cu nereuşită la itemul analizat,
m'' = 241 = 4,46

54
σ = abaterea standard a tuturor scorurilor la test,
σ = 1,88
rădăcina pătrată din pq = 0,49
astfel,
rbis = 6,08 – 4,46 x 0,49 = 0,43

1,88
Mai există o metodă pentru calculul corelaţiei item-test. Ea constă în dihotomizarea

eşantionului după scorul total la test. Se constituie un grup din cei mai buni 27% şi altul din
cei mai slabi 27%, ignorând subiecţii situaţi în zona mediană, adică cei 46%.
Fiecare item este corelat cu cele 2 grupuri extreme. Procedura este aplicabilă în
situaţiile în care relaţia dintre item şi scorul global la test este lineară.
În urma analizei de itemi, itemii vor fi clasificaţi în (Martin, 2007, p.177):

1. itemi prea uşori, rezolvaţi de ansamblul subiecţilor;
2. itemi prea dificili, rezolvaţi de prea puţini subiecţi, şi uneori la întâmplare;
3. itemi discriminativi, rezolvaţi corect de subiecţii care au un scor global la test
ridicat.
3. Teoria clasică privind construcţia testelor psihologice
Teoria clasică a constuţiei testelor (Classical Test Theory – CTT) a dominat practic
cea mai mare parte a secolului XX. Ea se bizuie pe evaluarea dificultăţilor itemilor şi pe
corelaţia dintre scorul la fiecare item şi scorul total la test în vederea obţinerii unei consistenţe
interne a testului cât mai ridicate şi pentru eliminarea erorii întâmplătoare în răspunsul dat de
subiecţii eşantionului normativ la itemi.
În construcţia unui test psihologic este comparată distribuţia scorurilor la fiecare item
cu distribuţia teoretică, păstrarea sau eliminarea din test a unui item efectuându-se pe acest
8
temei.
Potrivit acestei teorii, în construcţia unui test trebuie urmate 5 etape (Martin, 2007,
p.188):
1. Redactarea itemilor. Acest proces trebuie efectuat în lumina unei anume
teorii a procesului psihic evaluat şi printr-o clară definire a constructelor care urmează a fi
măsurate.
Se obişnuieşte să fie redactat un număr dublu de itemi, faţă de numărul din care va fi
compus testul respectiv.
În cadrul acestei etape se pretestează instrumentul pe un eşantion aşa-zis de calibrare,
care trebuie să fie reprezentativ pentru populaţia căruia i se adresează testul şi suficient de
mare pentru a permite efectuarea anumitor statistici.
2. Selecţia itemilor care vor fi păstraţi în test. Se realizează pe baza analizei de
fidelitate, care constă în calcularea corelaţiei dintre scorul la item şi scorul total la test. Vor fi
păstraţi itemii cu corelaţiile cele mai înalte pentru a mări consistenţa internă a testului şi a
micşora eroarea standard a măsurătorii.
3. Obţinerea formei dorite a curbei de distribuţie a scorului total. Indicele de
dificultate a fiecărui item va fi utilizat pentru a elimina sau introduce în test acei itemi pentru
care curba distribuţiei scorului total la test va avea forma dorită.
4. Construirea formei paralele a testului. Se procedează urmând etapele
descrise mai sus, cu deosebirea că itemii vor fi ierarhizaţi în ordinea descrescătoare a
dificultăţii lor. Se aleg perechi de itemi cu aceeaşi dificultate şi cu aceeaşi corelaţie la scorul
total, unul fiind repartizat testului, iar celălalt formei paralele.
Principalele limite ale acestei metode sunt (Martin, 2007, p.189):
➔ statisticile sale sunt dependente de caracteristicile eşantionului;
➔ slabă validitate ecologică, scăzută posibilitate de generalizare a validităţii;
➔ precizia testului dată de eroarea standard a măsurătorii este determinată de
media tuturor nivelurilor caracteristicii psihocomportamentale măsurate şi nu pentru fiecare
nivel, aşa cum este cazul teoriei răspunsului la item.
4. Teoria răspunsului la itemi (IRT)
Scopul celor 2 teorii (CTT şi IRT) este de a oferi o bază metodologică pentru a
construi un număr de itemi care să măsoare diferite faţete ale unei anumite trăsături, cum ar
fi, de exemplu, inteligenţa.
Cele 2 teorii se deosebesc tranşant privitor la modul cum valorifică şi interpretează
datele obţinute prin administrarea acestor itemi unui anumit eşantion de subiecţi.
CTT se interesează de suma scorurilor unui individ la toţi itemii testului. Se
procedează la o anumită agregare, într-un rezultat unic, a scorurilor obţinute la fiecare item în
parte. IRT se interesează de răspunsul dat de subiecţi la fiecare item separat.
IRT are la bază următoarele 3 postulate (Minulescu, 2003, p.126):
1. comportamentul unui subiect la un item al unui test poate fi prezis cu ajutorul
unui set de factori, denumiţi trăsături lantente (orice construct inobservabil, presupus
continuu, despre care o teorie psihologică afirmă că deosebeşte persoanele între ele, poate fi
privit ca factor, iar fiecărui factor i se asociază o variabilă cu valori numerice între minus
infinit şi plus infinit, denumită variabilă latentă;
2. putem afirma existenţa unui factor doar după ce se observă că răspunsurile la
itemii prin care se doreşte măsurarea constructului, covariază;
3. relaţia dintre performanţa la item a subiecţilor şi fiecare dintre trăsăturile care
au legătură cu performanţa poate fi descrisă prin câte o funcţie crescătoare, denumită funcţie
9
caracteristică a itemului sau curba caracteristică a itemului. Curba indică cum depinde
probabilitatea de a răspunde corect la item de nivelul trăsăturii.
Operarea cu variabile latente presupune următoarea procedură în 3 etape (Minulescu,
2003, p.126):
1. definirea variabilei latente în termeni operaţionali sau construirea variabilei.
Acest pas cere identificarea acelor diferenţe individuale care fac posibilă reprezentarea
fiecărui individ printr-un punct, pe axa reală (variabilă unidimensională). Dacă reprezentarea
cere utilizarea unui spaţiu cu mai multe dimensiuni, variabila este multidimensională;
2. definirea situaţiilor controlabile (crearea cadrului de observaţii). Situaţiile
sunt reprezentate de itemii testului, iar rezultatul observaţiilor este exprimat numeric prin
scorul la test;
3. alegerea modelului matematic pentru obţinerea variabilei latente, pe baza
valorilor variabilelor. Modelul matematic ales trebuie să transforme o mulţime discretă în
mulţimea numerelor reale. Variabilele latente apar în 2 tipuri de modele prin care sunt
reprezentate legăturile dintre variabilele psihologice:
● modele care măsoară cauzele unde se presupune că variabila latentă este cauza
variaţiilor observate;
● modele care măsoară efectele care presupun că variabila latentă este cauzată de
variabilele observate.
10

C5 - Construirea Si Experimentarea Testelor

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

C5 - Construirea Si Experimentarea Testelor

Încărcat de

Drepturi de autor:

Formate disponibile

CURSUL 5

CONSTRUIREA ŞI EXPERIMENTAREA TESTELOR

1. Cerinţe: paşii standard în elaborarea unui test

1. Cerinţe: paşii standard în elaborarea unui test

2.1. Ce este analiza de itemi

Analiza de itemi are ca obiectiv de bază descifrarea mecanismelor cognitive

2.2. Relaţia itemului cu testul

Testul cuprinde un anumit număr de itemi şi urmăreşte să măsoare o anumită însuşire

2.3. Gradul de dificultate al itemului

p = Nr. răspunsuri corecte la item

Deoarece dificultatea itemul exprimată în funcţie de curba normală, ce presupune

2.4. Puterea distractorului

La mai multe categorii de teste se foloseşte, referitor la modul de răspundere la item,

PDA = Nr. subiecţi ce răspund incorect la item

pU = Nr. răspunsuri corecte în grupul superior

Interval valoric al lui D Interpretarea discriminării

De la 0,40 şi mai mult Discriminare foarte bună

De la 0,30 la 0,39 Discriminare bună

De la 0,20 la 0,29 Discriminare slabă

De la 0,10 la 0,19 Discriminare de limită

Sub 0,10 Fără utilitate

2.6. Corelaţia item – scor total al testului

proporţia subiecţilor cu rezolvări incorecte q = 54 = 0,48

m'' = media la întregul test a celor cu nereuşită la itemul analizat,

m'' = 241 = 4,46

rădăcina pătrată din pq = 0,49

rbis = 6,08 – 4,46 x 0,49 = 0,43

Mai există o metodă pentru calculul corelaţiei item-test. Ea constă în dihotomizarea

În urma analizei de itemi, itemii vor fi clasificaţi în (Martin, 2007, p.177):

3. Teoria clasică privind construcţia testelor psihologice

4. Teoria răspunsului la itemi (IRT)

S-ar putea să vă placă și