Documente Academic
Documente Profesional
Documente Cultură
__________________________________________________________________
Modulul M1. Unitatea de învăţare 3
DIFICULTATEA ŞI SENSIBILITATEA UNUI TEST PSIHOLOGIC
_________________________________________________________________
Cuprins
U1.1. Introducere ........................................................................................................... 40
U1.2. Competenţe .......................................................................................................... 40
U1.3. Dificultatea testelor .............................................................................................. 41
U1.4. Sensibilitatea testelor ........................................................................................... 41
U1.5. Construcţia unui test psihologic ........................................................................... 45
U1.6. Rezumat ............................................................................................................... 47
U1.7. Test de autoevaluare a cunoştinţelor .................................................................... 48
U1.1. Introducere
Aplicarea unui test psihologic sau educaţional ridică o problemă tehnică foarte
importantă şi anume dacă el este adecvat, ca şi grad de dificultate, populaţiei sau
grupului respectiv. Dacă este prea uşor, majoritatea scorurilor la test vor fi mari şi
curba rezultată, în formă de „j”, va fi asimetrică spre dreapta; dacă va fi prea greu,
curba în formă de „i” va fi asimetrică spre extrema stângă. Se apreciază că testul
este adecvat unei populaţii doar în cazul în care repartiţia scorurilor sale este
simetrică, generând o curbă de tip gaussian.
Problema dificultăţii unui test se pune şi în funcţie de tipul acestuia. Dacă el este
un test de aptitudini, capacităţi, deprinderi sau cunoştinţe, această problemă este
mult mai relevantă decât pentru testele de personalitate sau chestionarele de opinii,
atitudini, interese, valori, caz în care termenul de dificultate ar putea fi înlocuit cu
cel de accesibilitate.
U1.2. Competenţe
După parcurgerea acestei unităţi cursanţii vor fi capabili:
să pună în relaţie forma distribuţiei scorurilor unor probe psihologice cu
dificultatea testului;
să facă conexiunea dintre scopul testării şi nivelul de dificultate optim al unui test
sau baterii de teste;
să definească conceptual de sensibilitate a unui test şi să îl pună în legătură cu
forma distribuţiei;
să identifice şi să analizeze rolul lungimii testului, a manierei sale de scorare şi a
BTE Curs 5
(Cifrele, Labirinturile), discriminează grosier pe anumite porţiuni ale scalei, la anumite vârste,
din cauza numărului mic de itemi care le compun.
Subtestul Cuburilor, o foarte validă expresie a inteligenţei concret-spaţiale, compus din
10 pattern-uri ce pot da (în forma iniţială) 55 de puncte de scor, are un prag înalt de intrare în
probă la vârstele mici (5-6 ani), unde nu distinge fin performanţa vizuo-spaţială a celor cu
coeficienţi de inteligenţă mai mici de 80, şi un prag jos la vârste mari (peste 13 ani), unde nu
mai distinge bine supradotaţii (IQ > 125/130). Pentru bateria WISC, combinarea optimă a celor
două caracteristici (dificultatea cu sensibilitatea) se face pentru vârstele de 11-13 ani, unde
subtestele care o compun au cea mai mare forţă discriminativă şi deci cele mai bune calităţi
psihometrice (Zimmerman şi Woo-Sam, 1973). În mod similar, testul PM 38 (Matricile
Progresive Standard ale lui Raven) are un prag înalt de intrare în probă la 5-6 ani şi unul jos
după vârsta de 14 ani, deci nu distinge bine insuficienţa ori supradotarea mintală, la vârstele
mici, respectiv mari.
Să ne reamintim...
Sensibilitatea testelor depinde de mulţi factori, dintre care amintim:
Numărul itemilor: progresiv cu creşterea sa se creează posibilitatea
creşterii numărului de clase de scor. Numărul maxim de clase de scor este
chiar numărul de itemi, atunci când ei nu sunt echivalenţi sau intercorelaţi.
Dacă luăm exemplul testelor de inteligenţă, acestea ar trebui să măsoare IQ-
uri de la 40 la 160, având o lungime a amplitudinii scorurilor (cea care
trebuie să acopere întreg spectrul de variaţie) de 120 de unităţi. Dacă
subtestul are 40 de itemi, înseamnă că cea mai fină rezoluţie este de 3
unităţi de IQ pentru un item; dacă am avea, ca la subtestul Cifre, 8 itemi
pentru prezentarea directă şi 7 pentru prezentarea inversă, înseamnă că 120/
(8+7) = 8, deci fiecare item acoperă 8 unităţi de IQ. Aceasta înseamnă o
discriminare grosieră, căci orice eroare de aplicare are consecinţe însemnate
asupra scorului la acest subtest. Pe de altă parte, este aproape imposibil a
genera un test cu sensibilitate maximă (un punct de IQ să fie dat de câte un
item separat), nu numai din cauza extensiei amplitudinii împrăştierii la 120
de unităţi, dar şi datorită numărului de vârste distincte pe care testul trebuie
să le acopere (de la 5 la 16 ani sunt 12 vârste successive ce trebuie
evaluate). Aceasta ar da subteste neobişnuit de lungi şi de greu aplicabile
(nemaniabile). De aceea, teste de inteligenţă cu o rezoluţie de până la 5
unităţi de IQ pentru un item sunt încă acceptabile, deşi cele mai bune valori
ale discriminării sunt cele cuprinse între 2 şi 3.
BTE Curs 5
Exemplu
Cum dificultatea şi sensibilitatea unui test depind de mărimea şi de
caracteristicile lotului particular de subiecţi cărora li se aplică testul, înseamnă
că este necesar să se determină valorile tendinţei centrale ale populaţiei
respective. Aceasta oferă o imagine privitoare la gradul de suprapunere a lotului
testat cu eşantionul normativ, prezentat de manualul testului. Când media
grupului testat este semnificativ diferită de cea a eşantionului normativ din
manual înseamnă că testul este prea uşor sau prea greu, iar concluziile trase prin
raportarea valorilor brute la etalon pot fi distorsionate sau chiar greşite. Dacă
abaterea standard indică o valoare mult diferită (mai mică sau mai mare decât
cea a lotului normativ), înseamnă că lotul testat este fie prea omogen, fie prea
eterogen în raport cu eşantionul normativ. În prima situaţie forţa de discriminare
BTE Curs 5
a testului este mai scăzută, în a doua mai ridicată, dar în ambele situaţii va
trebui avută în vedere construcţia unui etalon mai adecvat populaţiei respective.
„Trebuie observat că nici un test nu poate fi atât de sensibil încât totdeauna, două
persoane deosebite în privinţa variabilei măsurate de test să obţină scoruri diferite”, afirmă Albu
(1998, p. 189). Aceasta pentru că, în timp ce trăsăturile psihice sunt variabile continue, scorurile
la test sunt variabile discontinue şi de aceea o corespondenţă biunivocă între variabila testată şi
scorul la test este un fapt imposibil de realizat practic. Scorul la test fiind afectat de diverse tipuri
de erori (generate de testul însuşi, de subiect, de examinator sau de situaţia de examinare), este
posibil ca aceeaşi variabilă, măsurată la acelaşi individ, să aibă mai multe valori de scor. Întrucât
performanţa la un test se raportează la un număr de intervale mai mic decât numărul valorilor de
scor pe care el le poate înregistra, înseamnă că indivizii plasaţi pe acelaşi interval de scor nu sunt
discriminaţi. Deci un test va fi cu atât mai discriminativ cu cât va separa mai bine indivizii ce
prezintă diferenţe mai mici în privinţa variabilei măsurate.
Revizuirea şi redactarea
itemilor
U1.6. Rezumat
Analiza unui test se poate face la nivel molar (global) sau la nivel molecular
(analiza itemilor testului).
La nivel global se are în vedere determinarea dificultăţii şi sensibilităţii unui test
care măsoară aptitudini, capacităţi, priceperi, deprinderi sau cunoştinţe.
Pentru chestionare (de interese, opinii, valori sau atitudini) problema dificultăţii
nu se pune, acestea trebuind să aibă o largă accesibilitate.
Dificultatea testului cuplează caracteristicile sale intrinsece, care ţin de conţinut,
cu cele extrinsece, care ţin de populaţia şi de scopul testării.
Dificultatea testului se determină prin tipul de curbă care rezultă din aplicarea sa
pe populaţia ţintă.
Sensibilitatea unui test este sinonimă cu puterea sa de discriminare şi este
definită prin numărul claselor de scor pe care le poate produce în interiorul unei
distribuţii de scoruri.
Sensibilitatea unui test depinde de trei factori esenţiali: de numărul itemilor, de
maniera de scorare a testului şi de tipul de norme utilizat în etalonarea sa.
Astfel, un test cu mai mulţi itemi gradaţi ca dificultate, poate produce mai multe
clase de scor, fiind deci mai sensibil.
Maniera de scorare poate capta mai mult sau mai puţin din variabilitatea
performanţelor la test. Este de preferat să se utilizeze acea manieră de scorare
care, fără a fi complicată, nu produce pierdere de variabilitate.
Timpul de lucru şi bonusurile de viteză, de precizie, de calitate sau alte elemente
pot furniza maniere de scorare mai mult sau mai puţin discriminative.
Opţiunea pentru un anumit tip de scală poate fi foarte importantă: scalele cu
număr mic de trepte reduc din variabilitate, iar cele foarte discriminative
reclamă un număr prea mare de itemi.
Sunt preferabile scalele care realizează cel mai bun echilibru între aceste
constrângeri şi cele care integrează cel mai bine itemii unei baterii.
Deoareace dificultatea şi sensibilitatea testelor depinde de conţinutul lor
intrinsec, conjugat cu caracteristicile populaţiei ţintă şi cu scopul testării, este de
dorit să se compare tendinţele centrale ale acestei populaţii cu valorile lotului
normativ publicate de manualul testului.
Deşi rezervată experţilor, construcţia unui test este o secvenţă circulară de faze
ale unui algoritm ce debutează cu identificarea constructului de măsurat, cu
operaţionalizarea sa, cu redactarea formei iniţiale a testului şi cu pilotarea sa,
pentru a continua cu analiza şi selecţia itemilor în funcţie de calităţile lor
psihometrice, cu stabilirea formatului final al testului şi standardizarea sa, cu
BTE Curs 5