Bazele Teoretice Ale Evaluarii Psihologice - Curs 5 Dificultatea Și Sensibilitatea Testelor

BTE Curs 5
__________________________________________________________________
Modulul M1. Unitatea de învăţare 3
DIFICULTATEA ŞI SENSIBILITATEA UNUI TEST PSIHOLOGIC
_________________________________________________________________
Cuprins
U1.1. Introducere ........................................................................................................... 40
U1.2. Competenţe .......................................................................................................... 40
U1.3. Dificultatea testelor .............................................................................................. 41
U1.4. Sensibilitatea testelor ........................................................................................... 41
U1.5. Construcţia unui test psihologic ........................................................................... 45
U1.6. Rezumat ............................................................................................................... 47
U1.7. Test de autoevaluare a cunoştinţelor .................................................................... 48
U1.1. Introducere
Aplicarea unui test psihologic sau educaţional ridică o problemă tehnică foarte
importantă şi anume dacă el este adecvat, ca şi grad de dificultate, populaţiei sau
grupului respectiv. Dacă este prea uşor, majoritatea scorurilor la test vor fi mari şi
curba rezultată, în formă de „j”, va fi asimetrică spre dreapta; dacă va fi prea greu,
curba în formă de „i” va fi asimetrică spre extrema stângă. Se apreciază că testul
este adecvat unei populaţii doar în cazul în care repartiţia scorurilor sale este
simetrică, generând o curbă de tip gaussian.
Problema dificultăţii unui test se pune şi în funcţie de tipul acestuia. Dacă el este
un test de aptitudini, capacităţi, deprinderi sau cunoştinţe, această problemă este
mult mai relevantă decât pentru testele de personalitate sau chestionarele de opinii,
atitudini, interese, valori, caz în care termenul de dificultate ar putea fi înlocuit cu
cel de accesibilitate.
U1.2. Competenţe
După parcurgerea acestei unităţi cursanţii vor fi capabili:
 să pună în relaţie forma distribuţiei scorurilor unor probe psihologice cu
dificultatea testului;
 să facă conexiunea dintre scopul testării şi nivelul de dificultate optim al unui test
sau baterii de teste;
 să definească conceptual de sensibilitate a unui test şi să îl pună în legătură cu
forma distribuţiei;
 să identifice şi să analizeze rolul lungimii testului, a manierei sale de scorare şi a
BTE Curs 5
tipului de norme utilizate în problema sensibilităţii testelor;

 să analizeze corelativ problema sensibilităţii şi dificultăţii unui test;
 să prezinte etapele şi specificul fiecărei etape din construcţia unui test.
Durata medie de parcurgere a fiecăreia din cele patru unităţi de învăţare,
incluzând rezolvarea sarcinilor propuse şi a temelor de evaluare, este de 4 ore.
U1.3. Dificultatea unui test

Dificultatea testului depinde simultan de conţinutul său, ca şi de particularităţile
subiecţilor investigaţi, ceea ce face ca în construirea unui asemenea instrument să existe o fază
iniţială (definirea testului, crearea băncii de itemi şi construirea unei variante preliminare a
acestuia), o fază intermediară (administrarea testului, analiza rezultatelor obţinute şi, prin analiza
de itemi, depistarea erorilor, corectarea, reelaborarea, selectarea şi ordonarea itemilor) şi o fază
finală constând din creararea normelor, a etaloanelor şi elaborarea manualului testului (vezi
Albu, 1998, p. 199).
Dacă testele de aptitudini şi de cunoştinţe aplicate adulţilor iau în considerare un proces
încheiat, variabilitatea fiind dată mai ales de studii, profesie sau sex, cele mai multe teste de
inteligenţă, memorie, aptitudini speciale şi cunoştinţe, aplicate copiilor sau adolescenţilor, au în
factorul vârstă cea mai importantă sursă de variabilitate. În acest sens, elementele de dificultate
ale testului trebuie să evolueze paralel cu vârsta (să aibă indice genetic, după expresia lui
Claparède), în cadrul fiecărei vârste el trebuind să aibă o cât mai bună acoperire a spectrului
domeniului investigat. Aceasta trimite la puterea de discriminare a testului, adică la sensibilitatea
lui.
Un test este uşor sau greu în situaţia când unităţile lui, fiind foarte puternic corelate între
ele (test omogen), creează posibilitatea ca majoritatea itemilor să fie rezolvaţi ori corect, ori
greşit, ceea ce va da curbe asimetrice spre dreapta sau spre stânga. Există şi posibilitatea ca
populaţia să cuprindă două grupuri distincte, care vor produce scoruri polarizate după o curbă
bimodală (cu două „cocoaşe”), ca în cazul testelor dihotomice: masculinitate-feminitate,
extraversiune-introversiune, stabilitate-instabilitate emoţională. Multe teste de selecţie
profesională nu urmăresc ierarhizarea de fineţe a persoanelor, ci „ruperea grupului” în categorii
extreme: apt-inapt, admis-respins, capabil-incapabil. Aici testele folosite vor fi mai mult centrate
pe dificultate (mică, medie, mare) şi mai puţin pe sensibilitate sau pe putere de discriminare.
Aplicate la începutul sau la sfârşitul unui proces de formare, acelaşi test poate poate avea o curbă
iniţială în formă de „i” (când deprinderea încă nu există), în formă de „j” (când în final aceasta s-
a cristalizat pentru majoritatea subiecţilor), între care se interpune o repartiţie normală, simetrică,
pentru perioada intermediară.
BTE Curs 5
Trasaţi curbele de distribuţie ale rezultatelor unui test de performanţă în faza

iniţială, intermediară şi finală a formării deprinderii măsurate şi explicaţi care
este elementul de legătură dintre forma curbei şi faza în care este aplicat testul.
U1.4. Sensibilitatea unui test

Asemenea lentilelor, a căror calitate depinde în principal de puterea lor de separaţie
(numărul de linii independente discriminate pe o suprafaţă de un centimetru pătrat), sau a
balanţelor de fineţe, ca cele analitice, capabile să dea subdiviziuni din ce în ce mai fine şi
continue până la a cincea zecimală, caz în care se spune că sunt foarte sensibile, testele
psihologice au această caracteristică în funcţie de numărul claselor de scor pe care le pot delimita
în interiorul unui grup. Cu cât numărul valorilor de scor este mai mare, cu atât mai bine testul
discriminează (diferenţiază) între indivizi.
În afara acestei accepţiuni, Kline (1993) leagă sensibilitatea unui test de capacitatea sa de
a produce scoruri diferite pentru subiecţii care diferă între ei în ce priveşte caracteristica
măsurată. Deoarece sensibilitatea conjugă caracteristicile testului cu cele ale populaţiei măsurate,
vom remarca faptul că testele mai lungi, cu itemi mai bine gradaţi ca dificultate sunt mai
sensibile, pentru că ele produc mai multe clase, şi deci mai multe valori ale scorurilor posibile.
Prin contrast, testele scurte sau cu itemi foarte omogeni ca grad de dificultate, generează mai
degrabă categorii de scor dihotomice, foarte contrastante, fiind puţin discriminative. Depinzând
de forma repartiţiei pe care o dă scorurilor sale, testul cu curbe atipice (în i, j sau bimodală) sunt
mai puţin sensibile în zonele de mare aglomerare a scorurilor şi mai sensibile în rest. Curba lui
Gauss este tot mai discriminativă spre extreme, şi tot mai puţin sensibilă pe porţiunea sa centrală,
unde aglomerarea rezultatelor produce un număr mai mic de scoruri.
Există o legătură foarte puternică între dificultatea unui test şi sensibilitatea sa. La fel
cum în fotografie filmele foarte sensibile (care se impresionează la cantităţi mici de lumină)
plătesc un preţ în ceea ce priveşte calitatea imaginilor (mai puţin nete, deoarece imaginea este
tradusă pe peliculă prin grupuri mai mari de puncte), sau la fel ca în metrologie, unde balanţa
analitică îşi dovedeşte utilitatea pentru greutăţile mici, dar nu şi pentru kilograme sau tone,
testele psihologice trebuie să stabilească un raport optim între dificultate şi sensibilitate.
Sensibilitatea presupune, pe de o parte, o cât mai bună acoperire a domeniului de conţinut
al variabilei, pentru care testul trebuie să aibă grade diferite ale dificultăţii, pe de altă parte -
discriminarea de fineţe la nivelul fiecărui palier de dificultate considerat. Pentru a exemplifica,
bateria de inteligenţă WISC este operaţională de la 5-6 ani la 17-18 ani, pentru fiecare an
furnizându-se etaloane din 4 în 4 luni. Dar, în timp ce anumite subteste ale bateriei (Informaţii,
Comprehensiune) produc un larg evantai de scoruri, încât etaloanele nu au „goluri”, alte subteste
BTE Curs 5
(Cifrele, Labirinturile), discriminează grosier pe anumite porţiuni ale scalei, la anumite vârste,
din cauza numărului mic de itemi care le compun.
Subtestul Cuburilor, o foarte validă expresie a inteligenţei concret-spaţiale, compus din
10 pattern-uri ce pot da (în forma iniţială) 55 de puncte de scor, are un prag înalt de intrare în
probă la vârstele mici (5-6 ani), unde nu distinge fin performanţa vizuo-spaţială a celor cu
coeficienţi de inteligenţă mai mici de 80, şi un prag jos la vârste mari (peste 13 ani), unde nu
mai distinge bine supradotaţii (IQ > 125/130). Pentru bateria WISC, combinarea optimă a celor
două caracteristici (dificultatea cu sensibilitatea) se face pentru vârstele de 11-13 ani, unde
subtestele care o compun au cea mai mare forţă discriminativă şi deci cele mai bune calităţi
psihometrice (Zimmerman şi Woo-Sam, 1973). În mod similar, testul PM 38 (Matricile
Progresive Standard ale lui Raven) are un prag înalt de intrare în probă la 5-6 ani şi unul jos
după vârsta de 14 ani, deci nu distinge bine insuficienţa ori supradotarea mintală, la vârstele
mici, respectiv mari.
Să ne reamintim...
Sensibilitatea testelor depinde de mulţi factori, dintre care amintim:
 Numărul itemilor: progresiv cu creşterea sa se creează posibilitatea
creşterii numărului de clase de scor. Numărul maxim de clase de scor este
chiar numărul de itemi, atunci când ei nu sunt echivalenţi sau intercorelaţi.
Dacă luăm exemplul testelor de inteligenţă, acestea ar trebui să măsoare IQ-
uri de la 40 la 160, având o lungime a amplitudinii scorurilor (cea care
trebuie să acopere întreg spectrul de variaţie) de 120 de unităţi. Dacă
subtestul are 40 de itemi, înseamnă că cea mai fină rezoluţie este de 3
unităţi de IQ pentru un item; dacă am avea, ca la subtestul Cifre, 8 itemi
pentru prezentarea directă şi 7 pentru prezentarea inversă, înseamnă că 120/
(8+7) = 8, deci fiecare item acoperă 8 unităţi de IQ. Aceasta înseamnă o
discriminare grosieră, căci orice eroare de aplicare are consecinţe însemnate
asupra scorului la acest subtest. Pe de altă parte, este aproape imposibil a
genera un test cu sensibilitate maximă (un punct de IQ să fie dat de câte un
item separat), nu numai din cauza extensiei amplitudinii împrăştierii la 120
de unităţi, dar şi datorită numărului de vârste distincte pe care testul trebuie
să le acopere (de la 5 la 16 ani sunt 12 vârste successive ce trebuie
evaluate). Aceasta ar da subteste neobişnuit de lungi şi de greu aplicabile
(nemaniabile). De aceea, teste de inteligenţă cu o rezoluţie de până la 5
unităţi de IQ pentru un item sunt încă acceptabile, deşi cele mai bune valori
ale discriminării sunt cele cuprinse între 2 şi 3.
BTE Curs 5
 Maniera de scorare a testelor este altă modalitate importantă de creştere a

sensibilităţii testelor. La subtestul Cuburilor din bateria WISC, se dau 4
puncte pentru pattern-ul rezolvat corect şi încă maximum 3 puncte drept
bonificaţie de timp, rezultând maximum 7 puncte per pattern corect rezolvat
şi 55 de puncte în total. Deoarece rezolvările parţial corecte nu se iau în
considerare, rezultă că o bună parte din variabilitatea scorurilor la această
probă se pierde inutil. Îmbunătăţirea sistemului de scorare, prin acordarea
unui punct pentru fiecare cub cu o culoare omogenă (roşu sau alb) pus în
locul potrivit, şi încă a unui punct pentru feţele bicolore (roşu şi alb) care
respectă nu numai locul, ci şi poziţia relativă (înclinarea diagonalei), ar
putea duce la dublarea ambitusului scorurilor posibile şi deci la dublarea
forţei discriminative a testului. Adăugarea a încă doi itemi (unul foarte uşor,
pentru intrarea în probă şi unul foarte greu, pentru a ridica pragul de ieşire
din probă), reconsiderarea timpului de aplicare şi al manierei de acordare a
bonificaţiilor de timp ar fi alte două surse posibile de mărire a sensibilităţii
testului. Trebuie făcută menţiunea că toate aceste modificări ale modului de
scorare au ca efect reluarea de la zero a problemelor de construcţie, de
etalonare, de determinare a validităţii şi fidelităţii probei, pentru că aceasta
înseamnă crearea unui test nou, ce trebuie studiat ca atare.
 Tipul de norme utilizate în etalonare este a treia caracteristică ce poate
contribui la ameliorarea semnificativă a sensibilităţii unui test. Selecţia
tipului de norme depinde de precizia dorită în utilizarea testului. Dacă la
normele exprimate în centile se poate determina în principiu fiecare punct
percentil (caz foarte rar, pentru că testul ar trebui să fie foarte lung şi
eşantionul foarte extins), sau măcar punctele decile, la care se mai adaugă
percentilele 3, 5, 25, 75, 95 şi 97, dezavantajul constă în inegalitatea
unităţilor de măsură (mai mici pe porţiunea centrală a seriei de variaţie şi
mai lungi spre extremele acesteia). În consecinţă, rezultatele unei baterii de
teste etalonate în centile nu pot fi adunate pentru a fi integrate într-un scor
unic, prin determinarea mediei. Cuartilele dau o împărţire şi mai grosieră (4
clase), foarte largă, nepermiţând discriminările de fineţe. Testele moderne
sunt etalonate în note z (standardizate), sau în norme derivate din acestea,
cum sunt notele C, T, Hull, stanine, stens etc. Dintre acestea, pentru
chestionarele de personalitate foarte utilizate sunt notele T (cu media de 50
şi abaterea standard de 10). Pentru testele de inteligenţă foarte utilizate sunt
scalele de IQ, ce au media de 100 şi abaterea standard de 15 sau 16. Ca
regulă generală menţionăm că, cu cât o scală va avea mai puţine intervale
BTE Curs 5
(11, 10, 7, 5, 3), cu atât mai mare va fi pierderea de varianţă, consecinţa

fiind scăderea sensibilităţii testului. Dacă un test de memoria cuvintelor este
etalonat în stanine şi stanina 5, la 10 ani, corespunde scorurilor 48-52,
înseamnă că diferenţa de performanţă de 5 puncte dintre subiecţi este
practic anulată. Fie că scorul este 48, 49, 50, 51 sau este 52, se obţine
aceeaşi stanină 5, sensibilitatea discriminării având de suferit. Aceasta nu
înseamnă însă că scalele cu mai puţine intervale nu sunt foarte utile în
practică: multe baterii au subteste foarte diferite ca putere de discriminare şi
atunci se alege o scală cu 9-10-11 trepte standardizate (stanine, stens sau
note C), care integrează bine toate subtestele bateriei. În plus, unii psihologi
s-au acomodat mai bine cu proprietăţile matematice ale unui tip de scală şi
îl preferă în virtutea obişnuinţei. Esenţialmente acordajul dintre scorurile la
test şi gradul de extensie al scalei utilizate trebuie să ne conducă la alegerea
unor scale foarte discriminative, atunci când testul are mai mulţi itemi
(peste 30-40) eterogeni, nu din punctul de vedere al conţinutului sau al
performanţei măsurate, ci al gradului de dificultate. Testele ce acoperă mai
multe vârste, diferenţiate între ele prin performanţe ce au ambitusul
amplitudinii împrăştierii mare (între 40 şi 160 la testele de inteligenţă) au
nevoie de scale discriminative. Pentru scopuri practice, dar şi de cercetare,
celelalte teste pot fi normate pe scale mai puţin extinse, chiar dacă aceasta
înseamnă o scădere a puterii discriminative a testului în cauză. Pentru
subtestele bateriilor sale de inteligenţă Wechsler a optat pentru o scală
standardizată în 19 trepte, cu o abatere standard de 3, care integrează bine
aceste subteste.
Exemplu
Cum dificultatea şi sensibilitatea unui test depind de mărimea şi de
caracteristicile lotului particular de subiecţi cărora li se aplică testul, înseamnă
că este necesar să se determină valorile tendinţei centrale ale populaţiei
respective. Aceasta oferă o imagine privitoare la gradul de suprapunere a lotului
testat cu eşantionul normativ, prezentat de manualul testului. Când media
grupului testat este semnificativ diferită de cea a eşantionului normativ din
manual înseamnă că testul este prea uşor sau prea greu, iar concluziile trase prin
raportarea valorilor brute la etalon pot fi distorsionate sau chiar greşite. Dacă
abaterea standard indică o valoare mult diferită (mai mică sau mai mare decât
cea a lotului normativ), înseamnă că lotul testat este fie prea omogen, fie prea
eterogen în raport cu eşantionul normativ. În prima situaţie forţa de discriminare
BTE Curs 5
a testului este mai scăzută, în a doua mai ridicată, dar în ambele situaţii va
trebui avută în vedere construcţia unui etalon mai adecvat populaţiei respective.
„Trebuie observat că nici un test nu poate fi atât de sensibil încât totdeauna, două
persoane deosebite în privinţa variabilei măsurate de test să obţină scoruri diferite”, afirmă Albu
(1998, p. 189). Aceasta pentru că, în timp ce trăsăturile psihice sunt variabile continue, scorurile
la test sunt variabile discontinue şi de aceea o corespondenţă biunivocă între variabila testată şi
scorul la test este un fapt imposibil de realizat practic. Scorul la test fiind afectat de diverse tipuri
de erori (generate de testul însuşi, de subiect, de examinator sau de situaţia de examinare), este
posibil ca aceeaşi variabilă, măsurată la acelaşi individ, să aibă mai multe valori de scor. Întrucât
performanţa la un test se raportează la un număr de intervale mai mic decât numărul valorilor de
scor pe care el le poate înregistra, înseamnă că indivizii plasaţi pe acelaşi interval de scor nu sunt
discriminaţi. Deci un test va fi cu atât mai discriminativ cu cât va separa mai bine indivizii ce
prezintă diferenţe mai mici în privinţa variabilei măsurate.
U1.5. Construcţia unui test psihologic

Analiza setului de itemi ai unui test se face nu numai în sensul determinării puterii
discriminative a acestuia, ci şi în contextul mai general al construirii unui test bun. Deoarece
construcţia testelor a devenit în acelaşi timp o ştiinţă şi o artă, ce implică o tradiţie şi experţi în
domeniu, nu vom aborda această problemă complexă, prezentând doar principiile generale care
stau la baza acestei activităţi.
Aşa cum se vede din figura 3.1 de mai jos, elaborarea unui test începe cu decizia
referitoare la ce fel de informaţie dorim să obţinem prin utilizarea sa. Itemii de genul adevărat-
fals vor fi utilizaţi doar când vrem să evaluăm judecăţi absolute, în rest fiind preferabili cei cu
alegeri multiple, care produc mai multă variabilitate a scorurilor. Şi în acest caz constructorul
trebuie să ia în calcul probabilitatea ca cineva să dea răspunsul din întâmplare (prin şansă).
Pentru scalele de atitudini sau de opinii, cel mai popular este formatul dat de scala Likert: între
acordul total şi dezacordul total se pot interpune 3 până la 9 trepte, dintre care treapta
intermediară reprezintă neutralitatea. Un alt format este scala în 10 puncte (metoda scalării
categoriilor) folosită în ratingul unor comportamente, în care punctele de început şi de sfârşit
sunt foarte clar definite. Tehnica Q-Sort, folosită în studiul personalităţii, cere unui subiect să
facă evaluări asupra măsurii în care anumiţi itemi îl descriu pe el sau pe altcineva (a se vedea
capitolul ultim, despre crearea şi statisticile scalelor psihologice). După ce au fost creaţi şi li s-a
stabilit formatul, itemii vor fi administraţi unui grup pentru pilotarea formei iniţiale a testului.
Caracteristicile itemilor vor fi apreciate printr-o evaluare sistematică a dificultăţii şi forţei lor de
discriminare, prin determinarea curbelor caracteristice ale acestora, prin studierea consistenţei
interne sau a validităţii relative la criteriu etc. Abia după aceasta se face definitivarea formei
BTE Curs 5
finale a testului care va fi aplicat, urmând procedurile de standardizare stabilite (condiţii de

aplicare, instructaj, limite de timp şi mod de prelucrare a rezultatelor). Analiza tehnică a testului
(fidelitate, validitate şi etalonare) încheie un ciclu care se poate relua ori de câte ori constructorul
doreşte să-şi perfecţioneze sau să reetaloneze testul, ori să-l îmbunătăţească din punctul de
vedere al fidelităţii sau al validităţii prin eliminarea sau adăugarea de itemi.
Stabilirea scopului testului

STABILIREA SCOPULUI
Exprimarea scopului testului în termeni operaţionali

EXPRIMAREA SCOPULUI ÎN TERMENI OPERAŢIONALI
Definirea conţinutului Definirea unei Analiza muncii pentru

abilităţii măsurate trăsături definirea comportamentelor,
A ABILITĂŢILOR UNEI trăsăturilor şi criteriilor
Def. Comportament
Revizuirea şi redactarea
itemilor
Analiza itemilor (pretest)

Indicatori de dificultate şi sensibilitate
Stabilirea formei finale a testului
Standardizarea procedurii de aplicare,

a instructajului, timpului şi a modului de corectare
Analiza tehnică a testului

(fidelitate, validitate, etalonare)
Figura 3.1. Algoritmul de construire a unui test.

BTE Curs 5
U1.6. Rezumat
 Analiza unui test se poate face la nivel molar (global) sau la nivel molecular
(analiza itemilor testului).
 La nivel global se are în vedere determinarea dificultăţii şi sensibilităţii unui test
care măsoară aptitudini, capacităţi, priceperi, deprinderi sau cunoştinţe.
 Pentru chestionare (de interese, opinii, valori sau atitudini) problema dificultăţii
nu se pune, acestea trebuind să aibă o largă accesibilitate.
 Dificultatea testului cuplează caracteristicile sale intrinsece, care ţin de conţinut,
cu cele extrinsece, care ţin de populaţia şi de scopul testării.
 Dificultatea testului se determină prin tipul de curbă care rezultă din aplicarea sa
pe populaţia ţintă.
 Sensibilitatea unui test este sinonimă cu puterea sa de discriminare şi este
definită prin numărul claselor de scor pe care le poate produce în interiorul unei
distribuţii de scoruri.
 Sensibilitatea unui test depinde de trei factori esenţiali: de numărul itemilor, de
maniera de scorare a testului şi de tipul de norme utilizat în etalonarea sa.
 Astfel, un test cu mai mulţi itemi gradaţi ca dificultate, poate produce mai multe
clase de scor, fiind deci mai sensibil.
 Maniera de scorare poate capta mai mult sau mai puţin din variabilitatea
performanţelor la test. Este de preferat să se utilizeze acea manieră de scorare
care, fără a fi complicată, nu produce pierdere de variabilitate.
 Timpul de lucru şi bonusurile de viteză, de precizie, de calitate sau alte elemente
pot furniza maniere de scorare mai mult sau mai puţin discriminative.
 Opţiunea pentru un anumit tip de scală poate fi foarte importantă: scalele cu
număr mic de trepte reduc din variabilitate, iar cele foarte discriminative
reclamă un număr prea mare de itemi.
 Sunt preferabile scalele care realizează cel mai bun echilibru între aceste
constrângeri şi cele care integrează cel mai bine itemii unei baterii.
 Deoareace dificultatea şi sensibilitatea testelor depinde de conţinutul lor
intrinsec, conjugat cu caracteristicile populaţiei ţintă şi cu scopul testării, este de
dorit să se compare tendinţele centrale ale acestei populaţii cu valorile lotului
normativ publicate de manualul testului.
 Deşi rezervată experţilor, construcţia unui test este o secvenţă circulară de faze
ale unui algoritm ce debutează cu identificarea constructului de măsurat, cu
operaţionalizarea sa, cu redactarea formei iniţiale a testului şi cu pilotarea sa,
pentru a continua cu analiza şi selecţia itemilor în funcţie de calităţile lor
psihometrice, cu stabilirea formatului final al testului şi standardizarea sa, cu
BTE Curs 5
publicarea manualului prin includerea datelor tehnice necesare (fidelitate şi

validitate). Algoritmul este unul circular pentru că fazele anterioare sunt urmate
de reelaborarea testului pentru a integra informaţiile reieşite din utilizarea sa şi
a-l aduce la zi în raport cu schimbările ce au loc la nivelul populaţiei.
U1.7. Test de evaluare a cunoştinţelor

1. Argumentaţi în legătură cu nivelul optim al dificultăţii pe care va trebui să o aibă
un test de aptitudini utilizat pentru o selecţie de tipul cinci candidaţi pe un post.
2. În urma aplicării unui test de cunoştinţe s-a obţinut o distribuţie bimodală (cu
două “cocoaşe”). Cum interpretaţi această distribuţie în termeni de dificultate a
testului?
3. Care este distribuţia tipică pentru un test foarte dificil? Dar foarte uşor?
4. Argumentaţi în privinţa legăturii dintre dificultatea şi sensibilitatea unui test de
inteligenţă luând în calcul factorul vârstă.
5. Când este sensibilitatea unui test un lucru pozitiv şi când unul negativ?
6. Care din cele trei modalităţi de creştere a sensibilităţii unui test, prezentate în
curs, este mai accesibilă constructorului unui test de evaluare educaţională şi de ce?
7. Care sunt considerentele de care trebuie să ţină cont un constructor de teste
pentru a utiliza un anumit tip de norme? (Argumentaţi alegerea făcută).
8. În algoritmul construcţiei unui test psihologic, care sunt fazele de rutină şi care
cele de creativitate ? (Argumentaţi alegerea făcută).
9. Argumentaţi în legăturtă cu rolul pe care îl poate avea experienţa în utilizarea
unui test în privinţa sensibilităţii şi dificultăţii acestuia.

Bazele Teoretice Ale Evaluarii Psihologice - Curs 5 Dificultatea Și Sensibilitatea Testelor

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Bazele Teoretice Ale Evaluarii Psihologice - Curs 5 Dificultatea Și Sensibilitatea Testelor

Încărcat de

Drepturi de autor:

Formate disponibile

BTE Curs 5

tipului de norme utilizate în problema sensibilităţii testelor;

U1.3. Dificultatea unui test

Trasaţi curbele de distribuţie ale rezultatelor unui test de performanţă în faza

U1.4. Sensibilitatea unui test

 Maniera de scorare a testelor este altă modalitate importantă de creştere a

(11, 10, 7, 5, 3), cu atât mai mare va fi pierderea de varianţă, consecinţa

U1.5. Construcţia unui test psihologic

finale a testului care va fi aplicat, urmând procedurile de standardizare stabilite (condiţii de

Stabilirea scopului testului

Exprimarea scopului testului în termeni operaţionali

Definirea conţinutului Definirea unei Analiza muncii pentru

Analiza itemilor (pretest)

Stabilirea formei finale a testului

Standardizarea procedurii de aplicare,

Analiza tehnică a testului

Figura 3.1. Algoritmul de construire a unui test.

publicarea manualului prin includerea datelor tehnice necesare (fidelitate şi

U1.7. Test de evaluare a cunoştinţelor

S-ar putea să vă placă și