Sunteți pe pagina 1din 25

V.

METODE DE EVALUARE

2. Testul docimologic ca metodă de evaluare

2.1. Teste psihologice şi teste docimologice: definiţii, delimitări, tipuri


În ultimele trei decenii, în teoria şi practica evaluării din ţara noastră şi-a făcut intrarea şi şi-a consolidat
continuu statutul un anumit tip de test: cel docimologic, denumit în unele surse si test de cunoştinţe, sau test
pedagogic (vezi Muster, 1970; de asemenea, A. Stoica, coord., 2001), sau test de randament (cf. I.T. Radu,
2000, p. 240) .Trebuie să recunoaştem, însă, că suflul nou pe care l-a adus cu sine nu este total lipsit de
ambiguităţi, fiind în continuare necesare noi precizări.
Pentru definirea testului - a celui docimologic în special, etimologia nu este suficientă - în limba engleză
cuvântul test înseamnă probă - nu ne sugerează un sprijin relevant în acest sens. În consecinţă, vom porni de la
definiţia logic-aristotelică a testului psihologic în general, formulată de către Asociaţia Internaţională de
Psihotehnică, astfel: testul "este o probă definită, implicând o sarcină de îndeplinit, identică pentru toţi subiecţii
examinaţi, cu o tehnică precisă de apreciere a succesului sau eşecului, precum şi pentru notarea numerică a
rezultatului" (cf. H. Pieron - coord., Vocabulaire de la Psychologie, P.U.F., Paris, 1968, apud L. Gavriliu,
1969). Definiţia trebuie completată cu precizările: "sarcina poate presupune o punere în aplicare a cunoştinţelor
achiziţionate (teste pedagogice), fie a funcţiilor senzorial-motrice sau mintale (teste psihologice)" (Ariane
Lussato, apud A. Stan, 2002, p.106). Testul se compune din articole sau teme sau întrebări ce trebuie rezolvate
de către cel examinat, denumite itemi şi fiind cotate cu punctaje riguros precizate (scoruri), prin totalizarea,
analiza, compararea, etalonarea cărora se conchide asupra performanţei realizate de cel examinat.
Iată, într-o viziune foarte rezumativă, categoriile de teste psihologice, stabilite după criterii diverse şi autori
diferiţi şi prezentate în perechi "opozitive", din care să constatăm interferarea lor cu cele docimologice (cf. A.
Stan, lucr. cit., p.111 urm.):
 psihometrice, nepsihometrice (după gradul de standardizare);
 individuale, colective (după numărul examinaţilor simultani);
 tip creion-hârtie, de reacţie verbală, de manipulare şi prelucrare a materialelor, teste pe display, teste
aparative (după "mediul informaţional al testului");
 verbale, nonverbale (după forma de exprimare);
 unidimensionale, multidimensionale (după cuprinderea uneia sau mai multor variabile psihologice);
 de rapiditate (speed test), de nivel (power test sau level test), după calitatea prioritar vizată la cel
examinat;
 de aptitudini (aptitude test), de achiziţie (achievement test), primele vizând performanţa posibilă,
ultimele referindu-se la performanţa realizată la finele unui act de învăţare şcolară;
 teste normative, teste ipsative (după elementul de referinţă: grupul, la prima categorie menţionată;
examinatul însuşi, la a doua);
 formale, informale (după rigoarea exigenţelor de interpretare a răspunsurilor la itemii testului).
Atributul "docimologic", ataşat unei categorii de teste utilizate în şcoală, face trimitere la specificul acestei
categorii, adică la folosirea lor ca instrumente ale examenului şcolar (atributul citat fiind derivat din grecescul
dokime = probă de examen). Deosebirea acestei categorii faţă de testul psihologic văzut în general este,
aşadar: în timp ce cel psihologic vizează, în interesul cercetării, constatarea unor însuşiri "date" (existente) la
un moment dat, cel docimologic constată rezultatele procesului de învăţare, rezultate care fie vor fi convertite
în note şcolare, fie vor constitui premisele unor măsuri ameliorative în sprijinul elevilor în activitatea de
învăţare. Consacrarea termenilor emanaţi din acest etimon (dokime) se datorează lui H. Pieron, considerat
fondatorul docimologiei.
Având la îndemână lista de mai sus a testelor psihologice, care ne va folosi pentru eventuale comparaţii,
încercăm mai jos să constituim un tablou, cât mai apropiat de unul complet, al testelor utilizate în evaluarea
şcolară, pe fondul căruia să-l delimităm pe cel docimologic. Ca punct de plecare, vom folosi opiniile şi
enumerarea aparţinând lui Gronlund, care consideră că testele pot fi folosite în şcoală pentru determinarea
aptitudinilor, achiziţiilor, atitudinilor şi "pot fi clasificate după trăsăturile lor tehnice în următoarele tipuri
contrastante: orale şi scrise; informale şi standardizate; obiective şi eseu; de stăpânire, de sondaj,
diagnostice; individuale, colective; de performanţă, verbale, nonverbale; de viteză (speed), de nivel (power) "
(cf. Gronlund, lucr.cit., p.25)
Adăugând analiza opiniilor lui De Landsheere (1975), ale lui Bloom şi colaboratorilor (1971), sugestiile altor
autori români (vezi I.T. Radu, 2000; Stoica, 2001; Cucoş, 2002) şi ideea criteriilor multiple, adoptată de toţi cei
menţionaţi, putem constitui următoarele categorii de teste şcolare, tot în cupluri "contrastante":
 teste formative vs. teste sumative, după scopul lor (autori de referinţă: B. Bloom, J.T. Hastings, G.F.
Madaus, 1971, p. 60 urm., 116 urm.); primele, aplicate curent sau periodic, au scopul de a determina nivelul
şi mai ales deficitul elevului şi de a-l orienta în procesul învăţării; ultimele, aplicate pe secvenţe mai mari
(capitole, semestre) sau pe ansambluri semnificative (an şcolar, ciclu de învăţământ), au ca scop notarea şi
clasificarea elevilor (vezi şi A. Stoica, 2001, p.77);
 teste obiective vs. teste eseu, după modul de prezentare a răspunsului şi după posibilitatea de notare exactă
(autor de referinţă: Gronlund, lucr.cit.); primele solicită şi permit răspunsuri strict identice, precum şi notare
exactă; ultimele implică răspunsuri formulate diferit de fiecare candidat, iar corectura şi notarea au, de
asemenea, o doză de subiectivitate; variantă actuală: teste obiective vs. teste subiective (cf. Stoica şi colab.,
2001);
 teste iniţiale, teste de progres, teste finale (după criteriul timp, care corelează obligatoriu cu volumul
conţinuturilor evaluate şi scopul urmărit); primele, practicate înaintea începerii unui program şcolar,
trebuie" să furnizeze date despre cunoştinţele şi abilităţile elevului raportate la exigenţele noii etape de
parcurs, având scop prognostic şi diagnostic (cf. I.T. Radu, 2000, p. 241), iar o variantă a lor fiind testul de
plasament, adică de încadrare a elevilor în programe care le sunt compatibile sau necesare (Stoica, lucr. cit.,
p. 78); următoarele, cu tentă diagnostică, sunt utilizate pe parcursul programului de instruire, în interesul
reglării acestuia (I.T. Radu, idem); ultimele, folosite la încheierea unor secvenţe însemnate ale programului
(ibidem), sau la finele programului întreg (Stoica, lucr. cit.);
 teste elaborate de profesor (teacher made tests) vs. teste standardizate (după rigoarea elaborării şi
administrării), al căror model îl întâlnim începând tot cu Gronlund; primele pot apărea în forme fără mari
pretenţii de formalizare şi se folosesc în cadrul evaluării interne, nefiind concludente în afara grupului
(clasei) pentru care autorul lor le-a conceput; ultimele menţionate sunt concepute după norme riguros
formalizate, sunt experimentate şi etalonate pe eşantioane de elevi foarte cuprinzătoare, sunt administrate şi
notate după norme identice (vezi cele trei identităţi care le caracterizează: identitate de conţinut, de condiţii
de aplicare, de criterii de apreciere - după I.T. Radu, 1981, pp.224-225);
 teste de achiziţii vs. teste de aptitudini (după felul conţinuturilor evaluate); cum spune însăşi denumirea,
primele vizează conţinuturi dobândite printr-un proces şcolar (cunoştinţe şi abilităţi), având şi alte variante
de denumire: teste de cunoştinţe (cf. Stoica, idem), sau teste de randament, sau docimologice (cf. I.T.
Radu, 1981; idem, 2000); ultimele se referă dezvoltarea subiectului testat (la zestrea lui psihologică din acel
moment) fără a corela aceasta cu o anume activitate de învăţare (altă variantă de denumire: test de
"randament posibil", după I.T. Radu, 2000);
 teste normative vs. teste criteriale (după entitatea care serveşte ca reper a evaluării), ideea acestor tipuri
provenind de la Bloom şi De Landsheere şi fiind legată de teoria despre evaluarea criterială şi despre
evaluarea normativă, prezentă în concepţia acestor autori (vezi G. Meyer, 2000, pp.25-26); primele compară
performanţele elevului numai cu obiectivele instruirii; ultimele folosesc ca referinţă atât obiectivele
instruirii cât şi performanţele grupului în care se încadrează cel testat (de pildă, elevul X, care a realizat
performanţa Y, ce loc ocupă în clasa sa, în rândul celor promovaţi).
Cele două inventare sumare de mai sus (al testelor psihologice, al testelor utilizate în scopuri evaluative în
şcoală), ne oferă sprijinul de rigoare pentru formularea unor consideraţii clarificatoare. Cea dintâi constatare
care se impune este aceea că, în destule cazuri, tipurile propuse de pedagogii evaluatori urmează modelele
formulate de psihologi. Să se pună alături, de exemplu, tipurile: teste formale vs. teste informale, sau
psihometrice vs. nepsihometrice, propuse de psihologi, cu cuplul: teste construite de profesor vs. teste
standardizate, după pedagogi, şi se va dovedi comunitatea de "tipare" între categoriile din sfera evaluării şi cele
ale cercetării psihologice; de asemenea, cuplul teste normative vs. teste ipsative, din psihologie, şi cel al
testelor criteriale vs. normative, din teoria evaluării; să se ia în considerare conceptele "speed test", "power
test"; teste de achiziţie vs. teste de aptitudini, menţionate la fel în ambele domenii, conducând la aceeaşi
concluzie. Să se ţină seama, însă, şi de eventualele nuanţări ale acestor tipuri , care sunt încadrate diferit în
unele cazuri (de pildă, psihologii, care au primul cuvânt de spus, concep inteligenţa ca pe o aptitudine, în timp
ce pedagogii o interpretează altfel; categoriile: speed test, power test nu sunt explicate complet; titulaturile: teste
obiective vs. teste subiective fac trimitere la alte entităţi în limbajul psihologilor, faţă de cel al pedagogilor
evaluatori; vezi, de pildă, A. Stoica, lucr. cit., p.77; A. Stan, 2002, p. 113), rezultând concluzia că interpretarea
acestor categorii încă mai este afectată de unele ambiguităţi, de care trebuie să fim conştienţi. Altă observaţie
care se impune, pe acest fond, este aceea că nu toate testele folosite în evaluarea şcolară pot fi calificate drept
docimologice. Autorii români sau străini contemporani, aproape fără excepţie, învederează acest fapt prin
menţionarea, tot în sfera evaluării, a testelor de aptitudini în general şi a celor de inteligenţă în special, a testelor
de rapiditate (speed tests) şi de nivel (power tests) (cf. Payne, 1968; Gronlund, 1971; I.T. Radu, 2000). Rezultă,
din această realitate de fapt, că lista de mai sus cuprinde un ansamblu de teste implicate cu toate în activitatea
evaluativă din cadrul şcolii. Denumirea cea mai convenabilă, pentru toate la un loc, ar fi aceea de teste de
evaluare folosite în şcoală. În rândul lor sunt încadrabile de o parte testele "de clasă" (classroom tests sau
achievement tests, denumire tradusă de către docimologi fie prin teste de cunoştinţe, fie prin teste docimologice,
fie prin teste de achiziţii, fie prin teste de randament), iar alături de ele testele "de aptitudini" (aptitude tests) şi
celelalte (speed tests, power tests etc.), fiecare dintre ele fiind folosite în scopuri bine definite: cele de achiziţie,
pentru evaluarea strictă a rezultatelor realizate prin învăţare de către elevi; cele de aptitudini şi celelalte de
factură strict psihologică, pentru evaluarea posibilităţilor de abordare a învăţării şi altor coordonate ale
persoanei elevului. Celelalte denumiri din tabloul prezentat rezultă din nuanţarea celor enumerate în fraza
anterioară după diferite alte criterii, cum printr-o analiză chiar sumară se poate conchide.
Ca urmare a preocupării sale de bază, profesorul (indiferent de specialitate) va fi interesat strict numai de
cele docimologice, pe care le va folosi în mod sistematic, iar în cazuri frecvente le va şi construi. Celelalte se
află în sfera preocupărilor psihologului.
Cât priveşte avantajele testelor docimologice, ele pot fi rezumate în termenii următori: permit evaluarea
rezultatelor şcolare, pe orice dimensiune, în condiţii de economicitate, de precizie şi concizie, de validitate
(concretizată mai ales în exprimarea pe spaţii mici şi în timp scurt a conţinuturilor cele mai reprezentative) şi de
notare cât mai apropiată de valoarea reală a răspunsurilor examinaţilor (vezi şi I.T. Radu, 1981, p. 227).
Dezavantajele notate cu decenii în urmă în dreptul acestor instrumente docimologice (de pildă, că ar recurge
excesiv la detalii, că nu ar favoriza destul capacitatea de sinteză şi nici dezvoltarea creativităţii) apar revolute în
vremea noastră, dată fiind tocmai "modelarea" pe tiparul testului a majorităţii probelor tradiţionale.
Mai sunt valabile astăzi????

2.2. Tipuri de itemi ai testului docimologic


Pentru a înţelege complet esenţa şi modul de utilizare a testului docimologic, este normal să ne întrebăm:
cum arată părţile lui alcătuitoare, adică itemii din care se compune ? Drept răspuns, va trebui să prezentăm mai
întâi lista sistematică a acestor tipuri de itemi, apoi să definim fiecare tip, cu exemplificări, cu precizări legate
de înscrierea fiecăruia în plan taxonomic, ce utilizări are, ce reguli implică să fie respectate etc. În ce priveşte
lista sistematică menţionată, putem prezenta două "modele" care se cunosc şi "circulă" deja în terenul teoriei şi
practicii evaluării.
Primul model aparţine americanului N. Gronlund (1971, p. 149 urm.) şi propune următoarele categorii de tipuri
de itemi:
1. itemi obiectivi, cuprinzând tipurile:
a. itemi tip răspuns formulat de către cel examinat (engl.: tip supply), din care:
a1. tip răspuns scurt;
a2. tip completare;
b. itemi cu răspuns ales (engl.: selected type), din care:
b1. tip răspuns alternativ;
b2. tip împerechere;
b3. tip alegere multiplă
c. tip interpretare;
2. itemi tip eseu, cuprinzând:
a. cu răspuns extins;
b. cu răspuns restrâns
Al doilea model, lansa şi explicată de către SNEE (cf. M. Mândruţ, în:A. Stoica şi colab., 2001,p. 95 urm.; I.
Neacşu, A. Stoica, coord., 1996, p. 39 urm.), propune tipurile:
1. itemi obiectivi, cuprinzând:
a. itemi cu alegere duală;
b. itemi de asociere (sau de tip pereche);
c. itemi cu alegere multiplă;
2. itemi semiobiectivi, cuprinzând:
a. tip răspuns scurt;
b. tip completare;
c. întrebări structurate;
3. itemi subiectivi, din care:
a. itemi tip rezolvare de probleme;
b. itemi tip eseu, diferenţiaţi după dimensiune în: eseu cu răspuns scurt şi eseu cu răspuns extins, iar
după gradul de detaliere a cerinţelor şi criteriilor de elaborare", în: eseu structurat şi eseu
liber.
Încercaţi o privire paralelă asupra celor două modele de grupare a tipurilor de itemi şi surprindeţi asemănările,
deosebirile, precum şi posibilităţile de compatibilizare.

ATENŢIE
Pentru a înţelege cele exprimate din acest punct al cursului şi mai departe, luaţi-vă alături taxonomia lui
Bloom (din cursul de teoria instruirii, sau dintr-o altă lucrare care o detaliază). Motivul este că pe tot
parcursul prezentării tipurilor de itemi se va vorbi de "nivelele taxonomice" în care se înscrie fiecare tip de
item, în cadrul taxonomiei respective. Uitaţi-vă, de asemenea, la descriptorii de evaluare aflaţi în preambulul
cursului, ca să vedeţi ce vi se pretinde la examen, din această temă. Notaţi-vă schematic, de la fiecare item:
definire (descriere); exemplificare, după modelele din curs; avantaje şi inconveniente; cerinţe de construire a
fiecărui fel de itemi. Altfel este greu de înţeles şi de reţinut.

2.2.1. Itemii obiectivi sunt caracterizaţi printr-o structurare riguroasă, astfel încât examinaţii să
formuleze răspunsul corect strict identic toţi, iar examinatorii să corecteze de asemenea identic. De altfel, în cea
mai bună parte, aceşti itemi sunt prevăzuţi cu răspunsuri gata construite, examinatul trebuind doar să opteze
pentru cel considerat corect.
a. Itemii cu răspuns alternativ sunt denumiţi în unele surse şi itemi cu răspuns dual. Se prezintă sub
forma unor enunţuri complete, pe care examinatul să le accepte sau să le respingă. Marcarea răspunsurilor
corecte se face cu ajutorul unor iniţiale ("A", "F", "O", după cum enunţul exprimă un adevăr, o eroare, o opinie)
sau al cuvintelor "DA" vs. "NU", plasate în faţa fiecărui enunţ. Un item se alcătuieşte din: o instrucţiune pentru
examinat, unu sau mai multe enunţuri conţinând sarcina de rezolvat, acestea fiind precedate de "pârghiile
răspunsului", adică de "DA", "NU" etc.
Itemii de acest fel pretind aprecierea de către examinat a exactităţii unor judecăţi şi pot fi folosiţi în cele
mai diverse discipline de învăţământ; nivelele taxonomice predominante ale comportamentelor probate sunt cel
al recunoaşterii şi al înţelegerii (reperul invocat de toţi autorii este taxonomia lui Bloom), de la recunoaşterea
corectă a unor aspecte concrete din realitate, până la recunoaşterea unor relaţii cauză - efect, celelalte nivele
fiind reprezentate în forme simple, cum ar fi aprecierea (tot limitată la recunoaştere) corectă a aplicării unor
principii, rezolvarea unor probleme simple prin aplicarea unor operaţii numerice etc.
Exemplele care urmează pot demonstra aceste afirmaţii.
INSTRUCŢIUNE: Citeşte cu atenţie enunţurile de mai jos. Dacă ceea ce exprimă este adevărat, încercuieşte litera
A, dacă nu, încercuieşte litera F.
A F 1. Substanţa de culoare roşie din sânge este numită plasmă colorată.
A F 2. Substanţa incoloră din sânge este numită plasmă.
Itemul vizează evaluarea unui comportament simplu, respectiv recunoaşterea unei denumiri;
nivel taxonomic: achiziţia informaţiei; răspuns corect la1: F; răspuns corect la 2: A.
Puţin mai complicate vor apărea exemplele de mai jos.
INSTRUCŢIUNE: Citeşte…….. Reaminteşte-ţi ce înseamnă "opinie". Aşadar, vei încercui fie A, fie F, fie O
(adevărat, fals, opinie).
A F O 1. Toate metalele se dilată prin încălzire.
A F O 2. Apa îşi măreşte volumul la frig.
A F O 3. În atomii metalelor radioactive se pot izola zeci de categorii de particule.
Cum se observă, examinatul trebuie să facă efort de înţelegere (ceea ce corespunde nivelului
taxonomic "comprehensiune"), şi pentru a se pronunţa asupra celui de al doilea răspuns, şi
pentru a conchide că la al treilea este vorba doar de o opinie (atâta vreme cât nu s-a cercetat şi
nu s-a descoperit acest lucru, afirmaţia respectivă nu poate fi considerată nici adevărată, nici
falsă; este doar o "părere").
Alte exemple pot ilustra exigenţe tot la nivelul înţelegerii, cu uşoară tendinţă spre aplicare, cum este
cazul celor de mai jos.
INSTRUCŢIUNE: ……….. se încercuieşte "DA" sau "NU".
DA/ NU 1. Procentul 51% din 23 este mai mare decât 12.
DA/NU 2. Jumătate din 4/10 este egal cu 2/5.
Sunt vizate, de această dată, comportamente mai complicate, examinatul trebuind să-şi
reactualizeze calculul procentelor, respectiv compararea fracţiilor.
În alt tip de exemple putem identifica pretinderea unor achiziţii aflate tot în sfera comprehensiunii, axate
pe altă dominantă: surprinderea relaţiilor cauzale sau a relaţiilor dintre judecăţi. În exemplul de mai jos, itemii
sunt alcătuiţi din două părţi, fiind adevărate ambele, când sunt luate separat; dar puse la un loc pot exprima un
neadevăr.
Elevului I se cere să spună dacă a doua parte explică corect de ce prima este adevărată
DA/NU 1. Cămilele sunt mamifere DEOARECE au corpul acoperit cu păr.
DA/NU 2. Găinile sunt animale ovipare DEOARECE îşi clocesc ouăle.

Opţiunea pentru acest tip de itemi decurge din avantajele:


- extensia mare a comportamentelor evaluabile, cum s-a constatat şi din exemplele prezentate;
- productivitate mare a răspunsurilor, datorată "preformulării" acestora de către examinator;
- fidelitate şi obiectivitate mare, dată fiind simplitatea şi precizia cerinţelor, precum şi a punctajelor;
Avantajele enumerate nu-i conferă totuşi o folosire fără limite. Cele mai de seamă limite sunt:
 validitate în principiu mică (cf. Gronlund, 1971, p. 160), fiind greu de acoperit prea multe conţinuturi, ceea
ce determină utilizarea mai ales pentru nivele taxonomice inferioare; aceasta tocmai datorită formulării
categorice în care se prezintă acest tip de itemi; exemplele plasate pe nivele taxonomice mai pretenţioase,
sunt de regulă greu de întâlnit şi pretind autorului o pregătire de cea mai mare minuţiozitate;
 caracterul lapidar şi fix al răspunsurilor nu permite aprecierea destul de nuanţată a prestaţiei elevului, mare
parte din aceasta trebuind "reconstituită" mental de către examinator; astfel valoarea diagnostică este şi ea
restrânsă;
 este tipul de item cu cea mai mare probabilitate de ghicire a răspunsurilor corecte, teoretic fiind de 50% din
totalul acestora.
Cerinţele de construire a acestor itemi sunt următoarele (cf. Payne, 1971, p. 56 urm.; Gronlund, 1971, p.
162 urm.; Mândruţ, 2001, p. 100):
 să fie evitate adevărurile banale, irelevante, inutile în situaţia de utilizare a testului (exemplu: "Senzaţia este
un proces psihic", dacă acest enunţ intră în componenţa unui item de evaluare, în teza semestrială);
 să fie evitate enunţurile negative şi cu deosebire dublu negative, dată fiind potenţialitatea lor derutantă (spre
exemplu, enunţul: "Nici unul dintre numerele 1, 3, 5, 17, 19, 31 nu sunt numere neprime" să i se prefere
"Toate numerele 1, 3, 5, 17, 19, 31 sunt numere prime");
 să se evite formulările lungi şi complicate, care nu permit orientarea elevului cu precizie asupra unui
răspuns corect (exemplu, enunţul: "Dacă admitem că 0 este altceva decât nimic, putem afirma că împărţirile
exacte au rest 0", trebuie înlocuit cu "Restul 0 este caracteristica împărţirilor exacte");
 să se evite includerea în acelaşi enunţ a două idei care nu se află în relaţie de cauză-efect (spre exemplu,
enunţul: "Şarpele nu este mamifer, deoarece nu are sânge cald" pune elevul în imposibilitatea de a da
vreunul din răspunsurile A, F sau O);
 lungimea enunţurilor adevărate să fie aproximativ egală cu a celor false, când i se prezintă elevului în
acelaşi item; lungimea diferită sprijină elevul să ghicească răspunsul (exemplu, dacă enunţurile: "
Mamiferele îşi nasc puii" şi "Mamiferele îşi gestează puii în propriul corp, îi nasc vii şi îi hrănesc cu lapte
propriu" sunt prezentate împreună, enunţul mai lung îi va atrage atenţia, prin minuţiozitatea precizărilor, că
este adevărat);
 numărul enunţurilor adevărate să fie în relativ echilibru cu al celor false, şi acesta putând determina elevul
să ghicească, după cum constată care dintre enunţuri sunt de regulă mai frecvente (cele adevărate, sau cele
false).

b. Itemii de tip împerechere (matching items) îşi capătă numele după procedura pe care trebuie să o
utilizeze examinatul (cf. Gronlund, 1971, p. 164 urm.; Payne, 1968, p. 73urm.): împerecherea unor date care i se
prezintă pe două coloane: coloana A, numită a premiselor sau stimulilor; coloana B, a răspunsurilor. Relaţia pe
cele două coloane se stabileşte între: evenimente şi date; invenţii şi inventatori; termeni şi definiţii; reguli şi
exemple; simboluri şi concepte; autori şi tiluri de cărţi; plante, animale şi clasificări; principii şi aplicaţii; a
nivele mai nuanţate şi dificile (Payne, lucr. cit.), se pot "împerechea" şi: cauze - efecte; afirmaţii teoretice -
experimente; fenomene - explicarea lor pe bază de principii, teorii, generalizări.
Cităm un exemplu, adaptat după modelele celor doi autori invocaţi mai sus:
INSTRUCŢIUNE: Citeşte cu atenţie formulările din cele două coloane. Scrie în faţa fiecărui număr din coloana A
litera din coloana B, astfel încât să reiasă legătura necesară între cele două formulări. Fiecare
formulare de pe coloana B ar putea fi folosită o dată, de mai multe ori sau deloc.
Coloana A Coloana B
(E) (F) 1. o răscoală ţărănească A. 1848
(A) (C) 2. o revoluţie B. 1877
(B) 3. Războiul de independenţă C. 1989
(G) 4. Marea unire a teritoriilor româneşti D. 1359
E. 1784
F. 1907
G. 1918
H. 1889

In funcţie de specificul materiei de învăţământ, există şi alte moduri de formulare a stimulilor, respectiv
a variantelor de răspuns, prin folosirea unor materiale mai concrete (hărţi, pictoriale, diagrame), care să vină în
sprijinul clarităţii cerinţelor către cel examinat. De asemenea, se afirmă că, în cazul şcolarilor mici, se poate
utiliza şi alt procedeu de marcare a relaţiei dintre elementele din cele două coloane, cum ar fi unirea directă a lor
prin linii, ori prin săgeţi. Cum se vede din prezentarea generală, aria de utilizare este foarte cuprinzătoare, ceea
ce constituie un avantaj şi deci o motivaţie în favoarea promovării acestui fel de itemi obiectivi. La rândul lui,
exemplul de mai sus ne arată că, în unele ipostaze cel puţin, avem a face cu o modalitate complexă, pe care o
putem socoti o îmbinare de mai mulţi itemi cu alegere multiplă (mai multe propuneri de răspuns, cerând
simultan mai multealegeri corecte; mai mulţi posibili distractori). Conjugată cu omogenitatea obligatorie a
conţinuturilor prezentate (pe ambele coloane este prezentat material din acelaşi domeniu, ceea ce împiedică
elevul să procedeze prin excludere) şi cu modalitatea de construire a răspunsurilor, această complexitate se
constituie într-un obstacol împotriva ghicirii soluţiei. Este ceea ce reprezintă virtutea "de rezistenţă" a itemilor
în discuţie. Uşurinţa alcătuirii şi mânuirii itemilor simpli, este un alt avantaj, făcând posibilă abordarea unei
cantităţi mari de comportamente în timp scurt.
În mod simetric cu abordarea celorlalte tipuri, iată şi aici neajunsurile esenţiale: se utilizează, în majoritatea
situaţiilor pentru determinarea informaţiei de tip factual, deci fără profunzime; este de regulă dificil de
asamblat, în astfel de itemi, un material mai complicat, respectând în acelaşi timp exigenţa omogenităţii (vezi şi
D. Payne, lucr.cit., p. 75-76).
Iată regulile construirii corecte a itemilor de tip împerechere (Payne, lucr.cit., p. 73; Gronlund, lucr.cit., p. 167;
Stoica, coord., 2001, p. 105):
 pe fiecare coloană (coloana A, a premiselor şi pe coloana B, a răspunsuri -lor propuse) să fie plasat material
omogen; adică să nu fie menţionate pe coloana A, de pildă, opere literare, alături de evenimente istorice şi de
enunţuri despre mari descoperiri geografice, iar în coloana B, nume de scriitori, date istorice şi nume de
exploratori, aceasta ajutând elevul să procedeze prin excludere şi să ghicească răspunsul;
 numărul premiselor să fie inegal faţă de răspunsurile propuse (unii autori optează pentru un număr mai mare
al premiselor, alţii pentru varianta inversă), din acelaşi motiv al evitării ghicirii răspunsului corect;
 instrucţiunile date elevului să fie bine direcţionate şi complete, ferindu-l să înţeleagă alte sarcini pe care să
încerce a le rezolva, sau să-şi consume timpul de răspuns recitind în mod repetat datele;
 lista răspunsurilor să aibă o regulă, de exemplu ordinea cronologică, în cazul numerelor şi datelor istorice;
ordinea alfabetică, în cazul numelor sau cuvintelor în general; prin aceasta, elevul va fi pe de o parte ajutat
să se orienteze repede, pe de alta va fi împiedicat să încerce deducţii nefolositoare;
 când este cazul, elevul să fie prevenit dacă unele răspunsuri se pot împerechea cu premisele o dată, mai mult
de o dată sau deloc, pentru a nu-l expune riscului de a greşi prea mult;
 după unii autori, numărul premiselor nu trebuie să fie mai mare de 10-15 (vezi Payne), după alţii, să nu
depăşească 4-5 (vezi Mândruţ, loc.cit.), tot în scopul ca elevul să nu fie derutat de mărimea itemului;
 unii autori (vezi Gronlund, loc.cit.) optează pentru aşezarea pe aceeaşi pagină a tuturor itemilor, pentru ca
elevul să se poată orienta sinoptic asupra lor şi pentru a se limita foşnetul întoarcerii filelor pe timpul
rezolvării.

c. Itemul tip răspuns cu alegere multiplă este considerat de autorii americani citaţi cel mai suplu, mai
flexibil, mai adaptabil la diverse conţinuturi implicate în evaluare (Gronlund, 1971, p. 173 urm.; Payne, lucr.
cit.), de unde concluzia că, dintre itemii obiectivi, el are pe drept cea mai largă folosire. Este utilizat pe scară
largă în componenţa testelor standardizate. Poate servi la măsurarea unor achiziţii comune cu celelalte tipuri de
itemi obiectivi, dar remarcabilă este mai ales utilizarea lui (în unele ipostaze) la nivele taxonomice înalte:
analiză, interpretare. Se prezintă sub forma unei structuri cu două elemente alcătuitoare: de o parte tulpina (engl.
stem), sau problema, sau, după unii autori (vezi M. Mândruţ, loc cit.) "premisa", formulată fie printr-o întrebare
directă, fie printr-un enunţ incomplet; de altă parte un grupaj de răspunsuri propuse ca posibile, denumite
alternative, din care una este corectă sau cea mai bună, iar celelalte (nevalabile) au rolul de distractori,
constituind obstacole ce trebuie depăşite de către examinaţi. Distractorii nu trebuie interpretaţi atât ca factori
derutanţi, cât mai ales stimulativi, mobilizatori ai energiilor şi capacităţilor elevului. Itemii aici în discuţie pot
apărea în două ipostaze de complexitate (vezi Gronlund, loc cit.): ipostaza răspuns corect şi cea tip răspunsul
cel mai bun. Încercăm mai jos exemplificări din fiecare, după sugestiile oferite de autorii americani şi cei
români menţionaţi în frazele anterioare.
Prima variantă este cea mai simplă, asemănându-se flagrant cu itemii semiobiectivi tip răspuns scurt,
respectiv tip completare (vezi la titlul dedicat itemilor semiobiectivi), diferenţa constând doar din efortul
elevului de a alege unicul răspuns corect. Nivelul taxonmic al obiectivului de evaluare rămâne de regulă unul
inferior, de pildă recunoaşterea unui fapt, unui fenomen, unei însuşiri.
TULPINĂ: Care dintre conceptele psihologice notate mai jos redă o entitate cuprinsă în categoria procese
şi activităţi reglatoare ?
ALTERNATIVE DE RĂSPUNS:
A percepţia
B gândirea
C limbajul
D atenţia
E imaginaţia
Elevul trebuie să încercuiască litera antepusă răspunsului corect. Acelaşi item poate fi
construit prin utilizarea, în loc de întrebare, a unui enunţ incomplet: Dintre conceptele
psihologice notate mai jos, cel care se cuprinde în categoria procese reglatoare este:
A percepţia
B gândirea
C limbajul
D atenţia
E imaginaţia
Preferinţa pentru întrebarea directă sau pentru enunţul incomplet depinde de diverşi factori, între care
vârsta şi experienţa de învăţare a elevului, relevanţa sau eficienţa în context etc.
Varianta tip răspunsul cel mai bun ilustrează un nivel taxonomic net mai înalt, fiind mult mai dificil de
rezolvat. De această dată, elevul se află în faţa unor alternative de răspuns dintre care mai multe pot prezenta
grade diferite de acceptabilitate, el trebuind să o indice pe cea considerată superioară tuturor.
TULPINĂ: Care dintre următorii factori condiţionează cel mai mult creativitatea individuală?
ALTERNATIVE DE RĂSPUNS:
A voinţa
B imaginaţia
C grupul
D calităţile gândirii divergente
Nivelul taxonomic reprezentativ pentru această variantă de item cu alegere multiplă poate fi situat între
comprehensiune şi analiză, dominantă fiind analiza datelor factuale şi obligând elevul la un efort de elaborare
mai accentuat decât varianta anterioară (de tip răspuns corect). Pentru formularea problemei de rezolvat
(tulpina itemului) se poate adopta, şi în acest caz, alternativa enunţului incomplet.
Adăugând consideraţiilor din preambulul prezentării acestui tip de item pe cele care reies din
exemplificările de mai sus, credem că nu mai sunt necesare altele, pentru a demonstra avantajele itemilor de
tipul "alegere multiplă"..
Nu putem trece, însă, peste unele limite pe care le prezintă. De pildă, înseşi formulările fixe pe care le
foloseşte împiedică elevul să-şi demonstreze şi capacităţile de felul celei de organizare a conţinuturilor posedate
de el, precum şi eventualele lui capacităţi creative. Altă limită se referă la dificultatea construirii, mai ales a
conceperii distractorilor; este posibil, de exemplu, ca distractorii să fie atât de contrastanţi cu răspunsul corect,
sau să se facă atâtea precizări în varianta de răspuns corectă, încât să sugereze foarte transparent alegerea
necesară. Se poate menţiona apoi dificultatea corecturii, când alternativele corecte de răspuns nu se limitează la
una singură, sau când nuanţările de acceptabilitate sunt prea dificile, astfel că elevul le rezolvă doar parţial, de
unde incertitudinea notării (vezi şi Mândruţ, lucr. cit., p.101 urm.).
Menţionaţi două asemănări şi două deosebiri între itemii de tip împerechere şi cei de tip alegere multiplă.

Regulile de construire a itemilor tip alegere multiplă sunt foarte numeroase (vezi Gronlund, loc. cit., p. 183
urm.; vezi Payne, loc.cit., p. 63 urm.). Încercăm o sinteză a acestora cu nuanţările de rigoare, după cum
urmează:
 problema ("tulpina" sau "trunchiul") itemului să fie clară prin sine şi complet formulată din punct de vedere
logic, nu "eliptică" sau "neterminată", această ultimă formă inducând un răspuns tot imprecis; spre exemplu,
NU în forma: "Eminescu:
A A fost poet naţional.
B A fost luptător social.
C A fost un poet romantic.
D A murit sărac ".
CI în forma: "Prin felul cum şi-a conceput creaţia, Eminescu trebuie considerat:
A. un poet naţional
B. un poet simbolist
C. un poet romantic
D. un poet revoluţionar";
 tulpina să nu includă elemente fără legătură cu itemul; de pildă, dacă între răspunsurile propuse în această
ultimă variantă a itemului de mai sus am fi introdus şi alternativa: "un mare amator de petrecere", nefiind
nici o legătură între un anumit mod de a crea şi petrecere;
 pentru simplificarea analizei de către elev a răspunsurilor propuse, este de dorit ca elementele posibil-
repetitive în răspunsuri, să fie incluse în premisă; de pildă,
Nu: "Sterilizarea instrumentelor medicale se face prin:
A. fierberea lor în apă la 80 grade C.
B. fierberea lor în apă la 85 grade C.
C. fierberea lor în apă la 95 grade C.
D. fierberea lor în apă la 100 grade C,
Ci: "Sterilizarea instrumentelor medicale se face prin fierberea lor în apă la:
A 80 grade C
B 85 grade C
etc.;
 să se evite la maximum premisele de formă negativă, care conduc la "voalarea" itemului şi la dificultate de
clarificare; de exemplu,
NU forma: "Nici o entitate psihologică din cele următoare nu se încadrează categoria însuşirilor de
personalitate, afară de:
A memorie
B atenţie
C laşitate
D sentiment";
CI forma: "Care dintre entităţile psihologice următoare se încadrează în categoria însuşiri de
personalitate ? (şi din nou: A, B etc.);
 să se evite, de asemenea, formulările negative care contorsionează itemul, făcându-l neclar; spre exemplu,
formularea: "Care dintre activităţile de mai jos reprezintă suportul unor funcţii vitale pentru fiinţa umană
?
A. alergarea
B. mişcarea
C. mersul pe jos
D. nici una din cele de mai sus"
nu ar fi profitabilă pe măsura efortului elevului, trebuind să i se prefere cea care înlocuieşte
enunţul D cu unul care exprimă concret un proces vital;
 poziţia răspunsului corect, între celelalte, să nu fie fixă, pentru a nu sugera elevului "calcule" care să-l
conducă la ghicirea răspunsului corect; de exemplu, să nu obişnuim elevul cu plasarea răspunsului corect
numai în mijlocul, sau numai la începutul, sau numai la sfârşitul suitei de răspunsuri propuse spre acceptare.;
 distractorii (răspunsurile incorecte adică) să fie astfel aleşi încât să aibă o aparenţă plauzibilă, deci să nu fie
de uşurinţă ridicolă; de pildă, plasarea răspunsului cuprinzând numele lui Cristofor Columb, ca descoperitor
al Americii, alături de altele care l-ar menţiona în aceeaşi postură pe Twain, sau pe Ludovic al XIV-lea ar fi
o absurditate, furnizîndu-i elevului drumul cel mai scurt către răspunsul exact, fără nici un alt efort.

d. O variantă cu totul specială de itemi obiectivi este reprezentată de itemii tip interpretare, considerată
de autorii americani cea mai complexă. Rezultatele pe care le măsoară sunt foarte cuprinzătoare: capacitatea de
a aplica principii, de a interpreta relaţii, de a formula şi susţine ipoteze, de a recunoaşte şi a argumenta
valabilitatea unor generalizări etc., aşadar la nivelul cel puţin al analizei, fiind puntea dintre itemii obiectivi şi
cei de tip eseu (vezi Gronlund, loc cit, p. 197 urm.). Iată un exemplu de item care poate fi folosit pentru a
măsura capacitatea de selecţie a informaţiei relevante, capacitate formată prin exerciţii speciale de învăţare, să
zicem, într-o şcoală de poliţie.
PROBLEMĂ: Unui bătrân i se fură câinele de companie, fapt pe care îl reclamă şi solicită ca animalul să
fie identificat. Oferă informaţii cuprinse în propoziţiile de mai jos. Încercuieşte cuvântul
DA sau NU antepus, după cum consideri folositoare sau indiferentă informaţia pe care o
cuprinde.
DA NU 1. Câinele a fost primit cadou de când avea trei luni.
DA NU 2.Este de rasa dog german.
DA NU 3. Reacţionează la semnalul "Jar ".
DA NU 4. Are ambele urechi "netunse".
DA NU 5. Şchioapătă cu piciorul stâng.
DA NU 6. Este negru şi are o pată albă între ochiul şi urechea dreaptă.
DA NU 7. Are coada scurtă.
Candidatul va fi obligat la un travaliu apreciabil, socotind că chiar dacă informaţiile aflate din
propoziţiile 2 şi 6 sunt primele necesare, ele ar putea să nu fie şi suficiente, trebuind completate cu 4, sau cu 3.

Găsiţi elemente de asemănare şi de deosebire între itemii tip alegere multiplă şi cei tip interpretare.

Şi în acest caz se pot sublinia avantaje, precum şi limite. Ambele dimensiuni sunt comparabile cu cele
exprimate în dreptul celui de mai sus. Măsurarea componentelor înalte ale comportamentului elevului, odată cu
notarea prin procedee obiective, utilizarea posibilă în scopuri formative, respectiv pentru exersarea competenţei
de interpretare, reprezintă avantajele esenţiale. Limitele se constituie în jurul dificultăţii de construire a unui
număr suficient, al consumului mare de timp pentru prelucrarea datelor şi notare, sau al necuprinderii întregii
anverguri taxonomice, nici de către aceşti itemi, capacitatea de organizare a propriului discurs şi creativitatea
rămânând tot în afara evaluării pe această cale.
Ca reguli de construire se menţionează:
 să fie ales materialul introductiv întotdeauna în legătură cu nivelul obiectivului cursului (cf. Gronlund,
idem, p. 211), deci nici sub, nici peste dificultatea acestuia, într-un caz fiind neformativ, în celălalt fiid greu
de relaţionat de către elev cu conţi-nuturile care se discută;
 materialul introductiv să fie pe măsura experienţei de învăţare a copiilor; nu vom solicita elevul să
interpreteze fapte despre care nu are nici cunoştinţele, nici exerciţiul de abordare necesar; de exemplu,
pentru copiii din treptele inferioare să fie folosit mai ales material pictorial, cel bazat pe relatarea scrisă fiind
recomandabil pentru cei mari;
 noutatea materialului introductiv să fie promovată obligatoriu, cu fiecare item, dar respectând regula
evoluţiei treptate, fără salturi descurajatoare pentru elev;
 în privinţa raportului dintre lungimea materialului introductiv şi numărul de enunţuri, este de regulă
preferabil un material introductiv scurt şi un număr de enunţuri mare, sau un relativ echilibru ; este total
ineficient raportul bazat pe material stimul lung şi număr mic de enunţuri de interpretare, acesta putând fi
înlocuit cu un item cu răspuns alternativ.

2.2.2. Itemii semiobiectivi îşi datorează denumirea faptului că, fiind vorba de răspunsuri formulate de
elev (deci nu alese dintre cele propuse), ei implică o filtrare a răspunsurilor prin individualitatea acestuia din
urmă şi deci o nuanţare diferită a notării. Cum deja am stabilit în paginile anterioare, în rândul lor se înscriu:
itemii de tip răspuns scurt, cei de tip completare şi cei de tip întrebări structurate.
Itemii tip răspuns scurt fac în realitate corp comun cu cei de tip completare, ambele variante
exprimând strict aceleaşi exigenţe. Deosebirea este că în primul caz răspunsul se cere printr-o întrebare directă,
în timp ce al doilea se bazează pe un enunţ incomplet, răspunsul costând din completarea necesară a acestuia.
Sunt denumiţi în unele surse şi cu titlul de itemi cu răspuns oferit (supply), spre a-i deosebi de cei cu răspuns
ales, adică de cei tip răspuns alternativ, de tip împerechere, de tip alegere multiplă şi de tip interpretare. Spre
exemplu:
Cine este autorul poemului Luceafărul? (Eminescu) (variantă cu întrebare directă), sau:
Poemul Luceafărul a fost scris de ………….. (variantă tip completare).
Cum se observă, avem a face cu o formă foarte simplă ca alcătuire şi foarte uşor abordabilă ca instrument de
evaluare. Acest tip de item este utilizat pentru măsurarea unei multitudini de rezultate ale învăţării, de regulă tot
foarte simple. Exemple:
1. Cunoaştere de terminologii: Ansamblul unităţilor de măsură se numeşte……………..(sistem metric)
2. Interpretare simplă de date: În cadrul cuvântului oaie, grupul de sunete oa reprezintă un ….. (diftong)
3. Cunoaştere de reguli: Apa îngheaţă la temperatura ……….(sub O grade)
4. Cunoaşterea de metode şi procedee de acţiune: Ordinea operaţiilor aritmetice este:
………………………….
(întâi înmulţire şi împărţire, apoi adunare şi scădere)
5. Abilitatea de a reda echivalentele verbale ale unor conţinuturi prezentate prin desene, hărţi, diagrame
etc. De pildă, pe baza hărţii şi cu sprijinul semnelor convenţionale, elevul să completeze numele
zăcămintelor minerale din fiecare localitate.
6. Chiar capacitatea de a mânui simboluri matematice sau din ştiinţele naturii, sau de a rezolva probleme
matematice, reprezentând simple aplicaţii ale operaţiilor aritmetice: Dacă 4xb=36, atunci b= ….(36:
4).

Iată şi un exemplu, cules din propunerile SNEE, pentru învăţământul primar:


INSTRUCŢIUNE: Citeşte cu atenţie cuvintele următoare: ger, argint, Macela, Maricica. Care cuvânt conţine
grupul ce? (………..). Care cuvânt conţine grupul ci? (………..). Care cuvânt conţine grupul
ge? (……). Care cuvânt conţine grupul gi? (………) (cf. V. Păuş, coord., 1999).
Iată altul, propus pentru disciplina Logică şi argumentare, clasa a IX-a (cf. Fl. Oţet, coord., 2000, p. 38 urm.):
ENUNŢ: Completează spaţiile punctate astfel încât să obţii afirmaţii adevărate: "Într-un raport de subalternare se
pot afla două propoziţii care au………………" (răspuns corect: "aceeaşi calitate").

Ce argumente s-au rostit în favoarea, respectiv ce limite au fost semnalate, în dreptul acestor itemi? Cât
priveşte argumentele pentru utilizarea lor, toate sursele le menţionează pe următoarele (vezi Payne; Gronlund;
vezi ghidurile SNEE): sunt o categorie dintre cele mai uşor de construit; sunt uşor aplicabili pretutindeni; dacă
sunt riguros elaboraţi, sunt chiar uşor de corectat şi notat; ghicitul răspunsurilor este practic exclus, atâta vreme
cât nu i se oferă elevului variante pe fondul cărora să ghicească. Noi adăugăm unu: dată fiind uşurinţa rezolvării
lor, sunt chiar încurajatori pentru oricare categorie de elevi (dovadă, însuşi faptul că, în structura testelor
şcolare, de regulă ei sunt plasaţi primii). Dar nici limitele nu pot fi ignorate, adică: exceptând acele probleme
matematice elementare şi ecuaţii tot simple, din matematică, fizică, chimie, nivelul taxonomic este exclusiv cel
al achiziţiei informaţiei, partea preponderentă a acestei informaţii fiind neînsoţită de explicaţii; corectarea şi
notarea întâmpină dificultatea "contaminării" (adică a intervenţiei, în acest plan, a unor entităţi colaterale
conţinuturilor de evaluat, cum ar fi insuficienţele de exprimare, erorile de scriere, aspectele estetice,
împiedicând sau denaturând notarea corectă).
Regulile de construire a acestor itemi se rezumă astfel (Payne, loc.cit. p. 54 urm.; Gronlund, loc.cit., p. 154
urm.):
 sarcina pentru elev să fie formulată cu concizie, dar şi destul de explicit; de exemplu, formulării
insuficiente:
"Ion Creangă a scris ………………………………………………."
să i se prefere:
"Autorul poveştii Soacra cu trei nurori a fost ………………………"
 itemii să nu includă prea multe spaţii albe, fiindcă devin greu de înţeles; de pildă, itemul:
"Păsările care …..şi……….anual se numesc……………."
nu poate fi decriptat decât cu preţul unui mare efort (pentru a defini categoria "păsări migratoare");
 nu este recomandată preluarea din manual a itemilor de acest fel; spre exemplu, formularea
"Numărul 17 este un număr ……",
odată scoasă din textul în care era precedată de definirea numerelor prime, devine improbabil de completat
cu cuvântul prim (număr prim);
 spaţiile albe să fie egale ca lungime, chiar dacă dimensiunea răspunsurilor unor enunţuri, prezentate în
acelaşi item, sunt diferite; de exemplu, dacă spaţiul alb din primul din enunţurile:
"Cuvintele care, în cadrul comunicării, fac legătura între elemente din categorii gramaticale diferite se
numesc…………………"
şi
"Cuvintele care, în cadrul comunicării, fac legătura între entităţi lingvistice din aceeaşi categorie
gramaticală se numesc ……………."
ar fi mai lung decât cel din al doilea, ar putea sugera elevului răspunsul corect ("prepoziţie"), tocmai prin
această deosebire;
 se mai precizează de unii autori că, în itemii de completare, spaţiul alb conferă itemului mai multă claritate
dacă este plasat la sfârşitul enunţului, mai puţină în mijloc, iar la început cea mai puţină (cf. Payne, loc. cit.,
p. 55).

Întrebările structurate (o noutate românească ?) sunt definite ca "sarcini formate din mai multe
subîntrebări, de tip obiectiv şi semiobiectiv, legate între ele prin înţeles", menite să "acopere spaţiul liber" între
itemii obiectivi şi cei subiectivi (M. Mândruţ, 2001, p. 111; Stoica şi Neacşu, 1996). Alcătuirea unui astfel de
item constă din: un element stimul (un desen, un tabel statistic, o hartă, un text), urmat de subîntrebările
orientatoare, care concretizează sarcinile de rezolvat de către cel examinat; acestea din urmă sunt însoţite de
punctaje-le ce se acordă. Iată un exemplu foarte convingător pentru concretizarea definiţiei de mai sus, extras
din modelele de subiecte pentru examenul de capacitate din 2001 (cf. B.Vîlceanu, coord., 2001):
Citiţi cu atenţie textul de mai jos:
I-a trecut cuiva prin minte să nege sau să conteste continuitatatea poporului francez în Galia, a celui spaniol
şi portughez în Peninsula Iberică sau a celui italian în Italia ?
Pornind de la acest text, răspundeţi următoarelor cerinţe:
1. Transcrieţi trei popoare înrudite cu poporul român………….……………….3p.
2. Numiţi teoria la care face referire autorul ……………………………………3p.
3. Menţionaţi două argumente ale contestatarilor continuităţii daco-romane şi două contraargumente prin care să
combateţi argumentele acestora ………..4p.
4. Menţionaţi o cauză care a determinat disputa asupra continuităţii daco-romane la nordul Dunării ……………
2p.

Calităţile care susţin acest tip de itemi sunt rezumate astfel:


 faptul că se bazează pe întrebări deschise face posibilă exprimarea elevului la nivele mai înalte decât
recunoaşterea sau reproducerea de cunoştinţe, cum a fost cazul itemilor obiectivi şi a celor semiobiectivi
simpli, prezentaţi anterior; întrebările structurate deschid drumul spre explicaţii mai nuanţate, la nivelul
analizei, invitând la interpretare ştiinţifică autentică;
 prin intermediul subîntrebărilor, înşişi itemii subiectivi pot fi "modelaţi" în aşa fel încât să devină accesibili
unui număr cât mai mare de elevi, fiecare putându-şi arăta pregătirea până la un punct.
Acestea sunt valorificabile, însă, cu condiţia depăşirii următoarelor limite:
 construirea subîntrebărilor este de mare dificultate, tratarea lor cu superficialitate compromiţând toate
avantajele;
 autorii care le promovează reclamă şi costurile ridicate pentru unele ipostaze ale acestor itemi.
Exigenţele de construire a întrebărilor structurate, deşi nu sunt puţine, sunt mai ales schiţate, şi mai puţin
explicate (vezi Mândruţ, 2000, p. 112):
 cum vom vedea că este necesar pe ansamblul testului în general, sub-întrebările trebuie să traseze o linie
continuă de creştere a dificultăţii, începând cu cele mai uşoare, în interesul prevenirii unei descurajări
premature a examinatului;
 răspunsul la fiecare sub-întrebare să fie astfel solicitat, încât să fie formulat scurt, consistent, concludent,
ştiut fiind că răspunsurile lungi, în astfel de circumstanţe, diluează ideile vizate;
 sub-întrebările să fie independente, adică răspunsul fiecăreia să nu fie condiţionat de cel al alteia;
 prin elementele pe care le conţin, sub-întrebările să facă trimitere clară la aspecte existente evident în
materialul stimul, deci să nu facă apel prioritar la imaginaţia elevului;
 conţinuturile stimul să fie de asemenea concepute cu claritatea necesară, pentru a nu constitui prin sine
obstacole în calea formulării precise a răspunsurilor; nu sunt recomandate, de pildă, textele prolixe sau
întortocheate, nici materialele intuitive şterse sau "stufoase" ca înfăţişare;
 să i se asigure elevului suficient spaţiu "alb" pe fişa de răspuns, pentru a nu fi nevoit să restrângă în mod
artificial răspunsul, ceea ce ar include eventualitatea de a nu mai fi exact;
 punctajul fiecărei sub-întrebări să fie stabilit odată cu alcătuirea ei, ceea ce îi conferă acestuia concreteţea şi
minuţiozitatea optimă.

2.2.3. Itemii de tip subiectiv figurează, în literatura domeniului, în mai multe ipostaze. Mai întâi numai
ca itemi de tip eseu, în lucrările autorilor americani, fără a face diferenţieri pe subcategorii (Bloom, 1971, p.
201 urm.; Payne, 1968, p. 83-90). Apoi, prin nuanţarea categoriei de item eseu în subcategoriile: itemi eseu tip
extins, deosebiţi de itemi eseu tip restrictiv (Gronlund, 1971, p. 219 - 233). În fine, ipostaza lansată de autorii
români (Stoica şi Neacşu, coord., 1996; Mândruţ, 2001; toate ghidurile de evaluare ale SNEE), care este cea mai
detaliată. Pe de o parte, ea conferă o mai mare cuprindere categoriei itemi subiectivi, încadrând în ea itemii tip
rezolvare de probleme alături de itemii tip eseu; pe de altă parte, delimitează itemii eseu în subcategorii, după
două criterii: criteriul dimensiunii, după care rezultă itemii tip eseu cu răspuns restrâns şi itemii tip eseu cu
răspuns extins; criteriul "tipul răspunsului aşteptat" (cf. R.Doicescu, coord., 2001, p. 47 urm.), sau al "gradului
de detaliere a cerinţelor" (Mândruţ, 2001, p. 118), rezultând itemii tip eseu structurat şi itemii tip eseu liber. Pe
această ultimă schemă, vom încerca să alcătuim comentariul de mai jos.
a. Itemii de tipul "rezolvare de probleme" sunt prezentaţi numai în documentele SNEE, cu precizarea
că este mai corect spus "rezolvare de situaţii problemă" (cf. Mândruţ, loc. cit.), făcând probabil trimitere la
definiţia rezolvării de probleme după R. Gagne (vezi, în cursul de teoria instruirii, metoda problematizării şi
tipurile de învăţare după R. Gagne, unde se găseşte şi definiţia rezolvării de probleme). Caracterizarea acestui
tip de item este următoarea (cf. A.Stoica şi colab., 2001): elevul este pus în faţa unei situaţii noi pentru el
(Gagne i-a spus inedită), care nu are "o soluţie predeterminată "; sunt fel şi fel de situaţii problematice, de la
cele mai simple, "închise", pentru care îi sunt oferite elevului cele mai importante date, de unde şi rezolvarea
este simplă, până la cele mai complicate, complet "deschise"; acestea din urmă necesită, din partea elevului, un
travaliu foarte minuţios, derulat pe etape, cele mai de seamă fiind:
 identificarea problemei;
 culegerea şi selectarea datelor de bază (relevante);
 formularea şi validarea unor ipoteze;
 identificarea metodei de rezolvare;
 propunerea unei soluţii;
 evaluarea soluţiei;
 formularea concluziei asupra rezolvării realizate.
Ca exemplu pentru variantele simple, l-am imaginat pe următorul: I se prezintă elevului de clasa a IV-a o fişă pe
care sunt desenate: o păstaie de fasole, o ceapă, un morcov, un măr. I se formulează cerinţa ca, pe baza
cunoştinţelor lui despre felul cum se formează fructul unei plante, să grupeze conţinutul desenului pe trei
categorii de entităţi. Se stabileşte şi o schemă de notare, cuprinzând câte trei puncte pentru fiecare categorie.
Rezolvarea exactă este: categoria fructe: mărul; legume: morcovul şi ceapa; legume dar şi fructe: păstaia).
Exemplul pentru situaţiile complexe l-am preluat din ghidul din anul 2000 pentru evaluarea rezultatelor şcolare
la ştiinţele socio-umane (cf. Fl. Oţet, coord., 2000, p.50), după cum urmează:
"Activitatea se desfăşoară pe trei etape:
 în prima etapă, elevii răspund individual, în scris, la două întrebări:
Când învăţ la psihologie, de ce învăţ?
Când nu învăţ la psihologie, de ce nu învăţ?
 în a doua etapă, profesorul formează grupe de câte 5 elevi, fiecare grupă având următoarele sarcini:
a. Grupaţi răspunsurile la cele două întrebări conform formei de motivaţie în care se încadrează fiecare;
b. Identificaţi forma de motivaţie dominantă;
c. Formulaţi două soluţii posibile pentru asigurarea suportului motivaţional adecvat şi creşterea
performanţei în învăţare;
 în a treia etapă, fiecare grupă îşi alege un raportor care să prezinte modul în care s-a realizat activitatea de
rezolvare a sarcinii şi soluţiile propuse. Activitatea se încheie cu o discuţie frontală asupra soluţiilor propuse
şi posibilităţilor de aplicare a lor.
Schema de notare va ţine cont de:
-corectitudinea grupării răspunsurilor conform formei de de motivaţie în care se încadrează fiecare;
-corectitudinea identificării dominantei motivaţionale;
-caracterul adecvat şi fezabil al soluţiilor propuse."

Motivaţia utilizării acestei variante de item subiectiv este axată tot pe nişte avantaje. Le transcriem după
documentele SNEE astfel:
 -stimulează gândirea creativă, prin felul cum formulează sarcinile;
 -contribuie la transferul de proceduri de rezolvare între domenii diferite sau în interiorul aceluiaşi domeniu;
 -după autorii care o propun, dezvoltă chiar şi abilităţile de cooperare, comunicare, lucru în echipă; dezvoltă
capacităţile autoevaluative; favorizează punerea în relief a capacităţii de "raţionare flexibilă şi operantă" (Fl.
Oţet, coord., 2000).
Dezavantaje:
 -timpul îndelungat necesar pentru proiectare, dată fiind complexitatea probei;
 -subiectivitatea şi dificultatea notării, dezavantaje care se complică o dată în plus în cazul lucrului în echipă

Analizaţi acest exemplu şi conchideţi în ce tip de evaluare se poate încadra, după criteriul funcţiei dominante.

Probabil datorită dezbaterii mai restrânse asupra acestui tip de itemi regulile şi restricţiile de construire sunt în
mai mică măsură exprimate, limitându-se la câteva, adică (cf. Mândruţ, 2001, p. 119):
-sarcinile puse în faţa elevului să fie destul de diversificate, pentru ca rezolvarea de probleme să fie şi un
exerciţiu formativ, şi o modalitate de a aprecia nişte capacităţi realmente superioare; spre exemplu, dacă
elevului i se vor prezenta de regulă probleme de acelaşi tip, capacitatea pe care o vizăm va degenera în simplă
rutină;
-sarcinile să se axeze precis pe obiectivul de evaluare vizat; exemplul simplu de mai sus, de pildă, trebuie să se
"muleze" precis pe obiectivul: "elevul să probeze capacitatea de a încadra (prin analiză) în categorii diferite
unul şi acelaşi obiect (păstaia).

b. Itemii de tip eseu. Înainte de analiza lor pe variantele menţionate, iată cum justifică Gronlund
necesitatea folosirii itemilor eseu văzuţi în general: "Unele aspecte ale achiziţiilor complexe nu pot fi măsurate
în mod obiectiv. Rezultatele şcolare care arată că elevii trebuie să genereze idei … să organizeze şi să exprime
idei … şi să le integreze într-o abordare globală a unei probleme pretind o mai mare libertate a răspunsului, care
este conferită de testul eseu " (loc.cit., p.218). Reiese foarte limpede, din acest citat, justificarea de principiu a
tuturor variantelor subiective ale itemilor de examinare, ele fiind necesare pentru măsurarea la nivelele
taxonomice cele mai înalte.
b.1. Itemii tip eseu cu răspuns restrâns (numiţi, în documentele SNEE, şi cu termenul de itemi
minieseu) sunt caracterizaţi mai întâi de către autorii americani citaţi mai sus ca fiind marcaţi de anume restricţii
sau limitări, formulate chiar prin enunţul întrebării, limitări care vizează în măsură egală forma şi conţinutul
răspunsuri-lor pretinse.
Adaptăm un exemplu după sugestia oferită de către Gronlund: "Prezintă, pe o jumătate de pagină, două
asemănări şi două deosebiri între gândire şi imaginaţie. Nu relua exemplele comentate deja în clasă"
Caracterizarea tipului de itemi în discuţie de către autorii documentelor SNEE este realizată prin invocarea
aceloraşi însuşiri ca mai sus, adică: itemii eseu cu caracter restrictiv sunt cei cărora li se precizează
"dimensiunea maximă admisă a răspunsului aşteptat", respectiv număr de paragrafe, de rânduri, de cuvinte (cf.
Fl. Oţet, loc. cit.; de asemenea, Stoica, coord., 2001). Mai trebuie adăugată doar observaţia că, în comentariile
autorilor români, eseul scurt nu este nuanţat pe variantele eseu structurat vs. eseu nestructurat, ca în cazul celui
cu răspuns extins.
b.2. Itemii eseu cu răspuns extins sunt comentaţi şi concretizaţi prin exemple mai întâi de autorii
americani Payne (1968) şi Bloom (1971), apoi detaliaţi de către Gronlund astfel: sunt itemi eseu care, prin felul
cum sunt concepuţi, permit elevului "să aleagă orice informaţii factuale pe care le consideră pertinente, să
organizeze răspunsul în acord cu raţionamentele considerate cele mai bune, să- şi integreze şi evalueze ideile
cum socoteşte că este mai potrivit" (lucr.cit., p. 220). Este făcută, de asemenea, menţiunea că un item de acest
fel alcătuieşte de regulă singur un test întreg. Ca exemplu, potrivit sugestiei autorului, l-am putea prezenta pe
următorul: "Elaborează o lucrare despre tematica "scrisorilor" eminesciene. Poţi invoca orice idee, cu condiţia
să încerci a o susţine prin argumente" şi să te încadrezi în timpul de trei ore".
Varianta conceptuală a SNEE, privind itemii eseu cu răspuns extins, face delimitarea între itemii tip
eseu structurat şi itemii de tip eseu liber (cf. G. Chirleşan, coord., 1999; Fl. Oţet, 2000; A. Stoica, coord., 2001;
R. Doicescu, coord., 2001).
b.3. Itemii de tip eseu structurat sunt definiţi prin relativa limitare a libertăţii examinatului în ce priveşte
modul de organizare şi aspectele de tratat: "răspunsul aşteptat este orientat prin cerinţele formulate, libertatea de
organizare nefiind totală" (M. Mândruţ, loc. cit., p.118); "prin cerinţe explicite, indicaţii sau sugestii, răspunsul
elevului este orientat, structurat, organizat, ordonat (cf. Fl. Oţet, loc cit., p. 52). Pentru ilustrare, iată un exemplu
din disciplina Fizica (cf. G. Chirleşan, loc. cit., p. 77):
"OBIECTIV DE EVALUARE: Elevii vor fi capabili să analizeze fenomene, situaţii, fapte, date cu conţinut fizic din
realitate.
ENUNŢ: Alcătuiţi un eseu cu tema Electricitatea cea de toate zilele, în care să folosiţi următorul plan de idei:
a. curentul electric (prezentarea fenomenului fizic);
b. utilitatea curentului electric în viaţa cotidiană;
c. probleme ce pot apărea la utilizarea necorespunzătoare a curentului electric;
d. norme de protecţie în utilizarea curentului electric."
În conformitate cu regula prezentă în mai toate ghidurile de evaluare elaborate în prezent la noi, acest fel de
itemi ar trebui să se însoţească şi de o schemă de corectare şi notare, care să stabilească, analitic, punctajele care
să alcătuiască scorul probei.
Iată şi un alt exemplu din disciplina Limba şi literatura română , mai detaliat decât cel de mai sus (cf.
Stoica, coord., 2001, p. 119):
"OBIECTIV DE EVALUARE: Elevul să probeze capacitatea de elaborare, prin îmbinarea diferitelor categorii de
cerinţe.
ENUNŢ: Scrie o compunere prin care să redai statutul psihologic şi social al personajului Costache Giurgiveanu,
din romanul Enigma Otiliei. Vei avea în vedere următoarele:
 prezentarea pe scurt a formulei estetice folosite de romancier în construcţia personajelor;
 identificarea tipului uman reprezentat de Costache Giurgiuveanu;
 argumentarea, pornind de la întrebări şi situaţii selectate din cuprinsul romanului, a tipologiei
identificate;
 prezentarea raporturilor dintre Costache Giurgiuveanu şi cel puţin două dintre personajele
romanului".
Se dau instrucţiuni despre lungimea compunerii, detalii despre modul de notare şi se anunţă punctajul total. În
privinţa schemei de corectare şi notare, de această dată se fac menţiuni despre punctajul acordat pe o mulţime
de "dimensiuni" sau "indicatori", cum ar fi: prezentarea metodei utilizate de autorul romanului în alcătuirea
estetică a situaţiilor; indicarea modelului de personaj promovat de autor; organizarea ideilor; abilităţile analitice
şi critice ale examinatului; folosirea limbii; ortografie; punctuaţie; aşezare în pagină; menţiuni care să fie bine
însuşite de către examinator şi aplicate în mod unitar.

Apreciaţi în ce măsură alcătuirea în mod diferit a itemilor de acest fel, de la o specialitate la alta, are influenţă
(pozitivă sau negativă) asupra înţelegerii şi aplicării în activitatea evaluatorilor.
b.4. Cât despre itemii de tip eseu liber, văzuţi în varianta conceptuală a SNEE, ei sunt prezentaţi,
definiţi, concretizaţi în aceeaşi termeni în care americanii citaţi îi descriu pe cei de tip extins. Se pot menţiona
unele exemple interesante de astfel de itemi, cuprinse în respectivele documente, cum ar fi: "Explicaţi repartiţia
precipitaţiilor medii anuale pe întinderea teritoriului ţării noastre " (Mândruţ, lucr.cit.), sau "Compară regimurile
totalitare din perioada interbelică, stabilind asemănări şi deosebiri " (cf. R. Doicescu, coord., 2001, p.59).
Este firesc ca şi în cazul itemilor de tip eseu, în toate variantele prezentate, să fie invocate nişte avantaje care să
le susţină şi nişte limite şi dificultăţi care să îndemne la prudenţă în utilizarea lor. Facem aceste precizări,
aşezând itemii în discuţie pe linia unui continuum, începând cu itemii cu răspuns restrictiv, continuând cu cei
tip eseu structurat şi încheind cu cei tip răspuns extins, sau, după cealaltă denumire, cu itemii tip eseu liber.
După definiţiile şi exemplificările prezentate, atât avantajele, cât şi limitele fiecărei categorii sunt lesne de
intuit. Altfel spus, dacă ne aflăm în sfera variantei răspuns restrictiv, sau a celei structurate, vom beneficia de
avantajele:
 uşurinţa mai mare a alcătuirii şi corectării;
 orientarea mai precisă a examinatului şi rezolvarea mai rapidă;
 notarea de regulă mai precisă;
 fidelitate bună fiind prezentă totodată o limită majoră:
 posibilitatea redusă de măsurare a competenţelor de nivel maxim.
Dacă, dimpotrivă, promovăm varianta răspuns extins, ne vom confrunta cu avantajele şi limitele exact în sens
invers:
 posibilitatea cvasinelimitată de măsurare a capacităţilor de nivel taxonomic maxim, bazate pe
structura raţionamentului interpretativ, originalitate, reactivitate, iar necesitatea fiindu-i simţită mai
ales în domeniul ştiinţelor socioumane, dar fără excluderea utilităţii în toate domeniile (vezi şi
Bloom, 1971, p. 193 urm.);
ca avantaj esenţial, dar şi limitele:
 dificultatea proiectării, în concordanţă cu disponibilităţile elevului (de pildă, este posibil ca
proiectantul să pretindă anume parametri, iar examinatul să-şi focalizeze prestaţia pe alţii);
 notare mai dificilă şi cu alocare de timp mai mare;
 o fidelitate mai mică.
Testul eseu, în diferitele lui variante, trebuie să se conformeze următoarelor reguli de proiectare:
 să fie folosit doar când nu este posibilă măsurarea obiectivă; aceasta din cauza subiectivităţii pe care o
implică în actul notării;
 utilizarea să ţină seama cu stricteţe de nivelul de înţelegere al elevilor; nu credem necesară neapărat formula
"Scrie un eseu despre………", fie şi la clasele gimnaziale (de cele primare nici nu poate fi vorba, în această
privinţă), dacă elevul încă nu şi-a definit bine acest concept, mai proprie fiind "Scrie o lucrare ….."; un
lucru nelămurit de la început în modul optim este susceptibil să producă confuzie pe termen lung;
 în cazul eseului restrictiv precizia (până foarte aproape de testul obiectiv) cu care este formulată sarcina
trebuie să fie calitatea sa prioritară; de pildă:
NU în forma: "De ce s-au rărit rândunelele ?",
CI în varianta: "Formulaţi trei-patru ipoteze pentru a explica dispariţia unei bune părţi a rândunelelor",
trebuie prezentată sarcina elevului;
 în cazul aceleiaşi variante, să i se facă, de asemenea precizările privind spaţiul de tratare şi timpul alocat,
astfel elevul fiind sprijinit să- şi organizeze prestaţia în formula cea mai productivă.
 prin cerinţa formulată, să se facă trimitere exactă la nivelul taxonomic vizat; de pildă, odată cu enunţarea
conţinuturilor (temei) de tratat, să i se precizeze elevului şi aspectele ce vor fi notate, cum ar fi:
complexitatea şi organizarea logic-cauzală a ideilor, relevanţa argumentelor, capacitatea de interpretare,
toate ţinând vizibil de cele mai înalte nivele taxonomice (analiză, sinteză, evaluare);
 punctajul şi schema de corectură să fie foarte minuţios elaborate, dată fiind subiectivitatea potenţial mare a
notării; la nevoie, schema de notare se poate chiar revizui, după începerea corecturii şi constatarea non-
relevanţei ei în contextul prestaţiei examinatului.
2.3. Calităţile necesare testului docimologic
Testului docimologic i se pretind următoarele calităţi: obiectivitate, aplicabilitate, validitate, fidelitate, fiind
preluate de la testul psihologic, a cărui variantă aplicativă este. Sunt menţionate, de asemenea, calităţile
dezirabile pentru fiecare item de test, anume: un nivel semnificativ de dificultate şi o capacitate de discriminare
suficientă. Dintre autorii care au fost preocupaţi special de problema evaluării şcolare (cf. Payne, 1971, p. 155
urm.; Ausubel şi Robinson, 1981, p.677 urm.; Gronlund, 1971, p. 74 urm. şi 101 urm.; De Landsheere, 1975, p.
164 urm.; Lindeman, 1978, p. 479 urm.; I.T. Radu, 1981, p. 239 urm.), unii (I.T. Radu, lucr.cit.) le specifică pe
toate; alţii ignoră obiectivitatea, socotind-o, poate, absorbită în celelalte, iar asupra aplicabilităţii nu se opresc
prea amănunţit, probabil din aceleaşi considerente. Adăugăm observaţia că autorii Ausubel şi Robinson citează
în plus, drept calitate obligatorie a testului docimologic, caracterul reprezentativ al testului, care, la ceilalţi, este
inclus în validitate. El înseamnă acea calitate a testului de cuprinde ceea ce este relevant în curs, deci nu
amănunte fără semnificaţie.
Obiectivitatea se defineşte ca: acea calitate a testului constând din obţinerea aceloraşi rezultate,
indiferent de examinatorul (competent) care îl aplică. Este denumită şi prin expresia "concordanţă
interpersonală", cu referire la "persoana" celor care examinează. Fireşte că este foarte necesară, putându-se
asigura prin diverse măsuri: acordul prealabil al examinatorilor, identitatea administrării, identitatea aplicării
instrucţiunilor de notare. Mai trebuie notat că identitatea rezultatelor este relativă (unele surse folosesc sintagma
"rezultate comparabile", în loc de "aceleaşi rezultate") (vezi şi L. Gavriliu, 1969, p. 18; de asemenea, A. Stan,
2002, p.139).
Aplicabilitatea testului însumează în sine mai multe variabile: utilitatea informaţiei pentru explicarea
randamentului elevilor testaţi; potrivirea sarcinilor de rezolvat, ca formă şi conţinut, cu nivelul de vârstă al
subiecţilor; modul de corectare destul de simplu şi rapid; timpul de aplicare destul de convenabil ca lungime;
costuri convenabile. Şi ea este importantă, dar se ia în discuţie numai după satisfacerea celorlalte.
Fidelitatea (denumită şi consecvenţă, precizie, siguranţă) constă din calitatea de a măsura la fel de
fiecare dată şi pe întreaga cuprindere a testului; sau: calitatea dată de "cât de statornic este scorul unui test de la
o măsurare la alta" (Gronlund, 1971, p. 100); sau din calitatea de a da rezultate "consecvente cu ele însele"
(Ausubel şi Robinson, 1981, p. 682). Se poate determina în mai multe feluri. Unul dintre procedee este
repetarea aplicării uneia şi aceleiaşi variante de test, numit şi procedeul test-retest, în urma căruia prin
statistici specifice şi calcule matematice se poate determina coeficientul de stabilitate. Alt procedeu constă din
aplicarea, în paralelă cu testul ce se experimentează, a unei variante cu itemi echivalenţi, prin el putându-se
calcula coeficientul de echivalenţă. În fine, putem menţiona procedeul care recurge la gruparea de o parte a
itemilor impari, iar de alta a itemilor pari, apoi la stabilirea corelaţiei dintre rezultatele celor două jumătăţi ale
testului, fără să mai fie nevoie de repetarea aplicării; se numeşte procedeul înjumătăţirii sau procedeul perechi-
neperechi, iar din calcul rezultă tot un coeficient de echivalenţă, numit (doar în acest caz) şi coeficient de clivaj.
Toţi aceşti coeficienţi pot fi denumiţi cu termenul generic de coeficienţi de corelaţie, termen utilizat şi pentru
stabilirea validităţii, cu deosebirea că, în acel caz, el are alte conotaţii. Mai la îndemână ne este, şi în aceste
situaţii, coeficientul de corelaţie Pearson.
O scurtă demonstraţie de calcul al fidelităţii, prin metoda înjumătăţirii (adică între itemii pereche şi cei
nepereche). Pornim de la rezultatele obţinute la itemii impari şi cei pari, centralizate în tabelul de mai jos.
Itemi subiecţi X itemi impari Y it. pari x y x2 y2 xy
1 6 3 2,64 -0,18 6,97 0,03 -0,48
2 5 4 1,64 0,82 2,69 0,67 1,34
3 4 4 0,64 0,82 0,41 0,67 0,52
4 1 2 -2,36 -1,18 5,57 1,39 2,78
5 1 4 -2,36 0,82 5,57 0,67 - 1,94
6 4 3 0,64 -0,18 0,41 0,03 -0,12
7 5 2 1,64 -1,18 2,69 1,39 -1,94
8 4 5 0,64 1,8 0,41 3,31 1,16
2
9 2 3 -1,36 -0,18 1,85 0,03 0,24
10 1 2 -2,36 -1,18 5,75 1,39 2,78
11 4 3 0,64 -0,18 0,41 0,03 -0,12
Σ=32,5 Σ=
Media 3,36 Media 3,18 Σ= 4,27
5 9,64

Cum se vede, este un tabel cu două intrări: pe intrarea coloanelor sunt redaţi itemii, iar pe cea a rândurilor sunt
redaţi subiecţii examinaţi. Datele din tabel reprezintă prelucrarea rezultatelor obţinute la un test (presupus) de
12 itemi de către un număr de 11 subiecţi, numerotaţi pe rânduri, în stânga, de la 1 la 11. Coloana X reprezintă
rezultatele de la itemii impari, redate în dreptul fiecărui subiect respondent, iar coloana Y cuprinde rezultatele la
itemii pari. Coloana x redă variabila de deviaţie pentru itemii impari, rezultată din diferenţa între fiecare scor
din coloana X şi media acestor scoruri, notată sub coloana X, adică 3,36 (deci: X - media coloanei X = 6 - 3,36 =
2,64 etc.). Coloana y redă aceeaşi variabilă de deviaţie, dar pentru itemii pari (adică Y – media Y = 3-3,18= -
0,18). Coloana x2 redă pătratele variabilei de deviaţie pentru itemii pari, iar coloana y2 redă pătratele acestei
variabile pentru itemii pari. Coloana xy reprezintă produsul dintre valorile variabilelor de deviaţie ale itemilor
impari şi valorile variabilelor de deviaţie pentru itemii pari. Sub coloanele x2, y2 şi xy sunt notate totalurile lor.
De la aceste date pornind, calculăm coeficientul de corelaţie Pearson (r), astfel:

Pe baza acestei corelaţii între jumătăţi, se calculează fidelitatea pe întregul test rt, recurgând la o
corecţie, cu ajutorul formulei Spearman-Brown, astfel:

Această cifră reprezintă o corelaţie slabă, considerându-se că valorile acceptabile sunt între 0,70-0,90, iar cele
ideale, peste 0,90 (cf. A. Stan, lucr. cit. p.147).
Trebuie reţinute nişte precizări. Una este că acest calcul pe bază de înjumătăţire este aplicabil doar testelor
alcătuite din itemi cu punctaje identice, de pildă de tip 1 punct pe fiecare item. În cazul celor cu punctaje
inegale, trebuie recurs la celelalte metode citate, de regulă la metoda test-retest, iar coeficientul de corelaţie să
fie stabilit fie tot prin formula Pearson, fie prin alte metode (vezi, de pildă, metoda diferenţei de rang, în: Smith,
G.M., 1971, pp.128 urm.). Exemplu de aplicare a unei formule dintre acestea „altele” citate în fraza anterioară.
Formula ilustrează calculul corelaţiei (în cazul nostru, al fidelităţii) prin metoda diferenţei de rang. Ce înseamnă
„rang” ştim de la cursul de Statistică, aşadar doar reamintim conceptul pe scurt (rang = loc ierarhic al unui
indicator în cadrul unei serii, loc indicat numeric), fără să-l mai explicăm pe larg. Pentru aplicarea formulei de
calcul în discuţie, pornim de la datele din următorul tabel. Tabelul redă rezultatele obţinute de un număr de 15
subiecţi la un test, la prima aplicare (cea numită „test”) şi la aplicarea repetată identic (cea numită „retest”).
Rezultat la Rezultat la Pătratul
Rang la Rang la Diferenţă
Subiecţi prima aplicare repetare diferenţei
„test” „retest” de rang (D)
(„test”) („retest”) (D2)
1 74 83 7 5 -2 4
2 86 89 2 4 2 4
3 73 76 8 7 -1 1
4 75 90 6 3 -3 9
5 63 68 12 13 1 1
6 72 92 9 2 -7 79
7 68 74 10,5 9 1,5 2,25
8 58 70 13 11,5 -1,5 2,25
9 45 36 15 15 0 0
10 90 94 1 1 0 0
11 78 70 4 11,5 -7,5 56,25
12 68 73 10,5 10 -0,5 0,25
13 48 54 14 14 0 0
14 81 80 3 6 3 9
15 77 75 5 8 3 9
n = 15 TOTAL 147

De aici pornind, datele se sintetizează în formula coeficientului de corelaţie (notat în unele locuri cu ρ, în
altele cu r’.
Iată formula: ceea ce ar reprezenta un
indice de fidelitate acceptabil.
Între factorii care pot influenţa fidelitatea se pot număra (vezi Gronlud, 1971, p. 112 urm; reluare în: Stoica,
coord., 2001, p. 75; Ausubel şi Robinson, 1981, p. 684): lungimea testului este în favoarea ei, ca şi dispersia
mai mare a scorurilor (punctajelor acordate), ambele generând probabilitatea unei corelaţii mai mari, în cazul
repetării, cu răspunsurile de la aplicarea anterioară; tipul itemilor utilizaţi, ştiut fiind că cei obiectivi sunt mai
proprii pentru o astfel de calitate; caracterul constant al motivaţiei şi rigoarea schemei de corectare şi notare, de
asemenea favorabile unei mai bune fidelităţi.
Validitatea în general este calitatea testului de a măsura ceea ce trebuie să măsoare, sau, altfel spus,
calitatea constând din coincidenţa dintre scopul în care a fost construit şi măsurarea concretă pe care o
realizează. Sunt menţionate în literatura domeniului mai multe feluri de validitate (Landsheere, 1975;
Grondlund, 1971; Lindeman, 1978; A. Stan, 2002, p. 159 urm.): validitate de conţinut, validitate de predicţie,
validitate concurentă şi validitate de construct. Fiecare dintre acestea are semnificaţia şi importanţa ei.
Validitatea de conţinut constă din corespondenţa între: de o parte obiectivele proiectate şi conţinuturile predate,
de altă parte rezultatele (comportamentele) pe care testul îşi propune să le verifice. După sugestiile pe care ni le
oferă autorii citaţi, în formularea de mai sus s-ar cuprinde următoarele idei: dat fiind că un test nu poate
cuprinde absolut toate conţinuturile tratate, el trebuie să se orienteze asupra celor cu adevărat semnificative (De
Landsheere, loc. cit., p. 167); pe de altă parte, testul să nu se axeze pe conţinuturi "puţin subliniate" (Lindeman,
lucr.cit., p.480) sau capacităţi neexersate în cadrul procesului de învăţare parcurs (De Landsheere, idem, p.
168); spre exemplu, în cadrul gramaticii din clasele primare, nu am predat nici un fel de informaţie despre
morfologie şi sintaxă, iar într-un test de selecţie la începutul ciclului următor îi cerem candidatului să precizeze
ce reprezintă o anumită expresie "pe plan morfosintactic"; sau, deşi pe parcursul şcolarizării am cerut elevului,
la matematică, să rezolve problemele "cum poate" pur şi simplu, în cadrul aceluiaşi test de selecţie citat îi cerem
să le rezolve "pe mai multe căi". La rândul ei, validitatea de predicţie, denumită în unele surse validitate
externă (I.T. Radu, 1981, p. 244), se concretizează în calitatea testului de a anticipa corect un succes viitor al
celui examinat. De pildă, dacă examinăm elevul printr-un test care cuprinde itemi de înmulţire şi împărţire,
acordându-i un punctaj foarte bun, iar în etapa următoare de instruire el deprinde uşor ridicarea la putere şi
extragerea rădăcinii pătrate, este semnul unei bune validităţi de predicţie. Validitatea concurentă (sau
concordantă) este dată de corespondenţa dintre rezultatelor unui test dat cu rezultatele obţinute prin alte probe,
"paralele" cu ele, sau altfel spus, de măsura în care rezultatele testului pe care îl experimentăm sunt confirmate
de alte probe, aplicate "sincronic" şi axate pe acelaşi comportament (Lindeman, idem, p. 481). Să presupunem
că testul nostru pune în evidenţă nivelul bun al aptitudinilor matematice bazate pe gândirea divergentă
(rezolvarea problemelor prin metode inedite, de pildă), iar aprecierile noastre sunt în acord cu cele obţinute de
elev în competiţiile şcolare concomitente, axate pe aceleaşi aptitudini. În fine, pentru prezentarea validităţii de
construct (a cărei definire pare mai controversată; cel puţin aşa reiese din unele surse menţionate mai sus)
facem apel la spusele lui Gronlund: "Validitatea de construct poate fi definită ca măsura în care performanţele
testului pot fi interpretate în funcţie de anumite constructe psihologice"; "Exemple obişnuite de constructe sunt
inteligenţa, atitudinea ştiinţifică, gândirea critică, înţelegerea lecturii, abilităţile de studiu, aptitudinea
matematică" (1971, p. 90). Dacă, de exemplu, printr-un test ne-am propus să măsurăm abilitatea de a rezolva un
anumit tip de probleme, itemii lui să se muleze pe acel "model de comportament" (construct); dacă, dimpotrivă,
aceştia se pierd în formulări complicate, care sunt proprii mai ales abilităţii lingvistice sau retorice, el nu
măsoară coordonatele constructului vizat.
Şi validitatea poate face obiectul unor calcule matematice. De pildă, pentru validitatea de conţinut,
avându-se în vedere marea autoritate a experţilor în materie, a fost propusă o formulă care pune în valoare în
mod prioritar opinia lor, bazată pe analiza, în paralelă, a conţinuturilor propuse spre măsurare şi a celor
reflectate de test. Este formula "validităţii logice de conţinut" (engl. content validity ratio), redată astfel:

în care Ne = numărul evaluatorilor experţi; N = numărul total al evaluatorilor (experţi şi decidenţi nonexperţi).
Exprimat cifric, coeficientul de validitate de conţinut poate varia între +1 şi -1; va fi cu atât mai bun cu cât
numărul experţilor este mai bine reprezentat.
Despre determinările matematice privind celelalte tipuri de validitate, putem face, în acest context, doar
afirmaţia generală că cele mai accesibile se limitează la coeficienţii de corelaţie între predictor şi criteriu;
predictorul este rezultatul obţinut prin testul pe care îl experimentăm, iar criteriul este rezultatul altei probe, care
trebuie să-l confirme sau infirme pe acesta. De exemplu: rezultatul unui examen de admitere este predictor
pentru rezultatele la învăţătură din anul imediat următor, iar acestea sunt criteriul, confirmând sau infirmând
validitatea examenului de admitere. Se poate calcula, între altele, tot prin formula coeficientului de corelaţiei
după K. Pearson, ca în cazul calculului fidelităţii (vezi, pentru detalii, A. Stan, 2002, p.156 urm.). Nivelele
acceptabile ale acestui coeficient variază între 0,30-0,39 (limită minimă de acceptabilitate), 0,40 - 0,49 (nivel
bun) şi 0,50 - peste 0,50 (excelent) (idem, p. 173).
Care sunt factorii care pot influenţa negativ validitatea (vezi şi Gronlund, 1971, p. 93 urm.)? Unii dintre ei
"sălăşluiesc" în testul însuşi, cum ar fi: neclaritatea instrucţiunilor, care poate devia răspunsurile de la linia lor
normală; dificultatea prea mare, datorată fie vocabularului, fie modului de formulare a itemilor, conducând la
abordarea insuficientă de către elevi; lungimea prea mică, de unde lipsa reprezentativităţii conţinuturilor testate;
aşezarea şablon a propunerilor de răspuns (de exemplu, itemi cu patru enunţuri, ale căror răspunsuri corecte să
fie mereu în ordinea A A F F). Alţi factori emană din modul de administrare, respectiv: timpul limitat de
răspuns, determinând parcurgerea incompletă a probei; eventualul sprijin prea mare cerut şi căpătat de elev,
făcând ca testul să măsoare nu ce şi-a propus, ci "meritul" celui care l-a ajutat. În fine, se pot cita factori ţinând
de starea examinatului pe parcursul probei, cum ar fi emotivitatea crescută sau lipsa de motivare, ambele
determinând ineficienţa concentrării. Se înţelege că toţi aceşti factori trebuie preîntâmpinaţi, prin măsurile cele
mai proprii.
Redăm un minim de idei şi despre calităţile fiecărui item din alcătuirea testului. Astfel, nivelul de dificultate
normal al itemului, se poate defini drept calitatea care asigură abordarea concludentă a acestuia de către
subiecţii testaţi, în raport cu scopul urmărit. Exagerarea dificultăţii sau, dimpotrivă, minimalizarea ei
denaturează rezultatele în măsură egală: cea dintâi, prin generarea imposibilităţii de abordare pentru o parte
însemnată din grupul examinat; cea de a doua, prin desfiinţarea diferenţei dintre grupele de nivel conţinute de
grup.
Capacitatea de discriminare a itemului, la rândul ei, reprezintă puterea fiecărui item de a delimita corect
grupele de nivel, ale examinaţilor, pe ansamblul testului dat, contribuind la o clasificare echitabilă a acestora
din urmă. Cum reiese chiar din frazele imediat anterioare, capacitatea de discriminare poate fi influenţată de
nivelul de dificultate; ceea ce dovedeşte legătura indisolubilă dintre cele două.
Ambele însuşiri ale itemilor (nivelul de dificultate şi capacitatea de discriminare) vor influenţa cel puţin unele
calităţi ale testului în general, respectiv validitatea şi aplicabilitatea. Trebuie spus, de asemenea, că atât nivelul
de dificultate cât şi capacitatea de discriminare pot fi determinate matematic (vezi, în capitolul destinat
proiectării testului, analiza de item, cu calculele aferente).

Cum explicaţi influenţa nivelului de dificultate şi al capacităţii de discriminare asupra aplicabilităţii şi


validităţii?
2.4.Proiectarea testului docimologic

Desemnăm astfel demersul de alcătuire conform cu scopurile anticipate, de experimentare şi ajustare a fiecărui
test, în contextul practic dat. Demersul în discuţie a fost trasat în mai multe forme şi nuanţe, începând cu
schema cea mai simplă, schiţată de Bloom (cf. 1971, p. 63 urm.), continuând cu cele aparţinând lui Payne (cf.
1971, p.27 urm.), lui Gronlund (cf. 1971, p. 149 urm.), lui Lindeman (cf. R. Lindeman, 1978) şi încheind cu
contribuţiile aplicative româneşti (cf. I. T. Radu, 1981 şi 2000; A. Stoica, coord., 2001; C. Cucoş, 2002
ş.a.).Cum expunerea tuturor opţiunilor şi nuanţelor sugerate de fiecare autor ar fi prea complicată şi nu în totul
utilă, vom puncta doar aspectele esenţiale şi modul de implementare a lor într-un demers practic.
Iată cum se prezintă algoritmul acestei proiectări, după Bloom (lucr. cit.):
 se întocmeşte un tabel de specificaţii;
 se elaborează itemii corespunzători fiecărei celule din cadrul tabelului (vom explica mai jos ce este o
"celulă");
 se selecţionează , din total, itemii care vor intra în alcătuirea testului;
 se asamblează itemii pe subgrupe de comportamente, după un plan sistematic;
 se stabileşte o schemă de notare (scoring);
 se elaborează indicaţiile necesare pentru subiecţii examinaţi;
 se probează calităţile tehnice ale testului, în vederea eventualei revizuiri.

Vom aborda mai jos acelaşi algoritm, valorificând în linii mari şi completările relevante datorate celorlalţi
autori citaţi şi subliniind că el este axat net prioritar pe tipul: test elaborat de profesor (şi doar tangenţial se fac
referiri la cel standardizat).
Pasul 1: stabilirea tipului de test; de pildă, într-un caz construim un test criterial, în altul, un test
normativ; într-un caz, unul prognostic, în alt caz, unul diagnostic etc. Necesitatea acestei precizări este impusă
de scopul diferit pe care îl vizează, de conţinuturile diferite cu care poate opera, precum şi de modul diferit în
care este interpretat şi eventual revizuit.
Pasul 2: alcătuirea unui tabel de specificaţii (denumit şi matrice de specificaţii). Tabelul este axat pe o
temă concretă şi are rostul de a delimita conţinuturile ce vor fi cuprinse în test şi nivelele taxonomice ale
obiectivelor cu care ele sunt corelate. Pentru o mai uşoară înţelegere, iată un asemenea tabel, având o temă din
sfera matematicii, să zicem, pentru clasa a IV-a:

TEMA: Operaţii cu numere naturale


Conţinuturi Obiective Achiziţia informaţiei Înţelegere Aplicare Analiză Total
1. Terminologie 5 5
2. Relaţii,
5 20 5 30
transformări
3. Utilizări, aplicaţii 5 20 25

4. Probleme 5 5 30 40
Total 15 30 25 30 100

Cum se vede, avem în faţă un tabel cu două intrări: intrarea pe rânduri se referă la categoriile de conţinuturi cu
care vom opera în cadrul testului; intrarea pe coloane indică obiectivele reflectate în itemii testului, pe nivele
taxonomice (după taxonomia lui Bloom, redată numai până la nivelul analizei). La fiecare întretăiere a
rândurilor cu coloanele se delimitează o "celulă", iar în celulă un număr redă procentele de itemi (din totalul
itemilor consacraţi întregii teme) ce vor fi folosiţi în alcătuirea testului. Să spunem că este preconizat ca testul
să fie format din 40 itemi; înseamnă că 5% din total (identificaţi-l în tabel), adică 2 itemi, vor fi alocaţi celulei
care vizează terminologia de recunoscut sau de redat din memorie (celulă rezultată din intersectarea
conţinuturilor constând din terminologie, cu nivelul taxonomic achiziţia informaţiei); 30%, adică 12 itemi,
pentru celula vizând rezolvarea de probleme, la nivelul taxonomic analiză (rezultată din întretăierea rândului
conţinuturilor constând din probleme cu coloana reprezentând analiza) etc.
Pasul 3: construirea primei variante a testului (o numim prima, pentru că este posibil să fie revizuită).
Este compus din mai multe operaţii, adică (vezi şi I.T. Radu, 2000, p. 242):
a) formularea, pentru fiecare celulă, a itemilor aferenţi; din diversele surse reiese că este indicat să fie
construiţi şi unii în plus faţă de cifra din celulă, dată fiind eventualitatea renunţării la unii, propuşi iniţial şi
înlocuirii cu alţii dintre cei construiţi în plus; odată cu aceasta, s-ar impune formularea instrucţiunilor
pentru elev şi a obiectivelor de evaluare (în scopul orientării punctajului la fiecare răspuns), din care să
rezulte atât comportamentul observabil, cât şi nivelul de dificultate (potrivit sugestiei din documentele
SNEE, de a însoţi ca fiecare item să fie însoţit şi ghidat de un obiectiv de evaluare);
b) selectarea, din itemii formulaţi, a celor consideraţi mai semnificativi pentru redarea comportamentelor
vizate;
c) construirea concretă a testului, prin asamblarea itemilor selectaţi
d) adoptarea unei scheme de corectare şi notare;.
Câteva precizări sunt strict necesare pentru operaţiile menţionate la punctele a), c) şi d). Precizările pentru
punctul a) se rezumă astfel: fiecare item conceput trebuie să respecte lista de cerinţe privitoare la modul de
construire a tipului în care el se încadrează. De pildă, să zicem că testul nostru cuprinde un număr de itemi de
tip răspuns alternativ, în acest caz trebuind să respectăm cerinţele de alcătuire ale acestui tip de itemi; că ar
conţine şi itemi de tip alegere multiplă, cu alte cerinţe de respectat etc. (vezi lista detaliată a acestor cerinţe la
titlul dedicat tipurilor de itemi).
Pentru punctul c), precizările se referă la reguli vizând asamblarea testului, pe de o parte, şi conceperea
timpului necesar pentru abordarea testului de către elevi, pe de altă parte. Astfel, mai mulţi autori citaţi mai sus
(cf. Bloom, lucr.cit., p. 63; Gronlund, loc.cit., p. 237; Lindeman, loc.cit.) menţionează că itemii trebuie să fie
grupaţi pe secţiuni omogene (adică fiecare secţiune să cuprindă un singur fel de itemi), iar în interiorul fiecărei
secţiuni dificultatea itemilor să apară ordonat, de la mai mică la mai mare. Raţiunea care stă la baza acestei
exigenţe constă din evitarea fie a derutei elevului, fie a unui consum mare de energie din partea acestuia, fie din
sprijinirea tuturor categoriilor de elevi în abordarea testului, până la nivelul de care este capabil fiecare. În
acelaşi scop, al înlesnirii cel puţin a abordării testului în întregime, lungimea lui trebuie concepută astfel încât
timpul să permită parcurgerea lui de către aproximativ 80% dintre elevii cărora li se adresează (cf. Lindeman,
lucr.cit. p.493). Precizările la punctul d) trebuie să hotărască modul de realizare concretă a corectării şi notării
testului pe care tocmai îl proiectăm. Referinţele la acest subiect etalează demersuri şi concluzii diverse. Astfel,
un autor român contemporan (A. Stoica, coord., 2001, p.85) afirmă despre notarea itemilor obiectivi şi
semiobiectivi că ea ar fi destul de simplă, implicând doar însumare de puncte, care au fost stabilite cu rigoare
pentru fiecare răspuns. După opinia lui G. De Lansheere, exprimată cu mai mulţi ani în urmă (cf. 1975, p. 51
urm.), când avem a face cu teste formate numai din itemi obiectivi, notarea capătă chiar denumirea de notare
obiectivă şi trebuie efectuată după o anume formulă (vezi explicaţia pe larg, la titlul despre notare), precedată de
unele demersuri statistice. Mai dificil de realizat se consideră notarea itemilor subiectivi, respectiv a testelor
formate numai din itemi de acest fel. Acelaşi autor român citat mai sus ( Stoica, lucr. cit.), citându-i pe unii
autori occidentali, (de pildă, L. Carey, 1988; J.L. Thyne, 1978) propune utilizarea a două tehnici de notare
pentru itemii de acest fel, anume: notarea analitică şi notarea holistică (globală). La rândul său, De Landsheere
descrie patru tehnici de notare "subiectivă": metoda impresiei generale, metoda scărilor de specimene, metoda
analitică şi metoda însumării frecvenţelor. Luând notă şi de schemele de notare propuse de autorul român, le
vom prefera pe cele descrise de De Landsheere, părând mai accesibile şi mai lesne de aplicat. Le vom prezenta
mai detaliat în capitolul special consacrat notării.
Pasul 4: pretestarea variantei iniţiale. Este etapa de probă, sau de încercare, constând din aplicare
asupra populaţiei şcolare căreia i se va adresa. Rostul acestei etape este de a constata calităţile testului, iar în
funcţie de constatări, să se poată opera eventuale îmbunătăţiri. Mai trebuie menţionat că amploarea şi rigoarea
experimentării vor fi diferite după statutul testului. Dacă avem a face cu un test "intern" (făcut de profesor în
vederea evaluării propriilor elevi), aplicarea va fi de amploare mai mică şi numai în interiorul propriei şcoli, cu
sprijinul altor colegi (cf. De Landsheere, lucr.cit., p. 80). Dacă este vorba de un test "extern" şi standardizat ,
aplicarea este mult mai minuţioasă, implicând o populaţie de subiecţi foarte cuprinzătoare şi fiind realizată de
specialişti în domeniul evaluării. Oricum, şi într-un caz, şi în altul, pe baza rezultatelor ce se vor obţine, se vor
încerca determinările cuvenite asupra celor patru parametri de primă importanţă ai testului, în atare situaţie:
validitatea, fidelitatea, nivelul de dificultate şi capacitatea de discriminare.
Validitatea interesează în diversele ei nuanţe: de conţinut, de predicţie, concurentă. Cea de conţinut este
normal să fi fost deja asigurată odată cu construirea testului; de către profesor - cel puţin empiric, prin
compararea cerinţelor testului cu conţinuturile cele mai reprezentative pe care le-a predat şi exerciţiile tipice
realizate cu elevii; de către specialişti - inclusiv prin consultarea experţilor şi realizarea, odată cu aceasta, a unui
bun coeficient al validităţii logice de conţinut (vezi calculul, în capitolul unde este prezentată validitatea). Cea
concurentă se poate determina de către ambii conceptori şi pe calea observării concomitente a rezultatelor
"concordante" obţinute prin alte probe, şi prin eventual calcul al coeficientului de corelaţie Pearson (dacă
structura testului este adecvabilă acestui calcul, ştiind că testul docimologic nu se suprapune total cu "tiparul"
testului psihologic în general). Aceleaşi afirmaţii ca în cazul validităţii concurente considerăm valabile în ce
priveşte stabilirea validităţii de predicţie; şi ea este pretabilă aceloraşi proceduri, cu aceleaşi condiţii.
Fidelitatea ar putea fi stabilită, de asemenea de ambii conceptori - profesorul, pentru testul intern;
grupul de specialişti, pentru cel standardizat - uzând de una din procedurile de calcul prezentate în capitolul
anterior: metoda înjumătăţirii, dacă testul conţine itemi cotaţi la fel (fiecare item cu acelaşi punctaj), în acest caz
recurgându-se la coeficientul Pearson, corectat prin formula Spearman-Brown; metoda test-retest (aplicare
repetată) şi stabilirea, pe această bază, tot a corelaţiei după formula Pearson. Mai trebuie reţinut că, în cazul
testului alcătuit din itemi diferiţi, grupaţi pe secţiuni omogene (de pildă, o secţiune conţine itemi tip alegere
duală, alta conţine de cei cu alegere multiplă etc.), psihologii sugerează recurgerea la comparaţie "pe subscale",
adică prin gruparea itemilor pe categorii reprezentate de itemi cu acelaşi punctaj.
Este posibil ca, la finele demersului de constatare a validităţii şi fidelităţii, să găsim nişte valori
neconvenabile ale coeficienţilor vizaţi. În acest caz trebuie să "consultăm" lista factorilor care le influenţează
(vezi în capitolul anterior) şi să încercăm a-i modifica în sensul unei mai bune calităţi a testului.
Ultimele operaţii din cadrul pretestării se obiectivează în determinarea calităţilor fiecărui item: nivelul
de dificultate, puterea de discriminare, iar pentru unele tipuri de itemi, chiar şi calitatea distractorilor, ceea ce
se realizează prin analiza de item, comentată mai mult sau mai puţin detaliat în toate sursele citate mai sus.
Iată ce secvenţe parcurge această metodă şi cum se finalizează ea în fiecare caz de utilizare (vezi mai
ales: Lindeman, lucr.cit., p. 495 urm.; I.T. Radu, 1981, p. 236 urm.). Să presupunem că am aplicat, de probă,
testul preconizat odată cu întocmirea tabelului de specificaţii, pe un eşantion de 40 de elevi. Facem mai întâi o
situaţie din care să reiasă ce scor total a realizat fiecare subiect respondent. Împărţim apoi totalul respondenţilor,
după punctajul realizat la întregul test, în patru segmente egale (unii autori preferă cinci segmente, dar acest
amănunt nu este important), astfel: un segment superior (primii 10), două segmente mijlocii (următorii 20), un
segment inferior (ultimii 10). Reţinem, pentru calcule, numai segmentele extreme, adică primii 10 clasaţi şi
ultimii 10. Pe baza lor, calculăm pe rând cei doi indicatori pentru fiecare item, adică indicele de dificultate şi cel
de discriminare, iar unde este cazul, şi puterea de discriminare a distractorilor.
Pentru calculul indicelui de dificultate (Idif) al fiecărui item se procedează astfel: se constată, să
presupunem, că un item anume a fost rezolvat de 7 elevi din segmentul superior şi 2 elevi din segmentul
inferior; aplicăm formula:

, adică 45% din subiecţi.

Simbolurile din formulă au semnificaţiile: Cs = răspunsuri corecte în segmentul superior; Ci =


răspunsuri corecte în segmentul inferior; n = numărul subiecţilor dintr-un segment. Indicele ce se poate realiza
variază între 0 şi 1 (notat şi în procente). Cu cât este mai aproape de 0, avem a face cu un item mai greu, după
cum apropierea mai mare de 1 denotă o dificultate mai mică. Se consideră că, în cazul unui test normativ,
dificultatea optimă este între 0,4 - 0,5, ceea ce dovedeşte că în cazul nostru concret indicele 0,45 este foarte
bun.
Discriminarea, la rândul ei, trebuie să se facă între elevii buni şi cei slabi pe ansamblul testului (adică
nu după cum îi ştim din activitatea anterioară). Pentru calculul indicelui de discriminare (Idis) se foloseşte o
formulă bazată pe numărul răspunsurilor greşite din fiecare segment. Procedând prin eliminare, în cazul nostru
vom avea 3 răspunsuri greşite în segmentul superior şi 8 în cel inferior. De această dată aplicăm formula:
, adică 50%.

Simbolurile nou apărute sunt: Gi = răspunsuri greşite în segmentul inferior; Gs = răspunsuri greşite în
segmentul superior, n fiind deja cunoscut din formula anterioară. Rezultatul posibil al acestui calcul este între -1
şi +1; când este +1, avem a face cu o discriminare maximă în favoarea subiecţilor buni; -1 indică o discriminare
negativă, după care toţi din segmentul superior au greşit, iar din segmentul inferior nici unu, ceea ce este absurd,
sugerând renunţarea la acel item. În cazul unui test normativ, discriminarea optimă se consideră a fi peste 0,7.
De unde rezultă că rezultatul itemului nostru (0,5) nu este destul de discriminant.
Am făcut mai sus menţiunea că observaţiile privind nivelul optim al dificultăţii şi discriminării trebuie
raportate numai la testele normative, utilizate în special în scopul clasificării elevilor. Adăugăm că în cazul
testelor criteriale, deşi se pot calcula, atât dificultatea cât şi discriminarea, nici una dintre ele nu mai pun
probleme de optimalitate şi de revizuire a itemilor. Fiindcă rostul testelor criteriale este să reliefeze realizarea
oricăruia dintre obiective (oricât de grele, oricât de uşoare), în perspectiva sprijinirii elevului să-şi
îmbunătăţească rezultatele, ele având, deci, scopuri prioritar formative.
În fine, să explicăm din ce constă determinarea forţei distractorilor, adică a variantelor de răspuns
neadevărate, ele având rostul de a-i obliga pe examinaţi să facă efort pentru a găsi răspunsul corect. Precizăm
mai întâi că această determinare este necesară doar în cazul itemilor cu răspunsuri la alegere, în special alegere
multiplă. De dorit este: pe de o parte, fiecare distractor să atragă măcar un minim de opţiuni, adică să fie ales de
unii dintre subiecţi; pe de alta, cei care optează pentru distractori să fie mai frecvent din segmentul inferior. Iată
un exemplu de item cu mai multe alegeri posibile (apud Lindeman, loc. cit., p. 497):
Variante de răspuns
Total răspunsuri
A B C D E
Alegeri subiecţi din segmentul superior 3 5 1 1 0 10
Alegeri subiecţi din segmentul inferior 6 0 1 1 2 10

Răspunsul corect este B. Toţi distractorii "funcţionează", dovada fiind că fiecare (adică A,C, D, E) au atras cel
puţin câte o opţiune. Cel mai puternic distractor este A, cu 9 alegeri; semnificaţia distragerilor este normală, ele
fiind mai mult în segmentul inferior.
Pasul 5: definitivarea testului după constatarea atât a aspectelor normale, cât şi a eventualelor
insuficienţe, potrivit analizelor din cadrul pasului 4.

*Observaţie: elaborarea se opreşte aici, dacă este vorba de teste pentru examene interne. În cazul celor externe,
este nevoie şi de definitivarea instrucţiunilor de administrare, precum şi a celor de corectare şi notare.

S-ar putea să vă placă și