Ui 6

TEORIA ŞI M
METODOLOGIA
A EVALUĂRII
Unitateea de învățțare 6.
CALITĂ ĂŢILE TESSTULUI
IMPORTANT T
Pentrru a putea aplica
a un test este necessară verificarrea calităţilorr sale globalle (Karmel şi ş Karmel,
1978; Raadu, 2000; Moise,
M 2007) - obiectivitatee, aplicabilitaate, fidelitate şi validitate, precum şi a calităţilor
fiecărui item – dificulttate şi puteree de discriminnare.
Obiecctivitatea unnui test docim mologic se referă la caraacterul expliccit şi la claritatea itemilorr, care să
permită obţinerea
o dee scoruri commparabile în cazul
c unor evvaluatori com mpetenţi. Daccă scopul adm ministrării
unui testt nu este claarificat înaintee de începerrea proiectărrii sau dacă sunt omise eetape de prooiectare a
acestuia, există riscuul de a geneera erori în calcularea și interpretareaa scorurilor, ccare nu se datorează d
evaluatoorului, ci neglijenței celui care
c a elaborrat testul.
Apliccabilitatea see referă la adecvarea
a iteemilor la conţţinuturile vizaate, la volum
mul de timp şi ş resurse
materialee necesar administrării
a c
care trebuie să fie rezoonabil, la claaritatea modaalităţii de caalculare a
scoruriloor. Numărul ded itemi și timmpul alocat reezolvării testuului trebuie săă fie rezonabbil, iar instruccțiunile de
aplicare trebuie să fie clare și precise. Scoruurile la testeele docimologgice sunt importante penntru a lua
decizii edducaționale potrivite
p și, de
d aceea, trebuie să fie deeopotrivă ușoor de calculaat și de interppretat. De
asemeneea, ele trebuie să permităă explicații și pentru alți actori
a educațționali decât profesorul (îîn special
elevii și părinții).
p
Fidelitatea şi valliditatea sunnt adesea foloosite în mod eronat ca sinonime, însăă cele două concepte
au acceppţiuni diferite – în timp cee fidelitatea se referă la coonsistenţa saau stabilitateaa unui test, validitatea
v
indică prroporția în caare un test surprinde
s ceeea ce şi-a prropus să măssoare. Un instrument de evaluare
poate avvea o fidelitatte ridicată, fără a fi valid, însă
î un test valid
v are cu siguranţă
s o fiidelitate ridicată.
Validditatea unui test

t se referăă la proporția în care acessta surprindee ceea ce se presupune că c trebuie
să măsooare. În cazul unui test, see pot estima mai multe tippuri de validittate (Anastassi, 1976; Evans, 1985;
Linn și Gronlund,
G 20000; Moise, 20007):
A) Validitatea
V d conţinut reflectă măssura în care ittemii unui tesst acoperă problema de studiat,
de s în
cazul noostru măsuraa în care surrprinde compportamentelee pe care dorim să le măăsurăm la ellevi. Este
considerrată adesea o valoare subbiectivă (Stann, 2002) deoarece presuppune ca unull sau mai muulţi experţi
să evalueze măsura în care itemiii contribuie laa cunoaştereea caracteristicii studiate. Există cel puţin două
modalităăţi de utilizaree a metodei experţilor în evaluarea vaalidităţii de conţinut:
c expeerţilor li se pooate cere
să judecce măsura în care itemiii instrumenttului ilustreazză comportaamentul sau trăsătura innvestigată
(Evans, 1985) şi/sau li se poate solicita
s să forrmuleze un set c să surprrindă comportamentul
s de itemi care
sau trăsăătura investiggată (Stan, 2002).
În cazzul testului docimologic,
d atunci când facem apreccieri privind validitatea
v dee conținut ar trebui să
avem în vedere o seerie de întrebbări la care săă găsim răsppunsuri prin analiza
a itemilor din test: Domeniul
D
comportaamental vizaat (cognitiv, afectiv,
a psihoomotor) este ilustrat de iteemii incluși îîn test? Itemii din test
sunt elaborați în conncordanță cuu standardelee de perfom manță pentru elevi, cu obbiectivele caddru și de
referință, respectiv cu c cele opeeraționale? Care
C este coorespondențța între conțținuturile suggerate în
programa școlară și cele acoperite prin itemii testului? Teestul este ecchilibrat pe nnivele taxonomice sau
vizează doar
d nivele taaxonomice innferioare, resspectiv superrioare?
B) Validitatea
V c
criterială (dee criteriu) preesupune o cooncordanţă ridicată
r între rezultatele subiecţilor
s
în urma aplicării unnui test şi un u criteriu. Cele
C două forme
f ale vaalidităţii criteeriale sunt validitatea
v
concurennţială şi validditatea predicctivă (Gliner şi
ş Morgan, 20000; Stan, 20002, Gall, Gaall şi Borg, 20007).
43
NICOLETAA-LAURA POPA
Validiitatea concurrenţială presupune compararea rezulttatelor între instrumentul de evaluare şi criteriu

sau un alt instrument (al cărui validitate a fost anteriorr determinată şi este riddicată). În acest caz,
coeficienntul de validittate exprimă corelaţia între instrument şi criteriu. Un U exemplu de analiză a validității
concurennțiale ar puteea fi calcularrea coeficienntului de coreelație între un rezultatele la testul docimologic
analizat și rezultatelee la un test de aptitudini academice (dacă acesta ar fi disponibil și am avea a date
privind validitatea sa)).
Validiitatea predicctivă surprindde relaţia înntre valorile obţinute priin aplicarea instrumentuului şi un
criteriu, în î care măsuurarea criteriuului este realizată ulteriorr, deci putereea instrumentului de a
î condiţiile în
anticipa comportameente, perform manţe viitoaree. În acest caaz, coeficienntul de validittate exprimă corelaţia
între un predictor (vaalorile unui teest) şi valorilee criteriului. Pentru
P evaluaarea coeficieentului de valliditate se
pot utiliza coeficientuul de regresiee şi punctajeele critice muultiple (engl. cut-offs)
c (Croocker şi Alginna, 1986;
Stan, 20002, pp. 182--183). În cazzul în care unn profesor arr dori să anaalizeze validitatea criteriaală a unui
test summativ pe caree l-a aplicat lal sfârșitul seemestrului I unei clase a IV-a, ar puutea corela reezultatele
elevilor săi
s cu rezultaatele pe caree aceștia le-aar obține ulterior la evaluaarea naționallă sau cu notele de la
primele evaluări
e sumative din classa a V-a.
Validitatea criteriială, în ambbele sale foorme, este influenţată de natura ccriteriului alees şi de
caracteriisticile eşanttionului. De aceea, rapoortarea coefiicienţilor de validitate peentru un tesst trebuie
însoţită de
d specificareea şi descrieerea clară a criteriului
c şi a eşantionuluii pe care s-a realizat evalluarea.
C) Validitatea
V de construcct sau concceptuală see referă la cât c de bine eeste transpuus într-un
instrumeent un conccept (o competenţă, un comportam ment etc.). Evaluarea
E vaalidităţii de construct
presupunne atât un deemers teoretiic, cât şi un demers
d empiiric: parcurgeerea bibliograafiei de speciialitate ce
cuprindee date anteriooare cu privire la acelaşşi construct/cconcept şi claaritatea raţioonamentelor ipotetico-
deductive sunt la fel ded importantte ca proceduurile bazate pe p date empiirice.
Cu allte cuvinte, dacă
d un proffesor ar dori să proiectezze un test peentru o unitatte de învățarre despre
„viețuitoaare acvatice”” ar trebui să studieze cu atenție programa școlarăă pentru a identifica obiecctivele de
referință aplicabile, elementele
e d conținut care
de c trebuie avute în veedere, dar șii schițele dee proiecte
pentru a-și reaminti gama
g de com
mportamente vizate la eleevi în fiecare lecție. De assemenea, ar trebui să
analizezee teste proiectate de alți colegi, eventtual publicatee în culegeri, pentru a se asigura că va v selecta
un eșanntion reprezeentativ de coomportamente și de connținuturi caree vor fi vizaate. În cazuul testelor
docimoloogice, tabeluul sau matricea de speecificații (pe care o com m prezenta detaliat în secțiunea
s
destinatăă proiectării testului)
t consstituie un insttrument de assigurare a vaalidității de coonstruct.
D) Validitatea
V c
convergentă ă estimează măsura în care c două tesste măsoară acelaşi consstruct, iar
validitateea discriminaatorie se refeeră la relaţiaa non-corelaţţională cu teste care măăsoară alte constructe
c
decât ceel studiat. Maatricea centraalizatoare incclude corelaţţii între testee care măsoaară aceeaşi trăsătură,
t
corelaţii între teste care
c măsoarăă trăsături diferite şi coreelaţii între accestea din uurmă în cazuul utilizării
unor mettode diferite de măsuraree (vezi pentruu exemple Annastasi, 19766, p. 157 şi Stan, 2002, p.. 192).
Pentrru a aprecia validitatea
v gllobală a unuii test este neecesară atât specificarea mai multor coeficienţi
c
de fidelitate, cât şi prrezentarea unnor consideraaţii legate dee toate tipurilee de validitatee.
IMPORTANT T
Unii dintre
d factoriii care influeențează valiiditatea țin de
d evidență și ș pot fi relativv ușor de conntrolat, în
timp ce alții
a au efecte subtile, greeu sesizabilee și ridică difficultăți conceeptorilor de tteste. Este evident
e că
un profeesor nu poatte elabora un u test pentrru elevii uneei clase a III-a făcând aapel la conţinnuturi din
programa clasei a V--a, după cum m nu putem evalua
e printr-un test la maatematică comportamentee pe care
le vizăm la elevi prinn activităţile educaţionale
e din domeniuul ştiinţe. În ambele situaaţii, dacă am m proceda
contrar evidenţei am m obţine teste cu validditate scăzută. Dacă unn profesor aar elabora testul t de
matemattică având ca reper stanndardele de performanţă,
p obiectivele, conţinuturilee etc., dar arr folosi în
44

TEORIA ŞI METODOLOGIA EVALUĂRII
explicarea sarcinilor (în instrucţiuni) termeni pe care nu toţi elevii îi înţeleg, rezultatul ar fi ti un test cu
validitate scăzută, dar factorul care a determinat acest fapt este mai subtil decât în primul exemplu.
Aceşti factori subtili care pot influenţa validitatea unui test docimologic pot fi grupaţi în funcţie de sursa
potenţialei erori (Linn şi Gronlund, 2000; Nitko, 2001):
▪ Erori de proiectare a testului. O examinare atentă a fiecărui item ar trebui să fie suficientă pentru a
stabili concordanţa cu finalităţile şi conţinuturile disciplinei. În plus, sunt şi alţi factori care ţin de
proiectarea testului şi pot afecta validitatea acestuia: instrucţiunile formulate neclar care îi pot
dezorienta pe elevi; ambiguitatea în formularea itemilor; timpul prea scurt alocat rezolvării testului
(atunci când variabila timp nu este legată de nivelul achiziţiilor elevului); supradimensionarea părţilor
din test care surprind achiziţii uşor de măsurat, în detrimentul itemilor care măsoară achiziţii dificil de
măsurat (de exemplu, capacităţi intelectuale complexe); erori în proiectarea itemilor, în sensul că
aceştia includ „indicii” prea clare către răspunsurile corecte sau alternative de răspuns ordonate
după tipare evidente pentru elevi (de exemplu, întotdeauna primul răspuns din lista alternativelor
este cel corect); numărul prea mic de itemi poate afecta validitatea prin slaba reprezentare a
obiectivelor şi a conţinuturilor.
▪ Erori în activitatea de predare anterioară administrării testului sau lipsa de concordanţă între itemii
testului şi modul în care s-a realizat predarea. Dacă un tip de sarcină a fost rezolvat în clasă după un
anumit algoritm, iar testul îl pune pe elev în situaţia de a rezolva în alt mod o sarcină similară,
validitatea ar avea de suferit. Nu e mai puţin adevărat că, dacă includem într-un test o sarcină
rezolvată deja în clasă, vom măsura comportamentul elevului doar la nivelul de cunoaştere,
indiferent de nivelul taxonomic pe care l-am vizat.
▪ Erori în administrare şi în calcularea scorurilor. Dacă profesorul acordă ajutor, explicaţii suplimentare
etc. în timpul administrării testului, validitatea acestuia scade. De asemenea, copiatul sau ajutorul
între elevi, precum şi greşelile din timpul corectării testelor afectează validitatea.
▪ Factori personali care ţin de pregătirea elevilor pentru situaţia de testare. Dacă elevii nu sunt
familiarizaţi cu atmosfera de administrare a unui test şi trăiesc momentul testării ca pe o ameninţare,
scorurile nu vor reflecta achiziţiile lor reale.
▪ Compoziţia grupului şi natura criteriului. Validitatea unui test se discută întotdeauna în legătură cu un
anumit grup de subiecţi. Dacă aplicăm acelaşi test de matematică unui grup de elevi de clasa a II-a
şi unui alt grup de elevi de clasa a IV-a, în condiţiile în care instrumentul a fost proiectat pentru
aceştia din urmă, validitatea nu va fi comparabilă. Validitatea unui test este afectată de factori
precum vârsta, genul, nivelul aptitudinal, biografia educaţională a elevilor, apartenenţa culturală.
În ceea ce priveşte natura criteriului, corelaţia între scorurile la un test şi un criteriu va fi mai redusă
în situaţiile în care caracteristicile măsurate sunt diferite, împrăştierea sau variabilitatea scorurilor este
mică, stabilitatea scorurilor este şi ea redusă sau timpul dintre aplicarea testului şi măsurarea criteriului
folosit pentru estimarea validităţii predictive este foarte îndelungat.
Fidelitatea se poate estima prin intermediul a patru modalităţi diferite (Thomas, 1998; Gliner şi
Morgan, 2000):
A) Fidelitatea test-retest (exprimată statistic prin coeficientul de stabilitate) presupune ca
aplicarea instrumentului de evaluare aceloraşi subiecţi, în momente diferite, să conducă la obţinerea
unor rezultate comparabile. Evaluarea acestui tip de fidelitate poate conduce la erori provenite din
familiarizarea subiecţilor cu întrebările, fiind posibil ca stabilitatea rezultatelor să fie dată de memorarea
întrebărilor şi a răspunsurilor, nu de calităţile instrumentului. De aceea, evaluatorul trebuie să se asigure
că intervalul de timp între cele două aplicări este suficient de lung pentru a evita acest tip de eroare.
B) Fidelitatea prin forme alternative (exprimată statistic prin coeficientul de stabilitate)
presupune ca rezultatele subiecţilor în urma aplicării unui test să fie comparabile cu cele obţinute de
aceiaşi subiecţi în urma aplicării unui test cu itemi similari. Estimarea acestui tip de fidelitate implică fie
ca cercetătorul să formuleze aceiaşi itemi în formă diferită, fie să schimbe ordinea itemilor în cadrul
aceluiaşi instrument.
45
NICOLETA-LAURA POPA
Indicatorul statistic al coeficientului de stabilitate şi al coeficientului de echivalenţă este coeficientul

de corelaţie Pearson. Cele mai multe lucrări consideră că un coeficient de corelaţie egal sau mai mare
de 0,70 este suficient pentru a asigura cele două tipuri de fidelitate. Anastasi (1976, p. 109) şi Evans
(1985, p. 79) menţionează însă valori ale coeficientului de corelaţie cuprinse între 0,80-0,90, pentru a
putea avea certitudinea unei fidelităţi ridicate.
C) Fidelitatea estimată prin consistenţa internă sau omogenitatea unui test se referă pe de o
parte, la măsura în care toţi itemii relaţionează între ei şi, pe de altă parte, la măsura în care fiecare item
relaţionează cu rezultatul total obţinut de subiecţi. Au fost elaborate şi sunt utilizate mai multe metode
de calcul a coeficientului de consistenţă internă, dintre care cele mai cunoscute sunt (Gliner şi Morgan,
2000): metoda înjumătăţirii (engl. split-half), metoda Kuder-Richardson și metoda de calcul a
coeficientului alpha Cronbach.
Metoda înjumătăţirii se recomandă atunci când nu există o formă alternativă a instrumentului de

evaluare sau nu s-a parcurs etapa de retest. Metoda presupune împărţirea rezultatelor unui test în două
jumătăţi comparabile şi obţinerea unui coeficient de corelaţie a acestora. Împărţirea se poate realiza fie
strict numeric (dacă avem un instrument cu 30 de întrebări, 15 sunt incluse în prima jumătate, 15 în a
doua) – ceea ce nu conduce la erori dacă itemii au fost ordonaţi în funcție de dificultate; fie prin reunirea
itemilor similari într-o jumătate şi a celor singulari în cealaltă jumătate. Coeficientul de corelaţie al celor
două jumătăţi de test este utilizat în calcularea coeficientului de consistenţă internă, corectat prin
formula Spearman-Brown (Anastasi, 1976, pp. 115-116; Gliner şi Morgan, 2000, pp. 314-315).
EXEMPLU
Exemplu de calcul a fidelității unui test prin metoda înjumătățirii
În tabelul de mai jos sunt prezentate rezultatele a 10 elevi la un test care conține 10 itemi (pentru
fiecare item rezolvat corect un elev primește 1 punct, iar răspunsurile greșite se notează cu 0). După
cum se poate observa, tabelul are două intrări: pe coloane sunt prezentate etapele intermediare de
calcul a coeficientului de fidelitate, iar pe rânduri sunt prezentate rezultate elevilor (respectiv, prelucrări
corespunzătoare scorurilor fiecărui elev). Coloana X include rezultatele elevilor la itemii impari (scorurile
totale pentru o jumătate a testului), iar coloana Y include rezultatele la itemii pari (scorurile totale pentru
cealaltă jumătate a testului). Coloana x include abaterea de la medie pentru itemii impari (diferenţa între
fiecare scor din coloana X şi media scorurilor X). Coloana y include abaterea de la medie pentru itemii
pari. Coloana x2 include abaterea pătratică de la medie pentru itemii pari, iar coloana y2 abaterea
pătratică de la medie pentru itemii pari. Coloana xy reprezintă produsul dintre valorile abaterilor de la
medie ale itemilor impari şi valorile abaterilor de la medie pentru itemii pari. Sub coloanele x2, y2 şi xy
sunt notate totalurile corespunzătoare.
Itemi
Itemi/ Itemi pari
impari X Y X2 y2 xy
subiecţi Y
X
1 4 4 1,30 1,50 1,69 2,25 1,95
2 3 2 0,30 -0,50 0,09 0,25 -0,15
3 2 3 -0,70 0,50 0,49 0,25 -0,35
4 5 3 2,30 0,50 5,29 0,25 1,15
5 4 3 1,30 0,50 1,69 0,25 0,65
6 3 3 0,30 0,50 0,09 0,25 0,15
7 2 2 -0,70 -0,50 0,49 0,25 0,35
46

8 1 2 -1,70 -0,50 2,89 0,25 0,85

9 2 2 -0,70 -0,50 0,49 0,25 0,35
10 1 1 -1,70 -1,50 2,89 2,25 2,55
M= 2,70 M= 2,50 ∑= 16,10 ∑= 6,50 ∑= 7,50
Având în vedere aceste date, calculăm coeficientul de corelaţie Pearson (r), utilizând formula:
xy
r
x 2   y 2
În exemplul nostru, dacă înlocuim rezultatele noastre în formulă, vom obține:
7,50
r12   0,73
16,10  6,50
Pe baza acestei corelaţii între cele două jumătăţi ale testului, se calculează fidelitatea întregul test rt,
utilizând corecţia Spearman-Brown:
2  r12 2  0,73
rt    0,84
1  r12 1  0,73
Această cifră reprezintă o corelaţie puternică, dacă avem în vedere faptul că unii autori sugerează că
valorile acceptabile sunt cuprinse între 0,70 - 0,90, iar cele ideale, peste 0,90 (Anastasi, 1975; Evans
1985).
Metoda înjumătăţirii pentru estimarea fidelităţii este adecvată doar în cazul testelor alcătuite din itemi
cu punctaje identice (de exemplu, itemi cu răspuns dual pentru care răspunsurile pot fi notate cu 1 şi 0;
itemi cu alegere multiplă, varianta răspuns corect etc.).
Metoda Kuder-Richardson de calculare a consistenţei interne estimează omogenitatea itemilor unui

test. Omogenitatea inter-itemi poate fi afectată de două tipuri de erori de varianţă: eşantionarea
conţinutului (adică alegerea iniţială a itemilor) şi eterogenitatea domeniului comportamental la care se
referă itemii. Cu cât domeniul comportamental surprins prin intermediul itemilor este mai omogen, cu
atât creşte consistenţa inter-itemi. Coeficientul Kuder-Richardson este potrivit pentru estimarea
consistenţei interne pentru acele instrumente care au un sistem de cotare al răspunsurilor de tipul
corect-greşit sau „totul sau nimic” (răspunsurile corecte sunt notate cu 1, iar cele greșite cu 0).
EXEMPLU
Exemplu de calcul a fidelității unui test prin metoda Kuder-Richardson
Există două formule Kuder-Richardson care pot fi utilizate pentru calcularea fidelității: KR 20 și KR 21.
k pq
Formula KR 20 rKR20  (1  2 )
k 1 s
k M (k  M )
Formula KR 21 rKR21 (1  )
k 1 k * s2
Iată și semnificația simbolurilor din cele două formule:
k – numărul de itemi incluși în test
47
NICOLETA-LAURA POPA
p – frecvența relativă pentru numărul de răspunsuri corecte la fiecare item (numărul de răspunsuri
corecte / numărul total de itemi)
q – frecvența relativă pentru numărul de răspunsuri greșite la fiecare item (numărul de răspunsuri
greșite / numărul total de itemi)
s2 – dispersia sau varianța
M – media scorurilor totale obținute la test
Să presupunem că am aplicat un test docimologic cu 10 itemi unui număr de 10 elevi. Pentru fiecare
item rezolvat corect elevul primește un punct, iar răspunsurile eronate sunt notate cu 0. Rezultatele
celor 10 elevi pentru fiecare dintre cei 10 itemi sunt prezentate în tabelul de mai jos.
ITEMI X x
Elevi 1 2 3 4 5 6 7 8 9 10 Scor total test (X-M) x2
A 1 1 1 1 1 0 1 1 1 1 9,00 2,80 7,84
B 1 1 1 0 0 1 1 0 1 1 7,00 0,80 0,64
C 1 1 1 1 1 0 0 1 1 0 7,00 0,80 0,64
D 1 1 1 0 1 1 1 0 0 0 6,00 -0,20 0,04
E 1 1 1 1 0 0 0 0 0 0 4,00 -2,20 4,84
F 0 1 1 1 1 0 0 0 0 0 4,00 -2,20 4,84
G 1 1 1 1 1 1 1 1 1 0 9,00 2,80 7,84
H 1 1 0 0 0 0 1 0 0 0 3,00 -3,20 10,24
I 1 1 0 0 1 1 1 1 0 0 6,00 -0,20 0,04
J 1 1 1 0 0 0 1 1 1 1 7,00 0,80 0,64
1
∑ 9 0 8 5 6 4 7 5 5 3
M= 6,20 0,00 ∑x2= 37,60
Pe lângă rezultatele elevilor, în tabel sunt prezentate scorurile totale obținute de fiecare elev pentru
întregul test (X), media scorurilor obținute de elevi (M), abaterea de la medie a fiecărui scor (x= X-M) și
abaterea pătratică de la medie (x2)4.
Înlocuind aceste valori în formula dispersiei pe care o cunoaștem [s2= Σ(X – M)2 / N-1], obținem
valoarea acesteia s2= 4,17.
În tabelul următor sunt prezentate valorile lui p și q, reprezentând frecvența relativă a răspunsurilor
corecte, respectiv greșite pentru fiecare item, precum și produsele pq pentru fiecare item și suma
produselor pq.
Valorile p 0,90 1,00 0,80 0,50 0,60 0,40 0,70 0,50 0,50 0,30
Valorile q 0,10 0,00 0,20 0,50 0,40 0,60 0,30 0,50 0,50 0,70
p*q 0,09 0,00 0,16 0,25 0,24 0,24 0,21 0,25 0,25 0,21
∑ pq 2,04
Dacă înlocuim aceste date în formula KR 20 obținem:
k pq 10 2,04 10
rKR20  (1  2 )  (1  )  (1  0,49)  1,11 * 0,51  0,56
k 1 s 10  1 4,17 9
Dacă înlocuim aceste date în formula KR 21 obținem:

4 Toate detaliile de calcul pentru aceste valori vă sunt cunoscute de la cursul de Metodologia cercetării pedagogice.
48

k M (k  M ) 10 6,20(10  6,20)
rKR21  (1  )  (1  )  1,11 * 0,44  0,48
k 1 k *s 2
9 10 * 4,17
Dacă vom compara cele două valori ale coeficienților de corelație, vom observa că cea obținută prin
aplicarea formulei KR 21 este mai mică, deoarece aceasta este, în fapt, o estimare simplă a formulei
KR 20, care are la bază asumpția că toți itemii dintr-un test au un nivelul de dificultate apropiat. În ciuda
acestui dezavantaj, formula KR 21 este mai simplu de utilizat, deoarece presupune doar calcularea
mediei și a dispersiei.
Coeficientul Alpha Cronbach (α) este utilizat frecvent pentru a estima consistenţa internă a testelor
care includ itemi care au și răspunsuri parțial corecte, acestea fiind notate cu mai mult de două scoruri
diferite (de exemplu, 0, 1, 2 și 3). Un bun exemplu în acest sens sunt itemii de tip eseu, pentru care se
notează și răspunsurile parțiale (Linn și Gronlund, 2000; Gallagher, 1998; Nitko, 2001). De asemenea,
se recomandă şi în cazul testelor care includ mai multe tipuri de itemi. Coeficientul de fidelitate Alpha
Cronbach este o variantă a formulelor Kuder-Richardson și, ca și acestea, estimează media
coeficienților de fidelitate care ar fi obținuți prin metoda înjumătățirii, dacă aceștia ar fi calculați pentru
toate variantele posibile de împărțire a unui test în două jumătăți.
EXEMPLU
Exemplu de calcul a coeficientului de fidelitate Alpha Cronbach
Coeficientul Alpha Cronbach se calculează folosind formula:
2
k  sk
r (1  2 ) ,
k 1 sx
unde k este numărul de itemi dintr-un test, sk2 reprezintă dispersia fiecărui item, iar sx2 este dispersia
scorurilor totale la test.
În tabelul de mai jos sunt notate valorile dispersiei pentru fiecare item din testul utilizat ca exemplu,
precum şi valoarea dispersiei pentru scorurile totale.
ITEMI X
1 2 3 4 5 6 7 8 9 10 Scor total test
sk2 0,10 0 0,17 0,27 0,26 0,26 0,23 0,27 0,27 0,23 sx2=4,17
∑ sk =2,06
2
Înlocuind aceste valori în formulă obţinem:

2
k s 10 2,06
r  (1  k2 )  (1  )  1,11 * (1  0,49)  1,11 * 0,51  0,56
k 1 sx 9 4,17
Dacă vom compara valoarea coeficientului de fidelitate obţinut prin formula KR 20 şi cel obţinut prin
formula Alpha Cronbach vom observa apropierea lor (doar primele două zecimale sunt prezentate, ceea
ce ar putea conduce la concluzia că cele două valori sunt chiar identice). Dată fiind această similitudine,
nu se recomandă utilizarea amândurora pentru acelaşi test, deoarece nu furnizează informaţii
suplimentarea privind fidelitatea acestuia.
Cea mai frecventă eroare în interpretarea coeficienților de fidelitate derivați din formulele Kuder-
Richardson este aceea că se confundă consistenţa internă cu validitatea de construct: deşi este un bun
estimator al fidelităţii unui instrument, acest coeficient nu garantează validitatea de construct a unui
instrument, ci faptul că rezultatul pentru fiecare item considerat separat corelează cu rezultatele pentru
ceilalți itemi și cu rezultatul pentru întregul test (Gliner şi Morgan, 2000).
49
Fidelitatea inter--evaluatori se
s referă la concordanţa
c între evaluările realizate de doi sau mai mulţi
evaluatoori care corectează și caalculează scoruri la un test t pentru aceiași
a subieecţi. Cea maai directă
modalitaate de a estimma fidelitateaa inter-evaluaatori este calculul coeficientului de coorelație între scorurile
acordatee de doi sau mai mulți evvaluatori. Exxistă însă și o modalitate mai simplă,, dar mai ineexactă de
estimaree a fidelității între doi saau mai mulțți evaluatori prin calculaarea procenttajului de accord între
scorurilee acordate dee aceștia.
EXEMPLU U
Exemplu u de estimarre a fidelitățții inter-evaluuatori prin procentajul
p d acord
de
Să prresupunem căc doi evaluaatori au corecctat și notat același
a test, rezolvat
r de aaceiași elevi. Scorurile
pe care le-au
l acordat pentru 5 eleevi sunt sinteetizate în tabeelul de mai joos.
Evaaluator/ Evaluator 1 Evaluattor 2 Aco ord între ceii doi
E
Elevi evaluatori
A 8 7 -
B 5 5 X
C 3 4 -
D 4 5 X
E 9 9 X
Proceentajul de accord între ceele două seeturi de scorruri poate fi cuprins între 100% și 0% 0 și se
calculeazză după formmula:
N
Pa  a  100 ,
Ns
unde Ns este număruul total de sccoruri calculatte de către fiiecare evaluaator, iar Na eeste numărul situațiilor
în care cei
c doi evaluaatori au fost acordat
a acelaași scor.
Cei doi
d evaluatorri din exempplul nostru au acordat accelași scor în î 3 (Na) cazzuri din 5 (N Ns). Dacă
înlocuim aceste date în formulă obținem:
o
N 3
Pa  a  100   100  60%
Ns 5
Așadar, procentajjul de acord între cei dooi evaluatori este de 60% %. Am putea considera că c acesta
este suficient de marre, dar după unii
u autori vaaloarea sa ar trebuie să fiee de peste 80% (Nitko, 20001).
IMPORTANT T
Ca şii în cazul validităţii, existtă o serie dee factorii carre pot influeenţa fidelitaatea unui tesst (Linn şi
Gronlundd, 2000; Nitko, 2001):
 Număărul itemilor poate influennţa fidelitateaa unui test, înn sensul că fidelitatea
f tesstului creşte odată cu
număărul acestoraa. Un test cu c un număr mai mare de itemi sccade şi posiibilitatea ca elevii să
ghiceească răspunnsul corect. Această reggulă a fost oarecum suugerată de ccalculul fidellităţii prin
înjum
mătăţire, dacăă avem în vedere că apliccarea formuleei Spearman-Brown a generat un coeeficient de
fidelittate mai maree.
 Variaabilitatea sauu împrăştiereaa scorurilor area un efect asupra fidellităţii, în senssul că cu cât aceasta
este mai mare cuu atât creşte şi valoarea coeficienţiloor de fidelitatte. Această rrelaţie se explică prin
faptul că fidelitateea unui test creşte
c odată cu
c scăderea posibilităţii ca
c un elev să îşi schimbe poziţia în
ierarhhia grupului. Dacă variabilitatea scoruurilor este miccă, probabilittatea ca un eelev să obţinăă un scor
care să-l
s plaseze în altă zonă a clasamenttului la o evenntuală re-aplicare a testului creşte.
50

TEORIA ŞI M
METODOLOGIA
A EVALUĂRII
 Obiecctivitatea testului influenţeează şi fidelitatea sa. În cazul testeloor obiective, ppentru care schemele
s
de coorectare şi nootare sunt foarte precise, acest factorr nu reprezintă o problem mă majoră. Un plus de
atenţie trebuie, aşadar,
a acorrdat elaborăării baremeloor de corecttare şi de nnotare pentrru testele
obiecctive, astfel încât
î doi evaaluatori să ajjungă la rezultate finale comparabilee. Excludereaa itemilor
subieectivi din evaaluare nu coonstituie o soluţie, întruccât o asemeenea decizie ar afecta validitatea v
testullui, cea mai importantăă calitate a acestuia. Comportamen C ntele compleexe, corespuunzătoare
niveleelor taxonom mice înalte nu n pot fi măăsurate întottdeauna cu itemi obiectivi sau semiobiectivi.
Aşadar, soluţia coonstă în preccizia baremellor de corectare şi notaree, care va conduce şi la o creştere
a fideelităţii inter-evvaluatori.
 Fideliitatea depindde şi de metoda m utilizaată pentru calcularea
c sa. Aşa cum m aţi observat şi din
exemmplele utilizatte pentru calculul coeficieenţilor de fidelitate, metooda pentru caare optăm arre impact
directt asupra valoorii acestora. Astfel, coefficientul de stabilitate
s pooate fi mai mmare decât ceel obţinut
prin metoda înjumătăţirii, daacă intervalul de timp dintre d măsurăări este scuurt. În cazul fidelităţii
estim
mate prin testte alternativee, coeficienţii sunt mai mici m decât înn situaţia în care aplicăm m metoda
înjum
mătăţirii sau calculăm
c coeeficientul de stabilitate. Înn plus, cu câât intervalul dde timp dintrre aplicări
creştee, coeficientuul de fidelitatee scade. Coeeficientul de fidelitate
f calcculat prin meetoda înjumăttăţirii este
mai ridicat
r în cazzul testelor de
d randamennt (acele testte care au limită de timpp). Toţi coeficienţii de
fidelittate derivaţi din metoda Kuder-Richaardson au valori mai mici decât cei obţinuţi prinn metoda
mătăţirii şi sunnt afectaţi în sens pozitiv în cazul în caare testul aree limită de tim
înjum mp.
Analizza validității și a fidelității unui test sunt compleetate prin annaliza calitățților fiecărui item sau
analiza de d item caree presupune estimarea dificultății
d și a puterii de discriminarre pentru fieccare item,
precum și analiza diistractorilorr. De regulă, indicele de dificultate
d şi cel de discriminare se caalculează
pentru teestele normaative. Valoareea lor poate fi calculată şi pentru tesstele criterialle, dar este lipsită de
relevanţăă, deoarece acestea nu vizează ieraarhizarea eleevilor prin coomparaţii intrra-grup, ci raaportarea
achiziţiiloor elevului la
l obiectivele educaţionale care coonstituie criteeriile. Analizza distractorrilor este,
evident, posibilă doarr în cazul item milor care incclud asemenea variante ded răspuns.
IMPORTANT T
Indiccele de dificultate al unui item (Anaastasi, 1976;; Karmel şi Karmel, K 19788; Radu, 2000; Moise,
2007) esste, în fapt, o estimare a procentului de d subiecţi care
c rezolvă corect c un iteem și se poatte calcula
folosind formula:
C  Ci
I dif  s ,
2n
unde Cs reprezintă numărul de răspunsuri corecte c din segmentul
s superior al cllasamentului elevului,
realizat în
î funcție de scorurile tottale la test; Ci reprezintă numărul de răspunsuri ccorecte din segmentul
inferior al
a clasamentuului; iar n este numărul dee subiecţi dinntr-un segmeent sau subgrrup.
Practtic, grupul dee subiecți cărora li s-a addministrat tesstul se împaarte în trei, patru sau cincci grupuri
egale, înn funcție de scorul
s total obbținut la test,, iar în calcullul indicelui de
d dificultate de iau în considerare
doar cazzurile extremme (cei mai bunib 20-30% și cei mai slabi 20-30%)). Valoarea iindicelui de dificultate d
variază între
î 0 şi 1 (îîn formă proccentuală). Cuu cât este maai aproape de 0, cu atât itemul este mai m dificil,
iar aproppierea de vaaloarea 1 suggerează un nivel mai sccăzut de dificcultate. Itemiii prea uşor sau prea
dificil de rezolvat nu oferă inform maţii relevantte despre subiecţi şi sunt eliminaţi înn etapa de reevizuire a
testului. Din punct dee vedere stricct statistic, iteemul „ideal” ara fi cel care este
e rezolvatt corect de 500% dintre
subiecţi. În cazul unui test norm mativ, dificultaatea optimă este între cuuprinsă între 0,40 - 0,50, dar, în
general, se acceptă un u coeficient de dificultatee cuprins întrre 25% şi 75% %.
51
EXEMPLU U
Exempllu de calcul a indicelui de d dificultate
Iată cum
c ar trebui să proceddăm dacă am dori să calculăm c indicele de dificcultate al iteemului 7
dintr-un test
t aplicat unui
u număr dee 10 elevi, alle căror scoruuri sunt prezeentate în tabelul de mai joos.
IT
TEMI
Elevi 1 2 3 4 5 6 7 8 9 10 Sco or total test
A 1 1 1 1 1 0 1 1 1 1 9,00
B 1 1 1 0 0 1 1 0 1 1 7,00
C 1 1 1 1 1 0 0 1 1 0 7,00
D 1 1 1 0 1 1 1 0 0 0 6,00
E 1 1 1 1 0 0 0 0 0 0 4,00
F 0 1 1 1 1 0 0 1 0 0 5,00
G 1 1 1 1 1 1 1 1 1 0 9,00
H 1 1 0 0 0 0 1 0 0 0 3,00
I 1 1 0 0 1 1 1 1 0 0 6,00
J 1 1 1 0 0 0 1 1 1 1 7,00
După ce am calculat scorurile tottal la test, vom împărți gruupul de 10 elevi în 5 gruppuri (fiecare grupg va fi
alcătui din câte 2 elevvi). Dacă îi vom ierarhiza în funcție dee scorurile totale, vom obțține următoruul tabel:
IT
TEMI
Elevi 1 2 3 4 5 6 7 8 9 10 Sco or total test
H 1 1 0 0 0 0 1 0 0 0 3
E 1 1 1 1 0 0 0 0 0 0 4
F 0 1 1 1 1 0 0 1 0 0 5
D 1 1 1 0 1 1 1 0 0 0 6
I 1 1 0 0 1 1 1 1 0 0 6
B 1 1 1 0 0 1 1 0 1 1 7
C 1 1 1 1 1 0 0 1 1 0 7
J 1 1 1 0 0 0 1 1 1 1 7
A 1 1 1 1 1 0 1 1 1 1 9
G 1 1 1 1 1 1 1 1 1 0 9
Pentrru a calcula indicele de dificultate
d al itemului 7, avem
a nevoie de scorurilee pentru acesst item al
primilor doi și al ultim
milor doi eleevi. Ambii eleevi din segmmentul superioor (A și G), precum și un u elev in
segmenttul inferior (H
H) au rezolvatt itemul. Dacăă înlocuim acceste date înn formulă, obțținem:
C  Ci 2  1
I dif  s   0,75
2n 4
Așadar, itemul 7 dind exemplu nostru este relativ ușor, deoarece vaaloarea sa esste mai aprooape de 1
decât dee 0.
IMPORTANT T
Indiccele de discrriminare (Annastasi, 19766; Karmel şi Karmel,
K 19788; Radu, 20000; Moise, 20007) indică
măsura înî care un iteem face diferrenţa între suubiecţii cu peerformanţe înalte şi cei cuu performanţee scăzute
la un test. Se poatee calcula ca diferenţă înntre procentuul de subieccţi care au rrezolvat coreect itemul
analizat din cincimeaa superioară a clasamenntului, realizaat pe baza sccorurilor totaale la test (prrimii 20%
dintre suubiecţi) şi proocentul de suubiecţi care a rezolvat coorect itemul analizat din cincimea infferioară a
52

clasamentului (ultimii 20% dintre subiecţi). Ca și în cazul indicelui de dificultate, grupul de subiecți poate
fi împărțit și în trei sau patru segmente.
Formula după care se calculează indicele de discriminare este:
G  Gs
I dis  i ,
n
în care Gi reprezintă numărul de răspunsuri greşite în segmentul inferior, Gs numărul de răspunsuri
greşite în segmentul superior, iar n este numărul de subiecţi dintr-un segment.
Valoarea indicelui de discriminare poate varia între -1 şi +1. Când are valoarea +1, itemul
discriminează la nivel maxim în favoarea subiecţilor buni, iar valoarea -1 indică o discriminare negativă
(toţi elevii din segmentul superior au greşit itemul, iar cei din segmentul inferior l-au rezolvat corect). În
situaţia absurdă a unei discriminări negative, se recomandă excluderea itemului. În cazul unui test
normativ, valoarea optimă a indicelui de discriminare ar trebui să se situeze peste 0,70.
EXEMPLU
Exemplu de calcul a indicelui de dificultate
Revenim la exemplul pe baza căruia am calculat indicele de dificultate şi analizăm puterea de
discriminare a itemului 7. Un elev din segmentul inferior (E) a greşit itemul, în timp ce în segmentul
superior nu avem nici un răspuns greşit. Dacă înlocuim aceste date în formulă, obţinem:
G  Gs 1  0
I dis  i   0,50
n 2
Aşadar, indicele de discriminare al itemului 7 este de 0,50, o valoare mai mică decât 0,70, ceea ce
înseamnă că acest item nu discriminează foarte bine între elevii buni şi elevii slabi.
Analiza distractorilor (răspunsurile incorecte) se recomandă în special pentru itemii cu alegere

multiplă sau pentru cei de asociere pentru a determina eficienţa acestora. Răspunsurile incorecte ar
trebui să-l stimuleze pe elev, fără a permite „ghicirea” răspunsului corect fără nici un fel de efort. Analiza
distratorilor se poate realiza prin calcularea indicelui de discriminare pentru fiecare distractor, cu
precizarea că acesta ar trebui să aibă valori mai degrabă negative pentru ca varianta de răspuns
incorectă să poată fi considerată un distractor eficient (Linn şi Gronlund, 2000; Nitko, 2001). Cu alte
cuvinte, distractorul ar trebui să atragă mai multe alegeri din rândul elevilor slabi şi mai puţine din rândul
celor buni. Dacă această soluţie pare complicată şi minuţioasă, se poate proceda la o analiză detaliată
a distractorilor, care să respecte principiile enunţate anterior, evitând totodată calculele matematice.
Vom exemplifica un asemenea demers, pentru a facilita înţelegerea acestei proceduri de analiză a
distractorilor.
Să presupunem că am aplicat un test care include itemi cu alegere multiplă care au câte patru
variante de răspuns unui grup de 40 de elevi. Ca şi în cazul calculării indicelui de discriminare, trebuie
să stabilim segmentul superior şi segmentul superior în funcţie de rezultatele totale la test. În acest caz,
presupunem că vom împărţi grupul nostru în patru segmente a câte 10 elevi. Rezultatele detaliate
pentru unul dintre itemi, pentru care răspunsul corect este A, iar B, C şi D sunt distratori sunt prezentate
în tabelul de mai jos.
Alternative de Varianta de Varianta de Varianta de Varianta de Non-
răspuns răspuns A răspuns B răspuns C răspuns D răspunsuri
Segmentul superior 6 4 1 0 0
Segmentul inferior 3 2 5 0 0
Puterea de discriminare a itemului este relativ redusă, valoarea indicelui de discriminare fiind 0,33.
Alternativa de răspuns B este un distractor nepotrivit, deoarece a atras mai multe alegeri din segmentul
superior al grupului de elevi. Varianta de răspuns C este un distractor adecvat deoarece a atras mai
multe alegeri din segmentul inferior al grupului, în timp ce alternativa D este un distractor lipsit de
53
NICOLETA-LAURA POPA
eficienţă, nefiind ales de nici un elev. Ca urmare a aceste analize, profesorul ar trebui să înlocuiască
variantele de răspuns B şi D sau să revizuiască itemul în întregime, în cazul în care sarcina a fost
formulată într-o manieră ambiguă, generând astfel problemele de discriminare între elevii buni şi cei
slabi.
Deşi analiza itemilor constituie un demers obligatoriu cel puţin în vederea proiectării mai corecte
testelor pentru o secvenţă de evaluare viitoare, ar trebui avute în vedere o serie de nuanţe privind
interpretarea sa (Lin şi Gronlund, 2000; Nitko, 2001):
 Puterea de discriminare a unui item nu oferă informaţii şi despre validitatea acestuia. În calcularea
coeficientului de discriminare se folosesc scorurile de la întregul test pentru a împărţi grupul se elevi
în subgrupuri, adică un criteriu intern şi nu unul extern. O valoarea adecvată a indicelui de
discriminare ilustrează validitatea unui item, doar în cazul în care validitatea întregului test a fost deja
demonstrată. În evaluarea pe care o realizăm la clasă, rareori ne putem permite să realizăm o
analiză de validitate completă şi, de aceea, indicele de discriminare trebuie interpretat cu precauţie.
 Un indice scăzut al discriminării nu indică întotdeauna un item formulat în completă eroare. Itemii
care nu discriminează între elevii buni şi cei slabi trebuie analizaţi în special sub aspectul formulării,
care poate fi ambiguă, inexactă sau poate induce unor elevi răspunsul corect. Testele elaborate de
profesor pentru utilizarea la clasă sunt proiectate pentru a măsura comportamente pe mai multe
nivele taxonomice (cunoaştere, înţelegere, aplicare etc.). Dacă un test cu 20 de itemi care vizează
cunoaşterea şi înţelegerea include 15 itemi pentru nivelul cunoaştere şi 5 itemi pentru nivelul
înţelegere, puterea de discriminare a itemilor care măsoară înţelegerea va fi cu siguranţă mai mică.
Un prim motiv este acela că itemii care vizează înţelegerea sunt mai puţin reprezentaţi în întregul
test, iar un al doilea ar fi slaba corelaţia între itemii care măsoară cunoaşterea şi cei care măsoară
înţelegerea pe care cercetătorii au demonstrat-o anterior (Linn şi Gronlund, 2000). Dacă am exclude
aceşti itemi din test, am obţine un test mai omogen, dar validitatea sa ar scădea pentru că nu am
mai surprinde întreaga gamă de comportamente pe care le-am vizat în activitatea de predare-
învăţare.
 Între indicele de dificultate şi indicele de discriminare se stabilesc relaţii complexe care trebuie avute
în vedere în interpretarea lor. Astfel, în principiu, un item cu dificultatea 0,50 (itemul „ideal”) poate
avea un indice de discriminare maxim (1), dar această relaţie între cele două valori ale indicilor nu
este garantată. Dacă jumătate dintre elevii din segmentul superior şi, respectiv, din segmentul
inferior ar rezolva corect un item, indicele de dificultate ar rămâne 0,50, dar valoarea indicelui de
discriminare ar fi 0. Cu cât ne îndepărtăm de valoarea 0,50 a indicelui de dificultate, iar itemii devin
fie mai uşori, fie mai dificili, valoarea indicelui de discriminare scade. Aşadar, itemii cu nivel foarte
scăzut sau foarte ridicat de dificultate au o putere de discriminare redusă. În luarea deciziilor privind
excluderea unor itemi trebuie avute în vedere cel puțin două considerații importante: pe de o parte, o
slabă putere de discriminare poate indica probleme în formularea clară a cerințelor și nu deficiențe
de conținut, iar pe de altă parte, testele elaborate de către profesor pentru a fi aplicate la clasă nu
vizează întotdeauna discriminarea de finețe între rezultatele elevilor. Astfel, eliminarea itemilor cu
putere de discriminare mică poate influența negativ validitatea testului.
 Analiza de itemi trebuie întotdeauna interpretată cu precauție atunci când se realizează pe grupuri
mici de elevi, cum sunt clasele. În mod evident, rezultatele analizei de itemi sunt influențate de
volumul lotului de elevi cărora li se administrează testul și, de aceea, rezultatele sale pentru o clasă
de elevi trebuie interpretate prudent. Vor fi excluși din test doar acei itemi care sunt în mod evident
prea dificili ori prea facili și care discriminează negativ, dar fără a interpreta rigid limitele numerice
sugerate de specialiști.
54

Ui 6

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ui 6

Încărcat de

Drepturi de autor:

Formate disponibile

Validditatea unui test

Validiitatea concurrenţială presupune compararea rezulttatelor între instrumentul de evaluare şi criteriu

Indicatorul statistic al coeficientului de stabilitate şi al coeficientului de echivalenţă este coeficientul

Metoda înjumătăţirii se recomandă atunci când nu există o formă alternativă a instrumentului de

8 1 2 -1,70 -0,50 2,89 0,25 0,85

M= 2,70 M= 2,50 ∑= 16,10 ∑= 6,50 ∑= 7,50

Metoda Kuder-Richardson de calculare a consistenţei interne estimează omogenitatea itemilor unui

Înlocuind aceste valori în formulă obţinem:

Analiza distractorilor (răspunsurile incorecte) se recomandă în special pentru itemii cu alegere

S-ar putea să vă placă și