Statm 08 An Itemi PDF

© Universitatea din București, M.
Popa, 2009: Analiza de itemi din perspectiva teoriei clasice a testului
Analiza de itemi din perspectiva teoriei clasice a testului
Marian Popa
Cuprins
1. Indicele de dificultate
Calcularea indicelui de dificultate cu SPSS
2. Indicele de discriminare
Calcularea indicelui de discriminare cu SPSS
3. Analiza de consistență internă: indicele Cronbach alfa
Valoarea recomandată pentru Cronbach alfa
Analiza de consistenţă internă cu SPSS
Estimarea numărului de itemi necesari pentru o scală
Efectul de atenuare a validității
Reguli de bază pentru dezvoltarea itemilor
Recomandări privind utilizarea analizei de consistență internă
***
Primele elemente ale teoriei testelor psihologice datează încă din primii ani ai
secolului XX și se datorează lui Charles Spearman, dar iau o formă structurată odată cu
lucrarea lui Gulliksen, Theory of mental tests, publicată în 1950 (apud Ellis & Mead, 2004).
Componenta cheie al acestei teorii, devenită cunoscută între timp drept Classical Test Theory
(CTT), constă în estimarea unui atribut sau caracteristici psihologice pe baza unei combinații
liniare a unui set de itemi. Conceptele ei de bază sunt: scorul observat (X), scorul adevărat
(true score) (T), și eroarea de măsurare (E) (Bovaird & Embretson, 2008; Steyer, 2001;
Traub, 1997), a căror relație este formalizată în expresia:
X=T+E
Scorul adevărat (T) se referă la ceea ce face obiectul declarat (așteptat) al măsurării, în
timp ce eroarea (E) se referă la o componentă neașteptată, dar inevitabilă, care modifică într-
un sens sau altul valoarea observată. Presupunerile fundamentale pe care se bazează CTT sunt
următoarele:
(a) media erorilor de măsurare la nivelul populației de subiecți evaluați este zero
(altfel spus, erorile au un caracter aleatoriu);
(b) corelația dintre scorul adevărat și eroarea de măsurare la nivelul populației de
subiecți este zero;
(c) corelația dintre erorile a două teste (E1 și E2), care pot fi teste diferite sau același
test aplicat de două ori, este zero.
În mod obișnuit, testele psihologice vizează constructe psihologice (de performanță,

sau de personalitate) care nu pot fi observate în mod direct, ci prin intermediul unor itemi
(întrebări sau sarcini specifice) care se referă la diferite aspecte caracteristice acelor
constructe. CTT presupune existența unei relații liniare între răspunsul la itemii unui test și
scorul global construit pe seama lor. De exemplu, dacă un subiect rezolvă corect un item al
unui test de inteligență, ne așteptăm să rezolve corect și alți itemi ai testului și, firește, să
obțină un scor global ridicat la întregul test. Aceeași presupunere este valabilă și în cazul
măsurării unor atribute de personalitate.
Modul de elaborare a itemilor unui test și evaluarea măsurii în care aceștia întrunesc
calitățile psihometrice necesare unui instrument de măsură psihologică fac obiectul combinat
al unei analize calitative și cantitative (Rzasa, 2003). Aceste direcții sunt complementare și
contribuie în egală măsură la construcția unui test psihologic performant. În ceea ce ne
privește, aici ne vom axa doar pe componentele cantitative ale analizei de itemi.
1/20
Actualizat la: 06.05.2014/13:28:17
M. Popa – Analiza de itemi
În conformitate cu elementele definitorii ale CTT, analiza de itemi reprezintă o

colecţie de proceduri statistice care permit descrierea relației dintre itemii unui test psihologic
și a relației dintre fiecare item și scorul global construit pe baza lor. Procedurile pe care se
bazează această analiză sunt (Ellis & Mead, 2004):
(1) evaluarea indicelui de dificultate a itemilor;
(2) evaluarea capacităţii de discriminare a itemilor.
(3) evaluarea consistenţei interne a instrumentului.
1. Indicele de dificultate
Multe dintre testele dezvoltate de psihologi vizează caracteristici psihice exprimate în

termeni de performanţă, în scopul clasificării pentru selecţie sau evaluării comparative
(aptitudini şi abilităţi diverse). În cazul acestui tip de scale, este de interes major evaluarea
capacităţii de fiecărui item de a diferenția subiecții care au de cei care nu au atributul
(caracteristica) măsurată. Indicele de dificultate semnifică procentul de răspunsuri corecte
obținut de un item pe un anumit eșantion de subiecți.(1) Pentru testele de personalitate,
conceptul de „corect” sau „greşit” se înlocuieşte cu orientarea răspunsului spre semnificaţia
scalei sau împotriva acesteia (marcând prezenţa sau absenţa trăsăturii vizate). Orice item la
care se obţin numai răspunsuri corecte, sau la care nimeni nu răspunde corect, este lipsit de
relevanţă deoarece nu produce nici o diferenţiere între subiecţi.
Dacă presupunem existenţa unei relaţii perfecte dintre abilitatea subiectului (cea
măsurată prin test) şi răspunsul ”corect” la un item, atunci un indice de dificultate de 50% va
diferenţia între subiecţii care se plasează în prima jumătate a scalei şi cei care se plasează în
doua jumătate a scalei. În acelaşi timp, dacă toţi itemii unei scale ar avea un indice de
dificultate de 50%, atunci testul ar discrimina doar două categorii de subiecţi, fapt care nu este
de natură să conducă la evaluări suficient de sensibile. În general, se consideră că o scală este
suficient de discriminativă atunci când este compusă din itemi al căror indice de dificultate
este moderat (30%-40%). Într-un mod similar se pune problema şi în cazul întrebărilor la teste
de personalitate, la care răspunsurile sunt interpretate în funcţie de ”prezența” sau ”absența”
trăsăturii psihice vizate.
Atunci când itemii sunt selectaţi pe baza indicelui de dificultate mai trebuie luaţi în
considerare doi factori suplimentari:
a. Deşi un indice mediu de dificultate de 50% este suficient pentru a maximiza
varianţa totală a scorului, această valoare trebuie să fie mai mare în cazul în care
avem de a face cu răspunsuri la un test cu alegeri multiple. Aceasta deoarece trebuie
să luăm în considerare faptul că o parte a răspunsurilor corecte pot fi ghicite, date la
întâmplare.
b. Dacă dorim ca scala să fie discriminativă şi spre extremele ei, atunci vor trebui
incluşi şi itemi al căror indice de dificultate să se afle în apropierea extremelor,
adică mai mici sau mai mari de 50%.
În general, este considerat recomandabil un indice de dificultate mediu pe întregul test

cuprins între 30% și 70% (sau, exprimat sub formă de proporție, între 0.30 şi 0.70).
Calcularea indicelui de dificultate cu SPSS(2)
Aşa cum l-am descris mai sus, indicele de dificultate se calculează ca procent de
răspunsuri corecte pentru fiecare item. Pentru evaluarea dificultăţii itemilor cu SPSS se va
utiliza procedura Frequencies… din meniul Analyze/Descriptive Statistics. Mai jos avem
1
Uneori indicele de dificultate este calculat și ca procent al răspunsurilor greșite, ceea ce nu modifică
decât optica nu și raționamentele cu privire la acest indicator.
2
Referințele sunt la SPSS v22
2/20
Actualizat la: 06.05.2014 13:28
imaginea analizei de frecvenţe pentru un item oarecare, i_01, al unui test cu 22 de itemi, unde
valoarea 0 înseamnă răspuns greşit iar valoarea 1, răspuns corect.(3)
Indicele de dificultate se citeşte pe coloana Percent, dacă variabila nu are valori lipsă,
şi pe coloana Valid Percent, dacă există valori lipsă. În cazul nostru, indicele de dificultate al
itemului 01 este de 81.8% (0.81).
2. Indicele de discriminare
Procentajul răspunsurilor corecte (indicele de dificultate) nu este o condiţie suficientă

pentru a judeca calitatea unui item. La fel de important este ca numărul răspunsurilor corecte
la un item să fie în legătură cu nivelul abilităţii (sau trăsăturii, dacă este un test de
personalitate) pe care intenţionăm să o măsurăm cu acel instrument. Acest aspect este surprins
de indicele de discriminare. Dacă cei care răspund corect (sau în sensul „trăsăturii”, pentru un
test de personalitate), la un anumit item, au un nivel ridicat al abilităţii (trăsăturii), în timp ce
cei care răspund greşit au nivel scăzut, sau dacă ambele grupuri au acelaşi nivel al abilităţii
(trăsăturii), atunci este clar că itemul respectiv este, fie formulat greşit, fie măsoară altceva
decât se presupune că măsoară.
Un item care dispune de capacitate de discriminare are un procentaj al răspunsurilor
corecte mai mare pentru subiecţii care obţin rezultate mai mari la nivelul scorului global, şi un
procentaj mai mic pentru subiecţii care obţin o valoare mai mică la scorul global. În absenţa
unui criteriu extern de validare a răspunsului, scorul global, obţinut, să zicem, prin însumarea
răspunsurilor corecte, este utilizat drept criteriu de discriminare. Pentru calcularea indicelui de
discriminare se procedează în felul următor:
 se calculează scorul total;
 se formează două grupuri distincte, fiecare reprezentând un anumit procent
din subiecţii evaluaţi, aflaţi la extremele distribuţiei. Procentul selectat este
arbitrar. Cu cât este mai mic, cu atât indicele de discriminare este mai mare
dar, în acelaşi timp, mai puţin sigur. De aceea, se recomandă un selectarea
unui procent cuprins între 25% şi 33%, care reprezintă un compromis
rezonabil.
 odată grupurile selecţionate, se poate calcula un indice de discriminare,
simbolizat cu "D", după următoarea formulă:
U L
D 
nU nL
unde:
 U=numărul subiecţilor din grupul superior (Upper group) care au răspuns
corect la un item
 nU=numărul subiecţilor din grupul superior
 L=numărul subiecţilor din grupul inferior (Lower group) care au răspuns
corect la un item
 nL=numărul subiecţilor din grupul inferior
Dacă numărul subiecţilor din cele două grupuri extreme este egal, atunci D=(U-L)/n.
3
Se utilizează datele din fişierul didactic alfa_tema.sav
3/20
Actualizat la: 06.05.2014 13:28
O valoare pozitivă va indica faptul că itemul discriminează corect, în concordanţă cu

constructul psihologic măsurat. Cu cât mai mare este diferenţa, cu atât mai mare este
capacitatea itemului de discriminare între subiecţii „buni” şi cei „slabi” sub aspectul acelui
construct. Pe de altă parte, o valoare negativă sugerează o discriminare negativă între
grupurile extreme, fapt care este o dovadă puternică a unei probleme în construcţia acelui
item. Ebel (1965) sugerează eliminarea sau revizuirea completă itemilor al căror indice de
discriminare este mai mic de 0.20 şi revizuirea itemilor al căror indice este între 0.20 şi 0.30.
Un indice de discriminare bun se plasează între 0.30-0.39, iar unul foarte bun, peste 0.40.
Calcularea indicelui de discriminare cu SPSS
Programul SPSS nu dispune de o procedură specifică pentru analiza de discriminare a

itemilor. Cu toate acestea, dispune de suficiente posibilităţi pentru realizarea acestui tip de
analiză. Vom prezenta mai jos un exemplu pentru itemul i_01, al cărui nivel de dificultate a
fost calculat anterior. În acest scop, am procedat astfel:
a) Calculăm scorul global al scalei, compusă din 22 de itemi, din care face parte
itemul i_01, utilizând procedura Transform/Compute, aşa cum se vede mai jos:
b) Analizăm variabila "scor" astfel obţinută cu procedurile Explore şi Frequencies,

din meniul Statistics, fixând arbitrar două grupe extreme de performanţă, compuse fiecare din
aproximativ 30% dintre subiecţii examinaţi cu respectivul instrument, astfel:
 grupul inferior, valorile 7-13 (NL=7)
 grupul superior, valorile 18-22 (NU=11)
4/20
Actualizat la: 06.05.2014 13:28
c) Am creat o variabilă nouă, în care am definit apartenenţa subiecţilor la grupurile

definite mai sus, pe care le-am codificat astfel, cu procedura Tranform/Recode/Into Different
Variables:
"1", grupul inferior
"2", grupul median
"3", grupul superior
Şi apoi, după acţionarea butonului Old and New Values: declarăm valorile, aşa cum se
vede în caseta de mai jos
În urma acestei operaţii am obţinut variabila "grup", ale cărei valori, 1, 2 sau 3,
marchează apartenenţa subiecţilor la unul dintre cele trei grupe valorice.
d) Declarăm împărţirea fişierului cu date în trei categorii de subiecţi, cu procedura

Data/Split File, aşa cum se vede în imaginea de mai jos.
5/20
Actualizat la: 06.05.2014 13:28
Efectul acestei acţiuni este acela că, orice prelucrare vom face cu SPSS în continuare,
aceasta va fi efectuată separat pentru fiecare din cele trei categorii separate prin valorile
variabilei "grup".
e) În fine, acum se poate rula procedura Frequencies din meniul Statistics, pentru
variabila i_01. Datorită efectului de împărţire a bazei de date prin comanda Split file,
rezultatul va fi structurat pentru fiecare subgrup valoric în parte, aşa cum se vede în imaginea
de mai jos:
i_01
Cumulative
grup Frequency Percent Valid Percent Percent
1,00 Valid 0 3 42,9 42,9 42,9
1 4 57,1 57,1 100,0
Total 7 100,0 100,0
2,00 Valid 1 4 100,0 100,0 100,0
3,00 Valid 0 1 9,1 9,1 9,1
1 10 90,9 90,9 100,0
Total 11 100,0 100,0
Tabelul din imaginea de mai sus prezintă frecvenţa răspunsurilor corecte, citită pe
coloana Percent (sau pe coloana Valid Percent, dacă există valori lipsă). Aşa cum se observă,
indicele de dificultate pentru grupul valoric inferior este mai mic (57.1%) decât pentru grupul
superior (90.9%).
Aplicând manual formula, obţinem indicele de discriminare căutat:
10 4
D   0.33
11 7
Rezultatul arată că itemul i_01 are un indice pozitiv de discriminare de 0.33 care, în
conformitate cu criteriile lui Ebel, indică o capacitate bună de discriminare. Chiar dacă
obţinem şi unii indici de discriminare mai mici, dacă dorim să avem o scală care are putere de
discriminare şi la extremele sale, aceştia pot fi păstraţi.
Notă: Se observă că se poate ajunge la o valoare similară, exprimată în procente,

prin simpla diferenţă a celor doi indici de dificultate "D=90.9-57.1=33.7)
Mai departe, ar trebui efectuată procedura Frequencies pentru toţi cei 22 de itemi ai
testului şi extragerea concluziilor care se impun.
Deşi uşor de calculat şi utilizat, indicele D suferă de un mare neajuns: prin

compararea a doar două grupuri extreme, selectate arbitrar din ansamblul subiecţilor testaţi, o
parte din informaţie este ignorată, deoarece subiecţii care fac parte din grupul de performanţă
intermediar nu sunt luaţi în considerare. Soluţia acestei probleme ar putea fi aceea de a
împărţi ansamblul valorilor scalei în mai multe subgrupuri, în funcţie de numărul subiecţilor
şi de fineţea dorită a analizei. În acest fel, indicele de dificultate al fiecărui item ar putea fi
analizat prin raportare la fiecare subgrup valoric. În mod ideal, indicele de dificultate
(procentul răspunsurilor corecte) al unui item bine „calibrat” trebuie să fie mai mic pentru
subiecţii din grupul valoric inferior şi să crească progresiv, pe măsură ce este calculat pentru
grupurile cu performanţe mai mari la scorul global (Peladeau, 1995).
6/20
Actualizat la: 06.05.2014 13:28
Analiza grafică a capacității de discriminare
O modalitate de evidențiere grafică a capacității de discriminare a itemilor este

sugerată de Garbin și Hoffman (2008). Practic, aceasta presupune următorii pași:
- calcularea scorului global
- împărțirea distribuției scorului global într-un număr convenabil de categorii, în
funcție de variabilitatea acestuia (de regulă 3 sau 5 categorii)
- realizarea graficului mediei fiecărui item în raport categoriile anterior determinate
Pentru exemplificare, vom efectua analiza grafica a câtorva itemi din baza de date
alfa_tema.sav, urmând etapele de mai jos:
Calculăm scorul global, prin însumarea

valorilor la toți itemii (dacă testul ar viza
mai multe dimensiuni, am include numai
itemii aferenți unei dimensiuni)
Aplicăm procedura Frequencies pentru

variabila scor_global
În caseta secundară Statistics bifăm Cut

points for: și setăm 5 equal groups
În acest mod vom obține valorile care
împart distribuția scorului global în cinci
grupuri egale ca număr de subiecți.
Rezultatul operației de mai sus este afișat

în Output. Valorile 12, 15, 18 și 19
delimitează cele cinci grupuri egale.
7/20
Actualizat la: 06.05.2014 13:28
Utilizăm procedura Transform/Recode into

Different Variables pentru a crea o
variabilă care definește cele cinci grupuri
în funcție de valorile obținute mai sus.
Declarăm valorile unei variabile noi
grup_valoric în caseta Old and New
Values, după cum urmează:
0-12 – 1
13-14 – 2
16-17 – 3
18 – 4
19-val. max. – 5
Utilizăm procedura One-Way ANOVA din

meniul Analyze/Compare means pentru
itemul dorit în raport cu variabila
grup_valoric.
Din caseta Options alegem doar Means

plot.
Graficul itemului 01 indică o variație

oscilantă în raport cu scorul global, ceea ce
pune sub semnul întrebării utilitatea lui.
8/20
Actualizat la: 06.05.2014 13:28
Graficul itemului 05 indică o asociere

monoton pozitivă în raport cu scorul
global, caracteristică unui item bun.
Graficul itemului 18 indică absența unei

variații în raport cu scorul global. Itemul nu
este bun.
3. Analiza de consistenţă internă - indicele Cronbach alfa4
Având un instrument psihologic format din itemi diferiţi, o problemă fundamentală

care se pune este măsura în care aceşti itemi sunt „unidimesionali”, adică măsoară una și
aceeaşi realitate psihologică. Numai dacă această condiţie este îndeplinită se poate construi un
scor unic (denumit în continuare „scală”). Dacă avem în vedere un chestionar de personalitate
sau o scală de atitudine de tip Lickert, atunci ne aşteptăm că acest instrument este destinat
măsurării unui anumit aspect sau atribut psihic şi, în mod ideal, numai aceluia. Cu alte
cuvinte, întrebările unui chestionar, la fel ca şi cele ale unui test de performanţă, ar trebui să
fie astfel formulate încât să se refere la o singură realitate psihică, vizată prin obiectivul
instrumentului. Dacă această condiţie este întrunită, atunci itemii ar trebui să aibă o
variabilitate comună, adică o corelaţie pozitivă unii cu alţii, pe de o parte, dar şi o corelaţie
pozitivă cu scala, pe de altă parte. Această calitate a unui test se numeşte consistenţă internă şi
este întrunită atunci când fiecare dintre itemii care îl compun este relevant în raport cu
dimensiunea psihică vizată de instrument. Corelaţia dintre un anumit item şi scorul global,
calculat fără acel item, poate fi considerată un indicator a relaţiei mai sus amintite. O altă
faţetă a consistenţei unui instrument psihologic este fidelitatea sa, care poate fi exprimată prin
stabilitatea scorului global atunci când acelaşi instrument, sau o formă alternativă a acestuia,
este aplicată aceloraşi subiecţi.
Fără a fi singura procedură statistică utilizabilă în astfel de situaţii, coeficientul
Cronbach alfa (α) este de departe cel mai cunoscut dintre toate, fiind utilizat ca un indicator
al preciziei de măsurare a unui test, al consistenţei interne şi fidelităţii unui instrument
psihologic. El nu este un test statistic, ci un indice sau coeficient care măsoară caracteristica
4
Acesta este un material didactic. Pentru informații mai aprofundate se poate consulta articolul
”Infidelitățile coeficientului de fidelitate Cronbach alfa”, la adresa:
http://www.mpopa.ro/miscellanea/Marian_Popa_Cronbach_alfa.pdf
9/20
Actualizat la: 06.05.2014 13:28
de consistenţă internă a unui instrument psihologic compus din mai mulţi itemi care sunt
însumaţi într-un scor unic. Formula de calcul se bazează pe media coeficienţilor de corelaţie
dintre itemi şi numărul itemilor:
N  rm

1  N  1 * rm
unde:
N=numărul itemilor
rm=media coeficienţilor de corelaţie dintre itemi
Indicele Cronbach alfa tinde să fie este mai mare:

- Cu cât numărul itemilor este mai mare. Ca urmare, putem fi tentaţi să utilizăm
chestionare cu un număr mai mare de întrebări. Acest lucru poate genera cel puţin
două probleme pe care trebuie să le luăm în considerare:
o din motive practice, testele mai scurte sunt de dorit, date fiind reducerea
costurilor de realizare şi a duratei de aplicare;
o în cazul testelor cu număr mare de itemi pot exista întrebări care, chiar
dacă au o corelaţie pozitivă cu scala, contribuie la reducerea indicelui
Cronbach alfa sau au o contribuţie minoră la consistenţa generală a
scalei.
- Cu cât corelația medie dintre itemi este mai mare sau numărul corelațiilor egale
dintre itemi este mai mare (vezi tabelul 1). Itemii care dau corelații cu alți itemi
de 0.4 sau mai mari, contribuie într-o măsură importantă la creșterea valorii
indicelui Cronbach alfa.
- Cu cât volumul eșantionului mai mare. În practică, cu cât corelație dintre itemi
este mai redusă, cu atât volumul eșantionului necesar pentru a atinge un nivel
acceptabil pentru Cronbach alfa este mai mare (vezi tabelul 2).
- Numărul variantelor de răspuns este mai mare. Proprietățile psihometrice ale
scalelor sunt afectate de numărul alternativelor de răspuns. Cu cât subiecții pot
alege dintre mai multe variante, atât indicele Cronbach alfa tinde să fie mai mare,
cât și validitatea scalei. Scalele cu 5 sau 7 variante de răspuns sunt preferabile. De
remarcat faptul că cel mai scăzut nivel de consistență internă se obține pe scalele
cu trei niveluri de răspuns, chiar mai scăzut decât pentru scalele cu două variante
(Lozano, Garcia-Cueto, & Muniz, 2008).
Tabelul 1. Volumul eșantionului în funcție de diferite valori Cronbach Alfa și media

coeficienților de corelație r (Zeller, 2001)
r Cronbach alfa
mediu 0.7 0.8 0.9
0.1 21 36 81
0.2 10 16 36
0.3 6 10 21
0.4 4 6 14
0.5 3 4 9
0.6 2 3 6
0.7 1 2 4
0.8 1 1 3
Dacă analizăm datele din tabelul 1 observăm că cu cât itemii corelează mai puternic
cu atât este nevoie de mai puțini subiecți pentru a se atinge niveluri ridicate ale indicelui
Cronbach alfa. Mai departe, datele din tabelul 2 ne arată că numărul necesar de itemi pentru
aceeași valoare a indicelui Cronbach alfa este mai mic pe măsură ce numărul de itemi crește
și corelația medie dintre aceștia crește și ea.
10/20
Actualizat la: 06.05.2014 13:28
Tabelul 2. Valoarea indicelui Cronbach Alfa în funcție de numărul de itemi și de corelația

medie dintre aceștia (Zeller, 2001)
r Număr de itemi
mediu 5 10 20 30 50
0.1 .37 .53 .69 .77 .850
0.2 .56 .71 .83 .88 .930
0.3 .68 .81 .90 .93 .960
0.4 .77 .87 .93 .95 .970
0.5 .83 .91 .95 .97 .980
0.6 .88 .94 .97 .98 .990
0.7 .92 .96 .98 .99 .990
0.8 .95 .98 .987 .992 .995
0.9 .98 .99 .994 .996 .998
Valoarea recomandată pentru Cronbach alfa
Plaja teoretică normală de variație pentru indicele Cronbach alfa este între 0 şi 1.
Uneori este posibilă obținerea unei valori negative, dar acest lucru apare numai în contextul
unei configurații viciate a datelor, care este semnalată de programul de calcul.
O scală, pentru a fi considerată consistentă, trebuie să atingă o valoare a indicelui
Cronbach alfa cât mai aproape de 1, nivelul de 0.70 fiind în general acceptat, prin convenţie,
ca prag minim. Oricum pentru ca un test să fie consistent valoarea lui Cronbach alfa nu poate
fi mai mică de 0.60, iar o valoare cât mai mare este întotdeauna de dorit. Unii autori consideră
drept acceptabilă o valoare de 0.50 a indicelui Cronbach alfa în cazul scalelor cu un număr
mic de itemi (10-15), în timp ce pentru scalele mai mari de 50 de itemi se recomandă valori
ale lui Cronbach alfa de cel puţin de 0.80.
Nivelul recomandat pentru Cronbach alfa diferă și în funcție de utilizarea pe care o
are scala. Dacă pentru scopuri de cercetare se acceptă și valori mai mici de 0.70, pentru
scopuri de decizie, cum ar fi cele de selecție psihologică a personalului, se impun valori mai
mari de 0.70.
Având în vedere faptul că indicele Cronbach alfa, calculat pe un eșantion, este doar o
estimare a valorii sale reale, atunci o recomandare mai bună este ca limita inferioară a
intervalului de încredere a acestuia să fie de cel puțin 0.70. Modul în care pot fi obținute
limitele intervalului de încredere va fi prezentat mai jos.
Analiza de consistenţă internă cu SPSS
Procedura de analiză a consistenţei interne are un caracter recursiv, cu evaluări

succesive ale relaţiilor dintre itemi, dintre itemi şi scorul global, şi cu operarea selecţiei
itemilor în funcţie de relaţia lor cu acesta. Criteriul de bază pentru această operaţie este
valoarea indicelui Cronbach alfa.
Procedura se lansează din meniul Analyze/Scale-Reliability Analysis..., care deschide
următoarea casetă de dialog:
11/20
Actualizat la: 06.05.2014 13:28
Variabilele care conţin valorile itemilor de analizat vor fi trecute în lista Items.(5)
Atenţie, variabilele trebuie să conţină valori care exprimă semnificaţia răspunsului în

raport cu scala globală şi nu răspunsul efectiv al subiectului. De exemplu, dacă variantele de
răspuns sunt codificate cu „1”, respectiv „2”, pot exista întrebări pentru care varianta „1”
aduce un punct la scală iar varianta „2” aduce zero puncte la scală. Într-o asemenea situaţie,
pentru analiza de itemi valorile codificate de răspuns vor fi transformate în valori
corespunzătoare (0 şi 1). În acelaşi mod se va opera şi pentru itemii care au mai multe
variante de răspuns, cum este cazul scalelor de tip Lickert. Codurile convenţionale ale
variantelor de răspuns vor fi transformate în valori, în funcţie de semnificaţia contribuţiei lor
la construirea scorului global.
În lista Model se poate alege unul dintre următoarele modele de analiză:
 Alpha. Calculează Cronbach alfa care pentru date dihotomice este echivalent cu
coeficientul Kuder-Richardson 20 (KR20)
 Split-half. Pentru corelaţia dintre forme paralele, coeficientul de fidelitate
Guttman, coeficientul Spearman-Brown, coeficientul alfa pentru fiecare
jumătate.
 Modele Gutman. Coeficienţii lambda, de la 1 la 6 (lambda 3 este identic cu
Cronbach alfa)
 Modele paralele şi strict paralele. Testele pentru gradul de corespondenţă
(goodness-of-fit), varianţa comună şi alte caracteristici ale raporturilor dintre
itemi.
Pentru analiza de consistenţă internă se alege modelul Alfa.
În continuare, se fac setări de analiză prin deschiderea casetei Statistics:
 În zona Descriptives se vor bifa opţiunile:

o Item (analiza fiecărui item separat);
o Scale (analiza scorului global)
o Scale if item deleted (analiza scorului fără contribuţia unui anumit item)
 În zona Inter-item se va bifa Corelations, pentru a obţine matricea de corelaţii dintre
itemi.
 Pentru obținerea limitelor intervalului de încredere, se va utiliza opțiunea Intraclass
correlation coefficient, cu setările suplimentare Two-Way Random și Consistency.
5
Se utilizează fişierul didactic saq_10_itemi.sav
12/20
Actualizat la: 06.05.2014 13:28
În practică, bifarea opţiunilor marcate pe caseta din imaginea de mai sus oferă
informaţiile cele mai importante pentru analiza itemilor unui test. Celelalte opţiuni sunt
explicitate în Help-ul casetei şi pot fi utilizate pentru o analiză mai rafinată a datelor.
În continuare vom analiza un set de 10 itemi ipotetici, aleşi doar în scop didactic.
Pentru o scală reală acest număr ar fi cu totul insuficient. Ca regulă generală, numărul itemilor
din faza de dezvoltare a unui astfel de instrument ar trebui să aibă cel puţin dublul numărului
de itemi pe care îl preconizăm la final. Acest lucru se impune deoarece analiza de itemi este
un proces selectiv care are drept scop alegerea itemilor adecvaţi pentru constituirea unei scale
cu cel mai ridicat nivel de consistenţă internă posibilă.
Rularea procedurii, cu setările de mai sus ne oferă mai multe categorii de informaţii:
Valoarea lui Cronbach alfa, în cazul nostru .458, care este o valoare foarte scăzută6:
Aceeași valoare, dar însoțită de limitele intervalului de încredere, o regăsim în tabelul

Intraclass Correlation Coefficient, pe linia Average Measures:
Avem de asemenea, un tabel cu indicatori descriptivi, media şi abaterea standard a

itemilor. Analiza valorilor permite evidenţierea tendinţei centrale şi a împrăştierii
răspunsurilor pentru fiecare item în parte:
6
SPSS raportează valoarea lui Cronbach alfa cu trei zecimale, dar în lucrări se va raporta doar cu două
zecimale.
13/20
Actualizat la: 06.05.2014 13:28
Este afișată matricea corelaţiilor dintre itemi, care oferă o imagine a gradului de asociere
dintre aceştia:
Valorile sunt utile, pe de o parte, pentru a sesiza itemii care tind să aibă relaţii
negative cu ceilalţi, fiind un semn al unei posibile probleme de construire respectivilor itemi.
Din tabelul de mai sus rezultă că itemii i_02 şi i_03 tind să se asocieze negativ cu majoritatea
celorlalţi itemi. Pe de altă parte, valori extrem de ridicate ale unor corelaţii, aproape de 1, ar
putea sugera că itemii respectivi prezintă un grad excesiv de similitudine care nu justifică
utilizarea lor în aceeaşi scală (ar putea fi, de exemplu itemi formulaţi extrem de asemănător).
În fine, cea mai importantă dintre categoriile de informaţii, tabelul Item-Total

Statistics, care descrie relaţia dintre itemi şi scorul global.
Conținutul fiecărei coloane este următorul:
- Scale mean if item Deleted – media scorului la scală, fără itemul respectiv;
- Scale variance if item Deleted – varianța scorului scalei, fără itemul respectiv
- Corected Item-Total Correlation - corelaţia dintre item şi scorul global construit
fără participarea itemului respectiv
- Squared Multiple Correlation – coeficientul de regresie multiplă, pentru itemul
respectiv în calitate de criteriu și toți ceilalți itemi în calitate de predictori.
- Cronbach’s Alpha if Item Deleted - valoarea lui Cronbach alfa, dacă respectivul
item ar fi eliminat).
Coeficienții de corelație sunt afișați fără nivelul de semnificație, luându-se în

considerare doar mărimea lor. In general, se consideră că o corelație minimă pentru un item
acceptabil ar trebui să fie de 0.20, dar valorile recomandabile sunt între 0.30 și 0.70.
Dacă privim coloana Corected Item-Total Correlation observăm că doi dintre itemi
(i_03 şi i_09) au corelaţii negative cu scorul global. Cu alte cuvinte, ei nu aduc informaţie
utilă în raport cu atributul măsurat ci, dimpotrivă, merg într-o altă direcţie decât acesta. În
primul rând trebuie să verificăm dacă valorile itemilor respectivi au fost corect codificate.
14/20
Actualizat la: 06.05.2014 13:28
Dacă da, atunci singura soluţie posibilă este eliminarea itemilor în cauză. Observăm, de
asemenea, că itemul i_02 are o corelaţie extrem de mică cu scorul global (0.017). Contribuţia
sa la scorul global este nerelevantă. Cu alte cuvinte, nici nu strică, dar nici nu ajută.
Valoare lui Cronbach alfa, care este de 0.45, poate fi crescută prin eliminarea itemilor
nepotriviţi, în primul rând a celor care corelează negativ cu scorul global. Ca urmare, se va
relua analiza, cu eliminarea itemilor negativi. În general, nu este recomandabilă eliminarea
mai multor itemi simultan, dar itemii negativi pot fi scoşi fără reţineri. Iată care este rezultatul
obţinut după reluarea analizei cu eliminarea itemilor 3 şi 9. Valoarea lui Cronbach alfa și
limitele de încredere pot fi citite din tabelul de mai jos:
Așa cum se observă, nivelul lui Cronbach alfa a crescut la 0.68, ceea ce este aproape
de limita valorii minime recomandate.
Dacă analizăm din nou tabelul Item-Total Statistics, vom vedea că itemul i_02, care
anterior avea o corelaţie pozitivă, dar extrem de mică, a dobândit o corelaţie negativă cu scala.
Așa cum se observă pe ultima coloană a tabelului, eliminarea acestui item ar conduce la
creșterea valorii lui Cronbach alfa la 0.75.
În principiu, chiar şi itemii pozitivi, care au corelaţii cu scala mai mici de 0.1, nu
trebuie păstraţi, pentru simplul motiv că nu contribuie la constructul psihologic vizat, fiind
doar consumatoare de timp în aplicarea instrumentului. În realitate, atunci când construim o
scală și avem un număr suficienți de itemi, îi putem păstra doar pe cei care au corelații cu
scala mai mari de 0.3 sau 0.4.
Refacem analiza fără itemul i_02 şi se obţine următoarea configuraţie de rezultate:
De data aceasta avem o valoare acceptabilă pentru Cronbach alfa (0.757). Mai mult,
limita inferioară a intervalului de încredere este și ea mai mare de 0.70, ceea ce este cu atât
mai bine. Să nu uităm că dacă indicele Cronbach alfa ar avea valoarea 0.70, asta înseamnă că
valoarea sa reală ar putea fi, cu o probabilitate de 0.95 mai mică decât 0.70.
În plus, dacă privim coloana Alfa if Item Deleted din tabelul Item-Total Statistics,
vedem că prin eliminarea oricărui item dintre cei rămași nu am obţine o valoare mai ridicată
decât cea obținută. În acest moment analiza poate fi oprită, itemii selecţionaţi putând fi
constituiţi într-un instrument de măsurare psihologică. În practică, autorul unui test psihologic
poate fi nevoit sau interesat să reducă numărul itemilor, fără a afecta consistenţa internă a
15/20
Actualizat la: 06.05.2014 13:28
scalei. În acest scop, valoarea Cronbach alfa în cazul eliminării itemului (Alpha if item
deleted) este un indicator foarte util. Eliminând succesiv itemii a căror prezenţă contribuie la
reducerea valorii Cronbach alfa, sau au o contribuţie redusă la aceasta, se poate ajunge la un
număr suficient de mic de itemi în condiţiile obţinerii unei valori mai mari pentru Cronbach
alfa.
În concluzie, cu ocazia iteraţiilor succesive se vor elimina, în ordine:
 itemii care au o corelaţie negativă cu scorul global
 itemii cu corelaţii mici, nerelevante
Cu cât avem mai mulţi itemi în această fază, cu atât avem posibilitatea să păstrăm
itemi care corelează mai intens cu scala şi, deci, să atingem un nivel mai ridicat de consistenţă
internă. Este de la sine înţeles că în cazul în care construim un instrument ale cărui întrebări
se adresează unor „scale” diferite, consistenţa internă se va evalua separat pentru setul de
întrebări corespunzător fiecărei scale.
O scală care este „consistentă intern” ne oferă garanţia că itemii instrumentului nostru
„merg împreună”, măsoară acelaşi construct psihologic. Atenţie însă, acest lucru nu înseamnă
că avem de a face cu un construct unidimensional și nici că instrumentul analizat măsoară
exact ceea ce n-am propus să măsoare. Această problemă va fi rezolvată ulterior, prin studii
de validare.
Estimarea numărului de itemi necesari pentru o scală
În procesul de construcţie al unei scale de măsurare psihologică pot apare unele

dificultăţi, pe care statistica ne ajută să le surmontăm. De exemplu, ne putem afla în situaţia în
care itemii elaboraţi nu ating nivelul minim acceptabil de consistenţă internă şi trebuie să
adăugăm noi itemi. Cât de mulţi itemi ar trebui să mai elaborăm pentru a atinge un indice
Cronbach alfa acceptabil? Numărul itemilor necesari pentru a completa o scală care nu a atins
valoarea acceptabilă a indicelui Cronbach alfa, poate fi estimat cu ajutorul formulei
Spearman-Brown:
 k * (1   x )
k
 x * (1   k )
unde:
αx este valoarea curentă a lui Cronbach alfa
αk este nivelul dorit al lui Cronbach alfa
k este factorul de multiplicare a scalei pentru a se obţine αk
Într-un mod similar se poate estima valoarea lui Cronbach alfa (αk) care ar fi atinsă
pornind de la un anumit nivel calculat al acestuia αx şi un anumit factor de multiplicare al
numărului de itemi (k):
k * x
k 
1  ((k  1) *  x )
Exemplu:
Avem o scală cu 20 de itemi şi αx=0.50
Câţi itemi ar trebui adăugaţi pentru a atinge un nivel α de 0.70?
 k * (1   x ) .70 * (1  .50)
k   2.33
 x * (1   k ) .50 * (1  .70)
16/20
Actualizat la: 06.05.2014 13:28
Deci, pentru a atinge un α de 0.70 va trebui să avem o scală de 20*2.33≈47 itemi,

ceea ce înseamnă că ne vor mai trebui 27 de itemi pe lângă cei 20 deja existenţi (estimare
valabilă pentru situaţia în care noii itemi ar avea aceeaşi corelaţie inter-itemi cu cei deja
existenţi).
Pentru acelaşi caz, cu cât ar creşte α dacă am adăuga 30 de itemi:
k=(nr. itemi iniţiali+nr. itemi noi)/nr. itemi noi=(20+30)/20=2.5
k * x 2.5 * .50
k    0.71
1  ((k  1) *  x ) 1  ((2.5  1) * .50)
Desigur, se presupune că noii itemi adăugaţi vor fi la fel de „buni” ca şi cei deja
utilizaţi. De aceea este posibil ca rezultatul formulei să fie o estimare uşor optimistă, dar nu
mai puţin utilă.
O soluție convenabilă pentru rezolvarea problemei numărului de itemi este utilizarea
programului Alpha-Validity Prophesing Computator (Garbin & Hoffman, 2007):
Chenarul 1: Estimarea numărului necesar

de itemi pentru a atinge un nivel dorit al
lui alfa.
Dacă am obținut un alfa=0.50 și vizăm o
valoare de 0.80, trebuie să multiplicăm cu
4 (valoarea K) numărul itemilor pe care îi
avem deja.
Chenarul 2: Estimarea valorii alfa, dacă

adăugăm sau reducem numărul de itemi.
Pentru o valoare alfa=0.50, o modificare
a numărului de itemi care dă un raport
K=1.5 (conform formulei din chenar), se
estimează o valoare a lui alfa=0.6.
Efectul de atenuare a validității
Indicele Cronbach alfa este, de asemenea, un indicator al preciziei scalei şi poate fi

văzut prin prisma valorii teoretice maxime pe care o poate lua corelaţia acestei scale cu alte
variabile psihologice. Altfel spus, corelaţia dintre două variabile psihologice este diminuată
prin de nivelul de consistență internă a scalelor prin care acestea au fost măsurate. Acesta este
ceea ce se numește efectul atenuării de fidelitate al validității, care a fost observat încă de
Spearman (1904, apud Carretta & Ree, 2001; Schwab, 2005). Din acest motiv, atunci când
studiem relaţia dintre anumite variabile psihologice trebuie să ne punem problema „fidelității”
cu care acestea au fost măsurate, deoarece mărimea corelaţiei posibile dintre ele este fixată de
precizia măsurării fiecăreia. Soluția acestei probleme constă, fie în ameliorarea consistenței
interne a scalelor utilizate, fie în aplicarea corecției de atenuare.
Pentru calcularea corecției de atenuare de fidelitate se poate fi folosit același program
Alpha-Validity prezentat mai sus, a cărui utilizare extrem de simplă o ilustrăm în imaginea de
mai jos:
17/20
Actualizat la: 06.05.2014 13:28
 Zona de calcul pentru corecția de

atenuare este cea din chenar.
 Am presupus că am obținut o
corelație între două variabile
(predictor/criteriu) r=0.30
 Am introdus indicele Cronbach alfa
real și cel dorit pentru criteriu (0.60,
respectiv 0.80)
 Am introdus indicele Cronbach alfa
real și cel dorit pentru predictor (0.65,
respectiv 0.80).
 După acționarea butonului Estimate
Corrected Validity am obținut
valoarea corectată r=0.38.
Dar corecția poate fi efectuată și manual, utilizând formula:

rp 'q '
rpq 
rp ' p ' * rq 'q '
unde
rpq = coeficientul de corelație corectat dintre p și q
rp’q’= coeficientul de corelație necorectat dintre p și q
rp’p’= coeficientul de fidelitate al variabilei p
rq’q’= coeficientul de fidelitate al variabilei q
De exemplu, o corelație calculată r=0.50, între două variabile al căror coeficient

Cronbach alfa este de 0.70, devine prin corecție 0.71.
0,50
rpq   0,71
0,70 * 0,70
Atunci când nu cunoaștem valoarea coeficientului Cronbach alfa pentru ambele
variabile, putem face corecția pentru o singura variabilă, introducând sub radical doar
valoarea cunoscută.
Reguli de bază pentru dezvoltarea itemilor
1. Itemii a căror corelaţie cu scala (scorul global) este negativă, sunt eliminaţi (după
ce se verifică în prealabil dacă au fost valorizaţi corect).
2. Itemii a căror corelaţie cu scala (scorul global) este mai mică de 0.15, ar trebui
probabil revizuiţi, deoarece nu sunt „încărcaţi” în suficientă măsură cu atributul
vizat de test, sau de subscala căruia îi aparţine. În orice caz, itemii cu corelaţii sub
0.1 nu sunt utilizabili. În principiu, un test este cu atât mai bun cu cât itemii sunt
mai omogeni și dau corelații între ei mai apropiate.
3. În cazul itemilor cu variante de răspuns, variantele greşite (distractori) care nu
sunt alese de nici un subiect, ar trebui reformulate sau eliminate, deoarece nu
18/20
Actualizat la: 06.05.2014 13:28
contribuie la discriminarea între subiecţii cu performanţă slabă şi cei cu

performanţă bună. Faptul că variantele greşite nu sunt alese cu aceeaşi frecvenţă
nu reprezintă, însă, o problemă. De asemenea, un item la care majoritatea
răspunsurilor sunt greşite nu trebuie în mod necesar eliminat, dar o analiză atentă
a acestuia se impune.
4. Corectitudinea unui item la care frecvenţa de alegere a unei variante distractor
este mai mare decât a variantei corecte, trebuie analizată cu atenţie, mai ales
atunci când corelaţia cu scorul global este pozitivă.
5. Itemii la care se obţin (aproape) numai răspunsuri corecte sunt inutili şi ar trebui
eliminaţi sau înlocuiţi.
Recomandări privind utilizarea analizei de consistență internă
Atunci când un test este compus din mai multe scale (trăsături de personalitate, de
exemplu), indicele Cronbach alfa se calculează în mod distinct pentru fiecare scală în parte.
Coeficientul de consistenţă internă se calculează numai pentru instrumente compuse
din itemi care sunt utilizaţi prin construirea unui scor unic. Chestionarele compuse din
întrebări ale căror răspunsuri sunt utilizate ca atare, fără însumarea lor într-un scor unic, nu
reclamă analiză de consistenţă internă.
Procedurile analizei de itemi sunt indispensabile pentru asigurarea calităţii
instrumentelor de evaluare în psihologie. Situaţiile în care este necesară utilizarea lor sunt
următoarele:
 În faza de construcţie a unui test psihologic, fie de personalitate, fie de
performanţă. Analiza de itemi este, în acest caz, o condiţie obligatorie pentru
acceptarea acestuia ca instrument de măsură în psihologie.
 La adaptarea unui test psihologic, prin traducerea dintr-o limbă străină. Într-o
astfel de situaţie, chiar dacă versiunea originală beneficiază de documentaţia
completă din punct de vedere psihometric, traducerea itemilor poate aduce
modificări substanţiale care să modifice „comportamentul statistic” al acestora în
noul mediu cultural.
 Atunci când se obţine un test aflat în uz, dar despre care nu există o documentaţie
adecvată sub aspectul caracteristicilor psihometrice.
 Atunci când se schimbă destinaţia (populaţia) pe care este utilizat un test, chiar
dacă există o documentaţie completă cu privire la caracteristicile psihometrice ale
acestuia pentru utilizarea inițială.
 După trecerea unei perioade îndelungate (de ordinul anilor) de la efectuarea unei
analize de itemi, pentru evaluarea diminuării potenţiale a caracteristicilor sale
psihometrice. Acest lucru se poate întâmpla, de exemplu, ca urmare a modificării
lente a unor caracteristici ale populaţiei pe care este aplicat.
O valoare scăzută a lui Cronbach alfa poate sugera faptul că itemii sunt
multidimensionali, adică se grupează pe două sau mai multe dimensiuni, care nu corelează
sau corelează puțin între ele. De exemplu, itemii chestionarului Cattell 16 PF se grupează pe
un număr de 16 dimensiuni (factori) distincţi. În situaţii de acest gen, coeficientul de
consistenţă internă, calculat pe toţi itemii chestionarului, va avea o valoare mică, dar calculat
pe grupe de itemi, va avea o valoare mare. Problema este cum identificăm grupele de itemi
atunci când nu ştim dacă aceştia sunt sau nu multidimensionali? Soluţia se află în aplicarea
unei analize factoriale(7) pe valorile itemilor, care ne va spune în ce măsură aceştia tind să se
grupeze, şi care sunt itemii aferenţi fiecărui grup (dimensiune). În final, dacă se acceptă
gruparea itemilor în conformitate cu rezultatele analizei factoriale, se va calcula coeficientul
Cronbach alfa pentru fiecare grup de itemi separat.
7
Procedură statistică de grupare a variabilelor. Prezentarea ei face obiectul cursurilor avansate de
statistică.
19/20
Actualizat la: 06.05.2014 13:28
Există şi situaţii în care analiza de consistență internă nu este adecvată. De

exemplu, atunci când o scală este utilizată pentru evaluarea cunoştinţelor cu privire la un
anumit subiect sau temă educaţională, pentru alte scopuri decât cele de selecţie sau
discriminare, unele dintre tehnicile de analiza de itemi nu sunt adecvate pentru selectarea
itemilor. Acest lucru este adevărat deoarece ne aflăm într-o situaţie de învăţare şi dorim să
evaluăm performanţa elevilor ca urmare a unui proces de instruire, şi nu ca trăsătură inerentă
a fiecăruia. Dacă aplicăm un test înainte de parcurgerea materiei respective vom obţine un
procentaj foarte scăzut de răspunsuri corecte şi o corelaţie item-total aproape de zero, fapt
care reflectă necunoaşterea de către elevi a materiei respective (răspunsuri greşite, răspunsuri
la întâmplare, etc.). În acest caz soluţia nu constă în eliminarea sau refacerea itemilor, ci în
instruirea elevilor. Dacă aplicăm testul respectiv după parcurgerea perioadei de instruire, vom
obţine procentaje mari de răspunsuri corecte, ceea ce ar fi interpretabil drept redusă capacitate
discriminativă a itemilor. În realitate, eliminarea acestor itemi ar fi de asemenea o eroare,
deoarece am elimina tocmai itemii care pun în evidenţă succesul învăţării, ceea ce este exact
obiectivul măsurării.
În astfel de situaţii, utilizarea indicelui de consistenţă internă Cronbach alfa este
inadecvată. Cu toate acestea, indicii de dificultate și de discriminare pot fi utilizați ca
modalitate de identificare a itemilor greşit formulaţi, a celor nerelevanţi sau, pur şi simplu,
pentru a scoate în evidenţă erorile tipice pe care le fac subiecţii la anumite întrebări.
Referințe bibliografice
Bovaird, J. A., & Embretson, S. E. (2008). Modern Measurement in the Social Science. In P.
Alasuutari, L. Bickman & J. Brannen (Eds.), The SAGE Handbook of Social Research
Methods (pp. 269-289): SAGE Publications.
Carretta, T. R., & Ree, M. J. (2001). Pitfalls of Ability Research. International Journal of
Selection and Assessment, 9(4), 325-335.
Ebel, R. L. (1965). Measuring educational achievement. Englewood Cliffs, NJ: Prentice Hall.
Ellis, B. B., & Mead, A. D. (2004). Item Analysis: Theory and Practice Using Classical and
Modern Theory. In S. G. Rogelberg (Ed.), Handbook of Research Methods in
Industrial and Organizational Psychology (pp. 324-343): Blackwell Publishing.
Garbin, C. P., & Hoffman, L. (2007). Alpha-Validity Prophesing Computator
(http://psych.unl.edu/psycrs/451/e3/).
Garbin, C. P., & Hoffman, L. (2008). Item Analysis for Summative Scales. Retrieved
14.07.2008, from http://psych.unl.edu/psycrs/
Lozano, L. M., Garcia-Cueto, E., & Muniz, J. (2008). Effect of the Number of Responses
Categories on the Reliability and Validity of Rating Scales. Methodology: European
Journal of Research Methods for the Behavioral and Social Sciences, 4(2), 73-79.
Peladeau, N. (1995). STATITEM 1.0. Retrieved 8.09.2002, from
http://www.kovcomp.co.uk/
Rzasa, S. E. (2003). Item analysis on a developmental rating scale using both statistical and
qualitative methods. Paper presented at the Annual meeting of the American
Educational Research Association (April 21-25).
Schwab, D. P. (2005). Research methods for organizational studies (2nd ed.): Lawrence
Erlbaum Associates.
Steyer, R. (2001). Classical (Psychometric) Test Theory. In C. Ragin & T. Cook (Eds.),
International Encyclopedia of the Social and Behavioural Sciences. Logic Inquiry
and Research Design (pp. 1955-1962). Oxford: Pergamon.
Traub, R. E. (1997). Classical Test Theory in Historical Perspective. Educational
Measurement: Issues and Practice, 16(4), 8-14.
Zeller, R. A. (Ed.) (2001) Encyclopedia of Sociology (Second ed., Vols. 4). Macmillan
Reference USA.
20/20
Actualizat la: 06.05.2014 13:28

Statm 08 An Itemi PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statm 08 An Itemi PDF

Încărcat de

Drepturi de autor:

Formate disponibile

© Universitatea din București, M.

Popa, 2009: Analiza de itemi din perspectiva teoriei clasice a testului

Analiza de itemi din perspectiva teoriei clasice a testului

În mod obișnuit, testele psihologice vizează constructe psihologice (de performanță,

În conformitate cu elementele definitorii ale CTT, analiza de itemi reprezintă o

Multe dintre testele dezvoltate de psihologi vizează caracteristici psihice exprimate în

În general, este considerat recomandabil un indice de dificultate mediu pe întregul test

Calcularea indicelui de dificultate cu SPSS(2)

Procentajul răspunsurilor corecte (indicele de dificultate) nu este o condiţie suficientă

O valoare pozitivă va indica faptul că itemul discriminează corect, în concordanţă cu

Calcularea indicelui de discriminare cu SPSS

Programul SPSS nu dispune de o procedură specifică pentru analiza de discriminare a

b) Analizăm variabila "scor" astfel obţinută cu procedurile Explore şi Frequencies,

c) Am creat o variabilă nouă, în care am definit apartenenţa subiecţilor la grupurile

d) Declarăm împărţirea fişierului cu date în trei categorii de subiecţi, cu procedura

Notă: Se observă că se poate ajunge la o valoare similară, exprimată în procente,

Deşi uşor de calculat şi utilizat, indicele D suferă de un mare neajuns: prin

Analiza grafică a capacității de discriminare

O modalitate de evidențiere grafică a capacității de discriminare a itemilor este

Calculăm scorul global, prin însumarea

Aplicăm procedura Frequencies pentru

În caseta secundară Statistics bifăm Cut

Rezultatul operației de mai sus este afișat

Utilizăm procedura Transform/Recode into

Utilizăm procedura One-Way ANOVA din

Din caseta Options alegem doar Means

Graficul itemului 01 indică o variație

Graficul itemului 05 indică o asociere

Graficul itemului 18 indică absența unei

3. Analiza de consistenţă internă - indicele Cronbach alfa4

Având un instrument psihologic format din itemi diferiţi, o problemă fundamentală

Indicele Cronbach alfa tinde să fie este mai mare:

Tabelul 1. Volumul eșantionului în funcție de diferite valori Cronbach Alfa și media

Tabelul 2. Valoarea indicelui Cronbach Alfa în funcție de numărul de itemi și de corelația

Valoarea recomandată pentru Cronbach alfa

Analiza de consistenţă internă cu SPSS

Procedura de analiză a consistenţei interne are un caracter recursiv, cu evaluări

Atenţie, variabilele trebuie să conţină valori care exprimă semnificaţia răspunsului în

Pentru analiza de consistenţă internă se alege modelul Alfa.

În continuare, se fac setări de analiză prin deschiderea casetei Statistics:

 În zona Descriptives se vor bifa opţiunile:

Aceeași valoare, dar însoțită de limitele intervalului de încredere, o regăsim în tabelul

Avem de asemenea, un tabel cu indicatori descriptivi, media şi abaterea standard a

În fine, cea mai importantă dintre categoriile de informaţii, tabelul Item-Total

Coeficienții de corelație sunt afișați fără nivelul de semnificație, luându-se în

Estimarea numărului de itemi necesari pentru o scală

În procesul de construcţie al unei scale de măsurare psihologică pot apare unele

Deci, pentru a atinge un α de 0.70 va trebui să avem o scală de 20*2.33≈47 itemi,

Pentru acelaşi caz, cu cât ar creşte α dacă am adăuga 30 de itemi:

k=(nr. itemi iniţiali+nr. itemi noi)/nr. itemi noi=(20+30)/20=2.5

Chenarul 1: Estimarea numărului necesar

Chenarul 2: Estimarea valorii alfa, dacă

Efectul de atenuare a validității

Indicele Cronbach alfa este, de asemenea, un indicator al preciziei scalei şi poate fi

 Zona de calcul pentru corecția de

Dar corecția poate fi efectuată și manual, utilizând formula:

De exemplu, o corelație calculată r=0.50, între două variabile al căror coeficient

Reguli de bază pentru dezvoltarea itemilor

contribuie la discriminarea între subiecţii cu performanţă slabă şi cei cu

Recomandări privind utilizarea analizei de consistență internă

Există şi situaţii în care analiza de consistență internă nu este adecvată. De

S-ar putea să vă placă și