Documente Academic
Documente Profesional
Documente Cultură
Statm 08 An Itemi PDF
Statm 08 An Itemi PDF
Marian Popa
Cuprins
1. Indicele de dificultate
Calcularea indicelui de dificultate cu SPSS
2. Indicele de discriminare
Calcularea indicelui de discriminare cu SPSS
3. Analiza de consistență internă: indicele Cronbach alfa
Valoarea recomandată pentru Cronbach alfa
Analiza de consistenţă internă cu SPSS
Estimarea numărului de itemi necesari pentru o scală
Efectul de atenuare a validității
Reguli de bază pentru dezvoltarea itemilor
Recomandări privind utilizarea analizei de consistență internă
***
Primele elemente ale teoriei testelor psihologice datează încă din primii ani ai
secolului XX și se datorează lui Charles Spearman, dar iau o formă structurată odată cu
lucrarea lui Gulliksen, Theory of mental tests, publicată în 1950 (apud Ellis & Mead, 2004).
Componenta cheie al acestei teorii, devenită cunoscută între timp drept Classical Test Theory
(CTT), constă în estimarea unui atribut sau caracteristici psihologice pe baza unei combinații
liniare a unui set de itemi. Conceptele ei de bază sunt: scorul observat (X), scorul adevărat
(true score) (T), și eroarea de măsurare (E) (Bovaird & Embretson, 2008; Steyer, 2001;
Traub, 1997), a căror relație este formalizată în expresia:
X=T+E
Scorul adevărat (T) se referă la ceea ce face obiectul declarat (așteptat) al măsurării, în
timp ce eroarea (E) se referă la o componentă neașteptată, dar inevitabilă, care modifică într-
un sens sau altul valoarea observată. Presupunerile fundamentale pe care se bazează CTT sunt
următoarele:
(a) media erorilor de măsurare la nivelul populației de subiecți evaluați este zero
(altfel spus, erorile au un caracter aleatoriu);
(b) corelația dintre scorul adevărat și eroarea de măsurare la nivelul populației de
subiecți este zero;
(c) corelația dintre erorile a două teste (E1 și E2), care pot fi teste diferite sau același
test aplicat de două ori, este zero.
1/20
Actualizat la: 06.05.2014/13:28:17
M. Popa – Analiza de itemi
1. Indicele de dificultate
Aşa cum l-am descris mai sus, indicele de dificultate se calculează ca procent de
răspunsuri corecte pentru fiecare item. Pentru evaluarea dificultăţii itemilor cu SPSS se va
utiliza procedura Frequencies… din meniul Analyze/Descriptive Statistics. Mai jos avem
1
Uneori indicele de dificultate este calculat și ca procent al răspunsurilor greșite, ceea ce nu modifică
decât optica nu și raționamentele cu privire la acest indicator.
2
Referințele sunt la SPSS v22
2/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
imaginea analizei de frecvenţe pentru un item oarecare, i_01, al unui test cu 22 de itemi, unde
valoarea 0 înseamnă răspuns greşit iar valoarea 1, răspuns corect.(3)
Indicele de dificultate se citeşte pe coloana Percent, dacă variabila nu are valori lipsă,
şi pe coloana Valid Percent, dacă există valori lipsă. În cazul nostru, indicele de dificultate al
itemului 01 este de 81.8% (0.81).
2. Indicele de discriminare
U L
D
nU nL
unde:
U=numărul subiecţilor din grupul superior (Upper group) care au răspuns
corect la un item
nU=numărul subiecţilor din grupul superior
L=numărul subiecţilor din grupul inferior (Lower group) care au răspuns
corect la un item
nL=numărul subiecţilor din grupul inferior
Dacă numărul subiecţilor din cele două grupuri extreme este egal, atunci D=(U-L)/n.
3
Se utilizează datele din fişierul didactic alfa_tema.sav
3/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
4/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Şi apoi, după acţionarea butonului Old and New Values: declarăm valorile, aşa cum se
vede în caseta de mai jos
În urma acestei operaţii am obţinut variabila "grup", ale cărei valori, 1, 2 sau 3,
marchează apartenenţa subiecţilor la unul dintre cele trei grupe valorice.
5/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Efectul acestei acţiuni este acela că, orice prelucrare vom face cu SPSS în continuare,
aceasta va fi efectuată separat pentru fiecare din cele trei categorii separate prin valorile
variabilei "grup".
e) În fine, acum se poate rula procedura Frequencies din meniul Statistics, pentru
variabila i_01. Datorită efectului de împărţire a bazei de date prin comanda Split file,
rezultatul va fi structurat pentru fiecare subgrup valoric în parte, aşa cum se vede în imaginea
de mai jos:
i_01
Cumulative
grup Frequency Percent Valid Percent Percent
1,00 Valid 0 3 42,9 42,9 42,9
1 4 57,1 57,1 100,0
Total 7 100,0 100,0
2,00 Valid 1 4 100,0 100,0 100,0
3,00 Valid 0 1 9,1 9,1 9,1
1 10 90,9 90,9 100,0
Total 11 100,0 100,0
Tabelul din imaginea de mai sus prezintă frecvenţa răspunsurilor corecte, citită pe
coloana Percent (sau pe coloana Valid Percent, dacă există valori lipsă). Aşa cum se observă,
indicele de dificultate pentru grupul valoric inferior este mai mic (57.1%) decât pentru grupul
superior (90.9%).
Aplicând manual formula, obţinem indicele de discriminare căutat:
10 4
D 0.33
11 7
Rezultatul arată că itemul i_01 are un indice pozitiv de discriminare de 0.33 care, în
conformitate cu criteriile lui Ebel, indică o capacitate bună de discriminare. Chiar dacă
obţinem şi unii indici de discriminare mai mici, dacă dorim să avem o scală care are putere de
discriminare şi la extremele sale, aceştia pot fi păstraţi.
Mai departe, ar trebui efectuată procedura Frequencies pentru toţi cei 22 de itemi ai
testului şi extragerea concluziilor care se impun.
6/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Pentru exemplificare, vom efectua analiza grafica a câtorva itemi din baza de date
alfa_tema.sav, urmând etapele de mai jos:
7/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
8/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
4
Acesta este un material didactic. Pentru informații mai aprofundate se poate consulta articolul
”Infidelitățile coeficientului de fidelitate Cronbach alfa”, la adresa:
http://www.mpopa.ro/miscellanea/Marian_Popa_Cronbach_alfa.pdf
9/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
de consistenţă internă a unui instrument psihologic compus din mai mulţi itemi care sunt
însumaţi într-un scor unic. Formula de calcul se bazează pe media coeficienţilor de corelaţie
dintre itemi şi numărul itemilor:
N rm
1 N 1 * rm
unde:
N=numărul itemilor
rm=media coeficienţilor de corelaţie dintre itemi
Dacă analizăm datele din tabelul 1 observăm că cu cât itemii corelează mai puternic
cu atât este nevoie de mai puțini subiecți pentru a se atinge niveluri ridicate ale indicelui
Cronbach alfa. Mai departe, datele din tabelul 2 ne arată că numărul necesar de itemi pentru
aceeași valoare a indicelui Cronbach alfa este mai mic pe măsură ce numărul de itemi crește
și corelația medie dintre aceștia crește și ea.
10/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Plaja teoretică normală de variație pentru indicele Cronbach alfa este între 0 şi 1.
Uneori este posibilă obținerea unei valori negative, dar acest lucru apare numai în contextul
unei configurații viciate a datelor, care este semnalată de programul de calcul.
O scală, pentru a fi considerată consistentă, trebuie să atingă o valoare a indicelui
Cronbach alfa cât mai aproape de 1, nivelul de 0.70 fiind în general acceptat, prin convenţie,
ca prag minim. Oricum pentru ca un test să fie consistent valoarea lui Cronbach alfa nu poate
fi mai mică de 0.60, iar o valoare cât mai mare este întotdeauna de dorit. Unii autori consideră
drept acceptabilă o valoare de 0.50 a indicelui Cronbach alfa în cazul scalelor cu un număr
mic de itemi (10-15), în timp ce pentru scalele mai mari de 50 de itemi se recomandă valori
ale lui Cronbach alfa de cel puţin de 0.80.
Nivelul recomandat pentru Cronbach alfa diferă și în funcție de utilizarea pe care o
are scala. Dacă pentru scopuri de cercetare se acceptă și valori mai mici de 0.70, pentru
scopuri de decizie, cum ar fi cele de selecție psihologică a personalului, se impun valori mai
mari de 0.70.
Având în vedere faptul că indicele Cronbach alfa, calculat pe un eșantion, este doar o
estimare a valorii sale reale, atunci o recomandare mai bună este ca limita inferioară a
intervalului de încredere a acestuia să fie de cel puțin 0.70. Modul în care pot fi obținute
limitele intervalului de încredere va fi prezentat mai jos.
11/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Variabilele care conţin valorile itemilor de analizat vor fi trecute în lista Items.(5)
5
Se utilizează fişierul didactic saq_10_itemi.sav
12/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
În practică, bifarea opţiunilor marcate pe caseta din imaginea de mai sus oferă
informaţiile cele mai importante pentru analiza itemilor unui test. Celelalte opţiuni sunt
explicitate în Help-ul casetei şi pot fi utilizate pentru o analiză mai rafinată a datelor.
În continuare vom analiza un set de 10 itemi ipotetici, aleşi doar în scop didactic.
Pentru o scală reală acest număr ar fi cu totul insuficient. Ca regulă generală, numărul itemilor
din faza de dezvoltare a unui astfel de instrument ar trebui să aibă cel puţin dublul numărului
de itemi pe care îl preconizăm la final. Acest lucru se impune deoarece analiza de itemi este
un proces selectiv care are drept scop alegerea itemilor adecvaţi pentru constituirea unei scale
cu cel mai ridicat nivel de consistenţă internă posibilă.
Rularea procedurii, cu setările de mai sus ne oferă mai multe categorii de informaţii:
Valoarea lui Cronbach alfa, în cazul nostru .458, care este o valoare foarte scăzută6:
6
SPSS raportează valoarea lui Cronbach alfa cu trei zecimale, dar în lucrări se va raporta doar cu două
zecimale.
13/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Este afișată matricea corelaţiilor dintre itemi, care oferă o imagine a gradului de asociere
dintre aceştia:
Valorile sunt utile, pe de o parte, pentru a sesiza itemii care tind să aibă relaţii
negative cu ceilalţi, fiind un semn al unei posibile probleme de construire respectivilor itemi.
Din tabelul de mai sus rezultă că itemii i_02 şi i_03 tind să se asocieze negativ cu majoritatea
celorlalţi itemi. Pe de altă parte, valori extrem de ridicate ale unor corelaţii, aproape de 1, ar
putea sugera că itemii respectivi prezintă un grad excesiv de similitudine care nu justifică
utilizarea lor în aceeaşi scală (ar putea fi, de exemplu itemi formulaţi extrem de asemănător).
14/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Dacă da, atunci singura soluţie posibilă este eliminarea itemilor în cauză. Observăm, de
asemenea, că itemul i_02 are o corelaţie extrem de mică cu scorul global (0.017). Contribuţia
sa la scorul global este nerelevantă. Cu alte cuvinte, nici nu strică, dar nici nu ajută.
Valoare lui Cronbach alfa, care este de 0.45, poate fi crescută prin eliminarea itemilor
nepotriviţi, în primul rând a celor care corelează negativ cu scorul global. Ca urmare, se va
relua analiza, cu eliminarea itemilor negativi. În general, nu este recomandabilă eliminarea
mai multor itemi simultan, dar itemii negativi pot fi scoşi fără reţineri. Iată care este rezultatul
obţinut după reluarea analizei cu eliminarea itemilor 3 şi 9. Valoarea lui Cronbach alfa și
limitele de încredere pot fi citite din tabelul de mai jos:
Așa cum se observă, nivelul lui Cronbach alfa a crescut la 0.68, ceea ce este aproape
de limita valorii minime recomandate.
Dacă analizăm din nou tabelul Item-Total Statistics, vom vedea că itemul i_02, care
anterior avea o corelaţie pozitivă, dar extrem de mică, a dobândit o corelaţie negativă cu scala.
Așa cum se observă pe ultima coloană a tabelului, eliminarea acestui item ar conduce la
creșterea valorii lui Cronbach alfa la 0.75.
În principiu, chiar şi itemii pozitivi, care au corelaţii cu scala mai mici de 0.1, nu
trebuie păstraţi, pentru simplul motiv că nu contribuie la constructul psihologic vizat, fiind
doar consumatoare de timp în aplicarea instrumentului. În realitate, atunci când construim o
scală și avem un număr suficienți de itemi, îi putem păstra doar pe cei care au corelații cu
scala mai mari de 0.3 sau 0.4.
Refacem analiza fără itemul i_02 şi se obţine următoarea configuraţie de rezultate:
De data aceasta avem o valoare acceptabilă pentru Cronbach alfa (0.757). Mai mult,
limita inferioară a intervalului de încredere este și ea mai mare de 0.70, ceea ce este cu atât
mai bine. Să nu uităm că dacă indicele Cronbach alfa ar avea valoarea 0.70, asta înseamnă că
valoarea sa reală ar putea fi, cu o probabilitate de 0.95 mai mică decât 0.70.
În plus, dacă privim coloana Alfa if Item Deleted din tabelul Item-Total Statistics,
vedem că prin eliminarea oricărui item dintre cei rămași nu am obţine o valoare mai ridicată
decât cea obținută. În acest moment analiza poate fi oprită, itemii selecţionaţi putând fi
constituiţi într-un instrument de măsurare psihologică. În practică, autorul unui test psihologic
poate fi nevoit sau interesat să reducă numărul itemilor, fără a afecta consistenţa internă a
15/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
scalei. În acest scop, valoarea Cronbach alfa în cazul eliminării itemului (Alpha if item
deleted) este un indicator foarte util. Eliminând succesiv itemii a căror prezenţă contribuie la
reducerea valorii Cronbach alfa, sau au o contribuţie redusă la aceasta, se poate ajunge la un
număr suficient de mic de itemi în condiţiile obţinerii unei valori mai mari pentru Cronbach
alfa.
În concluzie, cu ocazia iteraţiilor succesive se vor elimina, în ordine:
itemii care au o corelaţie negativă cu scorul global
itemii cu corelaţii mici, nerelevante
Cu cât avem mai mulţi itemi în această fază, cu atât avem posibilitatea să păstrăm
itemi care corelează mai intens cu scala şi, deci, să atingem un nivel mai ridicat de consistenţă
internă. Este de la sine înţeles că în cazul în care construim un instrument ale cărui întrebări
se adresează unor „scale” diferite, consistenţa internă se va evalua separat pentru setul de
întrebări corespunzător fiecărei scale.
O scală care este „consistentă intern” ne oferă garanţia că itemii instrumentului nostru
„merg împreună”, măsoară acelaşi construct psihologic. Atenţie însă, acest lucru nu înseamnă
că avem de a face cu un construct unidimensional și nici că instrumentul analizat măsoară
exact ceea ce n-am propus să măsoare. Această problemă va fi rezolvată ulterior, prin studii
de validare.
k * (1 x )
k
x * (1 k )
unde:
αx este valoarea curentă a lui Cronbach alfa
αk este nivelul dorit al lui Cronbach alfa
k este factorul de multiplicare a scalei pentru a se obţine αk
Într-un mod similar se poate estima valoarea lui Cronbach alfa (αk) care ar fi atinsă
pornind de la un anumit nivel calculat al acestuia αx şi un anumit factor de multiplicare al
numărului de itemi (k):
k * x
k
1 ((k 1) * x )
Exemplu:
Avem o scală cu 20 de itemi şi αx=0.50
Câţi itemi ar trebui adăugaţi pentru a atinge un nivel α de 0.70?
k * (1 x ) .70 * (1 .50)
k 2.33
x * (1 k ) .50 * (1 .70)
16/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
k * x 2.5 * .50
k 0.71
1 ((k 1) * x ) 1 ((2.5 1) * .50)
Desigur, se presupune că noii itemi adăugaţi vor fi la fel de „buni” ca şi cei deja
utilizaţi. De aceea este posibil ca rezultatul formulei să fie o estimare uşor optimistă, dar nu
mai puţin utilă.
O soluție convenabilă pentru rezolvarea problemei numărului de itemi este utilizarea
programului Alpha-Validity Prophesing Computator (Garbin & Hoffman, 2007):
17/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
unde
rpq = coeficientul de corelație corectat dintre p și q
rp’q’= coeficientul de corelație necorectat dintre p și q
rp’p’= coeficientul de fidelitate al variabilei p
rq’q’= coeficientul de fidelitate al variabilei q
0,50
rpq 0,71
0,70 * 0,70
Atunci când nu cunoaștem valoarea coeficientului Cronbach alfa pentru ambele
variabile, putem face corecția pentru o singura variabilă, introducând sub radical doar
valoarea cunoscută.
1. Itemii a căror corelaţie cu scala (scorul global) este negativă, sunt eliminaţi (după
ce se verifică în prealabil dacă au fost valorizaţi corect).
2. Itemii a căror corelaţie cu scala (scorul global) este mai mică de 0.15, ar trebui
probabil revizuiţi, deoarece nu sunt „încărcaţi” în suficientă măsură cu atributul
vizat de test, sau de subscala căruia îi aparţine. În orice caz, itemii cu corelaţii sub
0.1 nu sunt utilizabili. În principiu, un test este cu atât mai bun cu cât itemii sunt
mai omogeni și dau corelații între ei mai apropiate.
3. În cazul itemilor cu variante de răspuns, variantele greşite (distractori) care nu
sunt alese de nici un subiect, ar trebui reformulate sau eliminate, deoarece nu
18/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Atunci când un test este compus din mai multe scale (trăsături de personalitate, de
exemplu), indicele Cronbach alfa se calculează în mod distinct pentru fiecare scală în parte.
Coeficientul de consistenţă internă se calculează numai pentru instrumente compuse
din itemi care sunt utilizaţi prin construirea unui scor unic. Chestionarele compuse din
întrebări ale căror răspunsuri sunt utilizate ca atare, fără însumarea lor într-un scor unic, nu
reclamă analiză de consistenţă internă.
Procedurile analizei de itemi sunt indispensabile pentru asigurarea calităţii
instrumentelor de evaluare în psihologie. Situaţiile în care este necesară utilizarea lor sunt
următoarele:
În faza de construcţie a unui test psihologic, fie de personalitate, fie de
performanţă. Analiza de itemi este, în acest caz, o condiţie obligatorie pentru
acceptarea acestuia ca instrument de măsură în psihologie.
La adaptarea unui test psihologic, prin traducerea dintr-o limbă străină. Într-o
astfel de situaţie, chiar dacă versiunea originală beneficiază de documentaţia
completă din punct de vedere psihometric, traducerea itemilor poate aduce
modificări substanţiale care să modifice „comportamentul statistic” al acestora în
noul mediu cultural.
Atunci când se obţine un test aflat în uz, dar despre care nu există o documentaţie
adecvată sub aspectul caracteristicilor psihometrice.
Atunci când se schimbă destinaţia (populaţia) pe care este utilizat un test, chiar
dacă există o documentaţie completă cu privire la caracteristicile psihometrice ale
acestuia pentru utilizarea inițială.
După trecerea unei perioade îndelungate (de ordinul anilor) de la efectuarea unei
analize de itemi, pentru evaluarea diminuării potenţiale a caracteristicilor sale
psihometrice. Acest lucru se poate întâmpla, de exemplu, ca urmare a modificării
lente a unor caracteristici ale populaţiei pe care este aplicat.
O valoare scăzută a lui Cronbach alfa poate sugera faptul că itemii sunt
multidimensionali, adică se grupează pe două sau mai multe dimensiuni, care nu corelează
sau corelează puțin între ele. De exemplu, itemii chestionarului Cattell 16 PF se grupează pe
un număr de 16 dimensiuni (factori) distincţi. În situaţii de acest gen, coeficientul de
consistenţă internă, calculat pe toţi itemii chestionarului, va avea o valoare mică, dar calculat
pe grupe de itemi, va avea o valoare mare. Problema este cum identificăm grupele de itemi
atunci când nu ştim dacă aceştia sunt sau nu multidimensionali? Soluţia se află în aplicarea
unei analize factoriale(7) pe valorile itemilor, care ne va spune în ce măsură aceştia tind să se
grupeze, şi care sunt itemii aferenţi fiecărui grup (dimensiune). În final, dacă se acceptă
gruparea itemilor în conformitate cu rezultatele analizei factoriale, se va calcula coeficientul
Cronbach alfa pentru fiecare grup de itemi separat.
7
Procedură statistică de grupare a variabilelor. Prezentarea ei face obiectul cursurilor avansate de
statistică.
19/20
Actualizat la: 06.05.2014 13:28
M. Popa – Analiza de itemi
Referințe bibliografice
Bovaird, J. A., & Embretson, S. E. (2008). Modern Measurement in the Social Science. In P.
Alasuutari, L. Bickman & J. Brannen (Eds.), The SAGE Handbook of Social Research
Methods (pp. 269-289): SAGE Publications.
Carretta, T. R., & Ree, M. J. (2001). Pitfalls of Ability Research. International Journal of
Selection and Assessment, 9(4), 325-335.
Ebel, R. L. (1965). Measuring educational achievement. Englewood Cliffs, NJ: Prentice Hall.
Ellis, B. B., & Mead, A. D. (2004). Item Analysis: Theory and Practice Using Classical and
Modern Theory. In S. G. Rogelberg (Ed.), Handbook of Research Methods in
Industrial and Organizational Psychology (pp. 324-343): Blackwell Publishing.
Garbin, C. P., & Hoffman, L. (2007). Alpha-Validity Prophesing Computator
(http://psych.unl.edu/psycrs/451/e3/).
Garbin, C. P., & Hoffman, L. (2008). Item Analysis for Summative Scales. Retrieved
14.07.2008, from http://psych.unl.edu/psycrs/
Lozano, L. M., Garcia-Cueto, E., & Muniz, J. (2008). Effect of the Number of Responses
Categories on the Reliability and Validity of Rating Scales. Methodology: European
Journal of Research Methods for the Behavioral and Social Sciences, 4(2), 73-79.
Peladeau, N. (1995). STATITEM 1.0. Retrieved 8.09.2002, from
http://www.kovcomp.co.uk/
Rzasa, S. E. (2003). Item analysis on a developmental rating scale using both statistical and
qualitative methods. Paper presented at the Annual meeting of the American
Educational Research Association (April 21-25).
Schwab, D. P. (2005). Research methods for organizational studies (2nd ed.): Lawrence
Erlbaum Associates.
Steyer, R. (2001). Classical (Psychometric) Test Theory. In C. Ragin & T. Cook (Eds.),
International Encyclopedia of the Social and Behavioural Sciences. Logic Inquiry
and Research Design (pp. 1955-1962). Oxford: Pergamon.
Traub, R. E. (1997). Classical Test Theory in Historical Perspective. Educational
Measurement: Issues and Practice, 16(4), 8-14.
Zeller, R. A. (Ed.) (2001) Encyclopedia of Sociology (Second ed., Vols. 4). Macmillan
Reference USA.
20/20
Actualizat la: 06.05.2014 13:28