Sunteți pe pagina 1din 46

Teoria răspunsului la item

(IRT)
Asist. univ. dr. Claudiu Papasteri
Construct – variabilă latentă
 În acest caz, ne vom referi la un construct ca
fiind fenomenul măsurat de chestionar –
variabila latentă (VL)
◦ Latent: neobervabil direct
◦ Variabilă: puterea sau magnitudinea se poti schimba
◦ Magnitudinea VL măsurată de scală la timpul și locul
măsurării este scorul adevărat

◦ Măsurătorile/scalele și itemii sunt creați pentru a


evalua constructul
◦ Unidimensional (în general)
CTT
 Cel mai important avantaj al teoriei clasice a testului
îl reprezintă relativa permisivitate a asumpțiilor, fapt
care o face aplicabilă unor variate situații de testare.
Teoria clasică se concentrează, mai ales, pe
informațiile furnizate de test, ca ansamblu de itemi,
cu toate că prezintă și o serie de analize la nivel de
item, cum ar fi dificultatea și discriminarea, concepte
complet diferite de cele din teoria clasică a testului.
 Problema cu CTT: așa-numita dependență circulară:

rezultatele obținute de subiecți sunt dependente de


eșantionul de itemi, iar proprietățile itemilor sunt
dependente de eșantionul de subiecți.
Caracteristici CTT
◦ Dificulatea și discriminarea sunt aceleași – tendință spre dificultate
medie la construirea testului.

◦ Erorile nu sunt corelate cu scorurile reale ale VL. Astfel, avem valori
unice ale fidelității pentru tot testul și toți participanții.

◦ Scorurile sunt dependente de test și itemi. Trebuie administrați toți


itemii.

◦ Calibrarea itemilor este dependentă de eșantion. Trebuie avut un


eșantion reprezentativ.
1
Probabilitatea de
a da răspuns
corect la item

Constructul măsurat
(abilitate)

Raport dintre răspunsuri corecte la itemi pe diferite nivele ale scorului


total
IRT
 Fără a contrazice sau a încerca să înlocuiască
teoria clasică a testului, teoria răspunsului la item
reprezintă o îmbunătățire, o extensie a acesteia. În
cazul acelorași activități de evaluare realizate prin
teoria clasică a scorării, modelele de răspuns la
item aduc un plus de flexibilitate și informație.
Mai mult decât atât, evaluarea câștigă din punctul
de vedere al fidelității și validității acesteia și, de
asemenea, se creează premisele dezvoltării
probelor auto-adaptative, fapt imposibil de
realizat în baza teoriei clasice a testului.
IRT
 Teoria răspunsului la item nu mai
demonstrează o permisivitate atât de largă la
nivelul postulatelor și se bazează pe modele
probabilistice ale distribuției „reușitei”
subiectului la un anumit item. Accentul nu
mai cade pe informațiile furnizate de test
(ansamblu de itemi), ci pe valoarea
informațională a itemului. Astfel, unitatea
informațională a evaluării nu mai este testul,
ci itemul.
CTT vs IRT
 Abordarea erorii standard de măsurare
◦ Conform teoriei clasice a testului, eroarea standard
de măsurare este unică și se aplică tuturor
scorurilor obținute de subiecți.
◦ Teoria răspunsului la item susține că eroarea
standard de măsurare diferă la nivelul scorurilor și
dobândește un caracter general în cadrul
populației.
CTT vs IRT
 Abordarea raportului dintre lungimea testului
și fidelitatea acestuia
◦ Teoria clasică a testului susține că testele lungi sunt
mai fidele în comparație cu testele scurte.
◦ Teoria răspunsului la item afirmă exact contrariul:
testele scurte pot fi mai fidele în comparație cu
testele lungi.
CTT vs IRT
 Abordarea problemei formelor paralele
◦ Teoria clasică a testului afirmă că procesul de
comparare a scorurilor în cazul a două forme ale
acestuia este ideal dacă formele sunt paralele.
◦ Teoria răspunsului la item arată că procesul de
comparare a scorurilor este ideal atunci când
nivelurile de dificultate diferă între persoane.
CTT vs IRT
 Abordarea problemei evaluării
caracteristicilor itemilor
◦ Teoria clasică a testului susține că analiza itemilor
se realizează folosind eșantioane reprezentative.
◦ Teoria răspunsului la item afirmă că analiza itemilor
se poate face pe baza unor eșantioane
nereprezentative.
CTT vs IRT
 Abordarea problemei semnificației scorurilor
standard
◦ Teoria clasică a testului susțină că scorurile brute
dobândesc semnificație pe baza poziției acestora
într-un eșantion normativ.
◦ Teoria răspunsului la item acordă semnificație
scorurilor brute prin compararea distanței acestora
față de itemi.
CTT vs IRT
 Problema stabilirii proprietăților scalei de
măsură
◦ Teoria clasică a testului afirmă că proprietățile
scalei de interval, necesare măsurării, se obțin prin
intermediul distribuției normale.
◦ Teoria răspunsului la item susține că proprietățile
scalei de interval se obțin prin aplicarea unui model
de măsurare adecvat.
CTT vs IRT
 Problema itemilor micști
◦ Teoria clasică a testului susține că itemii cu format
mixt determină un scor total dezechilibrat.
◦ Teoria răspunsului la item afirmă că tocmai itemii
cu format mixt contribuie la un scor total optim.
Funcția de răspuns la item
Știu că vă place matematica – un item

4 x 8?

a.) 20
b.) 32
c.) 40
d.) 16
4 x 8?
Candidat 1
4 x 8?
Candidat 1

Probabilitate aproape de 1
Abilitatea persoanei = 2.5
4 x 8?
Candidat 2
4 x 8?
Candidat 2

Probabilitate aproape de 0.1


Abilitatea persoanei = -2
4 x 8?
Candidat 3

Probabilitate aproape de 0.5


Abilitatea persoanei = 0
4 x 8?
Candidat 3

Probabilitate aproape de 0.5


Abilitatea persoanei = 0
Despre teta

 Modelele IRT despre care discutăm sunt parametri (presupun distribuire


normală a tărăsurilor)

 Unde theta = 0 este media populației cu ± 1 theta = ± 1 sd


Aceeași “riglă” pentru
persoană și item

Theta (θ)
= o metrică comună pentru:

Dificultate item

Abilitate persoană
Asumpții IRT
 Unidimensionalitatea factorului evaluat –
semnificând concepția conform căreia factorul
poate fi măsurat pe o scală (element comun cu
teoria clasică a testului), de obicei o scală standard,
cu media 0 și abaterea standard 1. Din acest punct
de vedere, asemănările dintre teoria răspunsului la
item și teoria clasică a scorării se opresc aici. În
timp ce problema dimensiunilor se rezolvă în teoria
clasică, de obicei, prin analiză factorială, teoria
răspunsului la item folosește funcția de răspuns la
item ca mijloc de asigurare a unidimensionalității;
Asumpții IRT
 Independența locală a itemilor – concept care
derivă din unidimensionalitate și care arată că
itemii unei probe bazată pe teoria răspunsului
la item nu corelează decât în cadrul dimensiunii
pe care o evaluează;

 Răspunsul unui subiect la un item poate fi


modelat prin intermediul unei funcții
matematice, numită funcția de răspuns la item.
Acestă funcție trebuie să crească monoton
(asumpția monotonicității).
 Funcția de răspuns la item este un model matematic al
probabilității ca un subiect cu un anumit nivel al
competenței (în general cu un anumit nivel al factorului
latent studiat, deoarece nu vom vorbi doar despre
aptitudini) să răspundă corect (semnificativ) la un item.
Factorul latent, nivelul de “competență” al persoanei se
măsoară, ca și în teoria clasică a scorării, pe o scală cu
media 0 si abaterea standard 1 (scală z) și se notează cu θ.
Persoanele cu un nivel al factorului latent redus au o
probabilitate mai mică de a răspunde corect la un item față
de persoanele cu un nivel al factorului latent ridicat. Acesta
este singurul parametru al funcției de răspuns la item care
ține de persoană. Ceilalți parametri țin de item și, în funcție
de model, pot fi:
 dificultatea (b) – parametru pe care noi l-am numit
acoperire în factor latent, deoarece termenul de
dificultate se poate aplica doar itemilor de
aptitudini. Acesta este un parametru specific
primului model logistic (1PL) și reprezintă locul în
care pentru factorul latent funcția de răspuns la
item are panta maximă. Cu cât acest parametru se
deplasează către sensul pozitiv, cu atât itemul
este mai acoperit în factorul latent (mai dificil).
Valorile situate în jurul mediei reprezintă itemi de
dificultate medie;
Paramentrul ‘difficultate’ (b) (1PL)

Dificultăți itemi
Item 1 = -1
Item 2 = -.5
Item 3 = 0
Item 4 = .5
Item 5 = 1
Paramentrul ‘difficultate’ (b) (1PL)
 discriminarea (a) – este un parametru specific
celui de-al doilea model logistic (2PL) și
reprezintă gradul în care un item
discriminează între factorul latent la diferite
persoane în diferite regiuni ale funcției (de
obicei în jurul mediei);
Paramentrul ‘discriminare’ (a)

Gradientul pantei
în punctul
unde p = 0.5

a=1
Paramentrul ‘discriminare’ (a)
Paramentrul ‘discriminare’ (a)
și paramentrul ‘difficultate’ (b)
 probabilitatea de răspuns la întâmplare (c) –
este un parametru specific celui de-al treilea
model (3PL), aplicându-se doar itemilor cu
alegeri multiple. Indică probabilitatea ca
subiecții cu un nivel foarte scăzut al
factorului latent să răspundă la întâmplare.
Parameterul ‘ghicit’ (c)
Funcția de răspuns la item
(Itemi binari/dihotomici)

Parameters:
Probabilitate de a da • Dificultate
1 răspuns corect • Discriminare
• Ghicit

re
(pa rimina
)
ntă
c
Dis

Modele:
• 1 Parameteru
• 2 Parameteri
• 3 Parameteri
Dificultate

Ghicit

Construct măsurat (theta)


Parameterii IRT (1pl)
a b
1 -1
1 -0.05
1 0
1 0.05
1 1

 
Parameterii IRT (2pl)
a b
1 1.25
1.7 -1
0.6 0
2 0
1 1.5

 
Parameterii IRT (1pl) – itemi
politomici

a b1 b2 b3 b4 b5
1 -3.75 -3 -1 0.25 1.5
 Poate cel mai important beneficiu rezultat din aplicarea
modelelor de răspuns la item se referă la o nouă abordare a
conceptului de fidelitate. În mod tradițional, fidelitatea unei
evaluări se referă la gradul în care această evaluare nu conține
erori iar scorul observat se apropie de scorul real al factorului
măsurat. Valoarea acestei proprietăți ia forma unui coeficient
calculat prin mai multe mijloace, majoritatea tehnicilor făcând
apel la raportul varianțelor dintre scorul real și scorul observat.
Se știe însă că fidelitatea unui test clasic nu are o distribuție
uniformă de-a lungul întregii distribuții a scorurilor. În general,
scorurile de la extremele distribuției au o mai mare componentă
de eroare în comparație cu scorurile situate în apropierea
mijlocului distribuției. Modelele de răspuns la item depășesc
concepția clasică a fidelității înlocuind-o cu valoarea informativă
a itemului și valoarea informativă a testului.
 În funcție de modelul ales, aceasta este tot o funcție
matematică a parametrilor itemului. Astfel, pentru primul
model (1PL), valoarea informativă la un nivel de acoperire al
factorului latent reprezintă probabilitatea răspunsurilor
corecte înmulțită cu probabilitatea răspunsurilor incorecte.
Desigur, pe măsură ce se folosesc modele mai complexe, și
forma de calcul a valorii informative devine mai elaborată.
Plecând de la acest element, valoarea informativă a itemului
tinde să aibă o distribuție normală. Itemii cu un factor mare
de discriminare au valoare informațională foarte ridicată,
însă limitată la aria pe care o discriminează, în timp ce
itemii mai puțin discriminativi nu au o valoare
informațională foarte mare, însă devin valabili pentru o zonă
mai largă.
 În baza acestei concepții se poate intui că un test
construit prin modele de răspuns la item poate
acoperi perfect și poate controla extrem de precis
întreaga distribuție a factorului latent măsurat, fără a
suferi limitările testelor clasice. În plus, funcția
informativă este o funcție aditivă, valoarea
informativă a unui test fiind suma valorilor
informative ale itemilor componenți. Folosind această
funcție în condițiile unor bănci de itemi putem
controla extrem de precis eroarea de măsurare
nesistematică, modelele de răspuns la item fiind, din
acest punct de vedere, net superioare testelor clasice.
 Dacă în teoria clasică stabilirea magnitudinii factorului
studiat nu pune nici un fel de problemă, soluția cvasi-
universală fiind cea a utilizării unui etalon, în modelele de
răspuns la item, conceptul de etalon dispare. Estimarea
magnitudinii factorului latent (θ) nu se bazează doar pe
totalul răspunsurilor considerate semnificative (corecte) ci
ia în considerare și ceilalți parametri ai funcției de
răspuns la item, mai ales discriminarea. Magnitudinea
factorului latent se obține multiplicând funcția de răspuns
la item a fiecărui item rezultând o funcție probabilistică
numită probabilitatea maxim estimată a factorului latent
(MLE). Magnitudinea factorului nu este altceva decât
vârful acestei funcții de probabilitate.
 Un alt aspect care diferențiază modelele de răspuns
la item de testele clasice se referă la eroarea
standard a măsurării. Se știe că testele clasice nu
măsoară scorul real, “cantitatea” de factor latent ci o
estimează, între valoarea reală și cea estimată
existând o diferență numită eroare standard a
măsurării. Nici modelele de răspuns la item nu au
pretenția că măsoară precis, fără eroare, însă în
timp ce testele clasice consideră fixă această eroare,
în sensul că nu variază în funcție de subiectul
examinat, modelele de răspuns la item o consideră
variabilă, depinzând de subiect

S-ar putea să vă placă și