Sunteți pe pagina 1din 28

TEORIA RĂSPUNSULUI LA ITEM

BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE


SEMINAR 11
TEORIA RĂSPUNSULUI LA ITEM (IRT)

Alte denumiri:

 Teoria Factorului Latent;

 Teoria Scorului Real;

 Teoria Modernă a Testului Mental.


(Opariuc, 2014)
TEORIA RĂSPUNSULUI LA ITEM

 un model pentru conceperea, analiza și scorarea instrumentelor de măsură ale abilităților,


atitudinilor sau a altor variabile (Hambleton, Swaminathan, & Rogers, 1991);

 un model superior față de Teoria Clasică a Testului sau o îmbunătățire a acesteia (Opariuc,
2014);

 accentul nu mai cade pe test, ci pe item;


 item conceput ca model matematic al răspunsului unui subiect care are un anumit nivel al
competenței;

 element important – nivelul variabilei latente;

 item de întrebare cu mai multe variante de răspuns (unele pot fi corecte).


Operarea cu variabile latente presupune trei etape:

 Definirea variabilei latente în termeni operaționali sau construirea variabilei:


identificarea acelor diferențe individuale care fac posibilă reprezentarea fiecărui individ
printr-un punct pe axa reală (variabilă unidimensională). Dacă reprezentarea cere
utilizarea unui spațiu cu mai multe dimensiuni, variabila este multidimensională.

 Definirea situațiilor controlabile (crearea cadrului de observații): situațiile sunt


reprezentate de itemii testului, iar rezultatul observațiilor este exprimat numeric prin
scorul la test.

 Alegerea modelului matematic pentru obținerea variabilei latente pe baza valorilor


variabilelor: modelul matematic ales trebuie să transforme o mulțime discretă în
mulțimea numerelor reale.

Scopul teoriei răspunsului la item este de a elabora metode de estimare a valorii variabilei
latente la subiecții testați si metode de estimare a caracteristicilor itemilor testului, pe baza
răspunsurilor date de subiecți la itemi.
TREI PRINCIPII DE BAZĂ

1. Unidimensionalitatea factorului evaluat


- factorul poate fi măsurat pe o scală, de obicei o scală standard, cu media 0 și
abaterea standard 1 (element comun cu teoria clasică a testului);
- în timp ce problema dimensiunilor se rezolvă în teoria clasică, de obicei, prin
analiză factorială, teoria răspunsului la item folosește funcția de răspuns la item ca
mijloc de asigurare a unidimensionalității.

(Opariuc, 2014)
TREI PRINCIPII DE BAZĂ (cont.)

2. Independența locală a itemilor


- concept care derivă din unidimensionalitate;
- arată că itemii unei probe bazată pe teoria răspunsului la item nu corelează decât în
cadrul dimensiunii pe care o evaluează.

(Opariuc, 2014)
TREI PRINCIPII DE BAZĂ (cont.)

3. Funcția de răspuns la item


- este un model matematic al probabilității ca un subiect cu un anumit nivel al
competenței (în general cu un anumit nivel al factorului latent studiat) să răspundă
corect (semnificativ) la un item;
- factorul latent, nivelul de “competență” al persoanei se măsoară, ca și în teoria
clasică a scorării, pe o scală cu media 0 si abaterea standard 1 (scală z);
- persoanele cu un nivel al factorului latent redus au o probabilitate mai mică de
a răspunde corect la un item față de persoanele cu un nivel al factorului latent ridicat;
- este singurul parametru al funcției de răspuns la item care ține de persoană.

(Opariuc, 2014)
PARAMETRII ITEMULUI

Dificultatea
- parametru numit acoperire în factor latent, deoarece termenul de dificultate se
poate aplica doar itemilor de aptitudini;
- reprezintă locul în care pentru factorul latent funcția de răspuns la item are panta
maximă;
- cu cât acest parametru se deplasează către sensul pozitiv, cu atât itemul este mai
acoperit în factorul latent (mai dificil);
- valorile situate în jurul mediei reprezintă itemi de dificultate medie.

(Opariuc, 2014)
PARAMETRII ITEMULUI (cont.)

Discriminarea
- reprezintă gradul în care un item discriminează între factorul latent la diferite
persoane în diferite regiuni ale funcției (de obicei în jurul mediei);

Probabilitatea de răspuns la întâmplare


- se aplică doar itemilor cu alegeri multiple;
- indică probabilitatea ca subiecții cu un nivel foarte scăzut al factorului latent să
răspundă la întâmplare.

(Opariuc, 2014)
MODELE UNIDIMENSIONALE DE
RĂSPUNS LA ITEMI DIHOTOMICI

 se aplică doar itemilor unidimensionali, independenți local și dihotomici;


 presupun itemi care au doar două categorii, răspunsul semnificativ fiind cotat
cu 1 punct, răspunsurile nesemnificative fiind cotate cu 0 puncte;
 De exemplu, în cazul testelor de cunoștințe, răspunsul corect este cotat cu 1
punct.
Modelul logistic cu un parametru (1PL)

 un model de răspuns la item pentru itemi unidimensionali;


 existența unui singur parametru care poate caracteriza complet un item –
acoperirea în factor latent (b), parametru cunoscut și sub numele de dificultate.
 nivelul de acoperire în factor latent al itemului reprezintă singurul parametru al
itemului care influențează performanța subiectului, presupunând că toți itemii
discriminează în mod egal și, de asemenea, excluzând posibilitatea de a
răspunde semnificativ din întâmplare;
 teoretic, scala nivelului factorului latent al subiecților ia valori de la -∞ la +∞.
Modelul logistic cu doi parametri (2PL)

 include un parametru suplimentar, numit parametru de discriminare a itemului,


relaționat pantei maxime a curbei caracteristice a itemului;
 valoarea parametrului de discriminare este proporțională cu panta curbei
caracteristice a itemului la punctul determinat de nivelul de acoperire al
factorului latent (b);
 curbele caracteristice ale itemilor nu mai sunt paralele, putându-se intersecta;
 discriminarea poate lua, teoretic, valori între -∞ și +∞.
Modelul logistic cu trei parametri (3PL)

 parametrul c = nivel al pseudo-șansei;


 parametrul c indică probabilitatea subiecților cu un nivel redus al factorului
latent de a oferi un răspuns semnificativ (corect);
 prezența celui de-al treilea parametru influențează atât gradul de acoperire în
factor latent al itemului (b), cât și discriminarea itemului (a).
Alte modele unidimensionale de răspuns la
itemi dihotomici
 Modele bazate pe ogiva normal – echivalente celor logistice, dar care nu se mai
bazează pe distribuția logistică, ci pe zone ale distribuției normale.
 Modelul liniar logistic cu factori latenți – permite încorporarea conținutului unui item
în predicția succesului răspunsului semnificativ. Singura condiție suplimentară este
aceea a posibilității cuantificării conținutului itemului.
 Modelul logistic cu patru parametri incluzând timpul de răspuns – timpul de
rezolvare a testului va reprezenta un parametru important în estimarea probabilității de
răspuns semnificativ la un anumit item, apărând necesitatea unui model de măsurare
pentru itemii de randament.
 Modele de răspuns pentru itemi cu încercări multiple – în situațiile în care datele
provin din încărcări multiple ale subiecților la aceeași sarcină (la sarcinile psihomotorii
sau în psihologia sportului, unde subiecții efectuează încercări repetate înregistrându-se
acuratețea execuțiilor).
MODELE UNIDIMENSIONALE DE
RĂSPUNS LA ITEMI POLIHOTOMICI

 au o răspândire mult limitată;


 itemii politomici se pot prezenta sub formă de răspunsuri pe:
- scală nominală (sondajele de opinie)
- scală ordonată (de tip Likert)
- scale de credit parțial (alegerea unui anumit răspuns este cotată diferențiat,
pozitiv sau negativ);
 itemii polihotomici au mai multe variante de răspuns, uneori ordonate, numite
categorii de răspuns;
 trebuie să estimeze atât probabilitatea de răspuns la nivelul unei categorii, cât și
probabilitatea de răspuns „pozitiv” la un anumit punct al intervalului
categorial.
Modele unidimensionale de răspuns la
itemi polihotomici
Modelul de răspuns nominal – în cazul itemilor la care variantele de răspuns nu pot fi puse
în ordine (sondajelor de opinie, a scalelor de atitudini).
Modelul cu credit parțial –pentru itemii ale căror răspunsuri se cotează diferit sau pentru
aceia care presupun o evaluare pe o scală a atitudinilor sau credințelor (scale de tip Likert
sau scale nominale punctate diferit).
Modelul generalizat cu credit parțial – scorurile reprezintă niveluri de performanță,
alegerea unei anumite categorii însemnând parcurgerea implicită a sarcinilor din categoriile
inferioare
Modelul pentru scale de evaluare – pentru itemii care măsoară atitudinile, interesele,
factorii de personalitate, precum și în alte chestionare sau inventare cu o structură
consistentă a itemilor (scale de tip Likert).
Modelul cu răspuns gradual – consideră că itemul are un număr de pași, iar completarea
unui pas presupune și completarea pașilor anteriori (scorul minim al unui item este 0, iar
scorul maxim este determinat de numărul pașilor).
TEORIA RĂSPUNSULUI LA ITEM

Exemplu
 testele BRIO se bazează pe un modelul psihometric IRT;
 calculează pentru fiecare întrebare un număr de trei parametri: dificultatea,
discriminarea și probabilitatea ca răspunsul corect să fie ghicit;
 cunoașterea exactă a dificultății fiecărei întrebări și a altor parametri
caracteristici pentru această întrebare permite modelarea matematică a
competenței unui elev care este evaluat cu sistemul de testare BRIO.
TEORIA RĂSPUNSULUI LA ITEM

Testele adaptative computerizate


- sunt construite pe baza IRT;
- selecţia itemului administrat este în funcţie de caracteristicile conjugate ale
acestuia şi ale subiectului examinat, pentru a maximiza informaţia despre el, în
condiţiile unei testări mai eficiente şi mai rapide;
- dacă la început măsurau doar aptitudini şi cunoştinţe (itemi omogeni relativ la
construct), acum ele tind să se extindă spre măsurarea de variabile necognitive
(opinii, atitudini, valori sau interese).
TEORIA RĂSPUNSULUI LA ITEM

 determină relaţia existentă între variabilitatea itemului şi a scalei ca întreg;


 cu cât este mai mare această variabilitate cu atât este mai bine deoarece
variabilitatea itemilor contribuie la creşterea variabilităţii de ansamblu a întregii
scale;
 cu cât ea este mai mare, cu atât se pot determina mai multe categorii de scor şi deci
scala este mai discriminativă;
 pe măsură ce nivelul abilității (sau dimensiunii vizate) este mai crescut, șansele de a
răspunde corect la un anumit item cresc.
IRT vs. CTT

Conceptualizarea relației dintre itemi și nivelul variabilei latente


 IRT: probabilitatea sau șansa unei persoane de a răspunde corect la un item
depinde de nivelul variabilei latente la care se află respectiva persoană
(probabilitate condițională) – funcția răspunsului la item (IRF);

 CTT: o probabilitate uniformă.


(Iliescu & Ion, 2017)
IRT vs. CTT (cont.)

 IRT: o nouă abordare a conceptului de fidelitate;


 în mod tradițional, fidelitatea unei evaluări se referă la gradul în care această
evaluare nu conține erori, iar scorul observat se apropie de scorul real al factorului
măsurat. Valoarea acestei proprietăți ia forma unui coeficient calculat prin mai
multe mijloace, majoritatea tehnicilor făcând apel la raportul varianțelor dintre
scorul real și scorul observat;
 se știe însă că fidelitatea unui test clasic nu are o distribuție uniformă de-a lungul
întregii distribuții a scorurilor. În general, scorurile de la extremele distribuției au
o mai mare componentă de eroare în comparație cu scorurile situate în apropierea
mijlocului distribuției;

(Opariuc, 2014)
IRT vs. CTT (cont.)

 IRT o înlocuiește cu valoarea informativă a itemului și valoarea informativă a


testului. Este tot o funcție matematică a parametrilor itemului;
 itemii cu un factor mare de discriminare au valoare informațională foarte
ridicată, însă limitată la aria pe care o discriminează, în timp ce itemii mai puțin
discriminativi nu au o valoare informațională foarte mare, însă devin valabili pentru
o zonă mai largă;
IRT vs. CTT (cont.)

Magnitudinea factorului latent


 în CTT: stabilirea acesteia are ca soluție cvasi-universală utilizarea unui etalon;
 în IRT, conceptul de etalon dispare;

 estimarea acesteia se bazează pe totalul răspunsurilor considerate corecte + ceilalți


parametri ai funcției de răspuns la item, mai ales discriminarea;
 se obține multiplicând funcția de răspuns la item a fiecărui item rezultând o funcție
probabilistică = probabilitatea maxim estimată a factorului latent (MLE);
 nu este altceva decât vârful acestei funcții de probabilitate;
 procesul de scorare reprezintă cel mai dificil aspect al IRT;
 Acest inconvenient este însă pe deplin compensat de precizia net superioară a evaluării.
Toate studiile comparative între evaluările bazate IRT și cele bazate pe CTT au arătat
însă corelații foarte mari la nivelul dimensiunii evaluate, coeficienții depășind valoarea
0,95 (Wright, 1992).
IRT vs. CTT (cont.)

Eroarea standard a măsurării (SEM)

 CTT nu măsoară scorul real (“cantitatea” de factor latent) ci o estimează, între


valoarea reală și cea estimată existând o diferență numită SEM;
 nici IRT nu au pretenția că măsoară precis, fără eroare;

 CTT consideră fixă această eroare (nu variază în funcție de individul examinat);
 IRT o consideră variabilă, depinzând de subiect;

(Kolen, Zeng, & Bradley, 1996)


IRT vs. CTT (cont.)

 IRT prezintă principii mai solide decât CTT → o precizie mai mare a IRT, în special
sub aspectul modalității de control a erorilor.

 IRT oferă o cantitate de informație și o precizie a acestora mai mare ca CTT;

 IRT are proceduri de scorare și interpretare mai complexe;


 IRT permite modalități mai elaborate de estimare;

 parametrii în IRT nu depind de eșantion sau de test → acestea au un grad mult mai
mare de flexibilitate;
 IRT permite construcția testelor auto-adaptative.

(Opariuc, 2014)
Aspect Teoria Clasică a Testării Teoria Răspunsului la Item

Tipul modelelor liniar neliniar


Unitate test item
Putere asumpții redusă (ușor de îndeplinit) ridicată (greu de îndeplinit)
Relația item – construct inexistentă funcția caracteristică a itemului
Da (caracteristicile itemilor și a
Nu (caracteristicile itemilor și a
persoanelor nu depind de
Invarianța statistică persoanelor sunt dependente de
eșantion dacă modelul selectat
eșantion)
este adecvat)
Volum de date pentru în funcție de model, în general
200 – 500
estimare parametri peste 500 de date

(Opariuc, 2012)
Dacă aceste construcții sunt atât de eficiente, de
ce nu sunt și extrem de populare?

 gradul de complexitate sporit al IRT, în comparație cu CTT;


 IRT presupune calcule laborioase, procedee atipice;
 trebuie proiectate programe special dedicate acestor modele;

 în IRT, număr mare de itemi necesar evaluării unui factor latent;


 în IRT, evaluare mult mai rapidă în comparație cu CTT;

 o greșeală să limităm IRT doar la aptitudini deoarece există suficiente studii


care au probat valoarea acestora în domeniul screening-urilor medicale,
evaluarea atitudinilor, evaluarea opiniilor sau a factorilor de personalitate.

(Opariuc, 2014)

S-ar putea să vă placă și