Printre cele secundare, se numara: a) comparabilitatea; b) economicitatea si c) aplicabilitatea (în relatie
directa cu sensibilitatea).
A) STANDARDIZAREA
Prin standardizare se urmareste uniformizarea conditiilor de evaluare a subiectilor testati. Altfel spus, sunt
create conditii identice de testare atât sub aspectul continutului si formei itemilor testului, cât si sub cel al
aplicarii (administrarii) si evaluarii rezultatelor. Deci, când apreciem gradul de standardizare unui test va trebui
sa luam în consideratie 4 aspecte:
- continutul si forma de prezentare si numarul itemilor componenti ai testului (aceleasi sarcini pentru
toti subiectii);
- instructiunile date subiectilor în legatura cu tehnicile de aplicare a testului si sarcinile de executat
(conditii identice de administrare pentru ca subiectii sa se adapteze la sarcini);
- sistemul de cotare a raspunsurilor subiectilor si
- modul de interpretare a cotelor obtinute (adica, asigurarea unui grad satisfacator de obiectivitate a
evaluarii).
De cele mai multe ori, rezultatele sunt exprimate prin valori numerice - ceea ce trebuie sa asigure o cât mai
mica interventie a subiectivitatii evaluatorului. Acest fapt poate fi probat prin existenta acordului
interevaluatori.
Interpretarea (mai ales cantitativa) a rezultatelor unui subiect; aprecierea acestora se face prin raportarea
raspunsurilor individuale (note brute) la un etalon care exprima rezultatele (valorile) medii obtinute la un test
psihologic de catre populatia din care provine subiectul (sau grupul reprezentativ de apartenenta). Etalonul
(normele) ofera un cadru de referinta (clar si uniform definit) pentru analiza cantitativa a comportamentelor,
randamentului si a altor caracteristici testate. Transformarea cotelor (notelor) brute în cote (note) standard -
exprimate, de regula, în valori cantitative - permite determinarea pozitiei relative a persoanei testate în cadrul
grupului de referinta (adica compararea si ierarhizarea interindividuala a mai multor subiecti), precum si
compararea directa a rezultatelor obtinute de aceeasi persoana la mai multe teste (sau scale diferite ale
aceluiasi test) (compararea si ierarhizarea intraindividuala) (A. Anastasi, 1976). De asemenea, este posibila
compararea rezultatului actual al unui subiect la un test cu cel obtinut înainte la acelasi test. Etalonarea este
uneori tratata ca o calitate separata a testelor psihologice.
B) OBIECTIVITATEA
Aceasta caracteristica exprima gradul de independenta a rezultatelor unui subiect la un test în raport cu
persoana examinatorului. J. L. Cronbach (1970) arata ca la un test foarte obiectiv oricare dintre subiectii examinati de
catre diferiti psihologi poate obtine, cel putin teoretic, rezultate identice.
Obiectivitatea unui test depinde atât de respectarea conditiilor de administrare a acestuia, cât si a celor legate
de cotarea si interpretarea rezultaelor. Nici conduita ,,rigida" (uniformizarea excesiva a conditiilor de aplicare), dar nici
cea ,,versatila" a examinatorului în timpul aplicarii testului nu sunt de dorit, deoarece pot afecta obiectivitatea acestuia.
Conduita versatila se refera la introducerea unor variatii nedorite în situatia de testare standardizata, însa aceeasi
atitudine a examinatorului poate fi interpretata diferit de subiecti.
C) SENSIBILITATEA
Aceasta caracteristica (denumita astfel de R. Lafon, 1963) mai este cunoscuta si sub denumirea de putere de
discriminare (H. Piéron). Este vorba despre capacitatea unui test de a permite distinctia fina între persoanele
examinate în ceea ce priveste caracteristica masurata (de pilda, o aptitudine anume sau o trasatura de personalitate).
P. Kline (1993) arata ca un test sensibil (discriminativ) va produce scoruri diferite pentru subiectii care se
deosebesc între ei în privinta caracteristicii masurate. H. Piéron (1952) considera ca puterea de discriminare a unui test
este data de numarul de clase (valori) pe care le poate evidentia în cadrul unui grup . Cu cât numarul valorilor
(scorurilor) obtinute de subiectii unui lot este mai mare cu atât testul diferentiaza mai bine între
indivizi. Ausubel si Robinson (1981) constata dependenta dintre sensibilitatea unui test si forma repartitiei scorurilor
acestuia într-un lot (curba rezultatelor).
a) ideal (dar nefiresc) ar fi sa avem o repartitie uniforma a scorurilor (frecventele sunt acelasi pentru toate
scorurile); astfel, s-ar putea asigura o discriminare la fel de buna de-a lungul întregii scale de masura (de obicei,
ordinala);
b) normal (si firesc) ar fi sa întâlnim o repartitie a scorurilor (rezultatelor) apropiata de curba
normala descrisa de Gauss-Laplace; astfel, se va asigura o maxima discriminare la ambele
capete ale scalei (domeniului de variatie) a scorurilor (unde sunt distribuite putine scoruri - în
curba normala, 2.14 % între ± 2δ si ± 3δ) si o discriminare mai slaba la mijlocul scalei sau
domeniului de variatie (unde se aglomereaza majoritatea simpla a rezultatelor - în curba
normala, aproximativ 68.26 % între - 1 δ si + 1 δ).
Utilitatea determinarii sensibilitatii. Sensibilitatea unui test nu ofera indicatii asupra masurii în care acesta
este adecvat sau nu unui lot de persoane. Când se analizeaza sensibilitatea sau puterea discriminativa, se iau de obicei
în consideratie forma curbei de distributie a scorurilor (frecventei acestora), precum si indicatorii statistici primari
(media, abaterea standard, dispersia etc.) pentru scorurile obtinute la test de lotul respectiv de subiecti sau de un
esantion reprezentativ pentru populatia careia îi este destinat testul.
D) ECONOMICITATEA (EFICIENŢA)
Aceasta caracteristica depinde de durata de aplicare a unui test (un test prea lung este obositor si s-ar putea sa
fie abandonat de subiectii plictisiti), de costul materialelor necesare aplicarii sale (caiete cu itemi, foi de raspuns, grile
de corectie etc.), de usurinta administrarii, aplicabilitatea colectiva, rapiditatea cotarii si usurinta interpretarii
rezultatelor (G. Lienert, 1967).
E) APLICABILITATEA
Aceasta caracteristica depinde în primul rând de principalele calitati psihometrice ale testului (validitate,
fidelitate, standardizare, discriminare), dar si de o serie de factori conjuncturali (de pilda, un psiholog trebuie sa aleaga
dintre testele pe care le are pe cele mai relevante pentru anumite caracteristici de masurat; de asemenea se întâlneste
frecvent situatia în care psihologul trebuie sa decida ce anume trebuie masurat tinând cont de testele pe care le are la
dispozitie).
Uneori, sub presiunea cerintelor practice, firmele implantate în România utilizeaza teste neadaptate la
populatia româneasca. La fel se întâmpla cu unii psihologi care se rezuma la a traduce si etalona un test, fara însa a face
studii cu privire la validitatea acestuia (de pilda, validitatea de aspect sau acceptabilitatea testului pentru subiecti,
validitatea de continut, validitatea predictiva, fidelitatea test-retest, puterea de discriminare a itemilor etc.). Ambele
atitudini sunt contraindicate, daca dorim (sau avem pretentia) ca, pe baza unor astfel de teste, sa diagnosticam si sa
facem predictii cu privire la aptitudini, comportamente sau trasaturi de personalitate. Managerul sau directorul de
personal dintr-o firma nu va putea selecta pe baza testelor incorect utilizate pe cei mai buni candidati pentru un post
(adica, pe aceia la care poate previziona un maximum de randament pe postul în cauza). La rândul sau, psihologul risca
sa ,,califice" gresit (neconform cu realitatea) indivizi în functie de nivelul trasaturii masurate, ceea ce de multe ori poate
duce la discriminare sau, în orice caz, la afectarea imaginii de sine a persoanelor testate.
1. FIDELITATEA TESTELOR
- consistenta interna;
- stabilitatea in timp a rezultatelor testarii.
Analiza fidelitatii unui test porneste de la conceptul de eroare. Orice scor la un test psihologic
este rezultatul scorului real si al unei erori de masura:
Fidelitatea reprezinta absenta relativa dintr-o proba psihologica a erorilor de masurare. Acest
lucru insa in psihologie nu poate fi intalnit; de aceea orice test psihologic trebuie sa estimeze valoarea acestor
erori aleatoare de masura. Calculul fidelitatii indica masura in care scorurile obtinute la test exprima de fapt
valorile reale ale constructului pe care testul il masoara.
a. CONSISTENTA INTERNA
Consistenta interna a unui test se refera la masura in care toti itemii testului masoara aceeasi
variabila. Calculul coeficientului de consistenta interna va consta in analiza corelatiei ce exista intre fiecare
item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculati urmatorii
coeficienti:
Cronbach pentru testele cu orice tip de itemi;
Guttman;
Toti coeficientii prezentati se bazeaza pe un calcul de corelatie intre itemii ce alcatuiesc testul.
Un coeficient de consistenta ridicat exprima faptul ca toti itemii testului se refera la aceeasi variabila. In afara
coeficientilor prezentati anterior, consistenta interna a unui test poate fi calculata si pe baza metodei
injumatatirii. Pe baza acestei metode testul este impartit in jumatate, calculandu-se coeficientul de corelatie
dintre cele doua parti. Daca acest coeficient este ridicat el ne indica o buna fidelitate (consistenta interna) a
testului. O forma particulara a metodei injumatatirii o constituie metoda item cu item, in care testul este
impartit in doua prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnica este utila mai ales in
cazul testelor in care itemii sunt prezentati in ordinea crescanda a dificultatii. Se calculeaza si acest caz
coeficientul de consistenta interna intre cele doua parti ale testului, valoarea lui reprezentand valoarea
coeficientului de fidelitate.
b. STABILITATEA
O valoare mare a acestui coeficient indica o buna stabilitate in timp a rezultatelor. Se poate
spune despre acel instrument ca este fidel deoarece releva aceleasi valori ale unei variabile la masuratori
diferite in timp.
Intervalul de timp intre test si retest. Daca timpul este prea scurt exista o mare probabilitate ca
subiectii sa isi reaminteasca raspunsurile date anterior; respectiv un timp prea lung intre test si retest poate
determina maturizarea esantionului de subiecti. Astfel daca aplicam un test de perceptie la 4 ani si il reaplicam
la un interval de 6 luni exista o mare probabilitate sa obtinem rezultate diferite la cele doua administrari ale
testului deoarece in intervalul de 6 luni subiectii s-au maturizat. In acest caz retestul va include in evaluare
nivelul de maturizare al subiectilor. Datorita acestor argumente este destul de dificil de stabilit cu exactitate un
timp optim intre test si retest.
Intotdeauna cand se calculeaza acest coeficient trebuie precizat intervalul scurs intre test si
retest, varsta subiectilor precum si conditiile in care s-au administrat testele pentru a putea identifica
eventualele surse de eroare de masura.
Gradul de dificultate al itemilor. Daca itemii sunt fie prea usori fie prea dificili se vor obtine
coeficienti de stabilitate ridicati deoarece itemii testului fie vor fi rezolvati de majoritatea subiectilor (in primul
caz) fie nu vor fi rezolvati nici la test nici la retest (al doilea caz).
Schimbari ale subiectului determinate de prima aplicare. Pot exista o serie de situatii in care se
obtin performante diferite la retest deoarece subiectul fie a invatat sa raspunda la itemi dupa prima
administrare, fie aceasta prima administrare a determinat schimbari de atitudini fata de o anumita problema.
Exista o serie de situatii practice care necesita aplicari repetate a unui test psihologic la un
interval foarte scurt de timp. In acest caz aplicarea aceluiasi test este improprie deoarece s-a vazut anterior ca
la un interval scurt de timp subiectii pot sa isi reaminteasca raspunsurile date anterior. In acest caz trebuie sa
se construiasca forme echivalente sau paralele ale unui test. Doua teste sunt paralele daca pentru un subiect
erorile de masura la cele doua administrari sunt variabile aleatoare independente. In acest caz itemii celor
doua teste trebuie sa fie logic izomorfi, adica sa aiba acelasi nivel de dificultate.
Avantajul acestei metode este acela ca nu mai permite reamintirea raspunsurilor si nici
posibilitatea cautarii raspunsurilor la intrebarile la care nu s-a stiut raspunde.
d. FIDELITATEA INTEREVALUATORI
Este necesar a fi calculata in cazul testelor care nu au o cotare obiectiva asa cum sunt testele
proiective de personalitate la care scorul este influentat si de interpretarea pe care o da persoana care face
cotarea. Pentru a verifica in ce masura scorul la test este influentat de modalitatea in care se face cotarea de
diferite persoane se va cere la diferiti evaluatori sa calculeze scorurile la test, iar apoi se va realiza un coeficient
de corelatie interevaluatori. Acest coeficient va exprima masura in care testul este independent de erori
datorate modalitatii de cotare a raspunsurilor subiectului.
Trebuie mentionat faptul ca desi fidelitatea unui test este importanta, ea nu este suficienta
pentru un test bun. Un test poate avea o buna consistenta interna (toti itemii evalueaza aceeasi variabila )
respectiv o buna stabilitate in timp, dar sa masoare altceva decat isi propune. Problema evaluarii corecte a
ceea ce isi propune sa masoare un test este constituie subiectul validitatii testelor.
Interpretarea unui coeficient de fidelitate (FORMULE)
Asa cum am precizat anterior orice rezultat (scorul observat) pe care o persoana il obtine la un
test este alcatuit din aptitudinea reala (scor real) careia i se adauga eroarea de masura. Adica:
Intrebarea pe care este necesar sa o analizam in acest caz ar fi urmatoarea: care este intervalul
in care se gaseste scorul real. Altfel spus, dat fiind faptul ca o persoana obtine un anumit scor la un test, ne
intereseaza care este intervalul in care putem spune ca se gaseste scorul real la test. Acest interval este
denumit interval de incredere si este definit ca probabilitatea ca scorul real al persoanei la un test sa se
gaseasca intre anumite limite
SEm = SD*
SEm = 15*
SEm = 15*
SEm = 2.12
Alegerea scorului z care va intra in calcul se face in functie de precizia cu care dorim sa lucram.
Daca alegem sa lucram cu o probabilitate de 95% scorul z corespunzator este de 1.96 . Pentru o probabilitate
de 90% scorul z corespunzator este de 1.65. In acest exemplu sa vom lucra cu o precizie de 95%, deci z=1.96.
Astfel vom avea:
IC = 115 + 1.96*2.12
IC= 115 + 4.15
In acest caz putem spune cu o probabilitate de 95% ca scorul real al persoanei se gaseste in
intervalul 110.85 – 119.15.
De retinut:
EXERCITII
Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il
considerati mai bun?
Testul C are eroarea standard de masura 3,20 iar fidelitatea testului 0,76
Testul D are eroarea standard de masura 5,6 iar fidelitatea testului 0,62
Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il
considerati mai bun?
2. VALIDITATEA TESTELOR
Definitia validitatii
Evaluarea psihologica vizeaza o anumita realitate fie interna, fie externa. Numim domeniu de
evaluare orice realitate (interna sau externa) care este supusa evaluarii. In orice proces de evaluare psihologica
pornim de la definirea domeniului de evaluare si apoi propunem o serie de modalitati cantitative prin care
observam daca indivizii poseda sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului
poate sa fie mai mult sau mai putin corecta ne punem intrebarea daca aptitudinile /caracteristicile masurate de
test corespund domeniului de evaluare. Astfel, pentru ca testul sa fie considerat o masura buna a domeniului
de evaluare este necesar sa obtinem o serie de informatii care sa reflecte faptul ca testul masoara ceea ce si-a
propus. Din aceste cerinte decurge problema validitatii unei masuratori.
Este cunoscut deja faptul ca masurarea psihologica si deci implicit si validarea isi au radacinile
demult in timp. Intr-un articol care viza rolul testelor in selectia de personal, Guion (1976) realizeaza o trecere
in revista a principalelor aspecte de care se tinea cont la vremea respectiva in analiza validitatii unei masuratori
psihologice. Acestea sunt prezentate in tabelul 2:
Analiza facuta de Guion (1976) ne ofera o imagine globala a ceea ce insemna la inceputul sec.
xx modalitati traditionale de realizare a studiilor de validitate a unui instrument de evaluare psihologica.
O abordare mai recenta si poate mai corecta a validitatii este formulata de APA , AERA ,
NCSEPT in 1974. Conform standardelor asociatiilor amintite “Validitatea se refera la corectitudinea inferentelor
realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de intrebari la care
dorim sa raspundem pe baza unei evaluari psihologice trebuie sa ne verificam cat de corecte (sau valide) sunt
raspunsurile (sau informatiile) oferite de un test psihologic (Ghiselli & all, 1986).
Validitatea trebuie atribuita intotdeauna inferentelor facute pe baza performantelor la un test. Validitatea nu
este o caracteristica a testului psihologic ci este mai degraba o caracteristica a inferentelor care rezulta in urma
utilizarii acestuia (unei forme de evaluare - chiar a observatiei). Altfel spus, validitatea determina relatia dintre
inferentele facute pe baza performantelor la un test si realitate (este inclus aici orice aspect care este supus
evaluarii). Daca analizam definitia data de Nunnally (1978) validitatii, si anume “cat de util stiintific” este un
instrument de masura observam ca si in acest caz este vorba de inferente, sau judecati realizate pe baza
instrumentului respectiv.
Literatura de specialitate indica diferite tipuri de validitate psihologica. Ele trebuie intelese ca fiind tehnici,
modalitati prin care se incearca optimizarea unui instrument de masura psihologica. Modalitatea cea mai des
intalnita in literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie
urmatoarea taxonomie:
validitate de criteriu
validitate de continut
validitate de construct
In afara celor trei tipuri de validitate, normele APA analizeaza validitatea de aspect.
Validitatea de aspect este definita ca “ceea ce un test pare sa masoare, mai degraba decat ceea ce masoara”
(APA, 1974). Exprima de fapt modul in care persoana evaluata percepe itemii testului; ea este importanta in
masura in care poate influenta raspunsurile persoanei examinate la test. Daca persoana examinata apreciaza ca
testul masoara ceea ce isi propune sa masoare de fapt, atunci putem spune ca testul are o validitate de aspect
ridicata. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important
pentru inferentele facute pe baza unui test.
a. VALIDITATEA DE CRITERIU
Nu de putine ori suntem confruntati cu intrebari ca: “In ce masura performanta la un test de inteligenta este
predictiva pentru reusita scolara?”, “In ce masura rezultatul la un test de aptitudini prezice performanta in
munca?”, “In ce masura performanta la un test de memorie constituie un bun predictor pentru declinul
cognitiv la varsta a treia?”. Aceste intrebari se adreseaza validitatii de criteriu. Adesea acest tip de validitate
este intalnit sub denumirea de validitate empirica (Lyman, 1998). Validitatea de criteriu indica deci masura in
care testul este un bun predictor pentru un esantion de comportamente viitoare. In acest caz performanta la
un test trebuie raportata la o alta performanta pe care o numim criteriu.
Criteriul este definit ca standardul la care este raportata performanta la un test. Astfel criteriul poate fi
“performanta unui pilot care conduce un Boeing 767”, “numarul de zile petrecut intr-un spital de psihiatrie”,
“notele obtinute de un elev la disciplinele umane”, “performanta la un alt test”. Asa cum se poate observa nu
exista reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de
comportamente, o perioada de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sange,
etc. Desi la o prima vedere se poate spune ca un criteriu poate constitui orice, acest lucru este adevarat doar
daca criteriul este relevant pentru domeniul de evaluare, daca este necontaminat, daca este valid si fidel
Un test psihologic este adecvat daca este relationat cu un criteriu si deci poate fi considerat un bun substitut al
criteriului. In general numim testul ca fiind predictor pentru criteriul respectiv.
Criteriul reprezinta o masura directa si independenta a ceea ce testul doreste sa prezica. Astfel pentru un test
de aptitudini mecanice criteriul il poate constitui performanta in munca de mecanic; pentru un test de
cunostinte criteriul il pot constitui notele scolare.
sa fie relevant pentru activitatea sau caracteristica la care se refera; adica ordinea subiectilor la test sa coincida
cu ordinea performantei la criteriu;
sa fie fidel, adica sa fie congruent cu evaluari diferite ale performantelor la care se refera, evaluari realizate la
momente diferite.
sa fie exprimat in aceleasi unitati pentru toate persoanele. Daca de exemplu, valorile variabilei criteriu sunt
dependente de varsta subiectilor atunci aceste valori trebuie transformate in cote standard (de exemplu: z sau
T);
Anastasi (1954) exemplifica cateva criterii utilizate in analizarea validitatii testelor care vizeaza constructe:
varsta – se foloseste ca si criteriu in cazul constructelor ce vizeaza procese care cunosc o maturizare (ex.
inteligenta, functiile perceptive, etc.). Nu este un criteriu bun pentru testele care vizeaza aspecte invariabile in
timp (ex. variabilele ce tin de temperament).
performantele scolare – sunt un criteriu bun pentru testele de cunostinte sau pentru testele care evalueaza
aptitudini scolare.
performantele la diverse programe de instruire speciala (muzica, sport, etc.) sunt criterii adecvate pentru
testele de aptitudini speciale.
rezultatele altor teste se utilizeaza adesea ca si criteriu in construirea de noi teste. Astfel Scala Metrica a
inteligentei construita de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite in scopul
evaluarii inteligentei;
grupele contrastante - pentru un test de inteligenta acestea ar fi constituite din copiii care
frecventeaza scoala de masa, respectiv copiii integrati in scoala ajutatoare.
Daca ar fi posibil intotdeauna sa obtinem direct scoruri la criteriu pentru un anumit individ nu
am mai avea nevoie de masura predictorului si de nici o aproximare a validitatii de criteriu. Din pacate insa nu
putem obtine imediat scorurile la un criteriu; ele pot fi obtinute doar la anumite intervale in timp sau pot fi
adesea extrem de costisitoare pentru a fi obtinute la cerere pentru orice individ.
Sa consideram un exemplu.
S-a pus nu de putine ori intrebarea ce inseamna o performanta buna intr-o anumita
organizatie. Performanta poate fi definita din mai multe puncte de vedere. Astfel, organizatia poate fi
interesata de cat de mult contribuie o persoana la cresterea profitului, iar pentru persoana respectiva
performanta poate insemna masura in care simte ca este apreciata. Avem in acest caz de-a face cu mai multe
dimensiuni ale unui criteriu. Aceste surse de informatii pot fi utilizate pentru a prezice fiecare dintre cele doua
surse ale criteriului iar validitatea acestora va fi determinata diferit. Daca un criteriu este adecvat este cel mai
adesea o judecata de valoare (Ghiselli et. all). Putem estima prin diferite modalitati fidelitatea unui criteriu
(stabilitatea acestuia in timp de ex.) insa formularea lui, respectiv continutul acestuia constituie cel mai adesea
un rationament sau o judecata a celui care realizeaza evaluarea.
In exemplul anterior criteriul apartine viitorului si in momentul evaluarii nu este disponibil, deci
avem nevoie de o serie de predictori pentru estimarea acestuia. Sa presupunem insa ca avem de-a face cu un
criteriu care poate fi estimat acum (adica in momentul evaluarii). Intrebarea pe care trebuie sa ne-o punem
este urmatoarea: “avem la dispozitie masuratori economice ale criteriului care pot fi folosite acum?”. Un
exemplu de astfel de criteriu este masura in care o serie de indivizi prezinta o forma sau alta de tulburare
psihica. O analiza completa a acestei dimensiuni ar dura cateva zile si ar fi neeconomica. Daca in plus sarcina
psihologului este acela de a analiza un numar mare de persoane din prisma acestor criterii ar trebui gasita o
alta modalitate decat cea clinica, completa. Problema cu care ne confruntam acum este aceea de a gasi o
modalitate economica (rapida in timp si necostisitoare) care ar putea substitui examinarea clinica completa
care constituie criteriul.
Exista de multe ori evenimente care s-au petrecut in trecut si care deci nu mai pot fi evaluate in
mod direct. Care este in acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De
exemplu, analiza de catre medic a unei electrocardiograme (predictor) poate fi utilizata ca modalitate de a
decide daca pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intra in aceasta
categorie este rolul pe care il are un judecator de a stabili daca un individ a comis o crima in trecut (criteriul) pe
baza prezentarii faptelor la proces (predictor).
i. validitate predictiva.
ii. validitate concurenta
Validitatea predictiva
Termenul de predictie poate fi utilizat fie in sens larg cand se refera la predictia unui test
pentru orice situatie, sau in sens restrans cand se refera la predictie intr-un interval de timp. Validitatea
predictiva vizeaza cel de-al doilea sens
Validitatea predictiva este definita ca acuratetea cu care putem estima in ce masura o anumita
caracteristica sau aptitudine a unei persoane se va manifesta in viitor pe baza masurii in care persoana poseda
o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la
facultate ne poate intereseaza in ce masura aptitudinile de care dispune acum o persoana sunt predictive
pentru performanta academica. Pe baza notei la examenul de admitere (predictor) am putea face o predictie
asupra reusitei academice ulterioare (criteriu).
In practica clinica de exemplu, un test care ar reusi sa prezica tentativele viitoare de suicid ar
constitui un bun predictor pentru acest criteriu.
Ce este predictia?
Predictia este procesul de stabilire a unor expectatii despre viitor avand la baza date /
evenimente curente – de exemplu desprinderea unor date despre performanta viitoare in munca pornind de la
caracteristicile actuale ale unei persoane.
Validarea predictiva presupune existenta unui interval de timp intre test si verificarea
criteriului. Pentru un test care are ca scop predictia reusitei scolare la scris-citit in clasa I testul va fi aplicat la
intrarea in clasa I, iar criteriul (performantele la scris-citit) va fi verificat fie dupa un semestru, fie la sfarsitul
clasei I.
Studiul de validare al unui test care vizeaza prognoza reusitei la citire in clasa I, trebuie sa
parcurga urmatoarele etape (Kulcsar, 1980) (figura 1):
alegerea unui test sau a unor teste psihologice care exploreaza tocmai acele aspecte
psihologice care conditioneaza reusita la citire;
Validitate concurenta
Daca rezultatele la predictor (test) sunt obtinute simultan cu rezultatele la criteriu, masura
relatiei dintre predictor si criteriu o constituie validitatea concurenta. Validitatea concurenta exprima deci in ce
masura scorurile la test pot fi utilizate pentru a estima performanta actuala a unei persoane la un anumit
criteriu.
Analiza validitatii de criteriu (fie ea predictiva sau concurenta) se bazeaza pe doua tipuri de
analize statistice: coeficientii de validitate.
Coeficientii de validate
b. VALIDITATEA DE CONTINUT
Analiza itemilor care sunt inclusi in test. Vor trebui sa fie eliminati acei itemi care nu evalueaza
aspecte ale domeniului de continut identificat anterior. Aceasta analiza se va face de catre experti care pot sa
aprecieze relevanta fiecarui item pentru un domeniu dat. Validitatea de continut nu depinde insa de relevanta
aparenta a continutului itemilor ci de caracterul relevant al raspunsurilor subiectului la itemi (Anastasi, 1976).
Pentru a stabili validitatea de continut a testului, orice analiza teoretica trebuie deci sa fie confirmata empiric
(Kulcsar, 1980).
Compararea structurii testului cu domeniul de continut. Astfel se va analiza daca itemii acopera
toate aspectele domeniului, respectiv daca ei sunt proportionali in test cu importanta si marimea fiecarui
aspect.
Deoarece acest tip de validare nu reclama metode si modele statistice, ea facandu-se doar pe
baza de rationamente, o gasim in literatura de specialitate si sub denumirea de validare logica sau rationala
(Thorndike, Hagen, 1961).
Validarea referitoare la continut se impune a fi calculata in urmatoarele cazuri:
in cazul testelor de cunostinte atunci cand nu exista un criteriu extern adecvat pentru
analiza validitatii de criteriu;
Constructia de itemi
Atunci cand dorim sa evaluam ceva, prima intrebare pe care ne-o formulam este ce anume
dorim sa evaluam, care este formatul pe care trebuie sa-l aiba itemii, astfel incat sa ne ofere imagine acurata a
aspectului care ne intereseaza.
Formularea itemilor
Construirea de itemi este un proces pretentios, in continuare vom prezenta cateva aspecte
orientative legate de formularea lor:
Definiti clar ceea ce aveti de masurat, pentru a putea formula itemii cat mai specific posibil.
Incercati sa formulati itemii intr-un limbaj accesibil persoanelor evaluate cu acest instrument.
Evitati formularea unor itemi care surprind doua aspecte sau idei, de exemplu:
„Imi place sa lucrez intr-un mediu bine organizat, pentru ca vreau sa fiu cel mai bun la locul de
munca”
Acest item are in vedere doua aspecte: „imi place sa lucrez intr-un mediu bine organizat” si
„vreau sa fiu cel mai bun la locul de munca”, astfel in momentul in care persoana evaluata va alege o optiune
de raspuns, va fi imposibil de decelat la care din cele doua aspecte evaluate se refera.
Incercati sa formulati itemi pozitivi si negativi in aceeasi masura, pentru a evita biasarea care
apare in cazul formularii itemilor pozitivi. Aceasta biasare este determinata de tendinta persoanei evaluate de a
fi de acord cu toti itemii testului.
In functie de constructul pe care dorim sa-l evaluam anumite formate devin mai mult sau mai
putin adecvate. Prezentam in continuare cele mai frecvent intalnite forme ale itemilor.
a. Itemii dihotomici – ofera doua alternative de raspuns (adevarat si fals), de obicei uneia dintre
acestea i se acorda un punct la cotarea performantei persoanei evaluate. Itemii au forma unor afirmatii, iar
sarcina subiectilor este de a decide asupra valorii de adevara a acesteia.
sunt usor de construit (in construirea unui test de evaluare a cunostintelor profesorul
poate utiliza fragmente din suportul de curs pentru a formula itemii);
sunt usor de construit (in construirea unui test de evaluare a cunostintelor profesorul
poate utiliza fragmente din suportul de curs pentru a formula itemii);
in cadrul testelor de cunostinte acest tip de itemi pot incuraja studentii sa a memoreze
materialul;
b. Itemi cu mai multe optiuni (polinomici) – au un format similar celor dihotomici, atata doar ca
au mai mult de doua alternative de raspuns. Se acorda un punct numai unei optiuni de raspuns, iar celelalte
care nu sunt corecte poarta denumirea de distractori. Itemii construiti in scopul evaluarii performantei
academice au de cele mai multe ori acest format.
Dezavantajul cel mai mare al acestui tip de itemi se refera la construirea unor distractori buni,
procedeu care necesita mai mult timp. In cazul itemilor polinomici, probabilitatea de a ghici raspunsul exista,
desi este mai mica decat in cazul itemilor dihotomici (este de 25% in cazul a patru alternative, de 33.33% in
cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obtinut
de catre fiecare persoana evaluata. Aceasta formula se exprima astfel:
Scorul corect = R – W/ n – 1
Raspunsurile omise nu sunt incluse deoarece acestea nici nu cresc si nici nu duc la scaderea
scorului final. De exemplu in cazul unui test de 100 de itemi, cu cate 4 optiuni de raspuns (din care una singura
este corecta, celelalte trei sunt gresite la fiecare item), daca vom completa aleator raspunsurile corecte vom
obtine scorul de 25 (bine inteles aceasta este o situatie ipotetica in realitate avem putine sanse sa obtinem
tocmai 25 de puncte care este scorul mediu asteptat).
In acest caz, conform formulei anterioare, scorul corect este de: 25 - 75/4-1 = 25 – 25 = 0
c. Scale Likert – prezinta o forma foarte populara, utilizata mai ales in cadrul testelor de
personalitate, in care persoana evaluata trebuie sa-si exprime acordul sau dezacordul fata de a o afirmatie (se
numeste scala Likert, pentru ca a fost introdusa de catre Likert in 1932, in scopul evaluarii atitudinilor).
Pentru a se evita alegerea unui raspuns neutru din partea celui evaluat (in cazul exemplului de
mai sus 3), se utilizeaza scale cu un numar par de optiuni de raspuns.
Acest tip de raspuns permite cotarea inversa, scorul total este calculat prin insumarea
numerelor corespunzatoare raspunsurilor.
d. Scala categoriala – este similara cu scalele Likert, dar utilizeaza un numar mai mare de
optiuni de raspuns, de cele mai multe ori sunt utilizate scale cu 10 optiuni de raspuns. Pentru utilizarea lor
adecvata este foarte important ca punctele extreme ale scalei sa fie clar definite si permanent reamintite celor
care realizeaza evaluarea.
Una dintre principalele probleme legate de acest tip de scala este numarul de categorii care
poate fi utilizat, care poate fi de 10 si 15 sau 66? S-au realizat cateva studii in acest sens, ele au aratat ca
depinde mult de scopul pe care il avem si de nivelul de expertiza al evaluatorului. De exemplu daca dorim sa
evaluam performanta unor jucatori de fotbal, o scala cu 7 nivele va fi suficienta pentru ochiul unui nonexpert
care nu sesizeaza aspectele de finete, dar nu si in cazul unui expert, al unui antrenor care poate sesiza mai
multe diferente intre jucatori.
2. Analiza de itemi
Care sunt criteriile pe baza carora putem spune ca un item este bun?
Asa dupa cum putem analiza un test din prisma fidelitatii si validitatii, la fel putem analiza
conform acestor criterii un item. Mai precis, un item bun discrimineaza intre doua categorii de subiecti; putem
spune de asemenea ca un item este bun daca performanta la item coreleaza cu performanta la test.
Care este procesul pe baza caruia putem analiza itemii? Dupa ce am generat itemii, dupa ce
acestia au fost aplicati unui esantion de subiecti, ne intereseaza in ce masura ei pot fi considerati itemi buni,
respectiv la care dintre itemi ar trebui sa renuntam deoarece nu satisfac criteriile. Totalitatea procedeelor
statistice cunoscute sub denumirea de „analiza de itemi” servesc scopurilor prezentate. Este important de
mentionat faptul ca analiza de itemi cuprinde atat procedee cantitative cat si procedee calitative.
Tehnicile de analiza calitativa a itemilor unui test constituie un procedeu des intalnit in analiza
itemilor unui test. Tabelul 5 prezinta o serie de aspecte ale analizei calitative de itemi pe care trebuie sa le ia in
calcul o persoana care construieste un test.
Aspecte Intrebari
Specificitatea culturala Crezi ca itemii testului sunt discriminativi pentru un grup anume de persoane?
De ce?
Validitatea de aspect Testul masoara ceea ce crezi tu ca masoara? Daca nu este asa ce anume din
test te indreptateste sa sustii acest lucru?
Examinatorul Crezi ca performanta obtinuta la test a fost influentata de comportamentul
examinatorului? Daca da, care au fost acele comportamente care te-au
influentat?
Mediul de testare Crezi ca unele conditii ale mediului in care ai fost testat au influentat
performantele la test? Daca da, care au fost acelea?
Limbajul testului Modalitatea de prezentare a instructiunilor sau alte aspecte verbale ale testului
au influentat performanta la test?
Lungimea testului Care este opinia ta in privinta lungimii testului – se vor discuta 2 aspecte:
timpul total si numarul itemilor
Raspunsurile aleatoare Au fost itemi in test la care ai dat raspunsuri la intamplare? Care este
procentajul de itemi la care ai raspuns la intamplare? Ai folosit anumite strategii
specifice?
Corectitudinea testarii Crezi ca s-a putut trisa la acest test? Daca da, care crezi ca au fi sunt
modalitatile de a trisa?
Starea psihica/fizica a Cum ai descrie starea ta (psihica sau fizica) din timpul testului? Crezi ca aceasta
subiectului in timpul stare ar putea influenta in vre-un fel performanta la test?
examinarii
Impresia generala Care este impresia ta generala lasata de acest test? Care sunt sugestiile pe care
le-ai face pentru imbunatatirea testului?
Preferinte Ce ti-a placut/displacut la acest test? Au existat parti ale testului pe care le-ai
resimtit ca provocandu-ti anxietate sau alte stari negative?
Pregatirea anterioara Cum te-ai pregatit pentru acest test? Daca ar trebui sa sfatuiesti pe cineva
privind modul in care ar trebui sa se pregateasca pentru acest test ce i-ai
sugera?
Atunci cand ne referim la teoria clasica a testelor avem in vedere modelul de masurare
prezentat in cadrul modulului II. In acest subcapitol vom prezenta procedurile de analiza a itemilor bazate pe
acest model si pe asumptiile sale.
Procedurile statistice utilizate in analiza itemilor sunt nu de putine ori extrem de complexe, de
aceea scopul nostru este de a prezenta aici doar procedurile de baza. Vom prezenta in continuare modalitatile
principale utilizate in analiza itemilor. Este important de retinut faptul ca importanta acestor procedee depinde
de functia si obiectivele pe care autorul testului doreste sa le atribuie testului.
indicele de discriminare;
Sa presupunem ca un item al unui test este rezolvat corect de toti subiectii. Putem spune ca
itemul acesta este un item bun? Ce se intampla daca dimpotriva, nici un subiect nu raspunde corect la acest
item. In ambele cazuri putem considera ca itemul respectiv nu este unul bun. Daca la un item toti subiectii
raspund corect inseamna ca itemul este prea usor; daca dimpotriva, nici un subiect nu raspunde la un item
atunci putem spune ca itemul este prea dificil. In ambele cazuri, se recomanda rescrierea itemului sau
eliminarea din test.
Observatie. La unele teste de cunostinte, primul item al testului este unul extrem de facil
(raspund deci majoritatea subiectilor). Acest lucru este indicat a se realiza fie pentru a verifica daca subiectul a
inteles sarcina de lucru, fie pentru a-i forma o atitudine pozitiva fata de test si astfel de a-i creste motivatia.
Indicele de dificultate al unui item (px) se obtine calculand proportia subiectilor care au raspuns
corect la item. Valoarea teoretica a indicelui de dificultate se gaseste intre 0 (daca nici un subiect nu a rezolvat
itemul corect) si 1 (daca toti subiectii au raspuns corect la un item).
Exemple.
Daca 50 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 2 corect atunci
putem spune ca indicele de dificultate al itemului 2 este 50/100 adica p2=0,5
Daca 75 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 3 corect atunci
putem spune ca indicele de dificultate al itemului 3 este 75/100 adica p3=0,75 si vom spune ca itemul 3 este
mai usor decat itemul 2.
Se poate observa ca cu cat indicele de dificultate al itemului este mai mare cu atat itemul este
mai usor. Deoarece „p” se refera la procentul celor care au rezolvat corect itemul, putem spune ca cu cat este
mai mare valoarea indicelui cu atat itemul este mai usor. Vorbim de indice de dificultate pentru testele de
performanta, insa in cazul testelor de personalitate acest indice exprima procentul de subiecti care a raspuns
„da” la item, sau in alte cazuri procentul de subiecti care a agreeat itemul.
Un indice global de dificultate al itemilor unui test se poate calcula facand media indicilor
fiecarui item. Astfel se face suma tuturor indicilor de dificultate si rezultatul obtinut se imparte la numarul
itemilor testului. Pentru o maxima discriminare, este important ca media indicilor de dificultate al unui test sa
fie 0.5, deci indicii fiecarui item al testului sa varieze intre 0.3 si 0.8.
Ceea ce trebuie sa luam in calcul cand analizam indicele de dificultate al unui item este sansa
ca subiectul sa dea raspunsul corect la intamplare (adica de a ghici raspunsul). In acest caz indicele optim de
dificultate al unui item se gaseste la mijlocul distantei dintre 1 si rata de raspuns la intamplare care pentru un
item cu 2 raspunsurile este de 0,50. Mijlocul distantei dintre 1 si 0.50 este 0.75 – deci indicele optim de
dificultate al acestui item este 0.75. In general acest indice optim se obtine insumand valoarea sansei cu 1 si
apoi impartind valoarea obtinuta la 2, sau:
Pentru un item care are 5 variante de raspuns sansa de a raspunde corect este 1/5 adica 0,20.
In acest caz, indicele de dificultate optim se va obtine astfel:
Indicele de discriminare al unui item (d) constituie o masura a cat de bine reuseste un item sa
separe sau sa discrimineze subiectii care au obtinut scoruri mari si cei care au obtinut coruri mici la test. Mai
precis, un item este considerat discriminativ daca subiectii care au obtinut o performanta buna la test au
rezolvat corect itemul, respectiv daca cei care au obtinut o performanta scazuta la test nu au rezolvat corect
itemul. Daca majoritatea subiectilor cu performanta mare la test nu au rezolvat corect un item atunci inseamna
ca itemul respectiv nu discrimineaza intre categorii diferite de subiecti. Similar, in cazul testelor de
personalitate subiectii care au un scor mare la o anumita trasatura (evaluata de intregul test) trebuie sa aiba un
scor mare si la un item care se presupune ca evalueaza trasatura respectiva.
Exemplu.
I S I S n d
Item Superior (S) Inferior (I) - = (S-I)/n
Pentru itemul 1 se poate observa ca 20 dintre subiectii care au obtinut performante superioare
la test au rezolvat corect itemul, in timp ce 16 dintre cei care au obtinut performante inferioare la test au
rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece
mai multi subiecti dintre cei care au obtinut o performanta buna la test, au raspuns corect la item. Se poate
observa ca cu cat este mai mare valoarea indicelui de discriminare cu atat itemul separa mai bine categoriile de
subiecti si este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare
este +1 (toti subiectii care au obtinut performanta superioare la test au rezolvat corect itemul); valoarea cea
mai mica pe careo poate avea un indice de discriminare al unui item este –1 (nici unul dintre subiectii care au
obtinut performante superioare la test nu au rezolvat corect itemul).
O modalitate de a afla noi informatii despre comportamentul itemilor este trasarea curbei
caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe
axa Y proportia persoanelor care au raspuns corect la item.
Figura
2.5. Curba caracteristica
a itemului
Scorul
total reprezinta nivelul
de abilitate al persoanei
evaluate, acest nivel nu
poate fi masurat, doar
estimat pe baza acestui
scor. Relatia dintre
performanta la unul
dintre itemi si cea obtinuta la aplicarea intregului test ne ofera informatii legate de item.
Astfel figura de mai sus reprezinta curba caracteristica a unui item relativ bun, observam cum
curba creste pe masura ce creste si scorul total la test, aceasta inseamna ca itemul discrimineaza bine in cazul
tuturor nivelelor de performanta.
Sa luam spre exemplu o persoana care are un scor mai mic de 20 puncte, conform curbei
(Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.
Figura
2.6. Curba caracteristica
a itemului
In cazul
in care scorul este mai
mare, de 40 respectiv 65
de puncte,
probabilitatea de a
raspunde corect este de
50 respectiv 100%.
In figura 2.7 dorim sa prezentam itemi care prezinta un patern comportamental diferit de cel
prezentat anterior. Va rugam sa analizati curba trasata cu linie intrerupta.
Spre deosebire de acesta, itemul trasat cu linie neintrerupta este rezolvat numai de persoanele
care au un scor brut de cel putin 25 de puncte, probabilitatea de a-l rezolva corect creste apoi treptat impreuna
cu nivelul de abilitate. Acest item este de dificultate medie, este putin probabil ca el sa fie rezolvat corect de
persoanele cu scor mai mic de 25.
2. Analiza de itemi din perspectiva teoriei raspunsului la item (item response theory - IRT)
Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure
trasaturi latente sau multidimensionale, in cazul testelor care evalueaza mai multe dimensiuni. De asemenea in
functie de raspunsul la item dihotomic sau cu mai mute optiuni avem mai multe tipuri de modele. In continuare
vom discuta despre modele unidimensionale dihotomice. In cazul modelelor IRT unidimensionale diferentele
dintre persoanele care alcatuiesc esantionul pot fi explicate numai pe baza unei singure dimensiuni.
Curba caracteristica itemului (item characteristic curve - ICC) trebuie sa aiba o forma specifica
(acesta descrie modul in care modificarile la nivelul abilitatii induc modificari la nivelul probabilitatii de aparitie
a raspunsului corect);
Eroarea nu covariaza cu alte variabile (aceste asumptii sunt importante pentru interpretarea
erorii standard de masurare).
sunt mentionate doua variabile independente de care depinde scorul obtinut de o persoana, si
anume scorul real si eroarea de masurare, dar acestea nu pot fi separate in mod real in cadrului scorului
obtinut de catre o persoana, astfel modelul este util in cadrul realizarii unor estimari la nivel de populatie;
Din acest model sunt omise proprietatile itemului care si ele au un impact asupra scorului
persoanei (daca de exemplu toti itemii sunt usori, atunci majoritatea persoanelor vor ave un scor maxim);
Modelele IRT explica performanta la test considerand doi sau mai multi parametrii: nivelul de
abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea
de a ghici raspunsul corect, iata notatiile utilizate.
Daca analizam acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat
nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un raspuns corect la itemii a caror
curba este trasata), observam cum curbele caracteristice itemilor au acelasi unghi de inclinare, ceea ce difera
este locatia lor de-a lungul nivelului de abilitate, practic aceasta locatie este un indicator al dificultatii itemului.
De exemplu itemul trasat cu linie intrerupta (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de
0 in proportie de aproximativ 55%, in timp ce aceleasi persoane rezolva itemul trasat cu linia punctata in
proportie de 20%, deci acesta din urma este mai dificil decat primul.
In cazul acestui model, parametrul de discriminare este mentinut constant (egal cu 1).
p(Xis=1
) = 1/(1 + e (- i i
Figura
2.9. Curba
caracteristica a 3 itemi
Discriminarea este reprezentata grafic prin gradul de inclinare a curbelor care descriu
comportamentul itemului. Un item cu o curba abrupta discrimineaza mai bine comparativ cu un item cu o
curba mai domoala. Acest lucru inseamna ca o modificare mica la nivelul abilitatii persoanelor testate va duce
la o modificare mare a probabilitatii de a raspunde corect la item. Curba trasata cu linie neintrerupta reprezinta
un item care are o discriminare perfecta, deoarece nici o persoana cu un nivel de abilitate mai mic de 0.25 nu
va avea sansa de a rezolva acest item, in schimb persoanele cu o abilitate mai mare il vor rezolva.
Probabilitatea de ghici raspunsul corect este vizibila in punctul in care curba caracteristica
itemului intersecteaza axa Y. Aceasta inseamna ca si persoanele care au un nivel de abilitate scazut vor rezolva
corect itemul, ghicind raspunsul corect (Figura 2.10).Utilizarea unui model 3PL devine necesara mai ales in
situatia in care probabilitatea de a ghici raspunsul corect este mare, de exemplu in cazul unui item cu 2
posibilitati de raspuns acesta este de 1 din 2, spre deosebire de cea cu 6 optiuni, in care probabilitatea de a
ghici raspunsul corect este semnificativ mai mica, 1 din 6.
VALIDITATEA DE CONSTRUCT
Pentru a putea fi utilizat si evaluat, un concept trebuie corect si precis operationalizat. Aceasta
operationalizare impune descrierea constructului in termeni comportamentali concreti. Murphy & Davidshofer
(1991) identifica urmatorii pasi in operationalizarea unui construct:
alcatuirea pentru fiecare construct a unei liste de comportamente prin care acestea se
exprima. Pentru fiecare comportament, pe baza relatiilor dintre constructe se decide
daca are sau nu legatura cu constructul masurat de test.
Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trasaturi multiple-metode multiple”
Trasaturi A B C A B C A B C
1 1 1 2 2 2 3 3 3
A
1
M B
metoda 1 1
C
1
A
2
M B
metoda 2 2
C
2
A
3
M B
metoda 3 3
C
3
Tabelul de mai sus prezinta toate corelatiile posibile intre scorurile obtinute cand sunt evaluate
trei trasaturi (A, B, C) prin trei metode / teste. Cele trei trasaturi reprezinta trasaturi de personalitate cum ar fi:
(A) dominanta, (B) sociabilitatea, (C) motivatia de realizare. Cele trei metode prin care se evalueaza aceste
caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A 1 indica scorurile
la dominanta evaluate pe baza unui chestionar, A 2 indica scorurile la dominanta evaluate pe baza unui test
proiectiv, iar C3 indica scorurile pentru motivatia de realizare evaluata printr-o scala de comportament. Tabelul
include pe de o parte corelatiile intre trasaturi diferite evaluate pe baza aceleiasi metode (chenar intreg)
precum si corelatiile intre trasaturi diferite prin metode diferite (chenar intrerupt). Pentru verificarea validitatii
convergente in cazul constructului (A) avem urmatorii coeficienti:
Validarea convergenta a unui test este necesara, dar nu si suficienta pentru a dovedi ca testul
masoara ceea ce si-a propus; etichetele atribuite testelor reprezinta trasaturile sau caracteristicile pe care
testele ar trebui sa le masoare. Corelatia mare intre doua teste inseamna ca testele masoara acelasi lucru, insa
nu se poate spune ca itemii cuprinsi in teste sunt reprezentativi pentru constructul pe care testele
intentioneaza sa il masoare. Analiza factoriala sau analiza de clusteri efectuata asupra itemilor din testele care
evalueaza aceleasi constructe poate ajuta la explicarea corelatiilor dintre scorurile testelor (Albu, 1999).
ANALIZA FACTORIALA
Una dintre metodele utilizate in validara de construct este analiza factoriala. Analiza factoriala
este definita ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza
uneui set de masuraori empirice”. Cel mai adesea este utilizata pentru:
Concepte generale
Atributele interne pot fi gandite ca si constructe ipotetice. Ele nu sunt cu necesitate reale sau
concrete. Acestea sunt mai degraba constructe care asa cum vom vedea pot fi utilizate pentru a intelege si a
explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie vazute ca o critica a abordarii
factoriale. Utilizarea constructelor ipotetice constituie o practica obisnuita in multe domenii ale stiintei. De
exemplu, fizicienii utilizeaza o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene.
Aceste forte reprezinta de fapt constructe neobservabile, a caror existenta a fost inferata pe baza fenomenelor
observabile. Aceste constructe, impreuna cu teoriile care le insotesc pot explica o serie de fenomene
observabile. Intr-o maniera asemanatoare, analiza factoriala postuleaza ca exista atribute interne
neobservabile care pot explica variatia si covariatia dintre o serie de atribute de suprafata, adica acele atribute
care pot fi masurate si observate direct.
Un concept teoretic central al analizei factoriale il constituie deci relatia dintre atributele
interne si cele de suprafata. Principiul de baza este acela ca atributele interne influenteaza sistematic atributele
de suprafata. Acest fapt implica ideea ca atunci cand avem o masura a unui atribut de suprafata, aceasta
masura este, cel putin in parte, rezultatul influentei atributelor interne. De exemplu, scorul obtinut de o
persoana la un test de adunare (atribut de suprafata) este influentat de aptitudinea numerica (atribut intern).
Traditional, aceste relatii dintre atributele de suprafata si cele interne sunt considerate a fi lineare.
In continuare este util sa distingem intre 2 tipuri de atribute interne sau factori: factori comuni
si factori specifici. Factorul comun este definit ca un atribut intern care afecteaza /influenteaza mai mult de o
variabila de suprafata. De exemplu, daca factorul aptitudine numerica influenteaza mai mult decat o variabila
de suprafata (sa presupunem ca influenteaza atat adunarea cat si inmultirea) atunci acesta factor este un factor
comun. Factorii specifici influenteaza doar o singura variabila de suprafata; astfel poate exista un numar de
factori specifici pentru fiecare variabila de suprafata. Prin schimbarea variabilelor de suprafata factorul comun
se poate transforma in factor specific daca se inlatura toate variabilele de suprafata care il alcatuiesc, mai putin
una; sau dimpotriva, daca largim bateria, un factor specific se poate transforma intr-un factor comun daca el
influenteaza mai multe variabile de suprafata.
In afara celor 2 variabile interne (factorii comuni si specifici) care influenteaza variabilele de
suprafata, exista o a treia influenta asupra acestora. Aceasta a treia influenta o constituie erorile de masura
asociate observarii atributelor de suprafata. Aceste erori sunt reprezentate in analiza factoriala ca factori
aditionali, desi ele nu fac parte din cadrul atributelor interne; adica nu reprezinta caracteristici neobservate ale
indivizilor. Mai degraba erorile de masura apar ca rezultat al influentelor datorate masuratorii atributelor de
suprafata. Se poate observa relatia directa intre factorii de suprafata si erorile de masura; astfel, cu cat
fidelitatea masuratorilor este mai mare cu atat erorile sunt mai mici. Deci, utilizarea unor teste mai putin fidele
va influenta erorile de masura, dar nu in mod necesar factorii comuni sau specifici. De asemenea, adaugarea
sau inlaturarea unor variabile de suprafata va influenta factorii comuni sau specifici, insa nu va influenta erorile
de masura.
Factorii specifici si erorile de masura caracteristice unui set de observatii se pot combina
rezultand factori unici. Un factor unic este alcatuit dintr-un factor specific caracteristic unei singure variabile de
suprafata precum si din eroarea de masura asociata variabilei de suprafata respective. Factorul unic se va
modifica la orice modificare a factorului specific sau a erorii de masura.
Pornind de la aceste definitii ale factorilor, tinand cont de faptul ca factorii influenteaza
atributele de suprafata se poate intelege ca factorii se combina pentru a putea explica un anumit nivel al
trasaturilor de suprafata. Mai precis, orice nivel al atributelor de suprafata poate fi vazut ca o rezultanta a
factorilor relevanti. De exemplu, scorul unei persoane la un test de adunare poate fi vazut ca o rezultanta a
factorului comun aptitudine numerica si a factorului specific asociat adunarii. De asemenea, eroarea de masura
contribuie la scorul obtinut la testul de adunare. Generalizand putem spune ca diferentele individuale sau
varianta atributelor de suprafata poate fi atribuita factorilor adiacenti acestor atribute. Astfel diferentele la
nivelul atributelor de suprafata sunt datorate diferentelor la nivelul factorilor ce influenteaza aceste atribute si
de asemenea diferentele sunt datorate si erorilor de masura.
Distinctia realizata anterior intre factorii comuni, specifici si eroarea de masura ne ajuta sa
intelegem modul in care factorii explica varianta atributelor de suprafata. Este important de retinut faptul ca
varianta observata la nivelul atributelor de suprafata poate rezulta din trei surse. O parte din varianta este
datorata influentei factorilor comuni – aceasta poarta numele de varianta comuna sau comunalitate. O alta
parte din varianta atributelor de suprafata poate fi datorata factorului specific – aceasta varianta este
denumita varianta specifica sau specificitate. Cea de-a treia sursa de varianta este datorata erorilor de masura
– si este denumita varianta erorii de masura. Varianta specifica este adesea combinata cu varianta erorii de
masura si formeaza varianta unica sau unicitatea. Altfel spus, varianta observata la nivelul unui atribut de
suprafata este datorata in parte factorilor care influenteaza si alte atribute de suprafata si in parte factorilor
care influenteaza doar atributul respectiv.
Printr-o extensie a conceptelor putem spune ca analiza factoriala tine cont si de covarianta
dintre variabilele de suprafata. Adesea se poate observa ca variabilele de suprafata dintr-un domeniu specific
tind sa coreleze intr-o anumita masura una cu cealalta. Potrivit analizei factoriale aceasta corelatie este
datorata influentei factorilor comuni. Deci, o corelatie intre doua variabile de suprafata este datorata
dependentei celor doua variabile de unul sau mai multi factori comuni. De exemplu scorul la un test de
adunare va tinde sa coreleze pozitiv cu scorul la un test de inmultire deoarece ambele variabile depind de
acelasi factor comun – aptitudinea numerica. Din contra insa, rezultatul la testul de adunare va corela mai putin
cu rezultatul la un test de citire deoarece cele doua variabile de suprafata sunt influentate de factori comuni
diferiti. Putem spune ca nivelul de intercorelatie dintre atributele de suprafata este rezultatul dependentei
acestor atribute de aceiasi factori comuni.
Este extrem de important a se retine faptul ca doar factorii comuni pot explica corelatia
variabilelor de suprafata; factorii unici nu determina astfel de corelatii. La fel, factorii specifici sau erorile de
masura nu pot determina corelatii intre atributele de suprafata deoarece prin definitie ei influenteaza doar o
singura variabila de suprafata.
Pentru a sumariza aceste principii putem spune ca intr-un anumit domeniu exista un numar
mic de factori comuni care influenteaza un vast numar de atribute de suprafata. Variatia factorilor de suprafata
este datorata in parte variatiei factorilor comuni. Ceea ce ramane se datoreaza factorilor unici sau factorilor
specifici si erorilor de masura. Covarianta variabilelor de suprafata este atribuita dependentei acestora de
aceiasi factori comuni.
Este important de retinut faptul ca teoria factoriala este o teorie care explica dinamica si
influentele care determina variatia si covariatia atributelor de suprafata.
Screeningul variabilelor
Sumarizarea datelor
O alta aplicatie a analizei factoriale se refera la flexibilitatea de a extrage cati factori se doreste
dintr-un set initial de variabile. Primii factori extrasi dintr-un set de variabile explica cea mai mare parte din
varianta acestora; cu fiecare extragere ulterioara se obtine tot mai putin.
Selectia variabilelor
AF ne permite extragerea factorilor diferiti dintr-un set de variabile. De exemplu daca se pune
problema selectie caracteristicilor definitorii ale unui automobil in vederea constructiei unei reclame ne
intereseaza sa pastram un numar de variabile rezonabil pentru a putea construi reclama. Este important insa ca
acest variabile selectate sa nu se refere la acelasi factor, ele trebuind sa nu coreleze intre ele.
Luand in considerare aspectele prezentate privind validitatea unui test psihologic, se poate
spune ca trebuie sa avem intotdeauna in vedere functia si scopul pe care le va avea testul pentru a putea
aprecia corect tipurile de validitate. Exemplul (tabelul 7) urmator ilustreaza modul in care putem privi
validitatea unui test de cunostinte la matematica (Anastasi, 1976):
EXERCITII
Mai jos sunt prezentate descrierile catorva studii de validare. Cititi fiecare descriere si
identificati orice probleme potentiale care ar putea afecta rezultatele.
Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o
anumita corporatie si cere supraveghetorilor sa noteze muncitorii prezenti pe o scala cu urmatoarele categorii :
„peste medie”, „mediu”, „sub medie”. Dupa aceasta psihologul testeaza muncitorii din categoria „peste medie”
si „sub medie” si compara mediile celor doua grupuri. In urma analizei psihologul gaseste o diferenta
semnificativa in favoarea grupului „peste medie”.
Pentru fiecare din urmatoarele situatii indicati ce tip de studiu de validare ar fi cel mai potrivit.
Un test de aptitudini non-verbale este dezvoltat pentru copiii prescolari cu deficit de auz. Se
intentioneaza ca testul sa fie o masura de screening pentru identificarea copiilor care ar putea avea dificultati
in invatarea cititului (incadrati intr-o clasa cu copii normali).