Sunteți pe pagina 1din 35

PRINCIPALELE CALITATI ALE TESTELOR PSIHOLOGICE, dupa G.

Lienert (1967), sunt:

a) standardizarea (include si etalonarea);


b) obiectivitatea;
c) fidelitatea;
d) validitatea 
e) sensibilitatea.

Printre cele secundare, se numara: a) comparabilitatea; b) economicitatea si  c) aplicabilitatea (în relatie
directa cu sensibilitatea).

A) STANDARDIZAREA
Prin standardizare se urmareste uniformizarea conditiilor de evaluare a subiectilor testati. Altfel spus, sunt
create conditii identice de testare atât sub aspectul continutului si formei itemilor testului, cât si sub cel al
aplicarii (administrarii) si evaluarii rezultatelor. Deci, când apreciem gradul de standardizare unui test va trebui
sa luam în consideratie 4 aspecte:

- continutul si forma de prezentare si numarul itemilor componenti ai testului (aceleasi sarcini pentru
toti subiectii);
- instructiunile date subiectilor în legatura cu tehnicile de aplicare a testului si sarcinile de executat
(conditii identice de administrare pentru ca subiectii sa se adapteze la sarcini);
- sistemul de cotare a raspunsurilor subiectilor si
- modul de interpretare a cotelor obtinute (adica, asigurarea unui grad satisfacator de obiectivitate a
evaluarii).

De cele mai multe ori, rezultatele sunt exprimate prin valori numerice - ceea ce trebuie sa asigure o cât mai
mica interventie a subiectivitatii evaluatorului. Acest fapt poate fi probat prin existenta acordului
interevaluatori.

Interpretarea (mai ales cantitativa) a rezultatelor unui subiect; aprecierea acestora se face prin raportarea
raspunsurilor individuale (note brute) la un etalon care exprima rezultatele (valorile) medii obtinute la un test
psihologic de catre populatia din care provine subiectul (sau grupul reprezentativ de apartenenta). Etalonul
(normele) ofera un cadru de referinta (clar si uniform definit) pentru analiza cantitativa a comportamentelor,
randamentului si a altor caracteristici testate. Transformarea cotelor (notelor) brute în cote (note) standard -
exprimate, de regula, în valori cantitative - permite determinarea pozitiei relative a persoanei testate în cadrul
grupului de referinta (adica compararea si ierarhizarea interindividuala a mai multor subiecti), precum si
compararea directa a rezultatelor obtinute de aceeasi persoana la mai multe teste (sau scale diferite ale
aceluiasi test) (compararea si ierarhizarea intraindividuala) (A. Anastasi, 1976). De asemenea, este posibila
compararea rezultatului actual al unui subiect la un test cu cel obtinut înainte la acelasi test. Etalonarea este
uneori tratata ca o calitate separata a testelor psihologice.

B) OBIECTIVITATEA

Aceasta caracteristica exprima gradul de independenta a rezultatelor unui subiect la un test în raport cu
persoana examinatorului. J. L. Cronbach (1970) arata ca la un test foarte obiectiv oricare dintre subiectii examinati de
catre diferiti psihologi poate obtine, cel putin teoretic, rezultate identice.

Obiectivitatea unui test depinde atât de respectarea conditiilor de administrare a acestuia, cât si a celor legate
de cotarea si interpretarea rezultaelor. Nici conduita ,,rigida" (uniformizarea excesiva a conditiilor de aplicare), dar nici
cea ,,versatila" a examinatorului în timpul aplicarii testului nu sunt de dorit, deoarece pot afecta obiectivitatea acestuia.
Conduita versatila se refera la introducerea unor variatii nedorite în situatia de testare standardizata, însa aceeasi
atitudine a examinatorului poate fi interpretata diferit de subiecti.

C) SENSIBILITATEA

Aceasta caracteristica (denumita astfel de R. Lafon, 1963) mai este cunoscuta si sub denumirea de putere de
discriminare (H. Piéron). Este vorba despre capacitatea unui test de a permite distinctia fina între persoanele
examinate în ceea ce priveste caracteristica masurata (de pilda, o aptitudine anume sau o trasatura de personalitate).

P. Kline (1993) arata ca un test sensibil (discriminativ) va produce scoruri diferite pentru subiectii care se
deosebesc între ei în privinta caracteristicii masurate. H. Piéron (1952) considera ca puterea de discriminare a unui test
este data de numarul de clase (valori) pe care le poate evidentia în cadrul unui grup . Cu cât numarul valorilor
(scorurilor) obtinute de subiectii unui lot este mai mare cu atât testul diferentiaza mai bine între
indivizi. Ausubel si Robinson (1981) constata dependenta dintre sensibilitatea unui test si forma repartitiei scorurilor
acestuia într-un lot (curba rezultatelor).

a) ideal (dar nefiresc) ar fi sa avem o repartitie uniforma a scorurilor (frecventele sunt acelasi pentru toate
scorurile); astfel, s-ar putea asigura o discriminare la fel de buna de-a lungul întregii scale de masura (de obicei,
ordinala);
b) normal (si firesc) ar fi sa întâlnim o repartitie a scorurilor (rezultatelor) apropiata de curba
normala descrisa de Gauss-Laplace; astfel, se va asigura o maxima discriminare la ambele
capete ale scalei (domeniului de variatie) a scorurilor (unde sunt distribuite putine scoruri - în
curba normala, 2.14 % între ± 2δ si ± 3δ) si o discriminare mai slaba la mijlocul scalei sau
domeniului de variatie (unde se aglomereaza majoritatea simpla a rezultatelor - în curba
normala, aproximativ 68.26 % între - 1 δ si + 1 δ).

c) asimetria - caracteristica foarte multor distributii de scoruri la teste psihologice se


caracterizeaza printr-un numar disproportionat de mare de scoruri aglomerat la unul din cele
doua capete ale scalei sau domeniului de variatie; indiferent de asimetrie (pozitiva sau
negativa), discriminarea este bine asigurata la unul din capetele distributiei unde vom întâlni
putine scoruri. Pentru testele de eficienta (de pilda, aptitudini cognitive), discriminarea sau
sensibilitatea poate fi estimata prin clacultarea indicelui de dificultate atât pentru fiecare item în
parte, cât si pentru ansamblul itemilor testului. Vom aborda acest lucru atunci când vom vorbi
despre metoda constructiei testelor bazata pe analiza de itemi.

Utilitatea determinarii sensibilitatii. Sensibilitatea unui test nu ofera indicatii asupra masurii în care acesta
este adecvat sau nu unui lot de persoane. Când se analizeaza sensibilitatea sau puterea discriminativa, se iau de obicei
în consideratie forma curbei de distributie a scorurilor (frecventei acestora), precum si indicatorii statistici primari
(media, abaterea standard, dispersia etc.) pentru scorurile obtinute la test de lotul respectiv de subiecti sau de un
esantion reprezentativ pentru populatia careia îi este destinat testul.

D) ECONOMICITATEA (EFICIENŢA)

Aceasta caracteristica depinde de durata de aplicare a unui test (un test prea lung este obositor si s-ar putea sa
fie abandonat de subiectii plictisiti), de costul materialelor necesare aplicarii sale (caiete cu itemi, foi de raspuns, grile
de corectie etc.), de usurinta administrarii, aplicabilitatea colectiva, rapiditatea cotarii si usurinta interpretarii
rezultatelor (G. Lienert, 1967).

E) APLICABILITATEA

Aceasta caracteristica depinde în primul rând de principalele calitati psihometrice ale testului (validitate,
fidelitate, standardizare, discriminare), dar si de o serie de factori conjuncturali (de pilda, un psiholog trebuie sa aleaga
dintre testele pe care le are pe cele mai relevante pentru anumite caracteristici de masurat; de asemenea se întâlneste
frecvent situatia în care psihologul trebuie sa decida ce anume trebuie masurat tinând cont de testele pe care le are la
dispozitie).
Uneori, sub presiunea cerintelor practice, firmele implantate în România utilizeaza teste neadaptate la
populatia româneasca. La fel se întâmpla cu unii psihologi care se rezuma la a traduce si etalona un test, fara însa a face
studii cu privire la validitatea acestuia (de pilda, validitatea de aspect sau acceptabilitatea testului pentru subiecti,
validitatea de continut, validitatea predictiva, fidelitatea test-retest, puterea de discriminare a itemilor etc.). Ambele
atitudini sunt contraindicate, daca dorim (sau avem pretentia) ca, pe baza unor astfel de teste, sa diagnosticam si sa
facem predictii cu privire la aptitudini, comportamente sau trasaturi de personalitate. Managerul sau directorul de
personal dintr-o firma nu va putea selecta pe baza testelor incorect utilizate pe cei mai buni candidati pentru un post
(adica, pe aceia la care poate previziona un maximum de randament pe postul în cauza). La rândul sau, psihologul risca
sa ,,califice" gresit (neconform cu realitatea) indivizi în functie de nivelul trasaturii masurate, ceea ce de multe ori poate
duce la discriminare sau, în orice caz, la afectarea imaginii de sine a persoanelor testate.

1. FIDELITATEA TESTELOR

Fidelitatea unui test psihologic se refera la doua aspecte:

- consistenta interna;
- stabilitatea in timp a rezultatelor testarii.

Analiza fidelitatii unui test porneste de la conceptul de eroare. Orice scor la un test psihologic
este rezultatul scorului real si al unei erori de masura:

Xobservat = Xreal + e (e = eroarea de masura)

Fidelitatea reprezinta absenta relativa dintr-o proba psihologica a erorilor de masurare. Acest
lucru insa in psihologie nu poate fi intalnit; de aceea orice test psihologic trebuie sa estimeze valoarea acestor
erori aleatoare de masura. Calculul fidelitatii indica masura in care scorurile obtinute la test exprima de fapt
valorile reale ale constructului pe care testul il masoara.

Fidelitatea unui test poate fi calculata pe baza a patru metode:

metoda consistentei interne coeficienti de consistenta interna;

test retest coeficienti de stabilitate;

metoda formelor paralele coeficienti de echivalenta;

metoda fidelitatii interevaluatori coeficienti interevaluatori.

a. CONSISTENTA INTERNA

Consistenta interna a unui test se refera la masura in care toti itemii testului masoara aceeasi
variabila. Calculul coeficientului de consistenta interna va consta in analiza corelatiei ce exista intre fiecare
item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculati urmatorii
coeficienti:
 Cronbach pentru testele cu orice tip de itemi;

 Guttman;

 si  Kuder Richardson (daca itemii testului sunt binari).

Toti coeficientii prezentati se bazeaza pe un calcul de corelatie intre itemii ce alcatuiesc testul.
Un coeficient de consistenta ridicat exprima faptul ca toti itemii testului se refera la aceeasi variabila. In afara
coeficientilor prezentati anterior, consistenta interna a unui test poate fi calculata si pe baza metodei
injumatatirii. Pe baza acestei metode testul este impartit in jumatate, calculandu-se coeficientul de corelatie
dintre cele doua parti. Daca acest coeficient este ridicat el ne indica o buna fidelitate (consistenta interna) a
testului. O forma particulara a metodei injumatatirii o constituie metoda item cu item, in care testul este
impartit in doua prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnica este utila mai ales in
cazul testelor in care itemii sunt prezentati in ordinea crescanda a dificultatii. Se calculeaza si acest caz
coeficientul de consistenta interna intre cele doua parti ale testului, valoarea lui reprezentand valoarea
coeficientului de fidelitate.

b. STABILITATEA

Stabilitatea rezultatelor testarii ne indica in ce masura la aplicari diferite in timp un subiect


obtine rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizeaza astfel:

se administreaza testul la un grup de persoane;

dupa un interval de timp se readministreaza testul;

se calculeaza un coeficient de corelatie intre rezultatele la cele doua administrari.

O valoare mare a acestui coeficient indica o buna stabilitate in timp a rezultatelor. Se poate
spune despre acel instrument ca este fidel deoarece releva aceleasi valori ale unei variabile la masuratori
diferite in timp.

Factori care influenteaza calculul fidelitatii test-retest (stabilitatii):

Intervalul de timp intre test si retest. Daca timpul este prea scurt exista o mare probabilitate ca
subiectii sa isi reaminteasca raspunsurile date anterior; respectiv un timp prea lung intre test si retest poate
determina maturizarea esantionului de subiecti. Astfel daca aplicam un test de perceptie la 4 ani si il reaplicam
la un interval de 6 luni exista o mare probabilitate sa obtinem rezultate diferite la cele doua administrari ale
testului deoarece in intervalul de 6 luni subiectii s-au maturizat. In acest caz retestul va include in evaluare
nivelul de maturizare al subiectilor. Datorita acestor argumente este destul de dificil de stabilit cu exactitate un
timp optim intre test si retest.

Intotdeauna cand se calculeaza acest coeficient trebuie precizat intervalul scurs intre test si
retest, varsta subiectilor precum si conditiile in care s-au administrat testele pentru a putea identifica
eventualele surse de eroare de masura.
Gradul de dificultate al itemilor. Daca itemii sunt fie prea usori fie prea dificili se vor obtine
coeficienti de stabilitate ridicati deoarece itemii testului fie vor fi rezolvati de majoritatea subiectilor (in primul
caz) fie nu vor fi rezolvati nici la test nici la retest (al doilea caz).

Schimbari ale subiectului determinate de prima aplicare. Pot exista o serie de situatii in care se
obtin performante diferite la retest deoarece subiectul fie a invatat sa raspunda la itemi dupa prima
administrare, fie aceasta prima administrare a determinat schimbari de atitudini fata de o anumita problema.

c. METODA FORMELOR PARALELE

Exista o serie de situatii practice care necesita aplicari repetate a unui test psihologic la un
interval foarte scurt de timp. In acest caz aplicarea aceluiasi test este improprie deoarece s-a vazut anterior ca
la un interval scurt de timp subiectii pot sa isi reaminteasca raspunsurile date anterior. In acest caz trebuie sa
se construiasca forme echivalente sau paralele ale unui test. Doua teste sunt paralele daca pentru un subiect
erorile de masura la cele doua administrari sunt variabile aleatoare independente. In acest caz itemii celor
doua teste trebuie sa fie logic izomorfi, adica sa aiba acelasi nivel de dificultate.

Avantajul acestei metode este acela ca nu mai permite reamintirea raspunsurilor si nici
posibilitatea cautarii raspunsurilor la intrebarile la care nu s-a stiut raspunde.

subiectii se pot plictisi daca testarile sunt prea lungi;

este greu de realizat fiind dificila si costisitoare.

d. FIDELITATEA INTEREVALUATORI

Este necesar a fi calculata in cazul testelor care nu au o cotare obiectiva asa cum sunt testele
proiective de personalitate la care scorul este influentat si de interpretarea pe care o da persoana care face
cotarea. Pentru a verifica in ce masura scorul la test este influentat de modalitatea in care se face cotarea de
diferite persoane se va cere la diferiti evaluatori sa calculeze scorurile la test, iar apoi se va realiza un coeficient
de corelatie interevaluatori. Acest coeficient va exprima masura in care testul este independent de erori
datorate modalitatii de cotare a raspunsurilor subiectului.

Coeficientii de fidelitate transformati in coeficienti de determinare (patratul coeficientului de


fidelitate) releva proportia in care varianta totala a rezultatelor psihometrice se datoreaza variantei “reale” –
diferentelor individuale reale – sau din contra, variantei “eroare”, definita diferit, in functie de metoda
particulara urmata in stabilirea tipului de fidelitate (Kulcsar, 1980). In consecinta, desi semnificatia diferitilor
coeficienti de fidelitate nu este aceeasi, totusi orice coeficient de fidelitate, ridicat la patrat, poate fi interpretat
in termeni de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80
inseamna ca .802=64% din varianta totala a rezultatelor psihometrice considerate se datoreaza variantei reale a
domeniului explorat, iar 36% variantei eroare, generata de unele din sursele multiple ale deosebirilor in
rezultatele psihometrice.

Trebuie mentionat faptul ca desi fidelitatea unui test este importanta, ea nu este suficienta
pentru un test bun. Un test poate avea o buna consistenta interna (toti itemii evalueaza aceeasi variabila )
respectiv o buna stabilitate in timp, dar sa masoare altceva decat isi propune. Problema evaluarii corecte a
ceea ce isi propune sa masoare un test este constituie subiectul validitatii testelor.
Interpretarea unui coeficient de fidelitate (FORMULE)

Murphy & Davidshopher (1998) prezinta urmatoarele repere in interpretarea coeficientilor de


fidelitate (tabelul 1):

Tabelul 2.1. Semnificatia coeficientilor de fidelitate

Asa cum am precizat anterior orice rezultat (scorul observat) pe care o persoana il obtine la un
test este alcatuit din aptitudinea reala (scor real) careia i se adauga eroarea de masura. Adica:

Xobservat = Xreal + e (e = eroarea de masura)

Intrebarea pe care este necesar sa o analizam in acest caz ar fi urmatoarea: care este intervalul
in care se gaseste scorul real. Altfel spus, dat fiind faptul ca o persoana obtine un anumit scor la un test, ne
intereseaza care este intervalul in care putem spune ca se gaseste scorul real la test. Acest interval este
denumit interval de incredere si este definit ca probabilitatea ca scorul real al persoanei la un test sa se
gaseasca intre anumite limite

Calculul intervalului de incredere (IC).

Intervalul de incredere se obtine astfel:

IC = Xobservat + z*SEm SEm= eroarea standard de masura

SEm = SD*  SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate


Sa luam un exemplu.

Presupunem ca la un test de inteligenta o persoana a obtinut un scor de 115. Coeficientul de


fidelitate alpha este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflam intervalul in care
se gaseste scorul real al persoanei la test?

Calculam eroarea standard de masura

SEm = SD* 

SEm = 15* 

SEm = 15* 

SEm = 2.12

Calculam intervalul de incredere IC = X observat + z*SEm IC = 115 + z*2.12

Alegerea scorului z care va intra in calcul se face in functie de precizia cu care dorim sa lucram.
Daca alegem sa lucram cu o probabilitate de 95% scorul z corespunzator este de 1.96 . Pentru o probabilitate
de 90% scorul z corespunzator este de 1.65. In acest exemplu sa vom lucra cu o precizie de 95%, deci z=1.96.
Astfel vom avea:

IC = 115 + 1.96*2.12

IC= 115 + 4.15

In acest caz putem spune cu o probabilitate de 95% ca scorul real al persoanei se gaseste in
intervalul 110.85 – 119.15.

De retinut:

Intervalul de incredere depinde de coeficientul de fidelitate al testului; daca avem un


coeficienti de fidelitate mici, atunci intervalul se mareste, deci eroarea este mai mare. Intervalul de incredere
depinde de abaterea standard a scorurilor la test.

EXERCITII

Rezolvati urmatoarele probleme:

Testul A are abaterea standard 4, fidelitatea testului este 0.89

Testul B are abaterea standard 7, fidelitatea testului este 0.88

Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il
considerati mai bun?
Testul C are eroarea standard de masura 3,20 iar fidelitatea testului 0,76

Testul D are eroarea standard de masura 5,6 iar fidelitatea testului 0,62

Considerand ca toti ceilalti parametri ai celor 2 teste sunt egali, pe care dintre teste il
considerati mai bun?

Calculati eroarea standard de masura pentru un scor observat de 15 si utilizati valoarea


obtinuta pentru a determina intervalul de incredere al scorului real pentru 90 % respectiv 95%. Abaterea
standard a scorurilor la test este 8; Fidelitatea testului este 0,74. Calculati:

a.    Eroarea standard de masura:______________

b.    Intervalul de incredere la 90%__________ ______ ____ __

c.    Explicati semnificatia acestui interval.

d.    Intervalul de incredere la 95%__________ ______ ____ __

e.    Explicati semnificatia acestui interval.

2. VALIDITATEA TESTELOR

Definitia validitatii

Evaluarea psihologica vizeaza o anumita realitate fie interna, fie externa. Numim domeniu de
evaluare orice realitate (interna sau externa) care este supusa evaluarii. In orice proces de evaluare psihologica
pornim de la definirea domeniului de evaluare si apoi propunem o serie de modalitati cantitative prin care
observam daca indivizii poseda sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului
poate sa fie mai mult sau mai putin corecta ne punem intrebarea daca aptitudinile /caracteristicile masurate de
test corespund domeniului de evaluare. Astfel, pentru ca testul sa fie considerat o masura buna a domeniului
de evaluare este necesar sa obtinem o serie de informatii care sa reflecte faptul ca testul masoara ceea ce si-a
propus. Din aceste cerinte decurge problema validitatii unei masuratori.

Orice instrument de evaluare psihologica trebuie sa satisfaca cerintele validitatii. Traditional,


definitia cea mai des intalnita a validitatii este “modalitatea in care un test masoara ceea ce isi propune sa
masoare” (Anastasi, 1976). Validitatea se refera deci la relatia dintre scorul obtinut la un test si un anumit
criteriu sau o performanta externa. Acest criteriu poate sa apartina oricarui domeniu; poate include selectia de
personal, reusita scolara sau nosologia.

Istoric al studiilor despre validitate

Este cunoscut deja faptul ca masurarea psihologica si deci implicit si validarea isi au radacinile
demult in timp. Intr-un articol care viza rolul testelor in selectia de personal, Guion (1976) realizeaza o trecere
in revista a principalelor aspecte de care se tinea cont la vremea respectiva in analiza validitatii unei masuratori
psihologice. Acestea sunt prezentate in tabelul 2:

Tabelul 2.2. Referiri la validitate


Aspecte Observatii
Scopul validarii este acela de a prezice o “este…important a se cunoaste daca
performanta viitoare scorurile la un test sunt intr-o modalitate
mai mare sau mai mica predictive pentru
succesele ulterioare” (Bingham, 1937,
p.216)
Predictorii si criteriile trebuie sa fie selectati pe
baza analizei muncii.
Instrumentele de evaluare trebuie standardizate. “Pentru a putea compara performantele
unei persoane la un test la diferite
momente in timp, testul trebuie sa fie
uniform” (Freyd, 1923, p.232)
Testele trebuie validate empiric. “Un test nu are nici o semnificatie inainte
ca acesta sa fie validat” (Link, 1924)
Validarea este specifica unei situatii.
Un singur test nu este suficient. “Hull (1928) sustine ca pentru a putea
prezice cu mare acuratete un anumit
criteriu, trebuie utilizata o baterie alcatuita
din 4, 5 sau mai multe teste” (Guion, 1976,
p.783).
Este bine sa se utilizeze doar un singur criteriu. Freyd (1923) descrie procesele prin care
este selectat un “criteriu”
Metodele psihometrice sunt preferate metodelor “Evaluatorul nu se va limita la un
nepsihometrice. instrument anume de masura, dar cele pe
care trebuie sa le utilizeze cel mai des sunt
testele si chestionarele” (Freyd, 1923,
p.231)
Un test trebuie sa tina cont de diferentele “Performantele la un test trebuie
individuale. analizate - acolo unde este cazul - diferit in
functie de sexe” (Freyd, 1923).

Analiza facuta de Guion (1976) ne ofera o imagine globala a ceea ce insemna la inceputul sec.
xx modalitati traditionale de realizare a studiilor de validitate a unui instrument de evaluare psihologica.

O abordare mai recenta si poate mai corecta a validitatii este formulata de APA  , AERA ,
NCSEPT in 1974. Conform standardelor asociatiilor amintite “Validitatea se refera la corectitudinea inferentelor
realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de intrebari la care
dorim sa raspundem pe baza unei evaluari psihologice trebuie sa ne verificam cat de corecte (sau valide) sunt
raspunsurile (sau informatiile) oferite de un test psihologic (Ghiselli & all, 1986).

Validitatea trebuie atribuita intotdeauna inferentelor facute pe baza performantelor la un test. Validitatea nu
este o caracteristica a testului psihologic ci este mai degraba o caracteristica a inferentelor care rezulta in urma
utilizarii acestuia (unei forme de evaluare - chiar a observatiei). Altfel spus, validitatea determina relatia dintre
inferentele facute pe baza performantelor la un test si realitate (este inclus aici orice aspect care este supus
evaluarii). Daca analizam definitia data de Nunnally (1978) validitatii, si anume “cat de util stiintific” este un
instrument de masura observam ca si in acest caz este vorba de inferente, sau judecati realizate pe baza
instrumentului respectiv.

orme ale validitatii.

Literatura de specialitate indica diferite tipuri de validitate psihologica. Ele trebuie intelese ca fiind tehnici,
modalitati prin care se incearca optimizarea unui instrument de masura psihologica. Modalitatea cea mai des
intalnita in literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie
urmatoarea taxonomie:

validitate de criteriu

validitate de continut

validitate de construct

In afara celor trei tipuri de validitate, normele APA analizeaza validitatea de aspect.

Validitatea de aspect este definita ca “ceea ce un test pare sa masoare, mai degraba decat ceea ce masoara”
(APA, 1974). Exprima de fapt modul in care persoana evaluata percepe itemii testului; ea este importanta in
masura in care poate influenta raspunsurile persoanei examinate la test. Daca persoana examinata apreciaza ca
testul masoara ceea ce isi propune sa masoare de fapt, atunci putem spune ca testul are o validitate de aspect
ridicata. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important
pentru inferentele facute pe baza unui test.
a. VALIDITATEA DE CRITERIU

Nu de putine ori suntem confruntati cu intrebari ca: “In ce masura performanta la un test de inteligenta este
predictiva pentru reusita scolara?”, “In ce masura rezultatul la un test de aptitudini prezice performanta in
munca?”, “In ce masura performanta la un test de memorie constituie un bun predictor pentru declinul
cognitiv la varsta a treia?”. Aceste intrebari se adreseaza validitatii de criteriu. Adesea acest tip de validitate
este intalnit sub denumirea de validitate empirica (Lyman, 1998). Validitatea de criteriu indica deci masura in
care testul este un bun predictor pentru un esantion de comportamente viitoare. In acest caz performanta la
un test trebuie raportata la o alta performanta pe care o numim criteriu.

Criteriul este definit ca standardul la care este raportata performanta la un test. Astfel criteriul poate fi
“performanta unui pilot care conduce un Boeing 767”, “numarul de zile petrecut intr-un spital de psihiatrie”,
“notele obtinute de un elev la disciplinele umane”, “performanta la un alt test”. Asa cum se poate observa nu
exista reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de
comportamente, o perioada de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sange,
etc. Desi la o prima vedere se poate spune ca un criteriu poate constitui orice, acest lucru este adevarat doar
daca criteriul este relevant pentru domeniul de evaluare, daca este necontaminat, daca este valid si fidel

Un test psihologic este adecvat daca este relationat cu un criteriu si deci poate fi considerat un bun substitut al
criteriului. In general numim testul ca fiind predictor pentru criteriul respectiv.

Caracteristicile unui criteriu.

Criteriul reprezinta o masura directa si independenta a ceea ce testul doreste sa prezica. Astfel pentru un test
de aptitudini mecanice criteriul il poate constitui performanta in munca de mecanic; pentru un test de
cunostinte criteriul il pot constitui notele scolare.

Criteriul trebuie sa indeplineasca cateva conditii (Corsini, 1994):

sa fie relevant pentru activitatea sau caracteristica la care se refera; adica ordinea subiectilor la test sa coincida
cu ordinea performantei la criteriu;

sa fie fidel, adica sa fie congruent cu evaluari diferite ale performantelor la care se refera, evaluari realizate la
momente diferite.

sa fie practic, adica sa nu coste mult;

sa fie exprimat in aceleasi unitati pentru toate persoanele. Daca de exemplu, valorile variabilei criteriu sunt
dependente de varsta subiectilor atunci aceste valori trebuie transformate in cote standard (de exemplu: z sau
T);

Anastasi (1954) exemplifica cateva criterii utilizate in analizarea validitatii testelor care vizeaza constructe:

varsta – se foloseste ca si criteriu in cazul constructelor ce vizeaza procese care cunosc o maturizare (ex.
inteligenta, functiile perceptive, etc.). Nu este un criteriu bun pentru testele care vizeaza aspecte invariabile in
timp (ex. variabilele ce tin de temperament).
performantele scolare – sunt un criteriu bun pentru testele de cunostinte sau pentru testele care evalueaza
aptitudini scolare.

performantele la diverse programe de instruire speciala (muzica, sport, etc.) sunt criterii adecvate pentru
testele de aptitudini speciale.

rezultatele altor teste se utilizeaza adesea ca si criteriu in construirea de noi teste. Astfel Scala Metrica a
inteligentei construita de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite in scopul
evaluarii inteligentei;

grupele contrastante - pentru un test de inteligenta acestea ar fi constituite din copiii care
frecventeaza scoala de masa, respectiv copiii integrati in scoala ajutatoare.

Ca si scorurile la test, un criteriu trebuie sa fie fidel (Cohen, 1999).

Daca ar fi posibil intotdeauna sa obtinem direct scoruri la criteriu pentru un anumit individ nu
am mai avea nevoie de masura predictorului si de nici o aproximare a validitatii de criteriu. Din pacate insa nu
putem obtine imediat scorurile la un criteriu; ele pot fi obtinute doar la anumite intervale in timp sau pot fi
adesea extrem de costisitoare pentru a fi obtinute la cerere pentru orice individ.

Sa consideram un exemplu.

S-a pus nu de putine ori intrebarea ce inseamna o performanta buna intr-o anumita
organizatie. Performanta poate fi definita din mai multe puncte de vedere. Astfel, organizatia poate fi
interesata de cat de mult contribuie o persoana la cresterea profitului, iar pentru persoana respectiva
performanta poate insemna masura in care simte ca este apreciata. Avem in acest caz de-a face cu mai multe
dimensiuni ale unui criteriu. Aceste surse de informatii pot fi utilizate pentru a prezice fiecare dintre cele doua
surse ale criteriului iar validitatea acestora va fi determinata diferit. Daca un criteriu este adecvat este cel mai
adesea o judecata de valoare (Ghiselli et. all). Putem estima prin diferite modalitati fidelitatea unui criteriu
(stabilitatea acestuia in timp de ex.) insa formularea lui, respectiv continutul acestuia constituie cel mai adesea
un rationament sau o judecata a celui care realizeaza evaluarea.

In exemplul anterior criteriul apartine viitorului si in momentul evaluarii nu este disponibil, deci
avem nevoie de o serie de predictori pentru estimarea acestuia. Sa presupunem insa ca avem de-a face cu un
criteriu care poate fi estimat acum (adica in momentul evaluarii). Intrebarea pe care trebuie sa ne-o punem
este urmatoarea: “avem la dispozitie masuratori economice ale criteriului care pot fi folosite acum?”. Un
exemplu de astfel de criteriu este masura in care o serie de indivizi prezinta o forma sau alta de tulburare
psihica. O analiza completa a acestei dimensiuni ar dura cateva zile si ar fi neeconomica. Daca in plus sarcina
psihologului este acela de a analiza un numar mare de persoane din prisma acestor criterii ar trebui gasita o
alta modalitate decat cea clinica, completa. Problema cu care ne confruntam acum este aceea de a gasi o
modalitate economica (rapida in timp si necostisitoare) care ar putea substitui examinarea clinica completa
care constituie criteriul.

Exista de multe ori evenimente care s-au petrecut in trecut si care deci nu mai pot fi evaluate in
mod direct. Care este in acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De
exemplu, analiza de catre medic a unei electrocardiograme (predictor) poate fi utilizata ca modalitate de a
decide daca pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intra in aceasta
categorie este rolul pe care il are un judecator de a stabili daca un individ a comis o crima in trecut (criteriul) pe
baza prezentarii faptelor la proces (predictor).

Inainte de a prezenta diferitele tipuri de validitate de criteriu trebuie retinuta urmatoarea


afirmatie. O anumita variabila poate constitui un criteriu intr-o anumita situatie respectiv predictor in alta
situatie. Ceea ce este astazi criteriu poate sa nu mai fie maine.

APA (1974) diferentiaza intre doua tipuri de validitate de criteriu:

i. validitate predictiva.

ii. validitate concurenta

Validitatea predictiva

Termenul de predictie poate fi utilizat fie in sens larg cand se refera la predictia unui test
pentru orice situatie, sau in sens restrans cand se refera la predictie intr-un interval de timp. Validitatea
predictiva vizeaza cel de-al doilea sens

Validitatea predictiva este definita ca acuratetea cu care putem estima in ce masura o anumita
caracteristica sau aptitudine a unei persoane se va manifesta in viitor pe baza masurii in care persoana poseda
o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la
facultate ne poate intereseaza in ce masura aptitudinile de care dispune acum o persoana sunt predictive
pentru performanta academica. Pe baza notei la examenul de admitere (predictor) am putea face o predictie
asupra reusitei academice ulterioare (criteriu).

In practica clinica de exemplu, un test care ar reusi sa prezica tentativele viitoare de suicid ar
constitui un bun predictor pentru acest criteriu.

Ce este predictia?

Predictia este procesul de stabilire a unor expectatii despre viitor avand la baza date /
evenimente curente – de exemplu desprinderea unor date despre performanta viitoare in munca pornind de la
caracteristicile actuale ale unei persoane.

In literatura de specialitate, datele actuale se numesc „predictori”, in timp ce variabilele care


descriu performanta se numesc „criteriu”.

Principii ale predictiei.

Psihologia personalului, orientata pe selectie ofera 2 modele stiintifice ale predictiei:


„abordarea pe baza de trasaturi” si „abordarea pe baza generalizarii comportamentelor” (Wernimont &
Campbell, 1968).

Abordarea pe baza de trasaturi (figura 1) porneste de la asumptia ca exista un numar de relatii


bine precizate intre trasaturile unei persoane si activitatile pe care persoana le desfasoara, relatii exprimate in
forma legilor psihologice. Aceasta abordare are la baza principiul deductiv nomologic (principiul DN) din teoria
stiintei (Stegmuller, 1974). Cand pentru un grup de persoane o anumita lege psihologica stabileste ca exista o
legatura intre o caracteristica A a persoanei si un anumit tip de comportament E, putem realiza, pe baza acestei
legi, predictia ca o persoana care poseda caracteristica A va manifesta comportamentul E. Principiul nu poate fi
aplicat in aceasta forma simpla din mai multe motive. In primul rand, relatia dintre predictor si criteriu este mai
degraba una probabilistica si nu determinista. Astfel, cunoscand scorul unei persoane la o variabila predictor,
putem face doar o inferenta despre scorul la criteriu; aceasta inferenta se realizeaza cu o anumita probabilitate
si nu cu certitudine. In al doilea rand, trasaturile si caracteristicile comportamentale, nu pot fi masurate in mod
direct, ci ele sunt masurate pe baza unor instrumente care au caracteristici psihometrice specifice. In al treilea
rand legile dintre trasaturi si comportamente trebuie stabilite foarte clar, fara contradictii logice. Astfel de
contradictii ar putea apare atunci cand un test ar realiza o predictie a unei performante bune a persoanei, iar
un alt test ar prezice o performanta slaba.

Abordarea pe baza generalizarii comportamentului (figura 2) are la baza urmatoarea asumptie:


atunci cand o persoana se comporta de o maniera E intr-o anumita situatie G1 se poate concluziona ca
persoana respectiva se va comporta de aceeasi maniera E intr-o alta situatie Gi, situatie similara cu prima.
Avem de-a face in acest caz cu o generalizare a comportamentului observat intr-un esantion de situatii la un o
alta situatie similara cu cele din esantionul ales. Pe baza acestei generalizari putem vorbi de „principiul
esantionului de situatii”. Figura 2 prezinta grafic o reprezentare a acestui principiu.

Validarea predictiva presupune existenta unui interval de timp intre test si verificarea
criteriului. Pentru un test care are ca scop predictia reusitei scolare la scris-citit in clasa I testul va fi aplicat la
intrarea in clasa I, iar criteriul (performantele la scris-citit) va fi verificat fie dupa un semestru, fie la sfarsitul
clasei I.

Studiul de validare al unui test care vizeaza prognoza reusitei la citire in clasa I, trebuie sa
parcurga urmatoarele etape (Kulcsar, 1980) (figura 1):

analiza psihologica a activitatii de citire; indicarea premiselor psihologice ale reusitei la


citire;

alegerea unui test sau a unor teste psihologice care exploreaza tocmai acele aspecte
psihologice care conditioneaza reusita la citire;

aplicarea testului sau a testelor psihologice destinate predictiei reusitei la citire;

masurarea criteriului, adica evaluarea gradului de insusire a deprinderii de citire pe baza


notelor scolare sau a unor probe de citire elaborate in acest scop;

analiza cantitativa si calitativa a rezultatelor la test si la criteriu; studierea legaturii intre


cele doua categorii de rezultate.

Validitate concurenta

Validarea concurenta presupune obtinerea scorurilor la criteriu aproximativ in acelasi timp cu


scorurile la test. In cazul validitatii concurente este vorba tot de o predictie, dar la aceasta se ajunge pe o cale
putin diferita fata de cea urmata in studierea validitatii predictive (Cronbach, 1970).
Trebuie mentionat faptul ca distinctia logica intre validitatea predictiva si cea concurenta
(figura 2) nu se bazeaza pe relatia temporala dintre test si criteriu ci mai ales pe obiectivele testarii. Astfel, in
timp ce validitatea concurenta are ca scop rezolvarea unei probleme privind starea actuala a subiectului,
validarea predictiva vizeaza evolutia sa in viitor. Diferenta intre cele doua tipuri de validitate poate fi
sumarizata pe baza urmatoarelor intrebari: “Este X anxios?” (validare concurenta) si “Este posibil ca X sa devina
anxios?” (validare predictiva).

Daca rezultatele la predictor (test) sunt obtinute simultan cu rezultatele la criteriu, masura
relatiei dintre predictor si criteriu o constituie validitatea concurenta. Validitatea concurenta exprima deci in ce
masura scorurile la test pot fi utilizate pentru a estima performanta actuala a unei persoane la un anumit
criteriu.

Analiza validitatii de criteriu (fie ea predictiva sau concurenta) se bazeaza pe doua tipuri de
analize statistice: coeficientii de validitate.

Coeficientii de validate

Validitatea de criteriu a unui test reprezinta o modalitate cantitativa si obiectiva a relatiei


dintre scorurile la predictor si scorurile la criteriu. Astfel coeficientii de corelatie sunt o modalitate de a estima
validitatea predictiva. Cand acestia sunt utilizati pentru a indica relatia dintre un predictor si un criteriu, ei sunt
denumiti coeficienti de validitate.

b. VALIDITATEA DE CONTINUT

Validitatea de continut implica examinarea sistematica a continutului testului pentru a se


verifica daca testul acopera un esantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi,
1976). Astfel pentru a vorbi de o validitate de continut ridicata trebuie ca itemii care alcatuiesc testul sa fie
reprezentativi pentru ceea ce testul doreste sa masoare.

Analiza validitatii de continut a unui test trebuie sa surprinda:

Definirea si descrierea domeniului de continut a testului. Aceasta descriere trebuie sa fie


extrem de clara si sa includa toate fatetele domeniul care se doreste a fi evaluat.

Analiza itemilor care sunt inclusi in test. Vor trebui sa fie eliminati acei itemi care nu evalueaza
aspecte ale domeniului de continut identificat anterior. Aceasta analiza se va face de catre experti care pot sa
aprecieze relevanta fiecarui item pentru un domeniu dat. Validitatea de continut nu depinde insa de relevanta
aparenta a continutului itemilor ci de caracterul relevant al raspunsurilor subiectului la itemi (Anastasi, 1976).
Pentru a stabili validitatea de continut a testului, orice analiza teoretica trebuie deci sa fie confirmata empiric
(Kulcsar, 1980).

Compararea structurii testului cu domeniul de continut. Astfel se va analiza daca itemii acopera
toate aspectele domeniului, respectiv daca ei sunt proportionali in test cu importanta si marimea fiecarui
aspect.

Deoarece acest tip de validare nu reclama metode si modele statistice, ea facandu-se doar pe
baza de rationamente, o gasim in literatura de specialitate si sub denumirea de validare logica sau rationala
(Thorndike, Hagen, 1961).
Validarea referitoare la continut se impune a fi calculata in urmatoarele cazuri:

in cazul testelor de cunostinte atunci cand nu exista un criteriu extern adecvat pentru
analiza validitatii de criteriu;

in cazul testelor utilizate la masurarea unui atribut ce nu poate fi exprimat printr-un


construct (Murphy & Davidshofer, 1991). De exemplu, se poate descrie cu usurinta
domeniul de continut al unui test construit pentru “cunostinte de aritmetica la elevii
clasei I”, dar este foarte dificil sa gasim comportamente prin care aceasta caracteristica
sa poata fi observata.

in cazul testelor care evalueaza performanta in munca in scopuri de selectie si clasificare a


angajatilor. Acest tip de validare este adecvat cand testul reprezinta un esantion de
comportamente din ceea ce reprezinta deprinderile si cunostintele specifice muncii
respective.

CONSTRUCTIA SI ANALIZA DE ITEMI

Constructia de itemi

Atunci cand dorim sa evaluam ceva, prima intrebare pe care ne-o formulam este ce anume
dorim sa evaluam, care este formatul pe care trebuie sa-l aiba itemii, astfel incat sa ne ofere imagine acurata a
aspectului care ne intereseaza.

Formularea itemilor

Construirea de itemi este un proces pretentios, in continuare vom prezenta cateva aspecte
orientative legate de formularea lor:

Definiti clar ceea ce aveti de masurat, pentru a putea formula itemii cat mai specific posibil.

Generati o baza de itemi, evitati itemii redundanti.

Evitati formularea unor itemi lungi, care ar putea fi greu intelesi.

Incercati sa formulati itemii intr-un limbaj accesibil persoanelor evaluate cu acest instrument.

Evitati formularea unor itemi care surprind doua aspecte sau idei, de exemplu:

„Imi place sa lucrez intr-un mediu bine organizat, pentru ca vreau sa fiu cel mai bun la locul de
munca”

Acest item are in vedere doua aspecte: „imi place sa lucrez intr-un mediu bine organizat” si
„vreau sa fiu cel mai bun la locul de munca”, astfel in momentul in care persoana evaluata va alege o optiune
de raspuns, va fi imposibil de decelat la care din cele doua aspecte evaluate se refera.
Incercati sa formulati itemi pozitivi si negativi in aceeasi masura, pentru a evita biasarea care
apare in cazul formularii itemilor pozitivi. Aceasta biasare este determinata de tendinta persoanei evaluate de a
fi de acord cu toti itemii testului.

Formatul optiunilor de raspuns

In functie de constructul pe care dorim sa-l evaluam anumite formate devin mai mult sau mai
putin adecvate. Prezentam in continuare cele mai frecvent intalnite forme ale itemilor.

a. Itemii dihotomici – ofera doua alternative de raspuns (adevarat si fals), de obicei uneia dintre
acestea i se acorda un punct la cotarea performantei persoanei evaluate. Itemii au forma unor afirmatii, iar
sarcina subiectilor este de a decide asupra valorii de adevara a acesteia.

Avantajele acestui tip de itemi sunt:

sunt usor de cotat;

sunt usor de construit (in construirea unui test de evaluare a cunostintelor profesorul
poate utiliza fragmente din suportul de curs pentru a formula itemii);

completarea lor nu necesita mult timp deoarece raspunsul nu trebuie scris;

necesita o evaluare in termeni absoluti (alb sau negru);

Dezavantaje acestui tip de itemi sunt:

sunt usor de cotat;

sunt usor de construit (in construirea unui test de evaluare a cunostintelor profesorul
poate utiliza fragmente din suportul de curs pentru a formula itemii);

completarea lor nu necesita mult timp deoarece raspunsul nu trebuie scris;

necesita o evaluare in termeni absoluti (alb sau negru);

Dezavantaje acestui tip de itemi sunt:

in cadrul testelor de cunostinte acest tip de itemi pot incuraja studentii sa a memoreze
materialul;

sansa de a ghici raspunsul corect este foarte mare, de 50%.

b. Itemi cu mai multe optiuni (polinomici) – au un format similar celor dihotomici, atata doar ca
au mai mult de doua alternative de raspuns. Se acorda un punct numai unei optiuni de raspuns, iar celelalte
care nu sunt corecte poarta denumirea de distractori. Itemii construiti in scopul evaluarii performantei
academice au de cele mai multe ori acest format.

Avantajele acestui tip de itemi sunt:


acesti itemii sunt usor de cotat;

sunt usor de construit;

completarea lor nu necesita mult timp deoarece raspunsul nu trebuie scris;

sansa de a ghici raspunsul corect este redusa;

Dezavantajul cel mai mare al acestui tip de itemi se refera la construirea unor distractori buni,
procedeu care necesita mai mult timp. In cazul itemilor polinomici, probabilitatea de a ghici raspunsul exista,
desi este mai mica decat in cazul itemilor dihotomici (este de 25% in cazul a patru alternative, de 33.33% in
cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obtinut
de catre fiecare persoana evaluata. Aceasta formula se exprima astfel:

Scorul corect = R – W/ n – 1

R este numarul optiunilor corecte;

W este numarul optiunilor gresite;

n este numarul optiunilor de raspuns ale itemilor

Raspunsurile omise nu sunt incluse deoarece acestea nici nu cresc si nici nu duc la scaderea
scorului final. De exemplu in cazul unui test de 100 de itemi, cu cate 4 optiuni de raspuns (din care una singura
este corecta, celelalte trei sunt gresite la fiecare item), daca vom completa aleator raspunsurile corecte vom
obtine scorul de 25 (bine inteles aceasta este o situatie ipotetica in realitate avem putine sanse sa obtinem
tocmai 25 de puncte care este scorul mediu asteptat).

In acest caz, conform formulei anterioare, scorul corect este de: 25 - 75/4-1 = 25 – 25 = 0

Astfel, dupa aplicarea corectiei scorul expectat este 0.

Intrebarea este in ce masura in cazul testelor de cunostinte este recomandat ca studentii sa


incerce sa ghiceasca raspunsul? In cazul in care nu se utilizeaza procedura de corectie raspunsul este clar,
„incercati sa nimeriti”, dar nu si in cazul in care se utilizeaza procedura de corectie. Exista situatia in care nu
sunteti siguri de raspunsul corect, dar stiti sigur ca doua din cele patru alternative de raspuns sunt gresite, in
acest caz va sfatuim sa incercati sa ghiciti. Formula de corectie are la baza asumptia ca fiecare din cele patru
alternative de raspuns are aceeasi probabilitate de a fi aleasa, deci aveti sansa de 1 la 4. In cazul in care
eliminati doua dintre alternative sansa dvs. creste la 1 la 2, ceea ce va ofera un avantaj asupra procedurii de
corectie.

c. Scale Likert – prezinta o forma foarte populara, utilizata mai ales in cadrul testelor de
personalitate, in care persoana evaluata trebuie sa-si exprime acordul sau dezacordul fata de a o afirmatie (se
numeste scala Likert, pentru ca a fost introdusa de catre Likert in 1932, in scopul evaluarii atitudinilor).

Pentru a se evita alegerea unui raspuns neutru din partea celui evaluat (in cazul exemplului de
mai sus 3), se utilizeaza scale cu un numar par de optiuni de raspuns.
Acest tip de raspuns permite cotarea inversa, scorul total este calculat prin insumarea
numerelor corespunzatoare raspunsurilor.

d. Scala categoriala – este similara cu scalele Likert, dar utilizeaza un numar mai mare de
optiuni de raspuns, de cele mai multe ori sunt utilizate scale cu 10 optiuni de raspuns. Pentru utilizarea lor
adecvata este foarte important ca punctele extreme ale scalei sa fie clar definite si permanent reamintite celor
care realizeaza evaluarea.

Una dintre principalele probleme legate de acest tip de scala este numarul de categorii care
poate fi utilizat, care poate fi de 10 si 15 sau 66? S-au realizat cateva studii in acest sens, ele au aratat ca
depinde mult de scopul pe care il avem si de nivelul de expertiza al evaluatorului. De exemplu daca dorim sa
evaluam performanta unor jucatori de fotbal, o scala cu 7 nivele va fi suficienta pentru ochiul unui nonexpert
care nu sesizeaza aspectele de finete, dar nu si in cazul unui expert, al unui antrenor care poate sesiza mai
multe diferente intre jucatori.

e. Q- sort – este o metoda utilizata cu precadere in evaluarea personalitatii. Persoana evaluata


va primi o lista de adjective pe care le va sorta in functie de masura in care acestea il caracterizeaza.

2. Analiza de itemi

Care sunt criteriile pe baza carora putem spune ca un item este bun?

Asa dupa cum putem analiza un test din prisma fidelitatii si validitatii, la fel putem analiza
conform acestor criterii un item. Mai precis, un item bun discrimineaza intre doua categorii de subiecti; putem
spune de asemenea ca un item este bun daca performanta la item coreleaza cu performanta la test.

Care este procesul pe baza caruia putem analiza itemii? Dupa ce am generat itemii, dupa ce
acestia au fost aplicati unui esantion de subiecti, ne intereseaza in ce masura ei pot fi considerati itemi buni,
respectiv la care dintre itemi ar trebui sa renuntam deoarece nu satisfac criteriile. Totalitatea procedeelor
statistice cunoscute sub denumirea de „analiza de itemi” servesc scopurilor prezentate. Este important de
mentionat faptul ca analiza de itemi cuprinde atat procedee cantitative cat si procedee calitative.

Analiza calitativa de itemi

Tehnicile de analiza calitativa a itemilor unui test constituie un procedeu des intalnit in analiza
itemilor unui test. Tabelul 5 prezinta o serie de aspecte ale analizei calitative de itemi pe care trebuie sa le ia in
calcul o persoana care construieste un test.

Tabelul 2.3. Aspecte ale analizei calitative de itemi

Aspecte Intrebari
Specificitatea culturala Crezi ca itemii testului sunt discriminativi pentru un grup anume de persoane?
De ce?

Validitatea de aspect Testul masoara ceea ce crezi tu ca masoara? Daca nu este asa ce anume din
test te indreptateste sa sustii acest lucru?
Examinatorul Crezi ca performanta obtinuta la test a fost influentata de comportamentul
examinatorului? Daca da, care au fost acele comportamente care te-au
influentat?
Mediul de testare Crezi ca unele conditii ale mediului in care ai fost testat au influentat
performantele la test? Daca da, care au fost acelea?
Limbajul testului Modalitatea de prezentare a instructiunilor sau alte aspecte verbale ale testului
au influentat performanta la test?
Lungimea testului Care este opinia ta in privinta lungimii testului – se vor discuta 2 aspecte:
timpul total si numarul itemilor
Raspunsurile aleatoare Au fost itemi in test la care ai dat raspunsuri la intamplare? Care este
procentajul de itemi la care ai raspuns la intamplare? Ai folosit anumite strategii
specifice?
Corectitudinea testarii Crezi ca s-a putut trisa la acest test? Daca da, care crezi ca au fi sunt
modalitatile de a trisa?
Starea psihica/fizica a Cum ai descrie starea ta (psihica sau fizica) din timpul testului? Crezi ca aceasta
subiectului in timpul stare ar putea influenta in vre-un fel performanta la test?
examinarii
Impresia generala Care este impresia ta generala lasata de acest test? Care sunt sugestiile pe care
le-ai face pentru imbunatatirea testului?
Preferinte Ce ti-a placut/displacut la acest test? Au existat parti ale testului pe care le-ai
resimtit ca provocandu-ti anxietate sau alte stari negative?
Pregatirea anterioara Cum te-ai pregatit pentru acest test? Daca ar trebui sa sfatuiesti pe cineva
privind modul in care ar trebui sa se pregateasca pentru acest test ce i-ai
sugera?

Analiza cantitativa de itemi din perspectiva teoriei clasice

Atunci cand ne referim la teoria clasica a testelor avem in vedere modelul de masurare
prezentat in cadrul modulului II. In acest subcapitol vom prezenta procedurile de analiza a itemilor bazate pe
acest model si pe asumptiile sale.

Procedurile statistice utilizate in analiza itemilor sunt nu de putine ori extrem de complexe, de
aceea scopul nostru este de a prezenta aici doar procedurile de baza. Vom prezenta in continuare modalitatile
principale utilizate in analiza itemilor. Este important de retinut faptul ca importanta acestor procedee depinde
de functia si obiectivele pe care autorul testului doreste sa le atribuie testului.

Printre indicatorii care ar trebui luati in calcul in analiza de itemi se gasesc:

indicele de dificultate al itemului;

indicele de discriminare;

Indicele de dificultate al unui item

Sa presupunem ca un item al unui test este rezolvat corect de toti subiectii. Putem spune ca
itemul acesta este un item bun? Ce se intampla daca dimpotriva, nici un subiect nu raspunde corect la acest
item. In ambele cazuri putem considera ca itemul respectiv nu este unul bun. Daca la un item toti subiectii
raspund corect inseamna ca itemul este prea usor; daca dimpotriva, nici un subiect nu raspunde la un item
atunci putem spune ca itemul este prea dificil. In ambele cazuri, se recomanda rescrierea itemului sau
eliminarea din test.

Observatie. La unele teste de cunostinte, primul item al testului este unul extrem de facil
(raspund deci majoritatea subiectilor). Acest lucru este indicat a se realiza fie pentru a verifica daca subiectul a
inteles sarcina de lucru, fie pentru a-i forma o atitudine pozitiva fata de test si astfel de a-i creste motivatia.

Indicele de dificultate al unui item (px) se obtine calculand proportia subiectilor care au raspuns
corect la item. Valoarea teoretica a indicelui de dificultate se gaseste intre 0 (daca nici un subiect nu a rezolvat
itemul corect) si 1 (daca toti subiectii au raspuns corect la un item).

Exemple.

Daca 50 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 2 corect atunci
putem spune ca indicele de dificultate al itemului 2 este 50/100 adica p2=0,5

Daca 75 din cei 100 de subiecti la care a fost aplicat un test au raspuns la itemul 3 corect atunci
putem spune ca indicele de dificultate al itemului 3 este 75/100 adica p3=0,75 si vom spune ca itemul 3 este
mai usor decat itemul 2.

Se poate observa ca cu cat indicele de dificultate al itemului este mai mare cu atat itemul este
mai usor. Deoarece „p” se refera la procentul celor care au rezolvat corect itemul, putem spune ca cu cat este
mai mare valoarea indicelui cu atat itemul este mai usor. Vorbim de indice de dificultate pentru testele de
performanta, insa in cazul testelor de personalitate acest indice exprima procentul de subiecti care a raspuns
„da” la item, sau in alte cazuri procentul de subiecti care a agreeat itemul.

Un indice global de dificultate al itemilor unui test se poate calcula facand media indicilor
fiecarui item. Astfel se face suma tuturor indicilor de dificultate si rezultatul obtinut se imparte la numarul
itemilor testului. Pentru o maxima discriminare, este important ca media indicilor de dificultate al unui test sa
fie 0.5, deci indicii fiecarui item al testului sa varieze intre 0.3 si 0.8.

Ceea ce trebuie sa luam in calcul cand analizam indicele de dificultate al unui item este sansa
ca subiectul sa dea raspunsul corect la intamplare (adica de a ghici raspunsul). In acest caz indicele optim de
dificultate al unui item se gaseste la mijlocul distantei dintre 1 si rata de raspuns la intamplare care pentru un
item cu 2 raspunsurile este de 0,50. Mijlocul distantei dintre 1 si 0.50 este 0.75 – deci indicele optim de
dificultate al acestui item este 0.75. In general acest indice optim se obtine insumand valoarea sansei cu 1 si
apoi impartind valoarea obtinuta la 2, sau:

Pentru un item care are 5 variante de raspuns sansa de a raspunde corect este 1/5 adica 0,20.
In acest caz, indicele de dificultate optim se va obtine astfel:

Indicele de discriminare al unui item

Indicele de discriminare al unui item (d) constituie o masura a cat de bine reuseste un item sa
separe sau sa discrimineze subiectii care au obtinut scoruri mari si cei care au obtinut coruri mici la test. Mai
precis, un item este considerat discriminativ daca subiectii care au obtinut o performanta buna la test au
rezolvat corect itemul, respectiv daca cei care au obtinut o performanta scazuta la test nu au rezolvat corect
itemul. Daca majoritatea subiectilor cu performanta mare la test nu au rezolvat corect un item atunci inseamna
ca itemul respectiv nu discrimineaza intre categorii diferite de subiecti. Similar, in cazul testelor de
personalitate subiectii care au un scor mare la o anumita trasatura (evaluata de intregul test) trebuie sa aiba un
scor mare si la un item care se presupune ca evalueaza trasatura respectiva.

Indicele de discriminare are in vedere performanta esantionului la un item tinand cont de


performanta scorurilor din ultima treime sau din prima treime a distributiei totale a scorurilor. Limita pana la
care putem considera prima/ultima arie a distributiei scorurilor este valoarea de 27% din scoruri (Kelley, 1939).
Indicele de discriminare al unui item este reprezentat de masura diferentei dintre proportia celor care au
rezolvat corect itemul si cei care nu au rezolvat corect itemul. Cu cat valoarea lui d este mai mare cu atat este
mai mare numarul subiectilor „buni” care au rezolvat itemul. O valoare negativa pentru un d reprezinta o
problema a itemului deoarece indica situatia in care cei care au avut o performanta slaba la test rezolva corect
itemul. In aceasta situatie se cere revizuirea sau eliminarea itemului.

Exemplu.

Sa presupunem ca un profesor administreaza un test la 119 persoane si selecteaza primele 27%


si ultimele 27% din performantele la test, selectand 32 de teste in fiecare grup. In continuare in tabelul 3 sunt
prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:

Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test

I S I S n d
Item Superior (S) Inferior (I) - = (S-I)/n

Pentru itemul 1 se poate observa ca 20 dintre subiectii care au obtinut performante superioare
la test au rezolvat corect itemul, in timp ce 16 dintre cei care au obtinut performante inferioare la test au
rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece
mai multi subiecti dintre cei care au obtinut o performanta buna la test, au raspuns corect la item. Se poate
observa ca cu cat este mai mare valoarea indicelui de discriminare cu atat itemul separa mai bine categoriile de
subiecti si este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare
este +1 (toti subiectii care au obtinut performanta superioare la test au rezolvat corect itemul); valoarea cea
mai mica pe careo poate avea un indice de discriminare al unui item este –1 (nici unul dintre subiectii care au
obtinut performante superioare la test nu au rezolvat corect itemul).

Analiza alternativelor de raspuns la itemi

Calitatea fiecarei alternative de raspuns la itemii cu raspunsuri multiple poate fi analizata


comparand-o cu performanta obtinuta de subiectii care au avut performante superioare (primii 27%) si cei care
au obtinut performante inferioare (ultimii 27%) la un test.

Analiza curbei caracteristice itemului

O modalitate de a afla noi informatii despre comportamentul itemilor este trasarea curbei
caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe
axa Y proportia persoanelor care au raspuns corect la item.
Figura
2.5. Curba caracteristica
a itemului

Scorul
total reprezinta nivelul
de abilitate al persoanei
evaluate, acest nivel nu
poate fi masurat, doar
estimat pe baza acestui
scor. Relatia dintre
performanta la unul
dintre itemi si cea obtinuta la aplicarea intregului test ne ofera informatii legate de item.

Astfel figura de mai sus reprezinta curba caracteristica a unui item relativ bun, observam cum
curba creste pe masura ce creste si scorul total la test, aceasta inseamna ca itemul discrimineaza bine in cazul
tuturor nivelelor de performanta.

Sa luam spre exemplu o persoana care are un scor mai mic de 20 puncte, conform curbei
(Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.

Figura
2.6. Curba caracteristica
a itemului

In cazul
in care scorul este mai
mare, de 40 respectiv 65
de puncte,
probabilitatea de a
raspunde corect este de
50 respectiv 100%.

Un item bun trebuie sa prezinte un asemenea patern de comportament, adica pe masura ce


creste nivelul de abilitate a persoanelor testate sa creasca si sansa de a fi rezolvat corect.

In figura 2.7 dorim sa prezentam itemi care prezinta un patern comportamental diferit de cel
prezentat anterior. Va rugam sa analizati curba trasata cu linie intrerupta.
 

Figura 2.7. Curba caracteristica a 2 itemi

Observam ca si daca nivelul de abilitate al persoanelor din esantionul nostru creste,


probabilitatea de a raspunde corect la acest item este aceeasi, cu alte cuvinte itemul nu ne ofera nici o
informatie despre nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie intrerupta). Este
posibil ca acest item sa masoare un alt aspect decat cel pe care il evalueaza ceilalti itemi ai testului.

Spre deosebire de acesta, itemul trasat cu linie neintrerupta este rezolvat numai de persoanele
care au un scor brut de cel putin 25 de puncte, probabilitatea de a-l rezolva corect creste apoi treptat impreuna
cu nivelul de abilitate. Acest item este de dificultate medie, este putin probabil ca el sa fie rezolvat corect de
persoanele cu scor mai mic de 25.

2. Analiza de itemi din perspectiva teoriei raspunsului la item (item response theory - IRT)

Teoria raspunsului la item propune un nou model de explicare si de analiza a itemului si a


comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, dupa care
acesta a fost dezvoltat si adaptat la diferite situatii de testare.

Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure
trasaturi latente sau multidimensionale, in cazul testelor care evalueaza mai multe dimensiuni. De asemenea in
functie de raspunsul la item dihotomic sau cu mai mute optiuni avem mai multe tipuri de modele. In continuare
vom discuta despre modele unidimensionale dihotomice. In cazul modelelor IRT unidimensionale diferentele
dintre persoanele care alcatuiesc esantionul pot fi explicate numai pe baza unei singure dimensiuni.

Modelele IRT implica doua asumptii:

Curba caracteristica itemului (item characteristic curve - ICC) trebuie sa aiba o forma specifica
(acesta descrie modul in care modificarile la nivelul abilitatii induc modificari la nivelul probabilitatii de aparitie
a raspunsului corect);

Trebuie indeplinita conditia de independenta locala (aceasta inseamna ca nu trebuie sa avem


corelatie intre itemi, in conditiile in care nivelul de abilitate al persoanelor evaluate este mentinut constant).
Inainte a trece la prezentarea concreta a unui model IRT, dorim sa reamintim modelul care sta
la baza teoriei clasice.

Xobservat = Xreal + e (e = eroarea de masura)

Acesta are urmatoarele asumptii:

Valoare expectata a erorii pentru fiacre persoana in parte este 0;

Eroarea nu covariaza cu alte variabile (aceste asumptii sunt importante pentru interpretarea
erorii standard de masurare).

Limitele care au fost reprosate acestui model sunt urmatoarele:

sunt mentionate doua variabile independente de care depinde scorul obtinut de o persoana, si
anume scorul real si eroarea de masurare, dar acestea nu pot fi separate in mod real in cadrului scorului
obtinut de catre o persoana, astfel modelul este util in cadrul realizarii unor estimari la nivel de populatie;

Din acest model sunt omise proprietatile itemului care si ele au un impact asupra scorului
persoanei (daca de exemplu toti itemii sunt usori, atunci majoritatea persoanelor vor ave un scor maxim);

Modelele IRT explica performanta la test considerand doi sau mai multi parametrii: nivelul de
abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea
de a ghici raspunsul corect, iata notatiile utilizate.

X is = raspunsul persoanei s la itemul i (care in cazul itemilor dihotomici poate fi 0 sau 1)

p(Xis=1) = probabilitatea ca persoana s sa ofere un raspuns corect la itemul i

θ s = nivelul de abilitate al persoanei s

β i = dificultatea itemului i

α i = discriminarea itemului i

γ i = probabilitatea de a ghici raspunsul corect la itemul i

Vom explicita modelul de masurare utilizat de aceasta abordare prin prezentarea


modelului uniparametric 1PL.

p(Xis=1) = 1/(1 + e (-( i

In cadrul acestuia probabilitatea de a raspunde un raspuns corect la un item i, depinde de


nivelul de abilitate al persoanei evaluate si de parametrul de dificultate al itemului. Acesta se numeste model
uniparametric deoarece este considerat numai un singur parametru al itemului.

Daca analizam acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat
nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un raspuns corect la itemii a caror
curba este trasata), observam cum curbele caracteristice itemilor au acelasi unghi de inclinare, ceea ce difera
este locatia lor de-a lungul nivelului de abilitate, practic aceasta locatie este un indicator al dificultatii itemului.
De exemplu itemul trasat cu linie intrerupta (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de
0 in proportie de aproximativ 55%, in timp ce aceleasi persoane rezolva itemul trasat cu linia punctata in
proportie de 20%, deci acesta din urma este mai dificil decat primul.

Figura 2.8. Curba caracteristica a 2 itemi

In cazul acestui model, parametrul de discriminare este mentinut constant (egal cu 1).

In cadrul modelului biparametric – 2PL, este considerat si parametrul de discriminare a


itemului. In figura 2.9
prezentam itemi care
au acelasi nivel de
dificultate, dar care au
o discriminare diferita.

p(Xis=1
) = 1/(1 + e (- i i

Figura
2.9. Curba
caracteristica a 3 itemi
Discriminarea este reprezentata grafic prin gradul de inclinare a curbelor care descriu
comportamentul itemului. Un item cu o curba abrupta discrimineaza mai bine comparativ cu un item cu o
curba mai domoala. Acest lucru inseamna ca o modificare mica la nivelul abilitatii persoanelor testate va duce
la o modificare mare a probabilitatii de a raspunde corect la item. Curba trasata cu linie neintrerupta reprezinta
un item care are o discriminare perfecta, deoarece nici o persoana cu un nivel de abilitate mai mic de 0.25 nu
va avea sansa de a rezolva acest item, in schimb persoanele cu o abilitate mai mare il vor rezolva.

Modelul tri-parametric – 3PL, introduce si parametrul care permite estimarea sansei de a ghici


raspunsul corect la item.

p(Xis=1) = i i)[1/(1 + e (- i i

Probabilitatea de ghici raspunsul corect este vizibila in punctul in care curba caracteristica
itemului intersecteaza axa Y. Aceasta inseamna ca si persoanele care au un nivel de abilitate scazut vor rezolva
corect itemul, ghicind raspunsul corect (Figura 2.10).Utilizarea unui model 3PL devine necesara mai ales in
situatia in care probabilitatea de a ghici raspunsul corect este mare, de exemplu in cazul unui item cu 2
posibilitati de raspuns acesta este de 1 din 2, spre deosebire de cea cu 6 optiuni, in care probabilitatea de a
ghici raspunsul corect este semnificativ mai mica, 1 din 6.

Figura 2.10. Curba caracteristica itemului

Aceste modele reflecta modul in care IRT a contribuit la perfectionarea procedurilor de


dezvoltare a instrumentelor de masurare, dar analiza atenta a asumptiilor acestora ofera o noua perspectiva
asupra vechilor reguli de masurare, asa cum spunea Emreston si Reise (2000).

VALIDITATEA DE CONSTRUCT

Validitatea de construct reprezinta masura in care se poate sustine ca testul masoara o


variabila sau o trasatura specifica. In termeni generali “constructul” este sinonim cu acela de concept (Kline,
1992) fiind utilizat pentru a desemna o serie de fenomene intr-un cadru stiintific. El este util atunci cand poate
fi operationalizat. Daca luam de exemplu conceptul de “specie”, el este extrem de util in investigare si
clasificare in stiintele naturii. Cu toate aceste nu exista o entitate distincta pe care putem sa o etichetam
“specie”, ea nu poate fi deci studiata si observata direct. Este doar o categorie, creata in scopul intelegerii
diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologica care ofera cadrul menit
sa fundamenteze analiza semnificatiei psihologice a rezultatelor la test. Vorbim de validitate relativa la
construct in cazul testelor de personalitate.

Pentru a putea fi utilizat si evaluat, un concept trebuie corect si precis operationalizat. Aceasta
operationalizare impune descrierea constructului in termeni comportamentali concreti. Murphy & Davidshofer
(1991) identifica urmatorii pasi in operationalizarea unui construct:

identificarea comportamentelor care au legatura cu constructul;

identificarea altor constructe, pentru fiecare decizandu-se daca au sau nu legatura cu


constructul masurat de test;maIN

alcatuirea pentru fiecare construct a unei liste de comportamente prin care acestea se
exprima. Pentru fiecare comportament, pe baza relatiilor dintre constructe se decide
daca are sau nu legatura cu constructul masurat de test.

Spunem despre un test ca are validitate convergenta daca evalueaza aceleasi constructe ca si


alte teste, adica daca intre scorurile sale si scorurile altor teste exista o relatie functionala. Un test
are validitate de discriminare daca evalueaza altceva decat alte teste despre care se stie ca se refera la
constructe ce nu au legatura cu constructul masurat de test. Acest lucru inseamna ca intre scorurile la test si
scorurile la alte teste sau variabile nu exista o relatie functionala.

Campbell & Fiske (1959) propun ca si metoda de verificare a validitatii convergente si de


discriminare a unui test metoda bazata pe matricea “trasaturi multiple-metode multiple” (tabelul 6). Pe baza
acestei metode sunt relevati coeficientii de corelatie intre diferite masuratori ale acelorasi constructe,
masuratori obtinute prin teste diferite.

Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trasaturi multiple-metode multiple”

Metoda 1 Metoda 2 Metoda 3

Trasaturi A B C A B C A B C
1 1 1 2 2 2 3 3 3

A
1

M B
metoda 1 1

C
1

A
2

M B
metoda 2 2

C
2
A
3

M B
metoda 3 3

C
3

Tabelul de mai sus prezinta toate corelatiile posibile intre scorurile obtinute cand sunt evaluate
trei trasaturi (A, B, C) prin trei metode / teste. Cele trei trasaturi reprezinta trasaturi de personalitate cum ar fi:
(A) dominanta, (B) sociabilitatea, (C) motivatia de realizare. Cele trei metode prin care se evalueaza aceste
caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A 1 indica scorurile
la dominanta evaluate pe baza unui chestionar, A 2 indica scorurile la dominanta evaluate pe baza unui test
proiectiv, iar C3 indica scorurile pentru motivatia de realizare evaluata printr-o scala de comportament. Tabelul
include pe de o parte corelatiile intre trasaturi diferite evaluate pe baza aceleiasi metode (chenar intreg)
precum si corelatiile intre trasaturi diferite prin metode diferite (chenar intrerupt). Pentru verificarea validitatii
convergente in cazul constructului (A) avem urmatorii coeficienti:

.57 metoda 1 cu metoda 2

.56 metoda 1 cu metoda 3

.67 metoda 2 cu metoda 3

Validarea convergenta a unui test este necesara, dar nu si suficienta pentru a dovedi ca testul
masoara ceea ce si-a propus; etichetele atribuite testelor reprezinta trasaturile sau caracteristicile pe care
testele ar trebui sa le masoare. Corelatia mare intre doua teste inseamna ca testele masoara acelasi lucru, insa
nu se poate spune ca itemii cuprinsi in teste sunt reprezentativi pentru constructul pe care testele
intentioneaza sa il masoare. Analiza factoriala sau analiza de clusteri efectuata asupra itemilor din testele care
evalueaza aceleasi constructe poate ajuta la explicarea corelatiilor dintre scorurile testelor (Albu, 1999).

ANALIZA FACTORIALA

Una dintre metodele utilizate in validara de construct este analiza factoriala. Analiza factoriala
este definita ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza
uneui set de masuraori empirice”. Cel mai adesea este utilizata pentru:

identificarea factorilor care stau la baza performantei la un test de aptitudini

identificarea unor dimensiuni ale personalitatii

identificarea unor sindroame clinice

identificarea factorilor relationati cu satisfactia in munca

In continuare vor fi discutate principalele concepte implicate in analiza factoriala.

Concepte generale
Atributele interne pot fi gandite ca si constructe ipotetice. Ele nu sunt cu necesitate reale sau
concrete. Acestea sunt mai degraba constructe care asa cum vom vedea pot fi utilizate pentru a intelege si a
explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie vazute ca o critica a abordarii
factoriale. Utilizarea constructelor ipotetice constituie o practica obisnuita in multe domenii ale stiintei.  De
exemplu, fizicienii utilizeaza o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene.
Aceste forte reprezinta de fapt constructe neobservabile, a caror existenta a fost inferata pe baza fenomenelor
observabile. Aceste constructe, impreuna cu teoriile care le insotesc pot explica o serie de fenomene
observabile. Intr-o maniera asemanatoare, analiza factoriala postuleaza ca exista atribute interne
neobservabile care pot explica variatia si covariatia dintre o serie de atribute de suprafata, adica acele atribute
care pot fi masurate si observate direct.

Un concept teoretic central al analizei factoriale il constituie deci relatia dintre atributele
interne si cele de suprafata. Principiul de baza este acela ca atributele interne influenteaza sistematic atributele
de suprafata. Acest fapt implica ideea ca atunci cand avem o masura a unui atribut de suprafata, aceasta
masura este, cel putin in parte, rezultatul influentei atributelor interne. De exemplu, scorul obtinut de o
persoana la un test de adunare (atribut de suprafata) este influentat de aptitudinea numerica (atribut intern).
Traditional, aceste relatii dintre atributele de suprafata si cele interne sunt considerate a fi lineare.

In continuare este util sa distingem intre 2 tipuri de atribute interne sau factori: factori comuni
si factori specifici. Factorul comun este definit ca un atribut intern care afecteaza /influenteaza mai mult de o
variabila de suprafata. De exemplu, daca factorul aptitudine numerica influenteaza mai mult decat o variabila
de suprafata (sa presupunem ca influenteaza atat adunarea cat si inmultirea) atunci acesta factor este un factor
comun. Factorii specifici influenteaza doar o singura variabila de suprafata; astfel poate exista un numar de
factori specifici pentru fiecare variabila de suprafata. Prin schimbarea variabilelor de suprafata factorul comun
se poate transforma in factor specific daca se inlatura toate variabilele de suprafata care il alcatuiesc, mai putin
una; sau dimpotriva, daca largim bateria, un factor specific se poate transforma intr-un factor comun daca el
influenteaza mai multe variabile de suprafata.

In afara celor 2 variabile interne (factorii comuni si specifici) care influenteaza variabilele de
suprafata, exista o a treia influenta asupra acestora. Aceasta a treia influenta o constituie erorile de masura
asociate observarii atributelor de suprafata. Aceste erori sunt reprezentate in analiza factoriala ca factori
aditionali, desi ele nu fac parte din cadrul atributelor interne; adica nu reprezinta caracteristici neobservate ale
indivizilor. Mai degraba erorile de masura apar ca rezultat al influentelor datorate masuratorii atributelor de
suprafata. Se poate observa relatia directa intre factorii de suprafata si erorile de masura; astfel, cu cat
fidelitatea masuratorilor este mai mare cu atat erorile sunt mai mici. Deci, utilizarea unor teste mai putin fidele
va influenta erorile de masura, dar nu in mod necesar factorii comuni sau specifici. De asemenea, adaugarea
sau inlaturarea unor variabile de suprafata va influenta factorii comuni sau specifici, insa nu va influenta erorile
de masura.

Factorii specifici si erorile de masura caracteristice unui set de observatii se pot combina
rezultand factori unici. Un factor unic este alcatuit dintr-un factor specific caracteristic unei singure variabile de
suprafata precum si din eroarea de masura asociata variabilei de suprafata respective. Factorul unic se va
modifica la orice modificare a factorului specific sau a erorii de masura.

Pornind de la aceste definitii ale factorilor, tinand cont de faptul ca factorii influenteaza
atributele de suprafata se poate intelege ca factorii se combina pentru a putea explica un anumit nivel al
trasaturilor de suprafata. Mai precis, orice nivel al atributelor de suprafata poate fi vazut ca o rezultanta a
factorilor relevanti. De exemplu, scorul unei persoane la un test de adunare poate fi vazut ca o rezultanta a
factorului comun aptitudine numerica si a factorului specific asociat adunarii. De asemenea, eroarea de masura
contribuie la scorul obtinut la testul de adunare. Generalizand putem spune ca diferentele individuale sau
varianta atributelor de suprafata poate fi atribuita factorilor adiacenti acestor atribute. Astfel diferentele la
nivelul atributelor de suprafata sunt datorate diferentelor la nivelul factorilor ce influenteaza aceste atribute si
de asemenea diferentele sunt datorate si erorilor de masura.

Distinctia realizata anterior intre factorii comuni, specifici si eroarea de masura ne ajuta sa
intelegem modul in care factorii explica varianta atributelor de suprafata. Este important de retinut faptul ca
varianta observata la nivelul atributelor de suprafata poate rezulta din trei surse. O parte din varianta este
datorata influentei factorilor comuni – aceasta poarta numele de varianta comuna sau comunalitate. O alta
parte din varianta atributelor de suprafata poate fi datorata factorului specific – aceasta varianta este
denumita varianta specifica sau specificitate. Cea de-a treia sursa de varianta este datorata erorilor de masura
– si este denumita varianta erorii de masura. Varianta specifica este adesea combinata cu varianta erorii de
masura si formeaza varianta unica sau unicitatea. Altfel spus, varianta observata la nivelul unui atribut de
suprafata este datorata in parte factorilor care influenteaza si alte atribute de suprafata si in parte factorilor
care influenteaza doar atributul respectiv.

Printr-o extensie a conceptelor putem spune ca analiza factoriala tine cont si de covarianta
dintre variabilele de suprafata. Adesea se poate observa ca variabilele de suprafata dintr-un domeniu specific
tind sa coreleze intr-o anumita masura una cu cealalta. Potrivit analizei factoriale aceasta corelatie este
datorata influentei factorilor comuni. Deci, o corelatie intre doua variabile de suprafata este datorata
dependentei celor doua variabile de unul sau mai multi factori comuni. De exemplu scorul la un test de
adunare va tinde sa coreleze pozitiv cu scorul la un test de inmultire deoarece ambele variabile depind de
acelasi factor comun – aptitudinea numerica. Din contra insa, rezultatul la testul de adunare va corela mai putin
cu rezultatul la un test de citire deoarece cele doua variabile de suprafata sunt influentate de factori comuni
diferiti. Putem spune ca nivelul de intercorelatie dintre atributele de suprafata este rezultatul dependentei
acestor atribute de aceiasi factori comuni.

Este extrem de important a se retine faptul ca doar factorii comuni pot explica corelatia
variabilelor de suprafata; factorii unici nu determina astfel de corelatii. La fel, factorii specifici sau erorile de
masura nu pot determina corelatii intre atributele de suprafata deoarece prin definitie ei influenteaza doar o
singura variabila de suprafata.

Pentru a sumariza aceste principii putem spune ca intr-un anumit domeniu exista un numar
mic de factori comuni care influenteaza un vast numar de atribute de suprafata.  Variatia factorilor de suprafata
este datorata in parte variatiei factorilor comuni. Ceea ce ramane se datoreaza factorilor unici sau factorilor
specifici si erorilor de masura. Covarianta variabilelor de suprafata este atribuita dependentei acestora de
aceiasi factori comuni.

In continuare (figura 5) vor fi prezentate conceptele si principiile discutate anterior in forma


propusa de Tucker (1940) pentru a ilustra teoria analizei factoriale. In cadrul diagramelor, patratele reprezinta
atributele de suprafata, iar cercurile reprezinta atributele interne si alti factori. Sagetile unidirectionale exprima
o relatie liniara (printr-un proces cauzal), iar cele bidirectionale reprezinta corelatii fara influenta cauzala.
Figura 2.11. Relatia dintre atributele de suprafata si cei trei tipuri de factori

Este important de retinut faptul ca teoria factoriala este o teorie care explica dinamica si
influentele care determina variatia si covariatia atributelor de suprafata.

Obiectivele analizei factoriale

Identificarea factorilor adiacenti variabilelor de suprafata


Obiectivul primar ala analizei factoriale este acela de a determina umarul si natura factorilor
comuni precum si modul in care acestia influenteaza atributele de suprafata. Prin identificarea factorilor care
explica un mare numar de variabile se pot intelege mai bine datele de care dispunem.

De exemplu o companie aeriana doreste sa studieze aproximativ 50 de variabile pe care le


considera importante din puntul de vedere al consumatorului care trebuie sa opteze pentru o companie
(variabilele pot fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de
zbor, facilitatile oferite in timpul zborului, etc.). Daca pe baza analizei factoriale aceste 50 de variabile pot fi
explicate pe baza unor factori vom intelege mai bine variabilele fundamentale care stau la baza alegerii facute
de consumator.

Screeningul variabilelor

O a doua utilizare a analizei factoriale se refera la analiza pe baza de screening a variabilelor


care ulterior pot fi incluse in investigatii statistice ca analiza de regresie. Deoarece analiza factoriala identifica
grupe de variabile care sunt corelate intre ele putem opta la alegerea unei singura variabile din fiecare factor si
includerea acestei variabile intr-o ecuatie de predictie.

Sumarizarea datelor

O alta aplicatie a analizei factoriale se refera la flexibilitatea de a extrage cati factori se doreste
dintr-un set initial de variabile. Primii factori extrasi dintr-un set de variabile explica cea mai mare parte din
varianta acestora; cu fiecare extragere ulterioara se obtine tot mai putin.

Selectia variabilelor

AF ne permite extragerea factorilor diferiti dintr-un set de variabile. De exemplu daca se pune
problema selectie caracteristicilor definitorii ale unui automobil in vederea constructiei unei reclame ne
intereseaza sa pastram un numar de variabile rezonabil pentru a putea construi reclama. Este important insa ca
acest variabile selectate sa nu se refere la acelasi factor, ele trebuind sa nu coreleze intre ele.

Luand in considerare aspectele prezentate privind validitatea unui test psihologic, se poate
spune ca trebuie sa avem intotdeauna in vedere functia si scopul pe care le va avea testul pentru a putea
aprecia corect tipurile de validitate. Exemplul (tabelul 7) urmator ilustreaza modul in care putem privi
validitatea unui test de cunostinte la matematica (Anastasi, 1976):

Tabelul 2.7. Tipuri de validitate a unui test de cunostinte matematice. (Anastasi, 1976).

SCOPUL TESTARII PROBLEMA STUDIATA TIPUL DE


VALIDITATE
Evaluarea Cat de mult a invata elevul din Validitate de
cunostintelor de matematica predata? continut
matematica in ciclul
primar
Anticipare a Care vor fi performantele elevului Validitate
performantelor elevului in gimnaziu la matematica? predictiva
in gimnaziu
Psihodiagnosticul Care sunt dificultatile specifice pe Validitate
dificultatilor de invatare care le intampina elevul in concurenta
invatarea matematicii
Evaluarea gandirii Prin ce se caracterizeaza gandirea Validitate de
logice elevului? construct

EXERCITII

Mai jos sunt prezentate descrierile catorva studii de validare. Cititi fiecare descriere si
identificati orice probleme potentiale care ar putea afecta rezultatele.

Un profesor de matematica de la un liceu, face un test pentru a identifica elevii supradotati la


matematica si aplica acest test la o suta de elevi din scoala. Cei care vor obtine cel mai mare punctaj la test vor
avea posibilitatea sa se inscrie la facultate. La sfarsitul semestrului, profesorul face o corelatie intre scorul
obtinut la test si notele obtinute de elevi la matematica. El nu a gasit nici o corelatie semnificativa intre aceste
variabile.

Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o
anumita corporatie si cere supraveghetorilor sa noteze muncitorii prezenti pe o scala cu urmatoarele categorii  :
„peste medie”, „mediu”, „sub medie”. Dupa aceasta psihologul testeaza muncitorii din categoria „peste medie”
si „sub medie” si compara mediile celor doua grupuri. In urma analizei psihologul gaseste o diferenta
semnificativa in favoarea grupului „peste medie”.

Pentru fiecare din urmatoarele situatii indicati ce tip de studiu de validare ar fi cel mai potrivit.

Un psiholog social dezvolta un inventar cu scopul de a identifica peroanele care lucreaza in


domeniul sanatatii care prezinta „sindromul de epuizare (burnout)”. Pentru a defini sindromul de „burnout” se
utilizeaza o varietate de comportamente cum ar fi: absenteismul, esec in a respecta politica firmei, relatii reci
cu colegii si sefii etc.

Un psiholog al dezvoltarii specializat in problemele adolescentilor doreste sa dezvolte un


inventar care sa se adreseze elevilor din clasele IX – X pentru a prezice cine va trece mai departe in clasele XI-
XII.

Un test de aptitudini non-verbale este dezvoltat pentru copiii prescolari cu deficit de auz. Se
intentioneaza ca testul sa fie o masura de screening pentru identificarea copiilor care ar putea avea dificultati
in invatarea cititului (incadrati intr-o clasa cu copii normali).

S-ar putea să vă placă și