Sunteți pe pagina 1din 9

Principii psihometrice ale utilizării testului psihologic – validitatea

(partea I)

4.1. Definiţie
Validitatea este unul din conceptele cele mai importante în măsurarea psihologică. O bună
validitate reflectă faptul că aptitudinile sau caracteristicile psihologice măsurate de text corespund
domeniului de evaluare, cu alte cuvinte testul măsoară ceea ce şi-a propus.
Anastasi (1976) preciza că “validitatea unui test se referă la cât sunt de potrivite interpretările
descriptive, explicative sau predictive care dedau scorurilor sale.
Conform APA, “validitatea se referă la corectitudinea inferenţelor realizate pe baza unui test
sau a unei forme de evaluare.
La analiza definiţiilor, se observă că accentul cade pe încrederea pe care o putem avea în
deducţiile făcute pornind de la scoruri şi luând în considerare întreg procesul prin care s-au obţinut
aceste scoruri.
Validarea este procesul prin care se obţin informaţii legate de validitatea unui test.
Validitatea este un concept general cu privire la puterea şi corectitudinea inferenţelor care
pot fi făcute pornind de la scorurile unui test şi de aceea nu se poate afirma despre nici un test că
are, la modul abstract, o validitate “ridicată” sau “scăzută”. Validitatea acestuia trebuie stabilită în
raport cu utilizarea particulară a ceea ce s-a cerut în test.
Clasificarea scolastică în validitatea de construct, validitatea de conţinut şi validitatea de
criteriu creeaza unele confuzii şi este mai bine să se folosească sintagma de “tip analiză a
validităţii” propusă de Lawshe (Landy, 1986)
În normele APA se vorbeşte despre validitatea de aspect. Ea nu constituie un criteriu
important pentru inferenţele făcute pe baza unui test. Este definită ca “ceea ce un test pare a
măsura, mai degrabă decât ceea ce măsoară” şi este importantă doar măsura în care influenţează
răspunsurile la test în funcţie de modul în care sunt percepuţi itemii.
4.2. Tipuri de analiză a validităţii unui test psihologic

4.2.1. Validitatea de construct


Constructul este o idee “construită” de experţi dintr-un domeniu particular al ştiinţei.
Exemple de constructe sunt: “inteligenţa”, “locus of control (poziţia controlului)”, “sociabilitate”,
“maturitate şcolara”, etc. Silva (1993) definea constructul ca “o eticheta pentru o grupare de
comportamente care covariaza”.
Fiecare construct psihologic are la bază o teorie (fiecare test psihologic porneşte de la o
teorie) care permite descrierea şi predicţia comportamentelor în situaţii specifice. Un construct
psihologic se caracterizează prin faptul că este o abstractizare a unor regularităţi din natură care
nu sunt observabile direct dar pot fi conectate cu evenimente concrete şi observabile. Multe dintre
testele de personalitate măsoară dimensiuni ale acesteia (anxietate, depresie, nevrotism, motivaţie,
introversie-extraversie), mai slab definite iniţial şi din ce în ce mai bine circumscrise pe măsură ce
teoriile în domeniu au avansat. Conceptualizările progresive ale acestora (dar şi ale inteligenţei,
memoriei, creativităţii etc.) au dus la apariţia de constructe tot mai evoluate.
Unele teste sunt construite plecând de la date empirice (ca M.M.P.I. sau Inventarul de
Personalitate California al lui Gough), altele se originează în teorii anterior elaborate oricărei
cercetări empirice (Chestionarele de personalitate Cattell sau Indicatorul Tipologic Myers-
Briggs). Validitatea relativă la construct verifică, pe de o parte, dacă testul se referă realmente la
constructul pe care vrea să-l măsoare, şi apoi dacă scorurile subiecţilor testaţi reflectă corect
mărimea acestui construct la persoanele în cauză. Strategia determinării acestui tip de validitate
impune un algoritm (vezi Albu, 1998, pp. 165-166). De aceea, în teoria care stă la baza testului
psihologic orice construct trebuie operaţionalizat, adică descris prin comportamente concrete şi
observabile şi selecţionat cu alte variabile fiziologice şi psihologice cu care variază.
De exemplu, într-un test care evaluează aptitudinea verbală, conceptul de aptitudine verbală
este operaţionalizabil prin următoarele comportamente sau acţiuni care se găsesc în itemii testului-
definirea unui cuvant dat, gasirea de sinonime/antonime, identificarea expresiei gresite, etc.
Deoarece variabilele sunt construite pornind de la un şir de raţionamente bazate pe ipoteze şi
deducţii, acest tip de validitate se mai numeşte şi “validitate ipotetică deductivă”.
Validitatea relativă la construct este verificată şi prin raportarea testului respectiv la alte teste
despre care se ştie că evaluează acelaşi construct sau constructe diferite. Verificarea practică a
acestui lucru necesită aplicarea metodelor statistice, dintre care metodele corelaţionale sunt cele
mai importante. Poate fi precizată astfel validitatea convergentă şi validitatea discriminativă.
Validitatea convergentă este corelaţia pozitivă a testului validat cu alte teste care măsoară
aceleaşi concepte ca şi testul în cauză.
Validitatea discriminativă este corelaţia nulă cu alte teste despre care se ştie că măsoară alte
constructe decât testul care se validează.
Validitatea convergentă şi discriminativă poate fi examinată în mod simultan prin metoda
bazată pe matricea “multitrăsături – multimetode” (Multitrait-Multimethod Matrix) care conţine
valorile coeficienţilor de corelaţie liniară între diverse măsurări ale aceloraşi constructe obţinute
prin intermediul a două sau trei instrumente diferite. Procedeul descris aici a fost inventat încă din
1959 de Campbell şi Fiske şi este o metodologie importantă pentru înţelegerea procesului de
validare. Se numeşte multidimensională pentru că ia în evaluare două sau mai multe trasături prin
două sau mai multe metode.

Metoda Trăsăturile Metoda 1 Metoda 2 Metoda 3


A1 B1 C1 A2 B2 C2 A3 B3 .C3

Metoda 1 A1 (.89)
B1 .51 (.89)
C1 .38 .37 (.76)

Metoda 2 A2 .57 .22 .09 (.93)


B2 .22 .57 .10 .68 (.94)
C2 .11 .11 .46 .59 .58 (.84)

Metoda 3 A3 .56 .22 .11 .67 .42 .33 (.94)


B3 .23 .58 .12 .43 .66 .34 .67 (.92)
C3 .11 .11 .45 .34 .32 .58 .58 .60 (.85)
În exemplul dat de Gregory în figura de mai sus, 3 trăsături A, B şi C (Interesele, Creativitatea
şi Dominanţa) sunt măsurate cu metodele 1, 2 şi 3 (inventar autoaplicat, evaluarea covârstnicilor
şi un test proiectiv). Deoarece fiecare dintre cele 3 trăsături sunt măsurate prin toate cele 3 metode,
rezultă de fapt 9 teste, exprimate prin coeficienţii de corelaţie din triunghiurile cu linie continuă
de pe diagonala mare. Când fiecare dintre aceste teste este administrat a doua oară aceluiaşi grup
de subiecţi şi scorurile fiecărei perechi de teste rezultate prin test-retest sunt corelate rezultă
matricea multitrăsătură multimetodă care devine o sursă extrem de bogată de informaţii, atât pentru
fidelitate cât şi pentru validitatea convergentă şi divergentă. Această metodologie este o contribuţie
importantă la înţelegerea procesului de validare, dar reclamă un efort de cercetare uriaş. De aceea
cei mai mulţi creatori de teste preferă să culeagă informaţii separate, „pe bucăţi” despre fidelitate
şi validitate, pe care să le reunească ulterior într-un tabel compozit, decât o matrice care să le
integreze din capul locului pe toate deodată simultan. (Clinciu, A.I., 2005).
Un alt procedeu utilizat pentru evaluarea validităţii de construct este analiza factorială.
Această metodă, numită validare factorială, se aplică în cazul testelor care măsoară constructe
multidimensionale.
Prin analiza factorială se urmăreşte dacă structura scorului la test reflectă structura
domeniului constructului măsurat. Pentru aceasta se formează grupuri de itemi care corelează între
ei, se calculează scorurile acestor grupuri de itemi (scoruri factoriale) şi se presupune că fiecare
asemenea scor reprezintă măsura unei variabile.
Când ne propunem să realizăm o analiză factorială, trebuie mai întâi să distingem atributele
de suprafaţă şi eroarea de măsură. Atributele interne sunt constructe ipotetice utilizate pentru a
explica o serie de fenomene (de exemplu conceptul de ,,magnetism” în fizică). Existenţa lor este
inferată pe baza fenomeneler observabile. Analiza factorială postulează că există factori interni
neobservabili care explică variaţia şi covariaţia dintre o serie de atribute de suprafaţă. Atributele
de suprafaţă sunt observabile şi se pot măsura direct.
Factorii interni pot fi specifici (când influenţează doar o singură variabilă de suprafaţă) şi
comuni (când influenţează mai multe variabile de suprafaţă).
Factorul eroare de măsură asociat atributelor de suprafaţă constituie alt tip de influenţă asupra
acestora. Sursele specifice de eroare în măsurarea psihologică au fost prezentate în capitolul legat
de fidelitatea măsurării.
Variaţia observată la nivelul atributelor de suprafaţă rezultă în parte influenţei factorilor
comuni şi specifici care adesea se combină cu variaţia erorii de măsură.
Prin analiza factorială se măsoară şi variaţia variabilelor de suprafaţă. Această corelaţie se
datorează influenţei factorilor comuni.
Creatorul analizei factoriale, Charles Spearman (1907) a creat această metodă capabilă să
pună în evidenţă existenţa unui factor general al inteligenţei, prezent în orice tip de sarcină mintală
(şi de aceea numit şi factor g), în combinaţii diferite cu un factor specific numit s. Procedeul
dezvoltat de el, numită metoda componentelor principale, i-a permis să producă dovezi în
favoarea ipotezei sale, numită modelul bifactorial al inteligenţei.
În 1928, Thurstone, a utilizat aceeaşi metodă ortogonală (două axe aflate în unghi drept, adică
independente între ele) dar cu un mic amendament: în loc ca o axă să explice varianţa factorului
major şi cealaltă varianţa reziduală (varianţa rămasă neexplicată de factorul major) el a propus
rotirea celor două axe ortogonale până la obţinerea structurii celei mai simple, ameliorând astfel
gradul de adaptare al datelor la structura factorială. Metoda se mai numeşte şi Varimax deoarece
ea caută ca pe fiecare dintre cele două axe ortogonale varianţa explicată să fie una maximală.
Aceasta face ca fiecare factor să explice un grup de rezultate şi doar atât, căci cu această metodă
nu mai poate fi identificat factorul general, ceea ce pune în discuţie modelul propus de Spearman.
Din punct de vedere matematic ambele metode sunt valide, dar fiecare are propriile sale
limite: una ajută la identificarea factorului general pe care cealaltă îl neagă, dar cealaltă ajută la
mai buna identificare, înţelegere şi numire a factorilor rezultaţi. De aceea utilizarea lor este
corelativă. Analiza factorială permite doar verificarea faptului dacă datele sunt consistente cu
structura factorială postulată. Când datele sunt compatibile cu mai multe structuri latente, analiza
factorială nu ne ajută să alegem una singură, această alegere fundamentându-se pe baza unei teorii.
Într-un demers de validare, analiza factorială ne va aduce deci informaţiile necesare, dar nu şi
suficiente luării unei decizii.
Analiza factorială se sprijină pe două postulate de bază:
• postulatul cauzalităţii factoriale: variabilele observate sunt combinaţii lineare de variabile
cauzale subiacente;
• postulatul parcimoniei: dintre două soluţii factoriale trebuie să o alegem pe cea mai simplă.
Deşi larg acceptată de majoritatea cercetătorilor, nu este posibil de demonstrat că acest postulat
este bine fundamentat şi nici nu este valabil faptul că întotdeauna structura cea mai simplă să
fie mai plauzibilă decât cea mai complexă.
Oricum, în funcţie de tipul de analiză ales ajungem la soluţii factoriale diferite, iar soluţia
finală pe care o alegem nu este una de natură matematică, ci de natură teoretică.
Raportul dintre teorie şi măsurare este cel mai bine surprins prin conceptul de validitate de
construct sau conceptuală, care este chiar inima operaţionalizării variabilelor. A operaţionaliza
înseamnă de fapt a aduce un construct teoretic în situaţia de putea fi surprins şi evidenţiat prin
măsurare. În cazul în care operaţionalizarea unei teorii bune a fost făcută corect, printr-un
instrument corect, capabil să o surprindă, atunci putem formula predicţii sub forma ipotezelor ce
rezultă din teoria respectivă. Dacă ipotezele se verifică, atunci şi teoria şi operaţionalizarea ei sub
forma instrumentului de măsură respectiv sunt în regulă. Dacă însă ipotezele nu se verifică, sunt
posibile două explicaţii alternative:
- instrumentul este bun, dar deoarece teoria nu se verifică, aceasta trebuie schimbată;
- teoria este una valabilă, dar instrumentul nu o operaţionalizează corespunzător şi atunci nu
putem dovedi ce ne-am propus şi deci trebuie schimbat chiar instrumentul de măsură.

4.2.2. Validitatea de conţinut


Pornind de la definiţia dată de Anastasi (1968) testului psihologic ca fiind o măsură obiectivă
şi standardizată a unui „eşantion de comportament”, trebuie făcută din start precizarea că acest
„eşantion de comportament” trebuie să fie reprezentativ. Pentru a verifica acest lucru, este necesară
o analiză logică a conţinutului testului psihologic pentru a determina dacă acoperă un eşantion
reprezentativ de comportamente pe care testul în cauză trebuie să îl măsoare. (Anastasi, 1976). Aşa
cum reprezentativitatea eşantionului de populaţie ales permite generalizări asupra populaţiei–ţintă
pe care o reprezintă, itemii testului, prin maniera lor de construcţie şi de selecţie, pot acoperi într-
o mai mare sau mai mică măsură domeniul sau universul trăsăturii sau al aptitudinii măsurate. În
felul acesta răspunsurile la un eşantion de itemi dintr-un test cu validitate de conţinut sunt
reprezentative pentru răspunsurile pe care subiectul le-ar fi dat dacă întreg universul trăsăturii ar
fi fost măsurat.
Analiza validităţii de conţinut vizează două aspecte:
- un prim aspect care nu solicită metode statistice ci se bazează doar pe raţionamente, motiv
pentru care validitatea de conţinut se mai numeşte şi validitate logică sau raţională; acest tip de
validitate este decisiv în testele educaţionale şi de achiziţii, ridicând probleme specifice
evaluatorului. Se va genera deci o bancă de itemi care să acopere bine întregul domeniu investigat
(cunoştinţele la un obiect şcolar, gradul de elaborare al unor deprinderi, nivelul de cristalizare al
unor atitudini), din care vor fi selecţionaţi şi agregaţi într-un test doar un număr limitat de itemi,
reprezentativi pentru întregul domeniu.

- al doilea aspect se referă la analiza de itemi (calculul indicelui de dificultate şi a indicelui


de discriminare) şi implică câteva formule matematice.

După Gregory (1992), analiza validităţii de conţinut a unui test trebuie să cuprindă:
1. Definirea şi descrierea domeniului de conţinut al testului. Se face în mod asemănător
definirii constructului, singura diferenţă constă doar în gradul de abstractizare şi de aceea
cele două se confundă. Definirea domeniului de conţinut al unui test se face după definirea
constructului, care are un grad mai mare de abstractizare, şi presupune enumerarea tuturor
comportamentelor concrete care pot fi utilizate pentru a măsura caracteristica la care se
referă testul.
2. Analiza itemilor testului pentru a se elimina itemii care nu se referă la domeniul de conţinut
al testului. Se formează un grup de experţi care trebuie să acorde o notă între 1 şi 4 pentru
fiecare item după ce au citit descrierea domeniului de conţinut al testului. Semnificaţia
notelor este: 1 = irelevant, 2 = puţin relevant, 3 = destul de relevant, 4 = foarte relevant.
Vor fi reţinuţi doar itemii pe care majoritatea experţilor i-a notat cu nota 3 sau 4.
3. Compararea structurii testului cu domeniul de conţinut pentru a decide dacă itemii acoperă
toate aspectele domeniului şi dacă sunt proporţionali ca număr cu mărimea şi importanţa
fiecărui aspect.

Reproducem (după Suzana Urbina, 2009) o ilustrare a erorii de eșantionare a conținutului


care rezultă din construirea greșită a testului. Autoarea propune cazul unui test educațional destinat
să evalueze tot materialul de învățat structurat în cinci capitol ale unui manual, test elaborat de un
cadru didactic pornind doar de la conținutul a trei capitole. Presupunând că toți studenții au studiat
doar trei capitol din cinci (deci stapânesc 60 % din materialul pe care îl aveau de parcurs), scorurile
lor reale ar trebui să aproximeze acest procent (deci notele obținute la examen ar trebui să fie
aproximativ aceleași). În realitate, consecințele eșantionării inadecvate de către professor vor fi
următoarele:

1. elevii care au studiat doar cele trei capitole din care a fost extras conținutul testului vor obține
aproape o notă maximă (vor răspunde aproape 100% la toate înrebările);

2. cei care s-au concentrat pe două capitole dintre cele selectate de cadrul didactic și pe unul din
cele neselectate vor avea un procentaj de reușită de 67%

3. cei care au avut „proasta inspirație„ de a se concentra doar pe unul din cele trei capitol
selectate și pe cele două dintre capitolele neincluse în test, vor avea un procent de reușită de
33%.

Discrepanțele dintre scorurile obținute și nivelul real de stăpânire a materialului reprezintă


eroarea de eșantionare a conținutului care va determina diferențe foarte mari între notele obținute
de studenți.
Deoarece analizează doar itemii din punctul de vedere al reprezentativităţii şi relevanţei
conţinutului lor, validitatea relativă la conţinut nu reprezintă o validare în sensul definiţiei date de
,,corectitudinea inferenţelor pe care le putem face pornind de la scorurile testului”. Testul poate
doar să pară valid dar de fapt să măsoare altceva decât îşi propune.
Pentru a da validitate de conţinut unui test, constructorul se angajează într-un proces de
durată, ce presupune o foarte bună cunoaştere a domeniului, raţionament logic, intuiţie şi
perseverenţă, căci itemii trebuie continuu revizuiţi. De aceea putem spune că dintre formele
fundamentale de validitate, cea de conţinut este singura care are o susţinere mai degrabă logică
decât statistică.
Totuşi, al doilea aspect al validităţii relative la conţinut, analiza indicelui de dificultate şi a
celui de discriminare a itemilor ne demonstrează matematic dacă un item este bun sau slab, dacă
cunoştinţele subiectului au rămas la un nivel general sau dacă au coborât până la detalii unde
subiectul poate să aprecieze diferenţele de nuanţă.
Întrebări:

1. Care este diferența fintre fidelitate și validitate? O probă psihologică poate fi fidelă fără a
fi validă?
2. Prin ce metode statistice se poate stabili că un test are validitate de construct? O singură
dovadă obținută printr-o singură metodă este suficientă pentru a putea afirma că un test/chestionar
are validitate de construct?
3. Ce înseamnă definirea domeniului de conținut al testului și prin ce se deosebește de
definirea constructului?
4. Dacă ați avut o astfel de experiență, dați exemplu de o situație de eroare de eșantionare a
conținutului unui test/teză/examen pe care l-ați susținut precizând în ce a constat această eroare și
cum v-a afectat nota (pozitiv sau negativ).

S-ar putea să vă placă și