Sunteți pe pagina 1din 22

U2.3.

Problematica general a fidelitii testelor


Cu toate problemele pe care msurarea le pune n psihologie, preocuparea pentru acurateea
instrumentelor utilizate n sens metric a generat standarde extrem de exigente i de sofisticate.
Plecnd de la Spearman (1904), Thorndike (1904), Thurstone (1936), Kuder i Richardson (1937)
i pn la Cronbach (1972, 1989) i Bentler (1990, 1991), a existat o linie de evoluie continu n
dezvoltarea unor teorii tot mai elaborate despre fidelitatea probelor psihometrice.
S ne reamintim...
Teoria clasic asupra fidelitii testelor este construit n jurul erorii
standard de msurare care plec de la ideea c fiecare persoan
testat ar avea un scor adevrat, care ar fi obinut dac aceast
eroare nu ar exista. Deci scorul observat (O) este alctuit din
scorul adevrat (A), la care se adaug eroarea de msurare (E):
O=A+E

O alt supoziie a teoriei clasice a testului este c aceast eroare este


una aleatoare, deci scorul adevrat va fi media unei distribuii n
care dispersia reprezint erorile aleatoare de msurare. Cum
aceste distribuii pot avea dispersii mai largi sau mai nguste,
nseamn c i erorile de msurare vor fi mai mari sau mai mici.
n felul acesta teoria clasic a folosit abaterea standard a erorilor
ca msur de baz a erorii de msurare, numit i SEM1.

Fidelitatea unui set de scoruri este exprimat de un numr zecimal cuprins ntre 0,00 i
1,00, indicnd absena fidelitii, respectiv fidelitatea perfect. Deoarece nu poate fi determinat
direct, fidelitatea se estimeaz prin analiza efectelor variatelor condiii de administrare i a
coninutului testului asupra scorurilor finale. Ea va fi influenat doar de erorile nesistematice care
vor avea diferite efecte asupra celor examinai. Fiecare din multiplele metode de estimare a
fidelitii va lua n calcul diferitele condiii ce pot produce asemenea schimbri nesistematice n
scorul testului, ce vor afecta n consecin mrimea erorii de msurare. n funcie de condiiile
concrete n care a fost administrat testul i n funcie de ceea ce acesta msoar, se calculeaz unul
sau mai muli coeficieni de corelaie ca o aproximare a fidelitii testului.

U2.4. Fidelitatea test-retest


Numit i coeficient de stabilitate, acesta este obinut prin corelarea scorurilor obinute de
un grup de persoane la o administrare a testului cu scorurile nregistrate la o administrare ulterioar

1
SEM = Standard Error of Measurement, adic eroarea standard a msurtorii.
a acestuia, dup un interval de timp. Procedeul ncearc determinarea erorilor legate de condiiile
de aplicare. Cum testul aplicat este acelai, inconstana scorurilor nu poate fi imputat itemilor si,
ci diferenei dintre condiiile de aplicare, cu att mai mari cu ct intervalul dintre testretest este
mai lung (luni sau ani). Aceasta presupune ns c trstura msurat este ea nsi stabil n timp,
deci procedeul nu este adecvat pentru unele probe cum sunt tehnicile proiective de exemplu, dar
nici pentru chestionarele de motivaii, opinii, dispoziii afective sau sntate.
Deoarece pot interveni efectele practicii (unele abiliti se mbuntesc prin exerciiu) sau
ale nvrii (coninuturile testului pot fi memorate spre a fi rezolvate ulterior), se pune problema
alegerii atente a intervalului dintre cele dou examinri. Aceste efecte sunt mai accentuate pentru
intervalele scurte (de ore sau zile), dar un interval mai lung are dezavantajul de a produce
modificri n chiar structura aptitudinii prin efectul de cretere sau de maturare, foarte evident mai
ales la testele educaionale. Intervalul optim pentru retest pare a fi de cteva sptmni pn la o
lun. Acolo unde este posibil este recomandabil s se calculeze coeficieni de fidelitate pentru
intervale de timp diferite (de sptmni, luni sau ani), ceea ce va oferi o informaie mult mai
nuanat legat de stabilitatea temporal a constructului msurat.

U2.5. Coeficientul formelor parale


Memorarea testelor nu d o eroare sistematic, deoarece proporia itemilor pe care subiecii
i-i reamintesc dup o perioad de timp este diferit de la individ la individ, ceea ce are ca efect
descreterea corelaiei test-retest. Pentru depirea acestei surse nesistematice de eroare se poate
utiliza procedeul formelor paralele prin calcularea aa-numitului coeficient de echivalen, un alt
indicator al fidelitii. Pentru a msura acelai atribut, o form paralel a unui test trebuie s fie
construit n acelai mod ca i prima variant. Ele vor fi considerate forme paralele doar pentru c
utilizeaz itemi formulai diferit, dar procedeul de generare i selecie a itemilor destinai unui
anumit nivel de dificultate este acelai, cci ambele forme trebuie s msoare acelai construct, n
aceeai manier. Formele paralele pot fi aplicate chiar i n aceeai zi, caz n care singura surs de
diferen dintre scorurile la cele dou forme este eroarea aleatoare a diferenei dintre itemii testului.
O procedur mai rafinat utilizat este aceea de a aplica unei jumti din populaie forma A a
testului i celeilalte jumti forma paralel B, urmnd ca dup o perioad de timp aceluiai
eantion s i se aplice tot ambele forme, dar de data aceasta primei jumti forma B iar celei de a
doua jumti forma A. Coeficientul de corelaie ce rezult n urma acestui procedeu se numete
coeficient de stabilitate i echivalen, pentru c ia simultan n calcul, ca surse de eroare, att
itemii testului, ct i factorul timp.
Exemplu
Chestionarul de personalitate HSPQ al lui Cattell are dou forme paralele, A i B,
generate n acelai fel i msurnd aceleai constructe psihologice. Prin urmare
este posibil s calculm un coeficient de stabilitate i echivalen pentru cele dou
forme, utiliznd un interval de la dou sptmni pn la o lun ntre cele dou
testri.

U2.6. Coeficienii de consisten intern


Din cauza costurilor de construcie ridicate, nu toate testele au forme echivalente, de aceea
se folosete o cale mai puin direct de determinare a fidelitii: cea a consistenei interne, ce
include metoda njumtirii (splithalf) a lui Spearman, formulele Kuder-Richardson i
coeficientul alfa ( ) al lui Cronbach, care nu trebuie considerai echivaleni cu coeficienii de
fidelitate obinui prin metoda testretest sau prin metoda formelor paralele.

U2.6.1. Metoda njumtirii (splithalf)


n englez, to split nseamn a despica, iar half, jumtate, de unde i numele metodei,
care poate fi tradus prin njumtire. ntr-un test omogen, toi itemii msoar (n diverse grade)
acelai construct, fiind deci posibil s fie construite dou jumti relativ echivalente pentru a le
pune ulterior n corelaie. Cele dou jumti pot fi obinute n diverse maniere, cum ar fi: prima
parte a testului i a doua sa parte, sau subteste ce ar rezulta din reunirea tuturor itemilor cu numr
par i cu numr impar (tehnica parimpar), sau oricare alt procedeu, chiar i aleator, de a genera
jumti. Problema tehnic spinoas este aceea c jumtile trebuie s fie echivalente, ceea ce n
primul exemplu nu se ntmpl: n cele mai multe teste de aptitudini, itemii dificili sunt plasai n
a doua parte a probei. Chiar i tehnica parimpar este aplicabil doar parial pentru c, dei n
multe teste itemii sunt aranjai n ordinea cresctoare a dificultii, sunt greu de gsit cte doi itemi
perfect echivaleni din acest punct de vedere, pentru a putea compune cele dou jumti. n plus,
n unele teste, anumii itemi sunt folosii pentru a-i introduce pe alii, adic nu sunt independeni
(sunt itemi legai).

U2.6.3. Coeficientul alfa al lui Cronbach


Formula KR20 este o foarte valoroas procedur de estimare a consistenei interne a unui
test. Cu toate acestea, exist situaii n care ea nu este potrivit, iar acestea apar atunci cnd testul
nu a fost scorat n termeni de adevratfas, sau zerounu, deoarece formula se bazeaz pe
cunoaterea proporiei n care subiecii au rezolvat corect fiecare item. Unele chestionare de opinii,
atitudini sau valori sunt elaborate nu n termeni dihotomici, ci presupun o scar a gradului de
acorddezacord sau atracierespingere. n aceast situaie, Cronbach (1951) a elaborat o
procedur mai general de estimare a fidelitii, aa-numitul coeficient alfa.
Kaplan i Saccuzzo (1993) sesizeaz foarte ntemeiat c toate msurile care evalueaz
consistena intern determin de fapt gradul n care fiecare item diferit msoar aceeai trstur
sau abilitate. Acest lucru presupune implicit c testul este omogen, n caz contrar acesta neavnd
consisten intern ridicat. Pentru testele neomogene, procedeul cel mai indicat este efectuarea
prealabil a unei analize factoriale, prin care se vor putea submpri itemii pe grupe omogene
(factori), subtestele ce rezult avnd fiecare o consisten intern ridicat, dar fiind relativ
independente unul n raport cu celelalte, ca n cazul subscalelor testului de prsonalitate 16 PF
Cattell. Aiken (1997) sesizeaz de asemenea c cele trei procedee de determinare a fidelitii
amintite anterior supraestimeaz valoarea acesteia pentru testele n care este implicat viteza
execuiei. n acest caz procedurile de apreciere a fidelitii trebuie modificate, recomandarea fcut
fiind aceea de a administra cele dou jumti ale testului n momente diferite, dar cu limit de
timp egal. Dup aceasta se calculeaz fidelitatea, operndu-se corecia ei prin formula Spearman
Brown.

U2.6.4. Fidelitatea interscoreri


Majoritatea testelor de aptitudini, de performan i de personalitate au proceduri de scorare
standardizate, aa c nu va fi nici o problem n privina echivalenei scorurilor obinute de ctre
persoane diferite, devreme ce aceste proceduri de apreciere pot fi ncredinate mainilor automate
de scorare sau computerului. Tehnicile proiective, judecile evaluativapreciative, evaluarea unor
produse complexe ale activitii (desene, mostre de scris, obiecte manufacturate etc.) sau ratingul
personalitii include, prin natura lucrurilor, o doz crescut de subiectivitate. n acest caz trebuie
s se evalueze gradul de intervenie n apreciere al subiectivitii, determinnd fidelitatea
interscoreri sau interevaluatori prin calculul corelaiei dintre seturile de scoruri acordate de
evaluatori diferii, unui numr determinat de examinai. Se poate apela i la metoda mai muli
examinatori un singur examinat, sau mai muli examinatori mai muli examinai, procedee
care culeg coeficieni de fidelitate intraclas, sau de concordan (cum ar fi coeficientul tau al
lui Kendall, vezi Radu et al., 1991), pentru care exist programe speciale de calculator.

Cinci tehnicieni de la o coal de tehnic dentar evalueaz pentru examenul de


finalizare a studiilor dou tipuri de produse ale absolvenilor: dini sculptai n
ipsos (prin eliminare de material) i dini modelai n cear (prin adugare de
material). Un psiholog aplic n paralel o baterie de teste de aptitudini vizuo-
spaial-motrice pentru toi absolvenii. Ce tipuri de fidelitate pot fi determinate
pentru cele dou modaliti de evaluare folosite de cei cinci tehnicieni separat,
apoi combinat cu examenul psihologic? Argumentai rspunsul furnizat.

U2.7. Condiii pentru determinarea fidelitii


S ne reamintim...
Pentru ca estimarea fidelitii s fie ct mai precis, trebuie
ndeplinite cteva condiii (Traub, 1944, apud Albu, 1998):
Eantionul s fie ct mai mare, pentru a reduce eroarea standard a
repartiiei, care este invers proporional cu rdcina ptrat din
numrul subiecilor ce compun eantionul.
Eantionul s fie reprezentativ pentru populaia creia i este destinat
testul, avnd acelai grad de eterogenitate, deoarece omogenitatea
diminueaz valoarea fidelitii.
Msurtorile s fie independente ntre ele, astfel nct msurarea de la
un examinator s nu o influeneze pe a altuia, iar dac examenul este
colectiv, s nu se poat tria prin copiere. Independena msurtorilor
cere ca persoanelor supuse la testretest s nu li se dea informaii despre
rezultatele examinrii precedente, iar itemii s nu se condiioneze
reciproc.
Toate aspectele de procedur n test i retest sau la formele paralele
trebuie s fie identice.

Creterea nivelului de fidelitate a unui test pn la limita dorit sau cerut de situaia de
utilizare concret este posibil prin creterea numrului de itemi (care trebuie s fie de acelai
format i s msoare aceeai trstur sau acelai construct). Decizia aceasta angajeaz un proces
lung i costisitor, pentru c testul nou generat trebuie reevaluat de la nceput i uneori se dovedete
a fi sub nivelul de fidelitate ateptat.
Ca o concluzie a acestor consideraii despre fidelitatea testelor, se relev faptul c aceasta
este mai bun pentru teste unidimensionale i cu numr mai mare de itemi, ct i pentru testele
cognitive i c ea angajeaz un studiu analitic al itemilor (analiza de itemi) pentru a determina cu
exactitate fora lor de discriminare. n multe situaii analiza factorial este metoda cea mai eficient
prin care se pot construi subteste omogene i unidimensionale. Fidelitatea este una din
fundamentrile de baz ale cercetrilor asupra comportamentului. Dac un test nu este fidel, nu va
fi posibil s demonstrm c el are vreun neles, afirm Kaplan i Saccuzzo (1993, p. 131).
Aadar, dei validitatea pare a fi o caracteristic psihometric mai important, din punct de
vedere tehnic studiul ei poate ncepe numai cu teste care i dovedesc o fidelitate minim
acceptabil, care depinde de scopul n care ele vor fi utilizate.
Factori care influenteaza fidelitatea testelor
U3.1. Introducere
Dincolo de condiiile bazale necesare pentru determinare corect a fidelitii testelor
psihometrice au fost evideniate o mulime de factori adiionali care pot interveni n
aceast problem. Unii dintre aceti factori sunt extrinseci testului, alii in efectiv
de structura i lungimea acestuia. Asfel, fidelitatea unui test este n strns legtur
cu mrimea i gradul de reprezentativitate a eantionului, cu ntinderea diferenelor
individuale, cu lungimea i dificultatea testului cercetat. Efectele acestor factori
externi i interni se regsesc n erorile de msurare, cum sunt eroarea standard a
msurtorii i eroarea tip a estimrii. Cunoaterea ambelor tipuri de erori este foarte
util, fie prin faptul c ele fundamenteaz msurile de cretere a fidelitii unui test,
fie c fac posibil construirea intervalelor de ncredere necesare interpretrii mai
acurate a scorurilor testelor psihometrice.

U.3.3. ntinderea diferenelor individuale


Deoarece estimarea fidelitii rezult din calculul corelaiei r Pearson, limitrile statistice
ale acestui coeficient de corelaie se repercuteaz i asupra coeficientului de fidelitate. Astfel, r
este calculat pentru variana total a testului ceea ce este o condiie necesar, dar nu i suficient
pentru determinarea fidelitii. Atunci cnd se produce o reducere sau o cretere a ambitusului
scorurilor individuale, variabilitatea de ansamblu a testului scade sau crete i ea. Prin aceasta,
corelaia dintre variabile i implicit fidelitatea testului scade sau crete n mod artificial,
diminund ansa de a determina cu acuratee aceast caracteristic a testului. Astfel, dac n faza
de studiu pilot se utilizeaz un eantion care are o varian mai mic dect populaia general,
fidelitatea testului va fi subestimat (va fi mai mic dect dac eantionul ar fi fost reprezentativ).

Exemple
Aplicarea testului pe o categorie populaional foarte omogen (clase de elit sau
de subdotai intelectual, clase vocaionale etc.) ar putea furniza o corelaie mai
mic dect cea existent la clasele normale, unde extremele (subdotai, supradotai
intelectual) sunt reprezentate normal.
Variana i implicit fidelitatea poate fi crescut n mod artificial prin folosirea
de eantioane cu grad mare de eterogenitate. Agregarea ntr-un eantion comun a
unor clase de elit (supradotai), normale i de integrare (subdotai) va accentua
mrimea corelaiei, ca i reunirea n acelai eantion a unor niveluri de pregtire
colar aflate la mare distan unele de altele.
U.3.4. Lungimea unui test
Teoria eantionajului demonstreaz faptul c, cu ct un eantion este mai mare, cu att mai
mult estimarea caracteristicilor populaiei din care acesta a fost extras este mai exact. n mod
similar, cu ct numrul de itemi ai unui test este mai mare, cu att mai bine este msurat constructul
sau domeniul investigat, i aceasta deoarece suma erorilor aleatorii tinde tot mai mult spre zero.

U3.5. Dificultatea testului


Corelaia dintre dou teste tinde s fie maxim doar atunci cnd distribuiile celor dou
variabile au acelai tip de asimetrie. Aa cum am artat n capitolul anterior, n procesul formrii
unei deprinderi aceasta poate avea o asimetrie pozitiv n faza iniial (testul este prea greu) i una
negativ n faza final (testul devine prea uor), trecnd printr-o faz intermediar unde exist
simetrie a distribuiei scorurilor. Asimetriile fiind n direcii opuse, cea mai mic fidelitate a
testului va fi corelarea dintre faza iniial i faza final, dup care corelarea dintre faza intermediar
i celelalte dou faze, iniial sau final. Schimbarea formei distribuiei poate fi principala cauz a
unei fidelitai mici, prin faptul c un test a devenit mai uor la o a doua aplicare, dnd o curb
asimetric negativ, ceea ce presupune contaminarea rezultatelor ca efect al practicii i nvrii. n
consecin, verificarea formei distribuiei scorurilor pentru cele dou aplicri devine obligatorie.

U3.6. Testele cu limit de timp


Multe teste de cunostine sau de aptitudini conserv primatul gradrii dificultii itemilor,
de la cei mai uori la nceputul testului (pentru creterea ncrederii n sine), ctre cei mai dificili
spre sfritul acestuia (pentru a crete puterea diagnostic a instrumentului n zona vrstelor mari
ori a supradotrii). Dac testul are limit de timp, itemii dificili nici mcar nu vor fi abordai de
majoritatea subiecilor, fiind scorai cu zero i la prima aplicare, i la cea de a doua. Acest fapt va
crea o cretere artificial a corelaiei prin care se pune n eviden fidelitatea, deoarece vor intra n
corelaie multe perechi de rezultate identice (0 - 0).
Inflaia fidelitii poate crea imaginea distorsionat a unui test cu itemi ce vor aprea ca
mai omogeni dect sunt de fapt n realitate. De fapt, la testele de vitez nu toate formele de
determinare a fidelitii sunt afectate. n timp ce n cazul jumtii vii (split-half) aceasta va fi
afectat (itemii scorai zero se distribuie aproximativ egal n cele dou jumti ale testului,
crescnd artificial fidelitatea), consistena intern prin indicele alfa al lui Cronbach sau prin metoda
test-retest nu va fi afectat semnificativ n acest caz.
Pentru a determina totui i celelalte forme de fidelitate se dau testul i retestul cu limita
de timp convenit de autor, se marcheaz ultimul item (de aceea itemii trebuie pasai n ordine, i
nu pe srite) apoi se continu pn la capt testul, fr limit de timp. Scorurile din prima
categorie vor servi pentru determinarea mediilor, a abaterilor standard i a formei distribuiei,
necesare scopurilor avute n vedere (cercetare, crearea de etaloane), n timp ce scorurile brute
obinute fr limit de timp vor da o mai bun expresie a fidelitii prin metodele split-half i alfa
Cronbach.

Exemple
La Testul Cuburilor, aplicabil de la 5 ani la vrsta adult, fiecare pattern are o
limit de timp, mai mic iniial i mai mare pentru modelele mai complexe. Limita
de timp nu poate fi modificat pentru c ar aprea un masiv efect de nvare. Mai
mult, proba se oprete automat dup trei eecuri consecutive. n aceast situaie
este de preferat determinarea fidelitii testului doar pentru vrstele mari, unde
marea majoritatea participanilor rezolv integral fiecare model, cea care face
diferena fiind rapiditatea execuiei.

U3.7. Fidelitatea i erorile de msurare


Deoarece fidelitatea nu exprim valoarea preciziei msurtorii n aceleai uniti ca i
scorul total la test (exprimat n note standard), uneori ea este mai greu de interpretat. Acesta este
motivul pentru care precizia msurtorii poate fi indicat i sub forma unei erori de interpretare a
scorului la test, care va fi cu att mai mic cu ct eroarea de msurare va fi i ea mai mic. Aceast
zon sau interval de ncredere poate fi determinat n dou maniere: a) se determin eroarea de
msurare (interval de ncredere nuntrul cruia se afl adevratul scor al unui subiect, pentru
niveluri de ncredere specificate); b) se determin eroare de estimare (nivelul de ncredere al
scorului observat dac subiectul ar fi retestat).
U3.8. Interpretarea fidelitii
Rspunsul la ntrebarea Ct de mare trebuie s fie fidelitatea unui test? depinde de
utilitatea practic care se d acestuia.
Fidelitate de 0,700,80 este suficient de bun atunci cnd testul este folosit n scopuri de
cercetare.
Se accept niveluri sczute ale fidelitii atunci cnd testele se utilizeaz pentru a lua decizii
preliminare i niveluri ridicate pentru decizii finale, sau cnd ele sunt folosite pentru
mprirea grupului n subgcategorii, pe baza unor diferene interidividuale mari.
Dac testul servete la compararea grupurilor de persoane ntre ele, coeficienii de fidelitate
de 0,600,70 sunt suficieni, dar cnd testul devine o baz de comparaie ntre persoane
individuale, fidelitatea lui trebuie s fie de la 0,85 n sus.
Cnd se iau decizii importante pe baz de teste, prin care se mpart persoanele n categorii,
n virtutea unor diferene mici (ca n selecia profesional), fidelitatea trebuie s fie de peste
0,90.
Cnd decizia privete destinul unei persoane, fidelitatea testului trebuie s fie de cel puin
0,95.
Testele cognitive, i n special cele de inteligen, au de regul o fidelitate foarte mare
(peste 0,90), n timp ce chestionarele de personalitate rareori depesc 0,80. Aplicate colectiv,
chiar i testele cognitive furnizeaz coeficieni de fidelitate mai sczui (n jur de 0,80). Testele
cotate subiectiv, ce msoar aptitudini, i testele de cunotine (educaionale) rareori depesc
valori ale fidelitii de 0,80 (Traub, 1944). Testele cu alegere multipl, utilizate colectiv, sunt
considerate a avea o fidelitate bun cnd aceasta atinge 0,75.

U3.9. Generalizabilitatea
Potrivit paradigmei clasice relativ la fidelitate, O = A+E, prezentat n partea introductiv
a capitolului anterior, fidelitatea unui instrument psihometric este n funcie de ntinderea
spectrului diferenelor individuale, de lungimea testului nsui, de limita de timp acordat i de
dificultatea testului. Cu toate acestea condiiile de observare i de msurare sunt mult mai
complexe dect cele enumerate anterior, ceea ce a condus la conturarea unei noiuni noi i anume
cea de generalizabilitate. Aceasta presupune studiul fidelitii n familii de situaii similare, ceea
ce face ca scorul adevrat (A, din formula de mai sus) s fie nlocuit cu termenul de univers al
scorului ateptat de la un subiect, ntr-un anumit ansamblu de condiii de observare i de msurare.
Teoria generalizabilitii a fost elaborat n 1963 de ctre Cronbach, Gleser i Rajaratnam
cu scopul de a reuni ntr-un concept unitar diferitele definiii ale fidelitii. Astfel, pentru a
cuantifica importana fiecrei surse de varian dintr-o situaie de msurare ei au folosit analiza de
varian. Scorul adevrat i lrgete nelesul pentru c ia n calcul toate observaiile posibile,
mpreun cu erorile aferente rezultate din fluctuaiile de eantionaj legate de momentele de
evaluare, de forma itemilor sau de ecuaia personal a fiecrui evaluator n parte. Din aceast
cauz generalizabilitatea este un concept mai cuprinztor dect cel de fidelitate, cci el descrie
situaia de msurare ntr-un cadru mai complex i mai apropiat de realitate. n esen,
generalizabilitatea indic msura n care un rezultat obinut se poate generaliza n anumite condiii.
Noiunea de univers al scorului se numete astfel pentru c are n vedere fidelitatea
scorurilor ntr-un ntreg univers de condiii care alctuiesc sau definesc tot attea faete ale planului
de observaie. Iat definiia dat universului scorului de Cardinet i Turneur (1985): Universul
scorului unei persoane p, dat ideal, reprezint media scorurilor persoanei p calculat pe toate
observaiile admisibile. Ori observatorul utilizeaz scorul observat, sau o funcie a scorului
observat pentru a estima valoarea universului scorului. El generalizeaz astfel de la eantion ctre
populaia de ansamblu. (op. cit., p. 23).
O paralel cu fidelitatea se impune i pentru generalizabilitate. Dac n primul caz, cu ct
corelaia dintre scorul observat i cel adevrat este mai mare, i deci fidelitatea este mai bun, n
generalizabilitate aceasta este cu att mai mare cu ct scorul observat la un subiect este mai
asemntor cu cel pe care el l-ar fi obinut n ansamblul de condiii pentru care vrem s
generalizm. Cum universul scorului nu poate fi obinut direct, ceea ce ne rmne de fcut este
eantionarea sa. Aici problema cheie este cea legat de rezolvarea unei contradicii:
generalizabilitatea este cu att mai mare cu ct ine sub control mai multe faete ale dispozitivului
de msurare, ceea ce nseamn sporirea numrului de itemi (de teme) investigate, al numrului de
corectori i de grile de corecie, dispozitivul devenind astfel foarte costisitor. Ar trebui gsit deci
un echilibru ntre economicitatea i eficacitatea dispozitivului de msurare, ori pentru aceasta ar
trebui determinat ponderea fiecrei faete a examinrii, doar astfel putnd s le reunim ntr-un
model eficace.
Pentru a ine cont de multitudinea variaiilor ce se produc ntre diversele faete ale unui
dispozitiv de msurare, ca i de diversele interaciuni posibile dintre acestea, studiul
generalizabilitii presupune n mod expres utilizarea analizei de varian.

VALIDITATEA TESTELOR
_________________________________________________________________

U4.1. Introducere
Orice student la psihologie tie c meritele unui test psihologic ncep s fie judecate
prin fidelitate, dar sfresc prin aprecierea validitii sale. Aceasta i datorit faptului
c, n timp ce fidelitatea se judec simplu, prin sumarizarea unor coeficieni de
corelaie, validitatea presupune demersuri interpretative mai complicate i de mai
lung durat. nsui conceptul de validitate este unul evolutiv, aflat n plin
dezvoltare i ... de aceea strnete mult mai mult controvers dect mai stabilul i
mai bine aezatul su vr, fidelitatea (Cronbach, apud Gregory, 1996, p. 106). Spre
deosebire de fidelitate, care este influenat numai de erorile de msurare
nesistematice, validitatea unui test este afectat att de erorile nesistematice, ct i
de cele sistematice (constante). Din aceast cauz, Un test poate s fie fidel, fr a
fi valid, dar nu poate fi valid fr s fie fidel, afirm Aiken (1993, p. 94).
Accepiunea clasic a validitii se refer la gradul n care un test msoar ceea ce
i-a propus s msoare, ceea ce sugereaz c ar exista doar un singur tip de validitate.
Actualmente este unanim acceptat faptul c un test poate avea diferite forme de
validitate, dependente de scopurile specifice n care el a fost utilizat. De aceea ni se
pare de mare actualitate afirmaia lui chiopu (1974) potrivit creia un test este
bidimensional, axat pe doi factori, adic pe diagnoz i pe validarea ei, concepui ca
axele unui sistem de coordonate: n acest sistem axa X reprezint o diagnoz
cuantificabil (test comportamen), axa Y reprezint criteriul de valabilitate al
diagnozei. (p. 156).
n acest sens poate fi neleas sintagma c un test se valideaz continuu. Fcnd o
analogie cu justiia, unde opereaz prezumia de nevinovie (fr dovezi concrete,
cel trimis n instan este nevinovat), Psihologul trebuie s se supun unor reguli
specifice de probare, n stabilirea faptului c un anumit test are o nsemntate
special pentru un scop specific (Aiken, 1997, p. 133). Deci validitatea ar putea fi
definit mai corect ca o extindere progresiv, pe msur ce testul primete noi
utilizri, a cunoaterii noastre n legtur cu ceea ce msoar el de fapt.

U4.3. Validitatea de faad


Aceasta este mai mult o aparen de validitate dect o form de validitate n sens strict,
deoarece ea indic ce pare a msura o prob, i nu ceea ce msoar ea efectiv. Uneori psihologii
raporteaz exact ceea ce observ, fr a interpreta sau generaliza, i atunci intervine tot validitatea
de faad. Chiar dac tehnic ea este slab definit (i de aceea uneori nici nu este analizat de muli
autori), validitatea de faad pare a avea o important funcie practic, deoarece motiveaz subiecii
s accepte mai uor un test nou, sau permite extensia utilizrii instrumentelor spre alte zone dect
cele care le-au consacrat.

Exemple
Adesea spunem c un test are validitate de faad dac itemii lui sunt relaionai
rezonabil cu scopurile percepute ale testului, afirm Kaplan i Saccuzzo (1993,
p. 135). Uneori acest tip de validitate poate contribui la o mai bun valoare de
pia pentru un test.

U4.4. Validitatea relativ la coninut


Aa cum reprezentativitatea eantionului de populaie permite generalizri asupra
populaiei int pe care o reprezint, itemii testului prin maniera lor de construcie i de selecie
pot acoperi ntr-o mai mare sau mai mic msur domeniul sau universul trsturii sau al
aptitudinii msurate. n felul acesta rspunsurile la un eantion de itemi dintr-un test cu validitate
de coninut sunt reprezentative pentru rspunsurile pe care subiectul le-ar fi dat dac ntreg
universul trsturii ar fi fost msurat. Acest tip de validitate este decisiv n testele educaionale i
de achiziii, ridicnd probleme specifice evaluatorului. Se va genera deci o banc sau set de itemi
care s acopere bine ntregul domeniu investigat (cunotinele la un obiect colar, gradul de
elaborare a unor deprinderi, nivelul de cristalizare a unor atitudini), din care vor fi selecionai i
agregai ntr-un test doar un numr limitat de itemi, reprezentativi pentru ntregul domeniu.
Unele date de personalitate, obinute prin chestionare (de opinii, atitudini, interese,
motivaii sau valori), beneficiaz mai mult de acest tip de validitate dect celelalte. n testele de
achiziii itemii sunt creai innd cont simultan de obiectivele, finalitile procesului instructiv, dar
i de mecanismele proceselor cognitive la care se face apel n elaborarea rspunsului la itemi.
Aceasta presupune nc din start prezena experilor care vor judeca i hotr care itemi vor fi
inclui n test. De aceea putem spune c dintre formele fundamentale de validitate, cea de coninut
este singura care are o susinere mai degrab logic, dect statistic.

Exemplu
Pentru a da validitate de coninut unui test, constructorul se angajeaz ntr-un
proces de durat, ce presupune o foarte bun cunoatere a domeniului,
raionament logic, intuiie i perseveren, cci itemii trebuie continuu revizuii.
Pentru a face generalizri ntemeiate plecnd de la scorurile la test, constructorul
trebuie s cunoasc bine toi factorii care ar putea afecta performana subiecilor.

U4.5. Validitatea relativ la criteriu


n acord cu aceast faet a validitii, un test este valid relativ la criteriu dac pe baza lui
se pot lua decizii corecte sau se pot face predicii sau prognoze asupra persoanelor examinate. Un
test este valid dac poate nlocui variabila criteriu n virtutea unor corelaii mari ntre test i aceasta,
astfel nct cunoscnd scorul la test s deducem valoarea variabilei criteriu pentru persoana
examinat.

S ne reamintim...
Dup maniera n care sunt colectate datele la test i la criteriu
distingem dou situaii, care produc dou subcategorii ale
validitii relative la criteriu:
Cnd scorurile la test i la criteriu se obin simultan, este vorba de
validitate concurent.
Cnd ntre obinerea scorurilor la test i cele la criteriu se interpune o
perioad de timp, vorbim de validitate predictiv.

Fiecare dintre aceste tipuri presupune strategii de validare diferite, care vor fi detaliat
analizate n capitolul urmtor. De exemplu, un test de anxietate are validitate concurent dac
scorurile la testul psihologic i gsesc confirmarea, n aceeai perioad de timp, prin diagnosticul
psihiatric. Atunci cnd criteriul se matureaz dup un timp (luni sau ani) i scorurile lui nu pot
fi determinate simultan cu cele de la test, folosim o a doua strategie de validare, cea predictiv. n
selecia profesional, de exemplu, se va calcula coeficientul de corelaie liniar dintre scorurile la
testul aplicat iniial i msuri (exprimate prin note sau calificative) ale performanelor obinute de
aceleai persoane n activitatea sau profesia pentru care au fost selecionate.
Deoarece o funcie fundamental a testului este aceea de a face diagnoza n scopul unei
prognoze (adic faptul de prezice), validitatea predictiv capt o importan special n acest
context. ntruct pentru a determina cu exactitate limitele prediciei msurile la test i cele la
criteriu intr n corelaie, acest fapt impune ca ambele categorii corelate s satisfac standarde
nalte de fidelitate i de validitate. Cu alte cuvinte, o msur criteriu este pertinent dac i ea este
fidel i valid. Acest fapt introduce problema validitii ntr-o relaie circular cu criteriul ales.
Aceasta nseamn c factorii de eroare care afecteaz criteriul vor fi controlai n aceeai manier
ca i predictorii (testele). Atunci cnd controlul lor nu d rezultatele scontate, se poate spori
fidelitatea criteriului, fie lund mai multe eantioane de msurtori ale acestuia (msuri mai dese),
fie adugnd noi tipuri de msuri, incluse ntr-un criteriu compozit, pentru a spori fidelitatea lui n
aceeai manier n care procedm cu un test cruia i adugm itemi suplimentari. O caracteristic
important a criteriului este absena contaminrii, adic necunoaterea rezultatelor la test de ctre
cel care evalueaz msurilecriteriu. Un psiholog va obine independent de diagnosticul medicului
psihiatru scorurile la testul su de anxietate, deci va face o analiz oarb. Prin efectul de halo,
indulgen, predicia pentru sine sau profeia care se automplinete, rezultatele prezise pot fi
produse ntr-o oarecare msur de predictorul nsui, caz n care comparaia nu mai este valid.
Exemple
Havrneanu (2000) apreciaz c cele mai bune msuricriteriu sunt cele care
prezint mai multe avantaje practice, care sunt mai simplu de folosit, mai
disponibile i mai puin costisitoare. Dintre acestea se pot enumera:
msurarea direct a produciei sau a randamentului muncii;
evalurile performanelor angajailor fcute de ctre efii lor sau de ctre
serviciile de personal ale ntreprinderilor.

Msuracriteriu poate aparine unui grup, n sensul c testul care reuete s clasifice
persoanele n grupuri bine precizate, sunt valide. Strategiile de validare predictiv cele mai utilizate
calculeaz fie un indice de eficacitate, fie scoruri de separare a categoriilor, indici de separare a
grupurilor sau indicele de utilitate (vezi Havrneanu, 2000, pp. 113-126). Dintre factorii care
afecteaz validitatea relativ la criteriu, Aiken (1997) indic diferenele de omogenitate ale
grupurilor (validitatea tinde s fie cu att mai mic cu ct grupurile sunt mai eterogene), lungimea
testului (testele mai lungi sunt mai valide) i contaminarea criteriului, de care am amintit deja.
Creterea validitii unui test, n calitatea lui de instrument diagnostic sau prognostic,
presupune costuri ce trebuie atent evaluate, cci uneori metode mai puin costisitoare (observaia,
interviul sau inventarul biografic) pot aduce plusul de informaie necesar n atingerea scopurilor
propuse.

U4.6. Validitatea relativ la construct


Multe dintre testele de personalitate msoar dimensiuni ale acesteia (anxietate, depresie,
nevrotism, motivaie, introversie-extraversie), mai slab definite iniial, dar din ce n ce mai bine
circumscrise, pe msur ce teoriile n domeniu au avansat. Conceptualizrile progresive ale
acestora (dar i ale inteligenei, memoriei, creativitii etc.) au dus la apariia de constructe tot mai
evoluate. Unele teste sunt construite plecnd de la date empirice (ca MMPI sau ca Inventarul de
Personalitate California al lui Gough), altele se origineaz n teorii anterior elaborate oricrei
cercetri empirice (Chestionarele de personalitate Cattell sau Indicatorul Tipologic Myers-
Briggs). Validitatea relativ la construct verific, pe de o parte, dac testul se refer realmente la
constructul pe care vrea s-l msoare, i apoi dac scorurile subiecilor testai reflect corect
mrimea acestui construct la persoanele n cauz.
Strategia determinrii acestui tip de validitate impune un algoritm (Albu, 1998:
Descrierea amnunit a domeniului constructului respectiv (adic a tuturor atributelor ce
au legtur cu acesta i specificarea relaiilor dintre ele), printr-o reea nomologic, pe care
un grup de experi o va evalua pentru a determina nivelul la care ea acoper constructul.
Apoi se realizeaz un model al rezolvrii testului, cu mecanismele teoretice implicate,
pentru a vedea legtura acestuia cu constructul, dar i cu rspunsurile posibile la test. Este
posibil s se constate o bun reprezentare a constructului n test, dar i diverse grade de
subreprezentare (mai ales cnd sarcinile sunt prea grele sau prea uoare).
Se analizeaz consecvena rspunsurilor la itemii testului, adic dac procesele implicate
n rezolvarea acestora acioneaz similar la toi itemii, pe parcursul ntregului test.
Se urmrete dac structura global a scorului la test reflect structura domeniului
constructului msurat. Pentru aceasta se apeleaz la analiza factorial (de unde i numele
de validare factorial), care determin cteva variabile latente numite factori, alctuii din
itemi ce dau scoruri care coreleaz ntre ele, ce acoper variana ntregului test. Se caut
semnificaia acestor variabile, reinndu-se cele care au o mai mare legtur cu constructul,
asigurndu-se o coresponden ntre importana avut n definirea constructului respectiv
i ponderea lor ca itemi n testul final.
Se extind generalizrile acestor prime etape, schimbnd fie populaiile examinate, fie
examinatorul sau contextele de examinare, pentru a vedea dac relaiile sesizate rmn
constante.
n final se caut stabilirea relaiilor dintre testul cercetat i alte tipuri de msurtori sau de
observaii. Testul poate avea o validitate convergent (ntre scorurile sale i alte tipuri de
teste ce msoar acelai construct exist o relaie liniar), sau discriminant (cnd scorurile
la teste nu coreleaz cu teste care se tie c nu msoar constructul respectiv).
Validitatea relativ la construct se mai numete i validitate conceptual, care este cu
siguran tipul de validitate care necesit cea mai mare cantitate de efort n vederea probrii ei
pentru un instrument psihometric. Dei se admite faptul c soarta unei tiine este dependent de
nivelul cuantificrilor sale, adic de capacitatea sa de a msura adecvat ceea ce intr n domeniul
obiectului su de studiu, i reciproca este valabil. Astfel, nu am putea spune nimic concret despre
variabile complexe ca inteligena, memoria, stilurile de evaluare sau cele cognitive dac nu am
avea i posibilitatea s le testm, adic s le supunem msurrii. Dar, pe de alt parte, msurarea
lor este departe de a fi posibil fr o cunoatere teoretic prealabil a acestor constructe.
Exemplu
Raportul dintre teorie i msurare este cel mai bine surprins prin conceptul de
validitate de construct care este chiar elementul cheie al operaionalizrii
variabilelor. A operaionaliza nseamn a aduce un construct teoretic n situaia
de putea fi surprins i evideniat prin msurare. n cazul n care operaionalizarea
unei teorii bune a fost fcut adecvat, printr-un instrument corect elaborat, capabil
s o surprind, atunci putem formula predicii sub forma ipotezelor ce rezult din
teoria respectiv. Dac ipotezele se verific, atunci i teoria, dar i
operaionalizarea ei sub forma instrumentului de msur respectiv sunt n regul.
Dac ipotezele nu se verific, sunt posibile dou explicaii alternative:
instrumentul este bun, dar deoarece teoria nu se verific, aceasta trebuie
schimbat;
teoria este una valabil, dar instrumentul nu o operaionalizeaz corespunztor
i atunci nu putem dovedi ce ne-am propus i deci trebuie schimbat chiar
instrumentul de msur.
De exemplu, cercetrile lui Witkin i ale colaboratorilor si au evideniat mai
mult difereniere i mai mult independen de cmp pentru genul masculin.
Studiile neuropsihologice actuale despre lateralizarea funciilor corticale i
asimetria emisferelor cerebrale indic de asemenea o specializare emisferic mai
accentuat pentru genul masculin, ca i un acces bicerebral la limb pentru genul
feminin, de unde superioritatea brbailor pentru sarcinile spaiale i a femeilor
pentru cele legate de limb i comunicare. Faptul c la un test spaial ca cel al
Cuburile Kohs, bieii obin performane superioare comparativ cu fetele, n timp
ce acestea au performane superioare la un test de inteligen verbal, este
consistent cu teoriile anterior menionate.
n alte situaii se ateapt ca itemii unui test s se organizeze ntr-o ordine progresiv, ceea
ce ar corespunde unei structuri ierarhice, rezultat din chiar dezvoltarea funciei sau abilitii
respective. De exemplu, dac vom operaionaliza teoria psihogenetic piagetian ntr-o scal de
itemi, aceasta va fi una ierarhic, pentru c orice stadiu l nglobeaz pe cel precedent, fcndu-l
posibil pe cel care urmeaz. Validitatea conceptual va fi serios pus la ndoial n cazul n care
un subiect paseaz itemii pentru stadiul operaiilor formale i nu-i trece pe cei din stadiul
operaiilor concrete, fapt care ar contrazice chiar ideea de dezvoltare stadial i ierarhic. n mod
sporadic s-ar putea ntmpla s existe i itemi de acest fel, care vor constitui ns erori.
Se poate deci afirma c rezultatele la acest tip de test sunt reproductibile: pornind de la
scorul total la test, putem s prezicem care itemi vor fi pasai i care vor fi euai. Pentru aceasta
ns trebuie s tim ordinea de dificultate a itemilor, iar aceast ordine s fie aceeai la toi subiecii.
Cazurile (ct mai puine!) n care ierarhia itemilor este nclcat produc erori de reproductibilitate,
cci ele limiteaz posibilitatea prediciei corecte a itemilor care vor fi pasai i al celor ce vor fi
euai.

U4.6.1. Metode corelaionale simple


Aceste metode permit evidenierea faptului dac un test msoar acelai lucru cu un alt test
despre care se tie deja c este o msur valid a constructului respectiv. Acest tip de validitate se
numete validitate convergent. Cnd ns testul respectiv este pus n corelaie cu un alt test care
msoar o aptitudine complet diferit, aceast corelaie trebuie s fie foarte mic i atunci vom
pune n eviden validitatea divergent (sau discriminant). De exemplu, este cu totul de ateptat
ca un test de inteligen s coreleze puternic cu randamentul colar la 12 ani, aa cum menioneaz
i literatura de specialitate, cci cele dou variabile au multe lucruri n comun. Cnd ns testul
nostru coreleaz puternic cu motivaia, cu locus of control sau cu alte variabile ndeprtate, apar
mari suspiciuni n legtur cu ce msoar de fapt testul n cauz.

Prin crearea analizei factoriale, Charles Spearman (1907) a dezvoltat de fapt o metod
capabil s pun n eviden existena unui factor general al inteligenei, prezent n orice tip de
sarcin mintal (i de aceea numit i factor g), n combinaii diferite cu un factor specific numit s.
Procedeul dezvoltat de el, numit metoda componentelor principale, i-a permis s produc dovezi
n favoarea ipotezei sale, numit modelul bifactorial al inteligenei.
n 1928, Thurstone, un creator american de marc n domeniul analizei factoriale, a utilizat
aceeai metod ortogonal (dou axe aflate n unghi drept, adic independente ntre ele) dar cu un
mic amendament: n loc ca o ax s explice variana factorului major i cealalt variana rezidual
(variana rmas neexplicat de factorul major), el a propus rotirea celor dou axe ortogonale pn
la obinerea structurii celei mai simple, ameliornd astfel gradul de adaptare a datelor la structura
factorial. Metoda se mai numete i Varimax deoarece ea caut ca pe fiecare dintre cele dou axe
ortogonale variana explicat s fie una maximal. Aceasta face ca fiecare factor s explice un grup
de rezultate i doar att, cci prin aceast metod nu mai poate fi identificat factorul general, ceea
ce pune n discuie chiar modelul propus de Spearman pentru definirea inteligenei umane. Din
punct de vedere matematic ambele metode sunt valide, dar fiecare are propriile posibiliti i
limite: una ajut la identificarea factorului general, pe care cealalt l neag; cealalt ajut la mai
buna identificare, nelegere i numire a factorilor rezultai. De aceea utilizarea celor dou metode
este corelativ.
Analiza factorial permite doar verificarea faptului dac datele sunt consistente cu structura
factorial postulat. Cnd datele sunt compatibile cu mai multe structuri latente posibile, analiza
factorial nu ne poate ajuta s alegem una singur, aceast alegere fundamentndu-se pe baza unei
teorii prealabil elaborat. ntr-un demers de validare, analiza factorial va aduce deci informaiile
necesare, dar nu i suficiente lurii unei decizii.
Exemple
Analiza factorial pune nu numai probleme de interpretere, ci i cteva
importante probleme metodologice, rezumate mai jos.
Mrimea eantionului: cu ct eantionul pe care se face analiza factorial este
mai mic, cu att mai mult coeficienii de corelaie din matrice pierd din
semnificaia statistic, soluiile factoriale obinute trebuind examinate cu mai
mult pruden. Dei nu poate fi indicat o mrime ideal, cercettorii au czut
de acord cu raportul de 5 la 1 ntre numrul subiecilor din eantion i numrul
variabilelor supuse factorizrii. Dar i acest lucru trebuie luat cu rezerv, pentru
c corelaiile mici (sub 0,30) pun n discuie nu mrimea eentionului, ci chiar
necesitatea desfurrii unei analize factoriale, dup cum corelaiile mai mari
de 0,50 se pot desfura cu rezultate bune i pe eantioane mai mici dect cele
ce ar rezulta din raportul 5/1. Deci, nainte de a efectua o analiz factorial,
obligatoriu vom inspecta cu atenie matricea de intercorelaii a variabilelor
factorizate.
Normalitatea multivariat: aceasta semnific faptul c toate variabilele i toate
combinaiile lor se distribuie normal. Cum nu putem testa toate combinaiile de
variabile, ceea ce ne rmne de fcut este faptul de a aprecia normalitatea
fiecrei variabile n parte din coeficientul de asimetrie i de boltire (skewness i
kurtosis).
Liniaritatea: relaia dintre variabile trebuie s fie liniar, n caz de
curbiliniaritate rezultatele analizei factoriale fiind de pus la ndoial.
Liniaritatea dintre variabile se poate verifica prin scatter-ul cu norul de puncte
pentru fiecare combinaie de cte 2 variabile.

U4.7. Validitatea diferenial


Validitatea unui test este determinat pe ansamblul populaiei pe care el a fost aplicat.
Aceasta ar putea s nsemne faptul c validitatea astfel determinat este una valabil pentru toi
subiecii acestei populaii, postulat care afost tot mai mult pus la ndoial dup anii '70. n felul
acesta s-a ajuns la concluzia c validitatea unui test poate varia nuntrul aceleiai populaii prin
faptul c unii subieci pot aprine unor subgrupuri speciale. De exeemplu, validitatea determinat
pentru un test de lectur poate fi diferit pentru stngaci, ca subpopulaie a grupului total.
Validitatea pentru un test de matematic poate fi afectat n cazul unui grup special, care obine
performane sistematic mai sczute, nu din cauza capacitii de raionament mai sczut a
membrilor acestui subgrup, ci ca urmare a faptului c acetia au o tulburare specific de citit
(dislexie) i neleg cu mai mare dificultatea enunurile itemilor testului.
Aceste constatri conduc la lrgirea cadrului conceptual al validitii nu numai pentru
diferitele utilizri care se dau unui test, ci i pentru diferitele subgrupuri populaionale pe care se
aplic, n raport cu care testul este mai mult sau mai puin valid. Pentru acest tip de validitate
termenul care s-a ncetenit este acela de validitate diferenial iar populaiile care se abat de la
regula general se cheam c sunt biasate (distorsionate).
Studiul acestei forme de validitate este i el foarte complex i rmne ca orice alt form
de validitate un demers doar parial mplinit, adic neterminat. Pentru orice utilizare a unui test
pe un grup nou trebuie s se aduc dovezi c grupul nu este unul biasat. Dar, simpla constatare a
diferenei dintre dou grupuri nu nseman neaprat c unul dintre ele este biasat. Performanele
mai slabe la un test de vocabular ar putea avea ca explicaie i oportunitile de nvare diferite
pentru cele dou grupuri.
Exemplu
Testele ce ar putea pune n eviden diferenele dintre cele dou grupuri pot avea
i o utilitate social, pentru c pot pune n micare aciuni de remediere pentru a
da membrilor fiecrui grup anse egale. Ca pentru toat validitatea n general,
validitatea diferenial se determin tot prin trei procedee, care au i acelai nume:
validitatea de coninut, validitatea relativ la criteriu i validitatea relativ la
construct (sau conceptual). Pentru a nu ngusta prea mult problematica validitii
difereniale, nu vom intra n detalii cu prezentarea sa.

U4.8. Teoria deciziei aplicat la testele psihologice, asociat validitii predictive


Muli psihologi susin c scopul testrii psihologice nu este msurarea n sine, ci msurarea
n serviciul lurii unei decizii optime. Astfel, managerul vrea s tie pe cine s angajeze,
examinatorul pe cine s admit, iar psihiatrul pe cine s interneze. Testele psihologice joac n
mod frecvent un rol important n aceste tipuri de decizii instituionale. Dei n luarea unei decizii
adesea sunt luate n considerare mai multe puncte de separaie a grupurilor, numite i puncte de
tietur (cutoff), pentru a simplica lucrurile vom pleca de la exemplul unui singur test. n realitate,
scorurile la un test se dispun pe ceea ce n statistic numim amplitudinea mprtierii (R = range).
Cu toate acestea este posibil s identificm punctul care desparte jumtatea creia i se prezice
succes de cea creia i se prezice nereuit. S presupunem de asemena c cei crora li s-a prezis
succes au fost i selectai sau angajai ntr-o oarecare proporie, ce poate varia de la 0 la 1, dup
numrul de persoane considerate a fi susceptibile s reueasc n funcie de criteriul de msur
adoptat. Dac procedm foarte reducionist, succesul poate fi mprit ntr-o variabil dihotomic
predicie succes versus predicie eec, n timp ce criteriul prin care se va determina succesul
ulterior poate fi mprit la rndul su n a reuit i a avut eec. Aadar, orice studiu de
validitate predictiv poate produce o matrice cu dou intrri de tipul celei de mai jos.

Performana la criteriu
Predicia la test

A avut succes A avut eec

Va avea succes Predicie corect Fali pozitivi

Va avea eec Fali negativi Predicie corect

Figura 7.2. Rezultatele posibile ale unui test de selecie utilizat pentru a preciza un criteriu-msur.

Dac un test a avut o bun validitate predictiv, atunci diagonala stnga-sus dreapta-jos
se maximizeaz: cele mai multe persoane crora li s-a prezis succes au i avut succes, iar cele mai
multe persoane crora li s-a prezis eec au i euat, deci ambele predicii s-au adeverit. Dar cum
nici un test de selecie nu este un predictor perfect, sunt posibile i celelalte dou situaii: s-a prezis
succes unor persoane care au euat (falii pozitivi), ori s-a prezis eec i acesta nu a avut loc (falii
negativi). Ambele categorii de fali (pozitivi i negativi) sunt considerate n egal msur eecuri
ale prediciei, deoarece ambele au fcut predicii inacurate. Se poate astfel calcula urmtoarea
proporie:
Rata de reuit = reuite / (reuite + eecuri)
n lumea real fals-pozitivii i fals-negativii sunt evitai, dar nu pn la eliminare, pentru c aceasta
ar presupune un test care are o corelaie perfect (r = +1,00) cu criteriul prezis. Cum acest lucru
nu este posibil, ceea ce rmne de fcut pentru a minimiza erorile de decizie este dezvoltarea unor
teste cu o mare valoare predictiv.

Exemple
n luarea deciziilor, adepii teoriei deciziei se sprijin pe dou asumpiuni:
1. Dezvoltarea unei scale de utilitate, astfel nct indicatori importani ai
instituiei s poat fi exprimai n profituri sau pierderi. De exemplu, dac dup
un chestionar de tipul EPI al lui Eysenck, prin care se poate determina i
introversia/extraversia, o companie poate identifica pierderile asociate cu
vnztorul de maini introvert, comparativ cu ctigurile aduse de vnztorul
extravert. Astfel, falii pozitivi sunt cei ce aduc pierderi instituiei (vnd mai
puine maini dect ar fi necesar pentru plata propriului salariu), ca i falii
negativi (cei care, dac ar fi fost ncadrai, ar fi contribuit la creterea profiturilor
companiei). Acesta este un exemplu de operaionalizare a testului i a seleciei pe
o scal de utilitate.
2. n deciziile de selecie instituional strategia cea mai satisfctoare este aceea
de a maximiza ctigul scalei de utilitate i de a minimiza pierderile. Scala trebuie
s rspund la ntrebarea: La ce proporie de selecie se produce cel mai mare
ctig mediu al scalei?

U4.10. Interpretarea coeficienilor de validitate


Pentru c strategiile de validare a unui test sunt att de diverse, nu exist o interpretare
uniform a acestora. n practic ntlnim destul de rar coeficieni mai mari de 0,60, cei mai muli
(considerai satisfctori sau chiar mari) oscilnd ntre 0,30 0,40. Un coeficient de validitate este
semnificativ statistic cnd ansele de a-l obine din ntmplare sunt sub 5 procente. Pentru a fi mai
specifici, vom arta c ptratul unui coeficient de validitate (coeficientul de determinare) indic
procentajul din variabilitatea criteriului pe care ateptm s o tim n avans prin cunoaterea
scorurilor la test.

Exemplu
La o corelaie de 0,60 dintre o baterie de teste i media colar general a unei
clase de elevi, vom ti c 0,60 2 = 0,36, adic 36% din variabilitatea mediei
colare depinde de inteligen, aa cum am msurat-o cu bateria noastr, restul
depinznd de alte cauze, printre care i de factorii de eroare.

Uneori o validitate de 0,30 ar putea nseamna economii de milioane de dolari n orientarea


i selecia profesional, alteori o validitate de 0,40 poate fi nesatisfctoare. Chiar dac chiopu
(1974) apreciaz c o validitate de peste 0,25 face ca testul s dea predicii superioare oricrei
sondri empirice, asociaiile profesionale ale psihologilor din America au furnizat (Standards for
Educational and Psychological Testing, 1985) o list de probleme ce pot aprea n interpretarea
coeficienilor de validitate. Redm mai jos cteva dintre acestea:
Validitatea nu se msoar, ci se deduce. Dei autorul testului trebuie s dea mai muli
coeficieni de validitate, indicnd procedura urmat, utilizarea lui pe alte grupuri, sau n
alte scopuri, necesit studii de validare suplimentare. Aceasta deoarece validitatea testului
depinde simultan de scopul testrii i de populaia creia i se administreaz. Toate aceste
determinri ale validitii care vin din studii ulterioare, desfurate n scopuri specifice i
pe alte eantioane de populaie, vor fi considerate doar dovezi ale unui anumit tip de
validitate.
Studierea validitii testelor angajeaz metode elaborate de analiz (analiza de itemi,
calculul corelaiei, analiza factorial, regresia simpl i multipl) care combinate, dau
strategii de validare mai bine definite. Utilizarea lor se face n funcie de scopul i de
exigenele beneficiarului.
Strategiile de validare se aplic odat cu construirea testului i se repet de cte ori este
nevoie pentru a obine un test bun ca lungime, mod de aplicare, for discriminativ,
uurin n administrare, cotare i interpretare, care alturi de fidelitate i validitate, dau o
imagine mai adecvat despre valoarea sa.
Utilizarea testului impune repetarea periodic a procesului de cercetare a validitii,
ntruct validarea unui test nu se ncheie niciodat, datele nou acumulate din diverse domenii
conducnd la ameliorarea i rafinarea sa, dar nu i la o soluie definitiv. Cu att mai mult se pune
problema relurii studiului validitii unui test atunci cnd i se schimb formatul (prin aplicarea pe
calculator, de exemplu), coninutul, instructajul sau modul de cotare.

U4.11. Rezumat
Valoarea unui test ncepe prin a se judeca plecnd de la fidelitatea sa dar sfrete
prin evaluarea validitii sale.
Validitea unui test un este niciodat pe deplin dovedit. Ea este un proces care un
se ncheie practic niciodat.
Cercetarea validitii este un proces continuu, ce se reia odat cu fiecare
modificarea testului i cu fiecare extensie a utilizrii sale spre noi aplicaii sau
populaii.
Validitatea de faad (ceea ce pare a msura un test) este cea mai slab definit
form de validitate.
Validitatea relativ la coninut indic gradul n care testul acoper domeniul
msurat, fiind definitorie mai ales pentru testele de achiziii i educaionale.
Validitatea relativ la criteriu este cea mai important form de validitate pentru
c exprim msura n care testul poate face predicii acurate.
Dup maniera n care se culeg datele de testare i de criteriu (simultan sau la
distan n timp) se pot identifica validitatea concurent i validitatea predictiv.
Criteriul intr n relaie de circularitate cu testul i de aceea trebuie el nsui s fie
fidel i valid.
Validitatea relativ la construct (numit i conceptual) determin msura n
care o teorie se regsete reflectat ntr-un test. Determinarea ei cere cel mai mare
efort, n acest proces analiza factorial avnd un rol nsemnat.
Acest tip de validitate are legtur cu modul de operaionalizare a variabilelor
pentru a surprinde ct mai corect teoria subiacent.
Formele avansate de determinare a validitii conceptuale o constituie metodele
corelaionale simple, matricile multitrstur-multimetod i studiul trsturilor
latente.
O form special de validitate este cea diferenial.
Teoriea deciziei aplicat la testele psihologice determin aportul practic adus de
acestea n selecie, prin aprecierea gradului de acuratee a prediciei succesului i
eecului (tabelele Taylor-Russell).
Interpretarea validitii nu este uniform i const din aprecierea unui coeficient de
corelaie, totdeauna dependent de circumstanele n care el a fost obinut.

S-ar putea să vă placă și