Sunteți pe pagina 1din 48

Evaluare psihologică – metode psihometrice curs 1

Evaluarea psihologică prin mijloace psihometrice


1. Avantajele evaluării psihologice sistematice

Categoriile şi varietăţile de intervenţii clinice asupra psihicului uman s-au dezvoltat în


ultimul secol într-o manieră exponenţială. Cu toate acestea, cei responsabili de elaborarea lor au
fost preocupaţi cu precădere de fundamentarea lor teoretică – într-un spaţiu al perspectivelor
teoretice extrem de eterogen, variind între abordări consacrate şi „infuzii” de idei excentrice fără
corespondent în alte domenii ale psihologiei – şi mai puţin de testarea lor ştiinţifică. Astfel,
multitudinea de tipuri de intervenţii clinice dezvoltate în diverse arii ale psihologiei are, până
acum, un suport al legitimităţii ştiinţifice destul de firav, existând puţine evaluări sistematice ale
eficienţei lor. În cazul multora, autorii şi avocaţii lor oferă, în textele care le fundamentează,
ilustrări localizate ale efectelor lor pozitive, la nivelul unor pacienţi sau clienţi particulari, în
absenţa unor evaluări ale dinamicii psihologice ale acestora prin mijloace legitimate în
psihologia ştiinţifică. Utilitatea acestor studii de caz cu o metodologie exclusiv clinică este
indiscutabilă, atât în ordinea construcţiei paradigmei de intervenţie – în sensul testării iniţiale a
efectelor sale - cât şi din punct de vedere pedagogic, prezentând publicului interesat maniera
efectivă de punere a ei în practică. Totuşi, rezultatele lor nu pot depăşi nivelul unor „studii –
pilot”, rezultatele lor nu pot fi tratate ca dovezi ultime ale validităţii respectivei abordări, din
moment ce deficienţele de evaluare a fenomenelor psihologice implicate permit intervenţia
mascată a unor potenţiale variabile parazite, ce ar putea fi responsabile de fenomenele observate
„la suprafaţă” de către psiholog.
Evaluările sistematice, prin mijloace psihometrice, sunt utile pentru că oferă informaţii
credibile pe cel puţin două dimensiuni sau direcţii. Pe de o parte, ele ar verifica dacă schimbarea
psihologică a clientului în direcţia dorită este sau nu una reală. Spaţiul profesional al psihologiei
clinice şi psihoterapiei a fost caracterizat multă vreme de o permisivitate periculoasă a graniţelor
şi, ca urmare, de o mare variabilitate a seriorizăţii pregătirii ştiinţifice a celor care practică
intervenţiile clinice (mergând de la profesionişti veritabili la „farseuri”). Ca atare, de multe ori se
clamează eficienţa unor tipuri de intervenţii terapeutice, în scopul atragerii unor noi potenţiali
clienţi sau cel puţin adepţi, a căror fundament ştiinţific este îndoielnic. Comunitatea profesională
şi cea societală – direct interesată de selectarea de servicii psihologice de calitate – sunt însă
lipsite, de multe ori, de mijloace ştiinţifice şi credibile prin care aceste intervenţii să poată fi
ierarhizate. Ca urmare, perpetuând şi profitând şi de mitul că intervenţiile terapeutice sunt
ireductibile la criterii cantitative de eficienţă, din moment ce ele mizează pe dinamica profund
calitativă a relaţiei terapeutice, certificarea competenţei în acest domeniu se face deseori prin
vehicolul vizibilităţii sociale, dependentă de priceperea respectivului psiholog în a-şi promova
serviciile – un criteriu complet în afara sferei de legitimitate reală. În acest context, verificarea
prin mijloace psihometrice, credibile, ale caracterului real al schimbării psihologice ar putea
reprezenta un astfel de mijloc de ierarhizare a ofertelor psihoterapeutice.
În al doilea rând, evaluările sistematice pot indica dacă tratamentul psihoterapeutic
aplicat este cel responsabil pentru schimbare, certificând astfel validitatea intervenţiilor din acest

curs 1 1
Evaluare psihologică – metode psihometrice curs 1

domeniu. O abordare ştiinţifică a traseului psihologic parcurs de client de la intrarea în terapie


până la încheierea ei, incluzând şi mijloace psihometrice, poate elucida dilema pe care se bazează
multe din îndoielile scepticilor cu privire la eficienţa reală a psihoterapiei în general: sursa reală
a schimbării este, în realitate, conţinutul intervenţiei aplicate sau relaţia cu terapeutul? Mai mult,
cât din această schimbare se datorează factorilor fără legătură cu psihoterapia, cum ar fi
modificările din contextul vieţii sale personale, sau dinamicile sale psihologice care s-ar fi
produs chiar şi în absenţa oricărei intervenţii psihoterapeutice?
În contextul psihoterapiei, obiectivul general al creşterii legitimităţii ştiinţifice a acesteia
este urmărit prin mai multe roluri ale evaluării psihometrice. Pe de o parte, ea poate certifica
validitatea afirmaţiilor terapeutului cu privire la schimbările psihologice ale clientului, prin
simpla comparaţie între profilul său psihologic pe dimensiunile relevante, supuse intervenţiei
realizate (de exemplu, anxietate), înainte şi după aceasta. Pe de altă parte, ea poate ghida
construcţia şi aplicarea intervenţiei terapeutice, îndeplinind un rol de suport permanent, în mai
multe privinţe:
• poate indica probabilitatea cu care diverse abordări ar putea avea efectul scontat, sau
efecte negative, nedorite; de exemplu, decizia de utilizare a hipnozei poate fi luată în funcţie de
profilul psihologic al clientului, derivat din evaluări psihometrice, pe anumite dimensiuni
psihologice ce ţin de sugestibilitate.
• poate sugera anumite dimensiuni psihologice sensibile, relevante pentru problema
psihologică curentă a individului. De exemplu, prin utilizarea unei scale de evaluare a percepţiei
adulţilor asupra modului în care au fost crescuţi de părinţii lor (cum ar fi scala EMBU, ce include
14 aspecte ale comportamentului parental – abuziv, inductor de vinovăţie, stimulativ, etc., reduse
la patru factori majori – respingere, căldură emoţională, supraprotecţie şi favorizare - Arrindell et
al., 1994) psihologul poate depista anumite elemente problematice în relaţia cu părinţii, ce pot
deveni – în funcţie de gradul de conexiune dintre ele şi problema psihologică curentă - ca „centre
de greutate” în construcţia intervenţiei sale terapeutice asupra acestei probleme.
• poate sonda în profunzime cu economie de timp. Dată fiind complexitatea psihicului
uman, numărul de astfel de eventuale „piste” psihologice (elemente relevante pentru problemă şi
pentru scopul terapeutic) este uriaş. Utilizarea de instrumente standardizate oferă avantajul
suplimentar al unor profiluri psihologice detaliate, de profunzime, relevând tiparul psihologic în
care se încadrează un individ nu doar la nivel general, al conceptul global relevant, ci şi la cel al
poziţiei sale pe diversele dimensiuni ale acestuia. Suportul teoretic pe baza căruia a fost construit
instrumentul şi rezultatele studiilor anterioare de validare ale acestuia atestă atât importanţa
acestor dimensiuni (în sensul că ele acoperă într-adevăr segmente separate ale semnificatiei
acelui concept şi nu sunt etichete goale de conţinut), cât şi specificitatea lor (în sensul
distinctivităţii uneia în raport cu celelalte). Fundamentarea instrumentelor standardizate de
evaluare psihologică pe astfel de studii ştiinţifice face ca informaţiile pe care ele le oferă într-un
timp relativ scurt şi credibilitatea acestor informaţii să poată fi obţinute prin alte metode (cum ar
fi interviul clinic sau observaţia) doar în urma unor investiţii considerabile de timp şi efort de
elaborare ştiinţifică.

curs 1 2
Evaluare psihologică – metode psihometrice curs 1

• deoarece evaluarea sistematică a individului oferă feed-back asupra efectelor


tratamentului, ea poate indica momentele în care sunt necesare schimbări pe parcursul acestuia,
facilitând adaptarea strategiei terapeutice la dinamica psihologică a pacientului.
Utilizarea evaluărilor sistematice nu este, însă, nici pe departe un fenomen generalizat în
comunitatea psihoterapiei. O parte din această reticenţă vine din complexitatea informaţiilor de
natură psihometrică pe care psihologul ar trebui să le poată utiliza în selecţia şi construcţia
instrumentelor standardizate, ce pot creea impresia unei matematizări excesive a psihologiei,
contrastând cu caracterul profund „umanist” (în sensul de non-formalizat) al intervenţiilor
psihoterapeutice stereotipe. O altă sursă importantă de reticenţă este înţelegerea practicilor din
acest domeniu ca fiind insularizate în raport cu restul psihologiei şi „protejate” de exigenţele de
ordin ştiinţific ce reglează demersurile teoretice şi de intervenţie din aceasta, în virtutea mitului
menţionat anterior – al naturii exclusiv calitative, şi nu cantitative, a intervenţiei
psihoterapeutice. O altă nuanţă a acestei mitologii este aceea că majoritatea problemelor
psihologice nu sunt măsurabile, ci reprezintă manifestări irepetabile, specifice acelui individ. În
realitate, psihologia ştiinţifică admite posibilitatea măsurării oricărui domeniu al psihismului
uman, iar evaluarea psihologică poate avea în vedere nu doar aspectele stabile ale personalităţii –
trăsăturile de personalitate – ci şi stările tranzitorii – care pot fi eliminate din profilul psihologic
al individului (de exemplu, stările depresive) sau cele variabile ca nivel (de exemplu, stima de
sine). La modul general, psihologia clinică poate utiliza evaluările prin intermediul
instrumentelor standardizate pentru a obţine informaţii cu un nivel cel puţin satisfăcător de
validitate cu privire la caracteristicile personale de interes, comportamentele desfăşurate în mod
uzual de individ, cogniţiile şi emoţiile sale, apreciind în funcţie de ele progresul spre scopurile
terapeutice stabilite împreună cu respectivul individ.

2. Comparaţii între evaluarea sistematică şi cea clinică

În locul evaluărilor sistematice, cei care profesează în psihoterapie aleg de multe ori
evaluarea „clinică”, în sensul fundamentării diagnosticului şi profilului psihologic al pacientului
pe un set de informaţii prelevate prin diverse alte metode (interviuri, observaţie, studiul de caz,
sau chiar altfel de instrumente de evaluare cu o validitate contestată în psihologia contemporană,
cum sunt testele proiective). Combinarea acestor informaţii (şi ponderarea lor în funcţie de
importanţa percepută pe care o deţin) în direcţia inferării dinamicii psihologice şi trăsăturilor
relevante ale individului se face deseori pe baza intuiţiei psihologului, a unui set de reguli de
decizie derivat din experienţa personală cu cazuri similare. O astfel de abordare are avantaje
clare în ceea ce priveşte gradul de control personal al psihologului asupra metodei, respectiv în
cea a uşurinţei de utilizare. Cei care optează pentru acest domeniu profesional sunt de multe ori
seduşi intelectual tocmai de subiectivismul său extrem, de fluiditatea şi creativitatea implicate în
înţelegerea psihicului uman, de relaţia „sufletească” dintre terapeut şi client ghidată cu precădere
de primul pe baza intuiţiilor şi aşteptărilor sale.

curs 1 3
Evaluare psihologică – metode psihometrice curs 1

Totuşi, acest tip de evaluare are un nivel de corectitudine şi eficienţă semnificativ mai
slab în comparaţie cu utilizarea metodelor sistematice, statistice. Tema comparaţiei dintre cele
două abordări nu este deloc una nouă. Încă din 1954, Paul Meehl – un psiholog clinician ce a
insistat pe parcursul carierei sale în favoarea utilizării suportului oferit de statistică de către
colegii săi de breaslă – a sintetizat rezultatele mai multor studii asupra validităţii celor două
abordări, toate indicând faptul că evaluarea sistematică este superioară celei pur clinice.
Cercetările de după acel moment au întărit acest rezultat, majoritatea utilizând drept criteriu al
validităţii corectitudinea predicţiei făcute de reprezentanţii celor două abordări. Opţiunea pentru
acest criteriu este explicabilă prin prisma faptului că el pune în relaţie evaluarea propriu-zisă a
individului cu un set de comportamente pe care psihologul prezice că le va desfăşura în viitor, în
funcţie de caracteristicile psihologice rezultate în urma evaluării. Cu alte cuvinte, el reprezintă un
reper obiectiv de departajare, spre deosebire de diagnosticul în sine, a cărui validitate nu poate fi
evaluată printr-un criteriu obiectiv. Trebuie menţionat că în construcţia instrumentelor
standardizate, acest aspect al predicţiei comportamentale reprezintă o dimensiune obligatorie a
calităţii psihometrice a scalei de evaluare – cea a validităţii de criteriu predictive. Mai mult,
cunoaşterea acestei caracteristici psihometrice a instrumentului oferă psihologului informaţii nu
doar despre relaţia dintre trăsătura măsurată şi un anumit comportament, ci şi cu privire la
probabilitatea ca un anume individ să realizeze acel comportament.
Un exemplu de astfel de studiu de evaluare paralelă a celor două abordări este cel realizat
într-o clinică asociată universităţii din Pittsburgh (Gardner et al., 1996). Sarcina pe care au
realizat-o psihologii (subiecţi ai acestei cercetări) practicanţi ai evaluării de tip clinic, respectiv
sistematic a fost să prezică apariţia comportamentelor violente în cazul fiecăruia dintre cei 784
de pacienţi internaţi în acea clinică în următoarele 6 luni. Indicatorul utilizat pentru a aprecia
corectitudinea prognosticului a fost unul relevant pentru validitatea discriminativă a
instrumentelor din psihologie, şi anume AUC (Area Under the Curve – prezentat într-un curs
ulterior). Rezultatele au arătat că acest indicator a avut valoarea 0,74 pentru predicţia statistică; şi
doar 0,63 pentru cea clinică, adică mult mai apropiat de pragul de 0,5 care corespunde absenţei
totale a corectitudinii predicţiei.
O meta-analiză mai recentă a studiilor de acest tip (Grove et al., 2000) arată faptul că
predicţia statistică a fost mai validă decât cea clinică în 44% din cazurile incluse în studiile
citate, în timp ce predicţia clinică a fost mai validă decât cea statistică doar în 6% din cazuri. În
medie, diferenţa dintre corectitudininea predicţiilor pe baza celor două abordări este de 10%, în
favoarea celei sistematice. Dintre toate sursele de informaţii ce pot fi incluse în evaluarea clinică,
una are o influenţă negativă mai substanţială asupra corectitudinii sale, ea fiind, în acelaşi timp,
şi prototipul acestui tip de abordare; astfel, se pare că predicţia clinică îşi pierde din validitate în
special atunci când evaluarea includea interviuri cu pacienţii, relevând încă o dată diversele
probleme şi limite ale acestei metode.
Un alt rezultat interesant al cercetărilor pe această temă, relevat prin comparaţii între
clinicieni cu grade diverse de experienţă, doctoranzi, studenţi, etc., este acela că nivelul de
experienţă în evaluarea clinică nu influenţează corectitudinea acesteia (Walters et al., 1988). De

curs 1 4
Evaluare psihologică – metode psihometrice curs 1

exemplu, evaluările clinice făcute de profesioniştii în domeniu au acelaşi grad de corectitudine ca


al celor făcute de studenţii la facultăţile de psihologie, indiferent de informaţiile luate în calcul:
interviuri, studii de caz, observaţii comportamentale, teste proiective, răspunsurile pacienţilor la
anumiţi itemi din teste psihometrice, înregistrări video ale şedinţelor de psihoterapie, etc. Cel mai
ilustrativ rezultat pe această temă este cel a două studii (Goldberg, 1959; Robiner, 1978) asupra
interpretării testului Bender – Gestalt, în care psihologii clinicieni au avut un nivel de
corectitudine al evaluărilor egal cu cel al secretarelor lor. Mai mult, unele studii relevă o
corelaţie negativă între experienţă şi validitatea evaluărilor şi recomandărilor clinice (ex: Herman
et al., 1999), explicabil prin intervenţia mai masivă a diverselor deformări cognitive în cazul
psihologilor cu experienţă, prin încrederea lor mai mare în acestea, ce pot afecta corectitudinea
evaluărilor.

3. Surse ale deficienţelor evaluării clinice

Literatura de specialitate enumeră o serie de surse predilecte de probleme ale evaluării


clinice, şi anume:
• Utilizarea de instrumente deficitare de evaluare – cu o validitate redusă – şi reticenţa în
folosirea instrumentelor standardizate, cu calităţi psihometrice validate.
• Lipsa feed-back-ului complet şi corect de la client sau pacient; din cauza relaţiei de
autoritate dintre cei doi parteneri (psihologul şi pacientul), ultimul are tendinţa de a-şi cenzura
feed-back-urile care ar putea sugera deficite în eficienţa intervenţiei aplicate de psiholog
(construită pe baza evaluării din primul moment); un efect similar îl are şi sugestibilitatea
pacientului, care predispune la acceptarea poziţiei psihologului indiferent de corectitudinea sa.
Mai mult, majoritatea dinamicilor psihologice implicate în acest spaţiu al intervenţiei clinice sunt
subtile, dificil de verbalizat pentru pacient.
• Euristicile cognitive, adică deficienţe în procesarea informaţiei de către psiholog pe
parcursul evaluării clinice, facilitate de caracterul ambiguu, polisemantic al informaţiilor pe care
se bazează aceasta. Una dintre cele mai frecvente astfel de erori este iluzia corelaţiei, manifestată
prin credinţa în faptul că două seturi de elemente între care nu există o legătură semnificativă
sunt corelate. În cazul evaluărilor făcute pe baza intuiţiilor psihologului, iluzia corelaţiei se
produce atunci când acesta consideră că există o legătură semnificativă între anumite
caracteristici psihologice şi anumite manifestări comportamentale care sunt stereotipice pentru
ele, fără însă ca această asociere să fie una cu baze ştiinţifice. Un exemplu pe această temă este
un studiu (Chapman & Chapman, 1967) asupra interpretărilor desenelor făcute de subiecţi în
cadrul testului figurii umane („desenul persoanei): în mod frecvent, psihologii participanţi la
studiu au interpretat desenele în care ochii personajelor erau mai mari decât normalul ca fiind un
indiciu al faptului că respectivul subiect este o persoană suspicioasă sau permanent vigilentă, cu
toate că manualul testului nu include o astfel de asociere. Acest exemplu este ilustrativ şi pentru
fenomenul euristicii reprezentativităţii (Tversky & Kahneman, 1972), în sensul că desenul
respectiv este considerat a fi diagnostic pentru acea trăsătură de personalitate şi din cauza

curs 1 5
Evaluare psihologică – metode psihometrice curs 1

faptului că el este reprezentativ în gândirea curentă, în simţul comun, pentru „portretul robot” al
unei persoane suspicioase sau vigilente.
• Eroarea de confirmare este un alt fenomen – pe lângă cele legate de calitatea feed-back-
ului primit de la clienţi – care afectează capacitatea psihologilor de a-şi îmbunătăţi în timp
corectitudinea evaluărilor, prin raportare la evoluţia psihologică a individului evaluat. Ea se
referă la tendinţa lor de a acorda mai multă atenţie şi chiar de a căuta, selecta, şi ţine minte cu
precădere informaţiile care le sprijină sau confirmă ipotezele, în defavoarea celor care le
contrazic (Garb, 2003). Ea apare încă din momentul deciziei psihologului cu privire la
„întrebările potrivite” pe care le va adresa clientului în procesul evaluării clinice, pentru că de
multe ori ele sunt ghidate de o impresie (în termeni psihologici) construită de la primul moment
al interacţiunii dintre ei. Această primă impresie (mai mult sau mai puţin conştientă) reprezintă
ipoteze pe care răspunsurile la întrebările puse au rolul de a le confirma. De asemenea,
informaţiile care confirmă aceste ipoteze vor fi cele cărora li se va acorda o atenţie superioară în
construcţia diagnosticului final. Dat fiind faptul că aceste deformări ale răspunsurilor şi
comportamentului celui evaluat sub impactul ipotezelor psihologului se prelungesc şi în aria
memoriei, eroarea de confirmare explică dificultăţile psihologilor care utilizează exclusiv
evaluarea clinică de a învăţa din experienţă.

4. Metode obiective de evaluare

Alternativa propusă de evaluarea psihometrică poate fi rezumată sub formula „metodelor


obiective de evaluare”; obiectivitatea lor nu este, fireşte, una perfectă (cum este cea din ştiinţele
naturii), ci această sintagmă are rolul de a sublinia distanţa faţă de celelalte metode, ale
diagnosticului pur clinic. Deci, ele au pretenţia de a fi „semnificativ mai obiective” decât acestea.
Principiul construcţiei instrumentelor standardizate, după regulile psihometrice, este acela că în
folosirea acestor instrumente, respectând regulile prestabilite orice evaluator ar acorda aceleaşi
scoruri persoanei evaluate. În termeni mai tehnici, aceasta ar însemna ca acordul dintre
evaluatori să fie maxim, iar varianţa datorată evaluatorilor să fie minimă, adică diferenţele de
rezultat al evaluării (de profil psihologic la care ajunge aceasta) dintre două persoane să provină
într-o măsură minimă din faptul că una a fost evaluată de un anumit psiholog, iar cealaltă – de
altul; ideal ar fi ca aceste diferenţe de profil să fie determinate în exclusivitate din diferenţele de
personalitate dintre cele două persoane.
Prototipul instrumentelor din „arsenalul” evaluării psihometrice este testul, ce poate fi
definit ca o procedură sistematică în care individului i se prezintă un set de stimuli la care
răspunde, aceste răspunsuri permiţând evaluatorului să îi acorde anumite valori numerice. Pe
baza acestora poate fi construită interpretarea cantitativă a răspunsurilor, adică pot fi făcute
inferenţe despre gradul în care individul posedă respectiva caracteristică. Conceptul de „test
psihologic” se referă la un set de instrumente care permit evaluarea oricărui individ prin
raportare la întreaga populaţie, în funcţie de caracteristicile sale relevante pentru trăsătura
evaluată (de exemplu, vârsta pentru evaluarea inteligenţei). Acest avantaj al universalităţii, oferit

curs 1 6
Evaluare psihologică – metode psihometrice curs 1

de existenţa unui etalon pe întreaga populaţie, presupune însă investiţii considerabile (în special
de timp şi de ordin logistic) în etapa de construcţie a instrumentului. De asemenea, majoritatea
testelor acoperă concepte psihologice destul de generale (de exemplu, personalitatea sau
inteligenţa), încadrând individul evaluat pe un set de factori ce compun respectivul concept,
reflectând dimensiuni mai specifice.
Cu toate că utilizarea testelor are avantaje clare – în termeni de evaluare în raport cu
întreaga populaţie şi de bogăţie a rezultatelor, de comprehensivitate a evaluării), în psihologia
contemporană – atât în spaţiul cercetării, cât şi în cel aplicat în diverse arii, inclusiv cea clinică) –
sunt din ce în ce mai des utilizate aşa-numitele „scale scurte” (RAI - Rapid Assessment
Instruments). Termenul de „scală” sugerează diferenţa faţă de test, în cele două privinţe
menţionate mai sus: în primul rând, ele vizează concepte mult mai specifice, bazate pe o
decupare precisă a spaţiului psihologic asociat lor (de exemplu, „auto-monitorizarea”, sau
„nevoia de cogniţie”). În al doilea rând, majoritatea acestor instrumente nu au un etalon construit
pe întreaga populaţie, ci cel mult unul valabil pe o populaţie foarte specifică (de exemplu, un
etalon pe copiii cu părinţi divorţaţi în cazul scalei de Lipsă de speranţă la copii). În rest, însă,
construcţia lor respectă aceleaşi exigenţe psihometrice ca şi cele implicate în construcţia testelor,
de la alegerea itemilor şi a scalelor de răspuns potrivite la rafinarea progresivă a bateriei de itemi
până la momentul în care aceasta respectă standardele cu privire la fidelitate, validitate de
conţinut, de construct, predictivă, etc. Avantajul acestor instrumente în psihologia clinică este
acela că ele oferă posibilitatea evaluării în profunzime a unui număr mare de dimensiuni
psihologice pe care clinicianul le consideră a fi relevante pentru respectivul individ,
administrându-i un număr redus de itemi; în acest fel, validitatea răspunsurilor sale este crescută,
iar gradul de discomfort pe care îl induce situaţia de evaluare este minimizat.

Bibliografie
• Arrindell, W.A., Perris, C., Eisemann, M., van der Ende., J., Gaszner, P., Iwawaki, S., Maj, M., Zhang, J.
Parental rearing behaviour from a cross!cultural perspective: a summary of data obtained in 14 nations. In C. Perris,
W. A. Arrindell, & M. Eisemann (Eds), Parenting and Psychopathology. Chichester: Wiley
• Chapman, L. J., & Chapman, J. P. (1967). Genesis of popular but erroneous diagnostic observations.
Journal of Abnormal Psychology, 72, 193-204.
• Garb, H. (2003). Clinical judgment and mechanical prediction, în Graham, J., Naglieri, J., Handbook of
psychology Vol X. Assessment psychology, John Wiley & Sons, Inc.
• Gardner, W., Lidz, C. W., Mulvey, E. P., & Shaw, E. C. (1996). Clinical versus actuarial predictions of
violence by patients with mental illnesses. Journal of Consulting and Clinical Psychology, 64, 602–609.
• Goldberg, L. R. (1959). The effectiveness of clinicians’ judgments: The diagnosis of organic brain damage
from the Bender-Gestalt test. Journal of Consulting Psychology, 23, 25–33.
• Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical
prediction: A meta-analysis. Psychological Assessment, 12, 19–30.
• Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom
• Hermann, R. C., Ettner, S. L., Dorwart, R. A., Langman-Dorwart, N., & Kleinman, S. (1999). Diagnoses of
patients treated with ECT: A comparison of evidence-based standards with reported use. Psychiatric Services, 50,
1059–1065.

curs 1 7
Evaluare psihologică – metode psihometrice curs 1

• Kahneman, D., Tversky, A. (1972). Subjective probability: A judgment of representativeness. In


Kahneman, Slovic, Tversky. Judgment under uncertainty: Heuristics and biases. Cambridge: Cambridge University
Press.
• Meehl, P. E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the
evidence. Minneapolis: University of Minnesota Press.
• Robiner, W. N. (1978). An analysis of some of the variables influencing clinical use of the Bender-Gestalt.
Unpublished manuscript.
• Stan, A. (2002). Testul psihologic – evoluţie, construcţie, aplicaţie, Iaşi, Polirom
• Walters, G. D., White, T. W., & Greene, R. L. (1988). Use of the MMPI to identify malingering and
exaggeration of psychiatric symptomatology in male prison inmates. Journal of Consulting and Clinical Psychology,
56, 111–117.
• Weiner, I. (2003). The assessment process, în Graham, J., Naglieri, J., Handbook of psychology Vol X.
Assessment psychology, John Wiley & Sons, Inc.

curs 1 8
Evaluare psihologică – metode psihometrice curs 2

Abordări în construcţia instrumentelor de evaluare psihologică

În construcţia unui test sau a unei scale în vederea evaluării unei dimensiuni psihologice,
fie ea de nivel general sau specific, stabilă – „trăsătură” - sau tranzitorie – „stare”, psihologul are
la dispoziţie două abordări generale: metoda constructului şi metoda empirică.
1. Metoda constructului sau metoda teoretică presupune focalizarea, în prima etapă a
construcţiei instrumentului, pe definirea teoretică a spaţiului psihologic asociat respectivului
concept, căutând cunoaşterea fundamentelor teoretice ale acestuia din literatura de specialitate,
ca şi a relaţiilor sale cu alte concepte din acelaşi spaţiu. Cu alte cuvinte, efortul de construcţie
presupune două direcţii: în primul rând, cea a operaţionalizării nuanţelor constructului, aşa cum
este el definit în literatură; colecţia de itemi elaboraţi ar trebui să acopere toate faţetele acestuia.
În al doilea rând, elaborarea itemilor trebuie să ţină cont de relaţiile teoretice dintre constructul
vizat şi alte concepte. Principiul din spatele acestei abordări este acela că nici o dimensiune
psihologică nu este insulară, ci face parte dintr-un ansamblu de caracteristici mentale şi
comportamentale care se condiţionează reciproc sau care, cel puţin, sunt în corelaţie. De aceea,
prin cunoaşterea „reţelei nomotetice” în care este integrat constructul vizat ne asigurăm că baza
psihologică de plecare este mai consistentă decât în cazul în care am avea în atenţie exclusiv
acest construct. Prin această abordare ce insistă pe definirea teoretică a întregului spaţiu
psihologic în care este ancorată respectiva dimensiune se urmăreşte maximizarea validităţii de
construct, una din calităţile psihometrice fundamentale ale instrumentelor din psihologie, ce se
referă la gradul în care instrumentul construit generează scoruri ce se află în anumite relaţii
prezise pe baze teoretice cu scorurile generate de instrumentele din acelaşi spaţiu psihologic.
Practic, prin conturarea atentă a bazei teoretice a constructului în prima etapă creştem
probabilitatea ca itemii elaboraţi ţinând cont de această bază să respecte această condiţie, adică
să aibă anumite legături statistice cu instrumentele deja validate şi recunoscute care evaluează
conceptele din acelaşi spaţiu.
Această etapă iniţială de definire teoretică se referă, mai precis, la trei tipuri de informaţii
pe care psihologul ar trebui să le cunoască vizavi de inserţia respectivului concept în ansamblul
dimensiunilor psihologice din care face parte:
a. distincţii, adică diferenţele faţă de alte concepte care, la o privire superficială, ar putea
părea apropiate. Prin răspunsul atent la întrebarea „ce nu este acest concept?”, ne asigurăm că
instrumentul construit va îndeplini unul din criteriile particulare ale validităţii de construct, şi
anume validitatea divergentă. Din punct de vedere psihometric, în acest fel se minimizează riscul
suprapunerilor cu alte concepte şi, implicit, cel al redundanţei instrumentului construit (sau al
unui set de itemi al acestuia).
b. dependenţe, adică dimensiunile psihologice supraordonate; practic, aceasta presupune
definirea conceptului vizat ca funcţie a unor alte concepte.

curs 2 9
Evaluare psihologică – metode psihometrice curs 2

c. relaţii, adică identificarea legăturilor cu alte concepte, fie ele pozitive (în sensul că
aşteptările teoretice susţin că prezenţa acelei caracteristici la un individ este însoţită de prezenţa
celeilalte) sau negative.
Ultimele două tipuri de informaţii au utilitate în special în ceea ce priveşte celălalt tip de
validitate de construct, şi anume validitatea convergentă.
În elaborarea itemilor scalei, teoria pe care se bazează constructul oferă puncte de reper
în două direcţii:
a. Conţinutul scalei, adică semnificaţiile pe care ar trebui să le acopere itemii construiţi,
prin operaţionalizarea constructului. În această privinţă, una dintre cele mai frecvent întâlnite
probleme este cea a dimensiunilor sau formelor particulare ale constructului şi a relaţiei dintre
acestea. Astfel, un construct poate avea două manifestări posibile şi opuse, ordonate pe o singură
dimensiune – construct unidimensional bipolar (de exemplu, în anumite teorii referitoare la
identitatea de gen, aceasta este conceptualizată ca o dimensiune psihologică cu doi poli -
masculinitate / feminitate – aflaţi în opoziţie, în sensul că individul se poate situa mai aproape de
unul dintre ei şi, implicit, mai departe de celălalt). Alte constructe implică două manifestări ce ar
putea fi considerate, la o privire superficială, ca având aceeaşi relaţie de opoziţie (de exemplu,
tendinţa de a trăi afecte pozitive, respectiv negative); în realitate, însă, teoriile din acest domeniu
(sprijinite de cercetări de neuropsihologie a emoţiilor) descriu acest concept ca fiind
bidimensional, fiecare din cele două tendinţe reprezentând factori separaţi (şi ortogonali, adică
necorelaţi statistic). Aceasta implică faptul că încadrarea individului la un nivel ridicat pe una din
dimensiuni nu implică neapărat un nivel redus al celeilalte. În fine, multe instrumentelor din
psihologie sunt pluri-factoriale, ele subsumând o serie de dimensiuni care reflectă faţete diferite
ale conceptului (de exemplu, instrumentele care operaţionalizează perspectiva Big Five asupra
personalităţii).
b. Formatul scalei, adică tipul de itemi şi de scale de răspuns din care este ea formată.
Uneori, teoria psihologică nu poate fi „tradusă” în instrumentul psihologic destinat să evalueze
acel concept decât într-o manieră foarte precisă – aşa cum este cazul teoriei constructelor
personale (Kelly, 1955/1991). Principiul acestei perspective este acela că oamenii nu
reacţionează la evenimente, ci la felul în care ei îşi reprezintă aceste evenimente; de aceea,
cunoaşterea psihologică trebuie să descifreze în primul rând constructele personale pe care
individul le aplică lui şi altora, adică sistemele de semnificaţii prin intermediul cărora individul
îşi reprezintă experienţele de viaţă. Prin investigarea acestor constructe, psihologul poate recrea
experienţa personală a acelui om şi îi poate construi alternative posibile.
Instrumentul tipic de evaluare utilizat în această abordare se bazează pe tehnica „reţelei
repertoriilor constructelor de rol” - Role Construct Repertory Grid (RepGrid). Cel mai frecvent,
instrumentul include descriptori ai subiectului şi ai altora semnificativi pentru el, adică tocmai
aceste constructe personale. În etapa premergătoare, de construcţie a instrumentului, se
inventariază constructele, adică descriptorii aplicaţi de subiect comparaţiilor propriei persoane cu
eul ideal şi alţii semnificativi; astfel, psihologul are acces la „repertoriul” său de constructe
2

curs 2 10
Evaluare psihologică – metode psihometrice curs 2

personale. Apoi, pentru fiecare descriptor, se enunţă şi opusul său (de exemplu, dacă unul din
constructele folosite cu predilecţie de individ în descrierea oamenilor este „înţelegător”,
instrumentul va include şi constructul „intransigent”). Instrumentul solicită subiectului să
evalueze pe rând o serie de repere (de exemplu, eul actual, ideal, alţii semnificativi) pe fiecare
dimensiune formată din cei doi poli, adică cele două constructe aflate în opoziţie; deci, el
poziţionează aceste repere pe “reţeaua de constructe” care îl caracterizează, în evaluarea fiecăruia
el trebuind să adopte un anumit „rol”, o modalitate de raportare psiho-socială (de exemplu,
poziţia sinelui actual faţă de cel ideal, rolul de fiu în evaluarea părinţilor, etc.). Practic, lui i se
cere să evalueze fiecare punct de reper pe o scală Likert de la 1 la 7 în funcţie de măsura în care
în caracterizează unul dintre cele două constructe opuse, unde 1 înseamnă “extrem de A”, iar 7
înseamnă “extrem de B”.

Construct A Construct B Eul actual Eul ideal Tatăl Mama


Înţelegător Intransigent 2 4 6 1
Bucuros Trist 2 6 5 7
Responsabil Iresponsabil 4 2 7 4
Puternic Slab 5 1 4 5
Egoist Generos 3 5 2 6

În psihologia clinică, rezultatele acestui tip de instrument se interpretează prin calcularea


unui set de indicatori, cum ar fi:
• diferenţierea dintre eul actual şi cel ideal pe setul de constructe personale
• auto-izolarea percepută: diferența dintre eul actual şi evaluările celorlalte persoane
semnificative din reţea
• evaluarea negativă a altora semnificativi: diferența dintre eul ideal şi evaluările celorlalte
persoane semnificative din reţea
Pe baza unor astfel de indicatori pot fi remarcate o serie de profiluri relevante pentru
depresie (Feixas et. al, 2008), cum ar fi:
• negativitate: eul actual şi ceilalţi semnificativi sunt evaluaţi negativ şi similar
• resentiment: eul actual şi ceilalţi semnificativi sunt evaluaţi negativ, dar diferit
• izolare: doar eul actual este negativ

De asemenea, influenţa teoriei asupra formatului scalei apare şi în cazul tipului de item
cel mai simplu şi mai frecvent utilizat – Likert. Această variantă are, pe lângă avantajul
comodității, și pe cel al posibilității de a surprinde intensitatea acelei trăsături. Variantele de
răspuns ce pot fi incluse într-o scală Likert sunt multiple: de la “deloc” la “extrem de”,
3

curs 2 11
Evaluare psihologică – metode psihometrice curs 2

“niciodată” – “întotdeauna”, “nu mă caracterizează deloc” – “mă caracterizează perfect”, etc. O


problemă importantă, și deseori rezolvată superficial, este cea a numărului de variante sau trepte
al scalei de răspuns. Pe de o parte, numărul mare de trepte creşte varianţa răspunsurilor
subiecților, adică diferențele dintre ei; aceasta aduce avantaje de ordin statistic (de exemplu,
probabilitatea ca diferențele dintre două grupuri să fie semnificative devine mai mare). Însă
principiul în decizia cu privire la numărul de trepte de răspuns este acela că acest număr trebuie
să corespundă psihologic trăsăturii evaluate. Dacă subiectului i se prezintă un număr prea ridicat
de trepte în raport cu realitatea lui psihologică, cu felul în care își reprezintă conținutul itemilor,
înseamnă că i-am cere să facă distincții prea fine, și că el nu va putea face diferenţa dintre ele.
Ca urmare, va crește riscul ca el să aleagă una dintre variantele de răspuns la întâmplare,
diminuând astfel validitatea răspunsurilor sale.
O altă decizie ce trebuie luată prin raportare la teoria psihologică este cea vizând
includerea sau nu a unui punct de mijloc în scala de răspuns a itemilor, care să reflecte poziţia
neutră a subiectului faţă de acea problemă. Unele constructe psihologice admit posibilitatea reală
a neutralităţii, în timp ce altele nu, motiv pentru care punctul de mijloc este eliminat, forţând
astfel asumarea unei poziţii (pozitive sau negative) faţă de problemă.
Alteori, teoria psihologică a constructului poate susţine existenţa unei ierarhii a
gradelor de manifestare a unui atribut – ca în cazul teoriilor asupra aptitudinilor; în aceste cazuri
sunt recomandaţi itemii care presupun o anumită metodă de scalare a răspunsurilor. Una din
abordările cu tradiţie în construcţia testelor de aptitudini, ce se bazează pe această abordare a
scalării răspunsurilor, este Teoria Răspunsului la Item. Ea pleacă de la principiul că relaţia
dintre răspunsul dat de subiect şi gradul în care el posedă acea trăsătură poate fi descrisă de o
funcţie monotonă, denumită curba caracteristică itemului. Această curbă reprezintă o
formalizare matematică a unei ipoteze psihologice simple, adică aceea că oamenii cu nivel ridicat
al acelei aptitudini au o probabilitate mai mare de a răspunde corect la un item decât cei cu un
nivel redus. În acest context, curba caracteristică itemului oferă o estimare a probabilităţii de
răspuns corect la fiecare item pentru fiecare nivel al aptitudinii: de exemplu, în cazul unui test de
inteligenţă itemii uşori au o probabilitate mare de răspuns corect atât pentru subiecţii cu nivel
ridicat cât şi pentru cei cu nivel redus de inteligenţă, în timp ce la itemii dificili, probabilitatea
celor din ultima categorie este mai redusă. Cu alte cuvinte, această abordare psihometrică este
focalizată pe construcţia, alegerea şi ordonarea itemilor în cadrul testului în funcţie de
capacitatea lor de discriminare, de a face diferenţa între oamenii cu niveluri diferite ale acelei
trăsături. Itemii uşori, pentru că sunt rezolva ți corect de către majoritatea oamenilor, au o
capacitate redusă de discriminare; similar, majoritatea oamenilor greșesc la itemii foarte dificili;
de aceea, ei sunt utili doar pentru a face diferen ța între nivelurile foarte ridicate ale acelei
aptitudini. În versiunea finală a instrumentului, itemii vor fi ordonaţi după dificultate, ceea ce
permite evaluarea individului într-o manieră mai economică cu acelaşi nivel de precizie ca atunci
când ar completa întreaga baterie de itemi: dacă el eşuează la un anumit număr de itemi din
prima parte a testului (formată din itemi uşori), nu îi mai sunt administraţi cei mai dificili,
4

curs 2 12
Evaluare psihologică – metode psihometrice curs 2

deoarece estimarea nivelului său de aptitudine poate fi deja făcută cu suficientă precizie pe baza
curbei caracteristice a itemilor deja completaţi (a probabilităţilor ca el să aibă diverse niveluri de
aptitudine). Mai simplu spus, daca subiectul greşeşte la itemii simpli, probabilitatea ca el să aibă
un grad înalt a acelei aptitudini devine foarte redusă (apropiată de 0), deci este foarte probabil ca
nivelul său real de aptitudine să fie unul scăzut. În mod similar şi pentru acelaşi scop al
economiei de timp şi efort, există o serie de itemi foarte uşori (pe care marea majoritate a
oamenilor îi rezolvă fără probleme), care nu sunt incluşi în prima versiune a testului dată
subiectului. Lui i se administrează, însă, şi aceşti itemi suplimentari (meniţi a face diferenţa între
niveluri foarte reduse de aptitudine) dacă eşuează la primii din setul administrat iniţial.
Aceste principii care stau la baza teoriei răspunsului la item sunt aplicate în metodele de
scalare a răspunsurilor (cele mai utilizate fiind metodele Guttman şi Rasch), care se folosesc şi
în construcţia scalelor din alte domenii decât cel aptitudinal. De exemplu, scalarea Guttman în
construcţia scalelor are drept obiectiv fundamental eliminarea uneia dintre problemele cu care se
confruntă majoritatea instrumentelor psihologice, şi anume contaminarea semnificaţiei itemilor
cu alte trăsături psihologice decât cea vizată; din cauza acestei contaminări, psihologul care
administrează instrumentului nu poate fi pe deplin sigur că răspunsul subiectului este generat
doar de caracteristica psihologică pe care o vizează explicit instrumentul sau d acă el n u este
influenţat de faptul că anumite nuanţe ale itemilor sunt relevante pentru alte caracteristici
neintenţionate (tema va fi reluată în cadrul cursului despre validitatea de conţinut). Deci, scopul
scalării de tip Guttman este unidimensionalitatea scalei, adică situaţia în care răspunsurile
subiectului ar fi influenţate de un singur factor: trăsătura evaluată.
Şi aici, itemii sunt ordonaţi după intensitatea cu care reflectă constructul vizat, iar
răspunsurile solicitate subiectului sunt de obicei de tip da/nu. Principiul aplicat pentru a urmări
scopul menţionat mai sus este acela că la scalele perfect unidimensionale, cunoaşterea scorului
total al unui subiect ar trebui să permită reproducerea răspunsurilor sale la itemi, deoarece
acordul cu un item puternic implică acordul şi cu itemii mai slabi decât el. Deci, dacă am
cunoaşte cu câţi itemi a fost el de acord (prin intermediul scorului total, răspunsurile de tip Da
fiind cotate cu 1 şi cele de tip Nu cu 0), ar trebui să ghicim corect toţi itemii cu care a fost el de
acord (şi, implicit, cei la care a răspuns negativ).
Un exemplu de scalare într-un alt domeniu decât cel aptitudinal este scala de distanţă
socială Bogardus, elaborată în scopul evaluării tendinţei de discriminarea a altor rase sau naţiuni.
Instrumentul solicită subiectului să îşi manifeste acordul sau dezacordul cu o serie de acţiuni
potenţiale pe care le-ar putea realiza reprezentantul unui alt grup social; aceste acţiuni sunt
ordonate în funcţie de intensitatea discriminării pe care o reflectă; o variantă de ierarhie a
itemilor este cea din lista de mai jos, mergând de la acţiunea a cărei acceptare ar reflecta cel mai
redus grad de tendinţe de discriminare socială la cea de la polul opus.
• Căsătorie cu o rudă apropiată (de exemplu, cu fiica subiectului)
• Membri în acelaşi club
• Vecini de stradă
5

curs 2 13
Evaluare psihologică – metode psihometrice curs 2

• Aceeaşi ocupaţie profesională


• Primirea aceleiaşi cetăţenii
• Vizitarea ţării
Această abordare în construcţia instrumentelor psihologice utilizează o metodă specifică
de analiză a scorurilor colectate în etapa de pretestare a lor, şi anume tehnica scalogramei. Ea
presupune analiza răspunsurilor la fiecare dintre itemi în scopul calculării coeficientului de
reproductibilitate al scalei, definit ca „1 – nr de excepţii”. Prin excepţie se înţelege un răspuns la
un anumit item ce contravine predicţiilor rezultate din analiza celorlaltor răspunsuri. De
exemplu, în lista de itemi de mai sus, dacă subiectul este de acord doar cu ultimul (vizitarea ţării)
şi îi refuză pe majoritatea celorlaltora, o excepţie ar fi ca el să fie de acord cu un item aflat în
partea superioară a scalei (cum ar fi cel ca persoana vizată să fie membru în acelaşi club cu el).
Cu cât numărul acestor excepţii este mai mic, cu atât coeficientul de reproductibilitate al scalei
este mai mare, traducând faptul că prin cunoaşterea scorului total al unui subiect psihologul
poate reproduce exact răspunsurile lui. Pe baza acestui coeficient calculat în etapa de pretestare,
se selectează doar itemii care se integrează coerent în ansamblul scalei; deci, se elimină acei
itemi care se presupune că au un anumit nivel de intensitate, însă despre care scorurile din
pretestare susţin că semnificaţia lor nu este aceeaşi pentru toţi oamenii (de exemplu, itemul
„membri în acelaşi club” ar trebui eliminat dacă o proporţie semnificativă din subiecţii din
pretestare ar răspunde la scală în maniera descrisă mai sus). Dacă, însă, un procent redus din
subiecţi manifestă aceste excepţii cu privire la un item, acesta poate fi păstrat în scală,
răspunsurile respectivilor indivizi fiind eliminate din baza de date, deoarece ei sunt consideraţi ca
aparţinând altei populaţii.
Verificarea (“validarea”) scalelor construite prin abordarea teoretică se realizează prin
analiza calităţilor lor psihometrice interne, adică estimarea fidelităţii şi a diverselor tipuri de
validitate, în special a celei de construct, ceea ce include şi analiza structurii factoriale în cazul
instrumentelor ce evaluează constructe multidimensionale.

2. Metoda empirică de construcţie a instrumentelor pleacă de la manifestările exterioare


ale acelei caracteristici vizate; elaborarea itemilor nu se face în raport cu teoria constructului
evaluat, ci în funcţie de „portretul” psihologic şi mai ales comportamental al unei persoane care
ar poseda respectiva trăsătură. Dată fiind focalizarea pe corespondenţa dintre itemi şi definirea
consecinţelor sau manifestărilor practice ale acelei caracteristici, se poate afirma că această
metodă are în vedere în special validitatea aparentă a testului, potrivirea „la suprafaţă” între
conţinutul itemilor şi profilul psihologic asociat conceptului. De exemplu, în cazul construcţiei
unui instrument care evaluează temperamentul, psihologul ar încerca în prima etapă să
alcătuiască o listă cât mai completă de manifestări (comportamente, cogniţii, emoţii)
caracteristice fiecăreia dintre cele două varietăţi temperamentale: introvertul şi extrovertul. Din
moment ce din „portretul – robot” al unei persoane introvertite face parte, printre altele, evitarea
spaţiilor publice, aceasta va fi inclusă în lista de itemi ce operaţionalizează introversiunea.
6

curs 2 14
Evaluare psihologică – metode psihometrice curs 2

Această abordare este cea folosită intensiv în primele etape ale construcţiei testelor de
personalitate, ea stând la baza elaborării celor mai cunoscute astfel de instrumente, ce vizează
întreaga sferă a personalităţii. Instrumentele construite astfel sunt deseori validate prin metoda
“grupurilor cunoscute”, care evaluează măsura în care instrumentul discriminează între două
grupuri despre care se cunoaşte faptul că posedă tipuri diferite (opuse sau nu) ale respectivei
trăsături; de exemplu, în cazul instrumentului de temperament, un indiciu al validităţii sale ar fi
acela că scorurile totale obţinut de un grup de persoane despre care psihologul ştie din alte surse
(alte instrumente, evaluare clinică, etc.) că sunt introvertite ar fi semnificativ diferite (în direcţia
aşteptată) faţă de cele obţinute de un grup de extravertiţi.
Dincolo de validarea scalei pe ansamblul său, aceeaşi abordare empirică poate fi folosită
şi în selecţia itemilor, adică decizia de păstrare a una dintre ei pe baza corespondenţei lor
statistice cu un criteriu exterior. De obicei, scopul acestei selecţii este construirea unui
instrument cu putere mare de predicţie a unui criteriu, adică a unor comportamente sau stări
psihologice ale individului (de exemplu, probabilitatea ca el să dezvolte depresie). Acest obiectiv
poate fi urmărit prin trei metode psihometrice:
a. Metoda grupurilor cunoscute este similară celei descrise mai sus cu privire la
validarea instrumentului pe ansamblul său. De această dată, criteriul de selecţie a itemilor este
diferenţa dintre mediile celor 2 grupuri la fiecare dintre itemi, fiind selectaţi itemii cu diferenţele
maxime de medii, deci care diferenţiază cel mai puternic între cele două grupuri (de exemplu, cei
cu diagnostic clinic de depresie şi cei clinic sănătoşi).
Pe lângă utilizarea acestei diferenţe de medii ca criteriu de selecţie, ea poate fi inclusă şi
în cotarea instrumentului final, în sensul că ea poate fi folosită ca pondere în calculul scorului
total al subiectului. Astfel, itemii care diferenţiază mai puternic între cele două grupuri devin mai
importanţi în scorul total al subiectului decât ceilal ți . Prin această metodă se obține un tip
specific de instrument de evaluare, denumit ”scala cu intervale egale aparente”, sau de tip
Thurstone (după numele autorului ce a introdus-o). Într-un astfel de instrument, subiectului i se
prezintă lista de itemi, iar el îi alege pe cei cu care este de acord, sau despre care consideră că îl
caracterizează cel mai bine. Un exemplu de instrument construit prin această abordare este scala
Beck de evaluare a depresiei care, în versiunea originară, conține colecții de câte patru itemi
grupate pe arii psihologice; fiecare dintre itemi are o anumită pondere, ce ține de intensitatea
respectivei trăsături psihologice pe care o relevă. De exemplu, itemii grupați în trăsătura
”sentimentul eșecului” sunt: ”1. Nu am sentimentul ratării. 2. Simt că am avut mai mult ghinion
decât persoanele din jur. 3. Dacă îmi privesc viața retrospectiv o văd ca pe o totalitate de eșecuri.
4. Mă simt complet ratat ca persoană.”. Itemii sunt ordonați crescător în funcție de ponderea lor;
valoarea specifică a acestor ponderi în orice populație variază cultural, și deci ar trebui calculată
prin studii asupra unor loturi extrase din acea populație. Cu cât diferențele între răspunsuril e
loturilor non-clinice și cele ale persoanelor cu depresie sunt mai mari pe un item, cu atât acel
item ar urma să aibă o pondere mai mare. Aceeași idee este ilustrată de un alt instrument -
Profilul Impactului Bolii (SIP, Bergner et. al., 1981). De exemplu, factorul ”Impactul social al
7

curs 2 15
Evaluare psihologică – metode psihometrice curs 2

bolii” include la extrema puternică următorii itemi (fiecăruia îi este atașată o pondere extrasă din
studiile de pretestare pe populaţia americană): ”Am izbucniri frecvente de furie faţă de ceilalţi
membri ai familiei (pondere 11,9); Refuz contactul cu orice membru al familiei (pondere 11,5);
Mă izolez cât pot de mult de restul familiei (pondere 10,2)”. Itemii de la extrema slabă a acestui
factor sunt: ”Am mai puţine activităţi sociale în grupuri de oameni (pondere 3,6); Vizitele la
prieteni sunt mai scurte (pondere 4,3); Nu mai glumesc cu membrii familiei aşa cum obişnuiam
înainte (pondere 4,3)”.
În cotarea acestui tip de instrumente, scorul fiecărui subiect este calculat ca media
valorilor (ponderilor) itemilor aleşi de el. În cazul instrumentelor cu subscale (factori), calcularea
scorurilor pe fiecare dintre acestea presupune adunarea ponderilor itemilor aleşi şi împărţirea la
scorul maxim posibil la acea subscală; prin această operaţie se pot compara scorurile la diversele
subscale ale instrumentului, obţinând un profil general al individului.

b. Metoda “validităţii itemului” se referă la calcularea corelaţiei dintre item şi criteriu, în


special atunci când acesta nu este unul dihotomic (ca prezenţa / absenţa depresiei), ci unul
cantitativ continuu (de exemplu, numărul de zile de spitalizare necesare, în cazul unui instrument
ce evaluează intensitatea depresiei).
c. Metoda regresiei multiple ierarhice presupune calcularea unor modele progresive de
regresie multiplă prin care să se prezică respectivul criteriu. Itemii sunt adăugaţi pe rând în
ecuaţia de predicţie, în funcţie de cantitatea de varianţă a criteriului pe care o explică (măsura în
care diferenţele dintre oameni în privinţa răspunsului la acel item sunt asociate cu diferenţe în
privinţa criteriului; de exemplu, în cazul unui item ca „Simt că nu am nici o valoare”, varianţa
explicată se referă la măsura în care diferenţele de răspuns dintre oricare doi subiecţi - unul
alegând varianta „Da”, iar celălalt „Nu” – sunt asociate cu diferenţe de probabilitate a depresiei
în cazul fiecăruia). Prin acest procedeu sunt selectaţi itemi care corelează puternic cu criteriul,
dar slab între ei, deoarece metoda statistică a regresiei evită predictorii care au între ei corelaţii
puternice.
Această problemă este una generală în cazul instrumentelor construite prin metode
empirice de selecţie: ele sunt heterogene, deoarece majoritatea criteriilor tind să fie
multidimensionale, să aibă foarte multe faţete, modalităţi de manifestare practică. Astfel, itemii
ce acoperă toată această sferă de manifestări este probabil să aibă asocieri reduse între ei.
Probleme ale scalelor construite prin abordarea empirică:
a. În primul rând, nu există certitudinea că itemii din scalele construite prin raportare la
manifestările exterioare ale trăsăturii evaluate, şi selectaţi prin metodele descrise anterior
măsoară (doar) ce ar trebui să măsoare. Semnificaţia lor ar putea fi contaminată cu alte
constructe psihologice, iar simpla corelaţie cu prezenţa acelei trăsături la anumite grupuri de
oameni nu certifică total validitatea instrumentului.
b. Instrumentele construite astfel au dificultăţi de generalizare la alte populaţii decât cele
reprezentate în eşantioanele de construcţie, deoarece nu putem fi siguri că itemii selectaţi în
8

curs 2 16
Evaluare psihologică – metode psihometrice curs 2

versiunea iniţială a scalei au aceeaşi capacitate de discriminare a altor grupuri decât cele pe care
a fost ea construită.
c. Instrumentele construite astfel nu stimulează teoria psihologică, deoarece ele nu
vizează relaţii teoretice între constructul vizat şi altele.
Pe fondul acestor probleme, şi mai ales odată cu creşterea importanţei validităţii de
construct în literatura ştiinţifică pe tema construcţiei instrumentelor psihologice, folosirea acestei
abordări a devenit din ce în ce mai puţin frecventă. Totuşi, 17 % din testele disponibile acum (în
special cele de personalitate) sunt construite astfel, selecţia itemilor ce le compun fiind realizată
mai ales prin metoda grupurilor cunoscute.
Pentru a evita erorile la care pot duce aceste scale, se recomandă:
a. utilizarea unor grupuri de contrast mari (peste 300 de subiecţi)
b. validarea scalei după selecţia itemilor şi pe alte eşantioane din populaţie, pentru a
verifica semnificaţia diferenţelor sau corelaţiilor, măsura în care ele pot fi generalizate.

Un exemplu de instrument construit empiric este Minnesota Multiphasic Personality


Inventory (MMPI), care reprezintă unul din cele mai cunoscute şi mai utilizate teste în
psihologia clinică contemporană. Versiunea iniţială a MMPI a fost construită de Hathaway &
Kinley în 1943, ea conţinând 550 itemi de tip adevărat / fals. Construcţia itemilor a fost una
exclusiv empirică, scopul autorilor fiind predicţia evoluţiei psihiatrice a subiecţilor. De aceea,
itemii selectaţi au fost cei specifici ca răspuns eşantioanelor clinice (cu diverse patologii psihice).
Opţiunea pentru abordarea empirică în acest caz este explicabilă prin faptul că autorii au
considerat teoriile dominante la acel moment – cele psihodinamice – ca incapabile să ofere o
bază utilă pentru evaluarea probabilităţii ca individul să dezvolte tulburări mentale. De aceea, ei
au ales un fundament ateoretic pentru testul construit, astfel încât el să poată evidenţia aspectele
psihopatologice indiferent de evoluţia teoriilor clinice şi de paradigma care ar ajunge „la modă”
în spaţiul ştiinţei psihologice la un moment dat
Versiunea iniţială a MMPI conţinea 4 scale de validitate a răspunsurilor şi 10 scale
clinice. Scalele de validitate sunt: „? – non-răspuns”, „L – Minciună”, „F – Validitate, frecvenţă”
şi „K – Auto – apărare”. Pe baza lor, psihologul poate estima două tendinţe de deformare a
răspunsurilor la instrument pe care le poate pune în practică subiectul, şi anume:
• “Mimarea răului” (simularea simptomelor), observabilă prin scorurile mici la L şi K,
însoţite de scoruri mari la F;
• Autoprezentare pozitivă – “mimarea binelui” – observabilă prin scoruri mari la L şi K,
însoţite de scoruri mici la F.
Scale clinice (şi manifestările psihopatologice a căror probabilitate o estimează testul)
sunt: Depresie, Hipocondrie, Isterie de conversie, Deviaţie psihopatică, Masculinitate –
feminitate, Paranoia, Psihastenie, Schizofrenie, Hipomanie, Introversie socială.
Această primă versiune a MMPI a fost construită pe baza unui eşantion de albi din zona
Minneapolis, ceea ce a atras critici cu privire la validitatea de conţinut a scalei, respectiv
9

curs 2 17
Evaluare psihologică – metode psihometrice curs 2

relevanţa etaloanelor sale pentru celelalte populaţii definite de rasă. Această obiecţie, împreună
cu altele, au motivat construcţia în 1989 a celei de-a doua versiuni, conţinând 567 itemi, pe un
eşantion de peste 2000 de subiecţi din toate zonele şi comunităţile S.U.A. În fine, ultima versiune
elaborată - MMPI-2 Restructured Form (MMPI-2-RF) şi publicată în 2008 include 338 itemi;
specificul său în raport cu cele anterioare este abandonarea punctului de reper exclusiv empiric în
construcţia şi selecţia itemilor; o parte dintre scalele acestei versiuni contemporane sunt
construite teoretic; de exemplu, una dintre scalele introduse în ea este cea de Demoralizare,
elaborată pe baza teoriilor despre structura ierarhică a stărilor afective.

Bibliografie
• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bergner M, Bobbitt RA, Carter WB, Gilson BS. (1981). The Sickness Impact Profile: development and
final revision of a health status measure. Med Care; 19(8):787-805.
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Dawis, R. (1998). Scale Construction, în Kazdin, A. E. (Ed.), Methodological issues & strategies in clinical
research, Washington, DC : American Psychological Association
• Feixas, G., Erazo-Caicedo, M., Harter, S., Bach, L. (2008). Construction of Self and Others in Unipolar
Depressive Disorders: A Study Using Repertory Grid Technique. Cogn Ther Res 32:386–400
• Fischer J & Corcoran K (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Hathaway, S.R., & McKinley, J.C. (1943). The Minnesota Multiphasic Personality Inventory (Rev.ed.).
Minneapolis: University of Minnesota Press.
• Kelly, G. A. (1955/1991). The Psychology of personal constructs (Vol. 2). New York: Norton/London:
Routledge.
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Toyer EA, Weed NC. (1998). Concurrent validity of the MMPI-A in a counseling program for juvenile
offenders. Journal of Clinical Psychology 54(4):395-9.

10

curs 2 18
Evaluare psihologică – metode psihometrice curs 3

Fidelitatea instrumentelor

1. Definire
Definiţia generală a fidelităţii este cea conform căreia ea reprezintă măsura în care scorul
obţinut de subiect la respectivul instrument de evaluare psihologică („scor observat”) corespunde
„scorului adevărat”, adică celui care ar fi fost obţinut cu un instrument perfect, fără eroare. În
termeni tehnici, ea se referă la gradul în care diferenţele dintre subiecţi în ceea ce priveşte
scorurile lor la instrument sunt generate de diferenţele de „scor adevărat” dintre ei, adică de
anumite caracteristici psihologice pe care ei le posedă. Această temă a diferenţelor dintre subiecţi
este exprimată în psihometrie prin intermediul conceptului de „varianţă”; astfel, definiţia de mai
sus poate fi tradusă prin proporţia de varianţă observată (a scorurilor observate) care provine din
varianţa adevărată. Cu cât diferenţele dintre subiecţi la scorurile obţinute la acel instrument sunt
în mai mare măsură determinate de diferenţele lor reale de ordin psihologic, cu atât instrumentul
are o fidelitate mai mare; cu alte cuvinte, el oferă „imagini mai fidele” asupra caracteristicilor lor
mentale.
În realitate, nici un instrument psihologic nu are o fidelitate perfectă, deoarece scorurile
observate sunt întotdeauna afectate de diverse surse de eroare – completare superficială,
înţelegere greşită sau parţială a sensului itemilor, oboseală, tendinţe de a răspunde într-o anumită
manieră (scorul fiind, în consecinţă, altul decât cel real psihologic), etc. De aceea, scopul
construcţiei instrumentelor psihologice nu este cel de a obţine instrumente cu fidelitate perfectă,
ci doar cu un nivel satisfăcător al acestei calităţi psihometrice, astfel încât prin folosirea lor să
poată fi obţinute informaţii cu un grad suficient de precizie despre nivelul prezenţei acelei
dimensiuni psihologice. Eroarea este admisă, cu condiţia ca ea să nu depăşească anumite limite,
şi, de asemenea, cu condiţia ca ea să poată fi estimată la anumite grade de probabilitate.

2. Perspective asupra fidelităţii


Definiţia generală a fidelităţii – ca măsură a gradului în care scorurile observate provin
din cele adevărate – nu poate fi pusă în practică direct în evaluarea fidelităţii instrumentelor
psihologice. Cu alte cuvinte, nu există procedee psihometrice care să indice în mod exact
proporţia varianţei observate care este generată de cea adevărată. Singura cale de acces la
cunoaşterea fidelităţii unui instrument este cea indirectă; în teoria construcţiei instrumentelor se
utilizează trei astfel de abordări indirecte. Fiecare dintre ele propune un concept intermediar ca
traducere practică a conceptului abstract al fidelităţii, şi un set de metode de calcul derivate din
acest concept intermediar.

2.1. Consistenţa itemilor


În această abordare (denumită şi cea a „consistenţei interne”), conceptul intermediar este
cel de unidimensionalitate a instrumentului. Logica sa este cea a calculării intensităţii relaţiilor
dintre itemii instrumentului, căutând detecţia acelor itemi itemii care au legături slabe cu ceilalţi;
aceştia reprezintă, conform perspectivei consistenţei interne, factori ce afectează fidelitatea
1

curs 3 19
Evaluare psihologică – metode psihometrice curs 3

instrumentului în ansamblul său, deoarece ei inteferează cu evaluarea caracteristicilor


psihologice reale ale subiecţilor (fiind în mai mare măsură afectaţi de surse de eroare). Deci, în
logica acestui concept intermediar, încrederea pe care o putem avea în faptul că scorurile la
instrument sunt determinate de caracteristici psihologice adevărate ţine de coerenţa itemilor: cu
cât calculul relaţiilor dintre ei ne indică faptul că ei vizează în mai mare măsură acelaşi aspect
(cu alte cuvinte, că ei sunt unidimensionali), cu atât putem fi mai siguri că răspunsurile la ei sunt
influenţate mai puţin de eroare, şi astfel că instrumentul este fidel.
Există mai multe procedee de evaluare a consistenţei interne (şi deci a fidelităţii) propuse
în această perspectivă. Este important de menţionat că fiecare dintre aceste opţiuni implică
anumite limitări induse de particularităţile matematice ale algoritmilor pe care se bazează; de
aceea, în situaţia construcţiei şi evaluării unui instrument psihologic ar trebui utilizate cât mai
multe din aceste procedee, doar printr-o astfel de abordare multiplă putând obţine o estimare
corectă a fidelităţii instrumentului.
a. procedeul alfa Cronbach oferă cea mai rapidă evaluare a consistenţei interne. El se
bazează pe calculul corelaţiei medii a fiecărui item cu ceilalţi, consideraţi simultan; chiar dacă
implică un calcul al corelaţiilor, rezultatul său este valabil şi pentru instrumentele cu itemi
dihotomici. Pe lângă estimarea de ansamblu a consistenţei interne, procedeul este util şi pentru
detecţia (şi, în practica uzuală) eliminarea itemilor cu o slabă legătură cu ceilalţi.
Principala problemă a indicatorului alfa Conbach este aceea că el este unul ambiguu,
deoarece suportul său matematic îl face direct proporţional cu numărul de itemi; astfel, el este
influenţat nu doar de consistenţa internă reală a instrumentului, ci şi de numărul său de itemi.
Pericolul indus de o astfel de influenţă este dublu: pe de o parte, instrumentele cu un număr redus
de itemi pot avea coeficienţi alfa mici chiar dacă legăturile dintre itemi sunt, în realitate,
satisfăcătoare; pe de alta, în cazul celor cu un număr mare de itemi, valorile ridicate ale lui alfa
Conbach rezultate pot masca un nivel necorespunzător de fidelitate, în sensul că itemii ar putea
să nu fie, în realitate, suficient de omogeni. De aceea, se consideră că acest procedeu este chiar
inutil în estimarea consistenţei interne a instrumentelor cu peste 40 de itemi; chiar şi un
instrument multidimensional (evaluând trăsături fără legătură psihologică între ele) poate avea un
alfa satisfăcător.
b. media corelaţiilor inter-item reprezintă un procedeu alternativ; el se bazează pe
calcularea independentă a corelaţiei fiecărui item cu fiecare din ceilalţi (nu cu ansamblul lor, ca
în cazul lui alfa Cronbach), şi apoi calculul mediei acestor corelaţii. Instrumentele cu o fidelitate
corespunzătoare au această medie cuprinsă în intervalul 0,15 - 0,5, în funcţie de gradul de
generalitate al constructului. În cazul instrumentelor ce vizează constructe particulare, cu o arie
psihologică restrânsă (de exemplu, tendinţa de îngrijorare), media corelaţiilor inter-item ar trebui
să fie mai apropiată de polul superior al intervalului, în timp ce în cazul conceptelor generale,
complexe, ce ţin de arii majore ale personalităţii (de exemplu „deschidere”) sunt suficiente valori
puţin peste 0,15 ale acestui parametru al consistenţei interne.
Totuşi, chiar şi în condiţiile unei medii a corelaţiilor inter-itemi mari, trebuie ţinut cont de
pericolul caea să mascheze anumite legături mult mai slabe (sau chiar şi negative) între anumiţi
2

curs 3 20
Evaluare psihologică – metode psihometrice curs 3

itemi, care să nu fie vizibile la examinarea indicatorului de ansamblu al mediei. Mai mult, este
posibil ca instrumentul să aibă mai mulţi factori ortogonali, adică cu corelaţii nule între itemii din
fiecare, şi deci el să vizeze dimensiuni psihologice în plus faţă de cele pe care ar trebui să le
evalueze. Din aceste motive, trebuie examinată şi matricea inter-corelaţiilor, conţinând corelaţiile
dintre fiecare pereche itemi în sine; valoarea fiecărei corelaţii ar trebui să se încadreze în acelaşi
interval - între 0,15 şi 0,5.
c. corelaţia itemului cu scorul total al instrumentului oferă o estimare a legăturii
fiecărui item cu ansamblul itemilor instrumentului, similară procedeului alfa Cronbach, dar
recomandabilă în special în cazurile în care limitările matematice ale acestuia ridică semne de
întrebare cu privire la validitatea sa.
d. analiza factorială poate fi utilizată în estimarea consistenţei interne, prin intermediul
asocierilor calculate între fiecare item şi factorul din care face parte. Ea se foloseşte în acest
context în special în cazul unui număr mare de itemi, construiţi pentru măsurarea mai multor
dimensiuni ale constructului, adică a situaţiei în care alfa Cronbach devine aproape inutil ca
valoare informaţională. Şi acest procedeu are însă un dezavantaj, şi anume numărul mare de
subiecţi (200 – 300) necesar în pretestarea instrumentului.
e. split-half reprezintă o metodă de estimare a consistenţei interne ce calculează corelaţia
dintre două jumătăţi ale instrumentului. Aceste jumătăţi pot fi stabilite în diverse forme; corelaţia
split-half poate fi calculată între prima jumătate dintre itemi cu cea de-a doua, între jumătatea ce
conţine itemii cu numere de ordine impare cu cea a itemilor pari („odd – even”), sau între
jumătăţi construite aleator. Pentru a ajunge la o evaluare cât mai completă a fidelităţii
instrumentului, în etapa de pretestare ar trebui evaluate corelaţiile dintre toate jumătăţile sale
posibile.
O problemă de ordin matematic a acestui procedeu este aceea că toate aceste metode de
stabilire a celor două jumătăţi de instrument (deci, toţi coeficienţii split-half) subestimează
consistenţa internă, deoarece corelaţia rezultată între jumătăţi este influenţată de numărul total de
itemi ai instrumentului. Mai precis, din cauza faptului că fiecare dintre jumătăţi conţine un număr
semnificativ mai mic de itemi decât instrumentul în sine, corelaţia dintre ele va fi întotdeauna
mai redusă decât adevăratul nivel de consistenţă internă al itemilor acestuia. Pentru eliminarea
acestei probleme se utilizează un procedeu de corecţie matematică (inclus în mod automat şi în
procedura split-half din SPSS), bazat pe formula Spearman – Brown. Această formulă este una
generală, ea acoperind toate situaţiile în care estimează fidelitatea unui instrument pornind de la
un set redus de itemi ai acestuia, deci de la o parte a sa. Formula Spearman – Brown generală
este următoarea:

Aici, N se referă la de câte ori este mai mare instrumentul respectiv faţă de setul de itemi
care a fost extras din el (şi căruia i-a fost calculată fidelitatea), ρxx’ înseamnă coeficientul de
fidelitate al acestui set de itemi, iar ρ*xx’ înseamnă coeficientul de fidelitate final al
instrumentului.
3

curs 3 21
Evaluare psihologică – metode psihometrice curs 3

În cazul procedeului split-half, din moment ce fidelitatea este calculată pe baza


jumătăţilor de instrument, N = 2 (instrumentul respectiv are un număr dublu de itemi decât
seturile de itemi pe care a fost calculată consistenţa internă). De aceea, corecţia Spearman-Brown
în cazul fidelităţii se realizează prin formula:
ρ = 2rxy/(1+ rxy)
Aici, rxy înseamnă corelaţia dintre cele două jumătăţi, iar ρ – coeficientul de consistenţă
internă final al instrumentului, calculat prin metoda split-half.
Pe lângă utilitatea sa pentru corecţia rezultatului obţinut prin această metodă, formula
generală Spearman – Brown este folosită şi în aria elaborării variantelor scurte ale unor
instrumente deja validate. În acest caz, problema fundamentală este cea a pierderilor de fidelitate
ce survin în urma scurtării instrumentelor. În general, relaţia dintre fidelitate şi numărul de itemi
este una non-liniară, în sensul că pe măsură ce coeficientul de fidelitate se apropie de 1 (de
fidelitatea perfectă), creşterile de fidelitate sunt posibile doar cu adăugarea a din ce în ce mai
mulţi itemi. Pe de altă parte, în cazul eliminării itemilor, amploarea scăderii fidelităţii în
comparaţie cu cea a instrumentului iniţial nu este universală, ci depinde de fidelitatea acestuia,
adică cea „de pornire”. Tabelul următor prezintă această relaţie dintre fidelitate şi modificările
numărului de itemi al instrumentului; el conţine coeficienţii de fidelitate (calculaţi prin formula
Spearman-Brown) ai noului instrument – cel de după modificare – în funcţie de fidelitatea celui
iniţial şi de tipul de modificare (dublarea numărului de itemi – deci adăugarea de noi itemi –,
păstrarea a jumătate, respectiv a unui sfert din itemii instrumentului iniţial).

Fidelitatea instrumentului iniţial Nr itemi instrument nou / nr itemi instrument iniţial


2 ½ ¼

0.5 0.67 0.33 0.20


0.6 0.75 0.43 0.27
0.7 0.82 0.54 0.37
0.8 0.89 0.67 0.50
0.9 0.95 0.82 0.69
0.95 0.97 0.90 0.83
Tabel 1. Fidelitatea estimată a instrumentelor cu număr dublu de itemi, cu o jumătate, respectiv
un sfert din itemi faţă de cel iniţial, în funcţie de fidelitatea acestuia

Comparând ultimele două coloane ale tabelului, se observă faptul că diferenţele dintre
fidelităţile instrumentului iniţial şi a celui scurtat sunt din ce în ce mai mici pe măsură ce
fidelitatea primului este mai ridicată. De exemplu, un instrument cu jumătate din itemii unuia cu
fidelitate de 0,5 ar avea o fidelitate de 0,33 – diferenţa fiind de 0,17; la extrema opusă, un
instrument cu jumătate din itemii unuia cu fidelitate de 0,95 ar avea o fidelitate de 0,90, diferenţa
4

curs 3 22
Evaluare psihologică – metode psihometrice curs 3

fiind în acest caz de doar 0,5. Deci, scurtarea instrumentelor afectează fidelitatea celor cu nivel
redus şi mediu de fidelitate (sub 0,8) mai mult decât a celor cu grad ridicat de fidelitate. De
aceea, instrumentele cu fidelitate foarte ridicată pot fi scurtate cu pierderi nesemnificative ale
acestei calităţi psihometrice (în cazul unui instrument cu fidelitate de peste 0,9, chiar şi un subset
format dintr-un sfert din itemii săi ar forma un nou instrument cu fidelitate acceptabilă, în special
în scopuri de cercetare psihologică – în jur de 0,7).

„Paradoxul atenuării”
Dacă un item ce reflectă un aspect central al teoriei este exclus de analiza de consistenţă
internă, eliminarea sa nu este neaărat obligatorie; păstrarea sa poate fi utilă pentru conţinutul
instrumentului, iar calculele de consistenţă internă pot să îl indice ca fiind deficitar din alte
motive. Astfel, este posibil să nu fie suficienţi itemi vizând acel aspect psihologic specific la care
se referă itemul (în contrast cu majoritatea itemilor care vizează alt aspect); în acest caz, relaţiile
statistice dintre acel item şi restul ar fi reduse, chiar dacă itemul este important. De asemenea,
este posibil ca eşantionul din pretestare să nu fie reprezentativ pentru populaţia vizată, să difere
de aceasta în anumite privinţe importante.
O soluţie care ţine cont de aceste posibile surse ale relaţiilor slabe ale unui item cu restul
este cea de a adăuga itemi, al căror conţinut să fie cu precădere apropiat de cel al respectivului
item despre care analizele statistice sugerează că ar trebui exclus. Astfel se evită pericolul
„paradoxului atenuării”, adică cel ca creşterea consistenţei itemilor prin eliminarea unora dintre
ei să scadă validitatea de construct a instrumentului; în consecinţă, aria de acoperire psihologică
a acestuia ar putea deveni mai redusă decât constructul – ţintă vizat de el.
Deci, fidelitatea estimată prin consistenţa internă a itemilor nu reprezintă un criteriu
decisiv în evaluarea unui instrument psihologic; ea poate fi relativ uşor asigurată, chiar dacă
valoarea acelui instrument ar fi una discutabilă. Astfel, o consistenţă internă mare se poate obţine
prin utilizarea mai multor itemi sinonimi – şi deci redundanţi, dar care vizează un singur aspect
particular. În acest caz, instrumentul ar avea o arie de acoperire – şi deci o validitate – foarte
redusă. În general, se consideră că scopul analizei psihometrice este maximizarea validităţii, nu a
fidelităţii; în privinţa acesteia, după atingerea unui nivel acceptabil (de 0,8 în cazul alfa
Cronbach, de exemplu) cu minim 5 itemi pentru conceptele foarte specifice şi 30 de itemi pentru
cele generale, nu mai este necesară modificarea instrumentului sau, în orice caz, nu mai este
nevoie de eliminarea de itemi pentru a creşte şi mai mult consistenţa internă.
O altă limită a perspectivei consistenţei interne asupra fidelităţii este cea care vizează
scalele construite prin metoda criteriului exterior. Scopul acestor instrumente este în special
predicţia unui criteriu, a unui comportament real al acelei persoane (de exemplu, predicţia
probabilităţii de a dezvolta tulburări mentale, ca în unele din scalele MMPI). În general,
majoritatea acestor criterii sunt multidimensionale, în sensul că implică un set divers de aspecte
psihologice. Ca urmare, şi instrumentele de acest tip conţin itemi ce se referă la dimensiuni
psihologice diverse, deci ele tind să fie heterogene, şi astfel să aibă o consistenţă internă redusă.

curs 3 23
Evaluare psihologică – metode psihometrice curs 3

De aceea, în evaluarea fidelităţii acestor instrumente se pune accent în special pe celelalte


abordări ale fidelităţii.

2.2. Fidelitatea test – retest


În această perspectivă, fidelitatea unui instrument este echivalată cu gradul de stabilitate
al scorurilor pe care le obţin subiecţii la el. Abordarea test – retest este importantă pentru
psihologia clinică, pentru că prin cunoaşterea stabilităţii instrumentelor aplicate se pot alege
acele instrumente cu stabilitate maximă, astfel încât ele să fie cât mai sensibile la schimbările
reale ale individului de la un moment la altul. În cazul instrumentelor instabile, se pot constata
modificări mari de scor de la o aplicare la alta (generate de erorile de construcţie), chiar dacă
individul nu s-a schimbat în realitate în privinţa trăsăturii psihologice evaluate de ele.
Estimarea fidelităţii test – retest presupune calcularea corelaţiei dintre scorurile
subiecţilor la cele două aplicări. În general, se consideră că la o lună distanţă între ele, o corelaţie
(şi deci un coeficient de fidelitate) de 0,69 ar indica un grad „rezonabil” de stabilitate; la
intervale mai scurte între aplicări (de o săptămână sau două) corelaţia trebuie să fie una mai
ridicată (în jurul valorii de 0,8).

2.3. Fidelitatea ca asociere dintre forme paralele ale aceluiaşi instrument


În acest caz, în construcţia testului se compun două colecţii de itemi, considerate a fi
echivalente din punctul de vedere al acoperirii constructului psihologic vizat, iar fidelitatea este
estimată prin intermediul corelaţiei dintre ele. Principiul acestei abordări este similar celui al
consistenţei interne, însă nu la nivelul particular al itemilor, ci la cel general al întregului
instrument. Astfel, dacă scorurile obţinute indică o asociere puternică între cele două forme,
atunci poate fi acceptat faptul că ambele vizează „scoruri adevărate”, aspecte psihologice reale,
şi că scorurile lor observate sunt afectate de eroare într-o măsură tolerabilă. Ca atare, ambele
forme constituie instrumente cu un grad satisfăcător de fidelitate. De obicei, în psihologia clinică
acest procedeu este aplicat în elaborarea formei scurte a instrumentelor, prin calcularea corelaţiei
sale cu cea iniţială.

3. Aplicaţii ale coeficientului alfa Cronbach


Chiar dacă, aşa cum am menţionat, folosirea acestui coeficient pentru estimarea fidelităţii
instrumentului este uneori discutabilă, el are aplicaţii utile în câteva arii particulare. Ele pleacă de
la faptul că alfa Conbach permite calculul gradului de eroare al instrumentului.
Anterior am definit fidelitatea ca proporţia de varianţă observată care provine din varianţa
adevărată. Deci, cea observată este considerată a fi compusă din două tipuri de varianţă: cea
adevărată şi cea eroare. Formalizarea acestei afirmaţii este următoarea: S²X = S²A + S²E , unde S²X
este varianţa observată, S²A este varianţa adevărată, iar S²E este varianţa eroare. Folosind aceste
notaţii, definirea fidelităţii ca proporţie de varianţă poate fi scrisă sub forma coeficientului de
fidelitate rxx’, astfel:
rxx’ = S²A / S²E
6

curs 3 24
Evaluare psihologică – metode psihometrice curs 3

Cu cât fidelitatea testului este mai mare, cu atât o proporţie mai mare din scorurile
observate la instrument provin din scorurile adevărate. Totuşi, eroarea este prezentă în orice
instrument, iar în folosirea practică a acestuia este importantă cunoaşterea magnitudinii sale.
Indicatorul care ne poate informa cu privire la acest aspect este eroarea standard de măsurare,
care, tehnic, reprezintă abaterea standard a erorii conţinute de instrument, Aceasta poate fi
calculată pe baza a doi parametri ai instrumentului: abaterea standard a scorurilor observate (Sy)
şi coeficientul de fidelitate (rxx’), după formula:
SE = S y 1 − rxx '
Această formulă este aplicabilă prin estimarea fidelităţii prin consistenţa internă a
itemilor prin coeficientul alfa Cronbach; deci, valoarea coeficientului de fidelitate rxx’ este cea a
lui alfa. Eroarea standard de măsurare poate fi utilizată, la rândul ei, în următoarele aplicaţii:
a. pe baza ei se poate determina schimbarea de scoruri de la o aplicare la alta care poate
proveni din eroarea instrumentului. De exemplu, în cazul unui instrument cu o eroare standard de
măsurare cu valoarea 4, o schimbare a scorului obţinut de un individ de la 20 la 24 de la o
administrare la alta este probabil determinată de eroarea de măsurare, deci ea nu reflectă o
schimbare psihologică reală. Cu alte cuvinte, doar schimbările mai mari decât eroarea standard
de măsurare pot fi considerate a fi reale.
În cazul în care suntem interesaţi de alegerea unui instrument cu o eroare de măsurare
minimă dintre mai multe disponibile, trebuie ţinut cont de faptul că acest parametru depinde de
amplitudinea instrumentului, adică de diferenţa dintre scorul maxim posibil şi cel minim posibil.
De aceea, nu se pot compara direct erorile standard ale unor instrumente diferite, ci ele trebuie
convertite mai întâi în procente, prin formula: SE * 100 / A (unde A = amplitudinea).

b. calculul intervalului în care se află scorul adevărat al unui subiect


Principiul acestui procedeu este cel că scorul adevărat al subiectului se află undeva în
jurul scorului obţinut de el la acel instrument; cu cât fidelitatea este mai mare, cu atât distanţa
dintre cele două este mai redusă (deci scorul observat se apropie mai mult de cel adevărat).
Dincolo de acest aspect, intervalul în care se află scorul adevărat în jurul celui observat poate fi
estimat cu diverse probabilităţi, conform implicaţiilor curbei normale, deoarece scorurile
adevărate ale ansamblului subiecţilor se distribuie normal în jurul celui observat: 68% se află la
distanţe de maxim o eroare standard de măsurare de acesta, 95% - la distanţe de maxim două SE,
iar 99% - la distanţe de maxim 3 SE. În consecinţă, cu o probabilitate de 68% scorul adevărat al
unui subiect particular se află la o eroare standard de măsurare de scorul observat (în plus şi în
minus), cu o probabilitate de 95% - la două SE în jurul celui observat, iar cu o probabilitate de
99% - la trei SE în jurul scorului observat.

c. Generalizarea rezultatelor de pe un eşantion la populaţie


Această aplicaţie se referă la situaţia în care suntem interesaţi de estimarea mediei unei
populaţii pe baza scorurilor obţinute de un eşantion de subiecţi extras din ea. Cu cât instrumentul
7

curs 3 25
Evaluare psihologică – metode psihometrice curs 3

este mai fidel, cu atât media eşantionului este mai apropiată de cea a populaţiei; distanţa dintre
cele două este măsurată prin indicatorul denumit „eroarea standard a mediei”, care sintetizează
acurateţea măsurării populaţiei prin intermediul acelui eşantion.
Un factor important al acestei acurateţi este fidelitatea instrumentului folosit; cu cât el
este mai fidel, cu atât media eşantionului va aproxima mai bine media populaţiei, şi deci o vom
putea localiza pe aceasta într-un interval mai restrâns şi vom putea face estimări mai precise.
Instrumentele cu fidelitate redusă nu ne permit decât estimări vagi, deoarece gradul lor de eroare
(similar sondajelor de opinie) este unul mare. Un alt factor al erorii standard a mediei este
volumul eşantionului pe care a fost aplicat instrumentul; fireşte că eşantioanele mari duc la
estimări mai precise decât cele care conţin puţin indivizi. Totuşi, relaţia dintre cele două aspecte
nu este una perfectă, mai ales ţinând cont şi de criteriul fidelităţii. Tabelul următor prezintă
erorile standard ale mediilor (fiind standard, ele sunt exprimate în sistemul de referinţă al
scorurilor standardizate z, de la -3 la 3) în funcţie de fidelitatea instrumentului folosit şi de
numărul de subiecţi din eşantion.

Fidelitate Nr subiecţi
10 30 100 300 1000
0,3 0,57 0,33 0,183 0,1 0,058
0,4 0,50 0,28 0,15 0,09 0,05
0,5 0,44 0,25 0,14 0,08 0,045
0,6 0,40 0,23 0,129 0,07 0,041
0,7 0,37 0,21 0,120 0,069 0,038
0,8 0,35 0,20 0,11 0,065 0,035
0,9 0,33 0,19 0,10 0,061 0,033
0,95 0,32 0,187 0,10 0,059 0,032
1 0,31 0,183 0,10 0,058 0,032

Valorile accentuate în tabel (0,183 şi 0,33) indică evidenţiază importanţa ambilor factori:
combinaţiile dintre diverse fidelităţi şi volume ale eşantionului pot genera aceleaşi erori standard
ale mediilor, deci acelaşi grad de eroare în măsurarea populaţiei. De exemplu, un instrument cu
fidelitate apropiată de cea perfectă (aproape de 1) ar măsura cu aceeaşi precizie populaţia prin
intermediul unui eşantion de 30 de oameni cu cea a unui instrument cu fidelitate slabă (0,3)
aplicat pe 100 de oameni. Aşadar, fidelităţile mari ale instrumentelor permit economii în ceea ce
priveşte numărul necesar de subiecţi pentru a ajunge la un anumit nivel de precizie.

curs 3 26
Evaluare psihologică – metode psihometrice curs 3

Bibliografie
• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Rosenthal, J. A. (1994). Reliability and social work research. Social Work Research, 18, 115-121.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

curs 3 27
Evaluare psihologică – metode psihometrice curs 4

Validitatea instrumentelor

1. Definire. Validitate şi fidelitate


Validitatea se referă la gradul în care instrumentul măsoară ceea ce şi-a propus să
măsoare. Ea depăşeşte sfera fidelităţii, în sensul că ea vizează măsura în care scorul obţinut de
subiect (scorul observat) este determinat nu doar de un aspect psihologic real în general, ci chiar
de cel pe care ar trebui să îl evalueze instrumentul. În timp ce fidelitatea are în vedere precizia
măsurării, deci capacitatea instrumentului de a reflecta cât mai acurat realitatea psihologică a
individului (astfel încât scorul lui să fie cât mai puţin afectat de surse exterioare, ce nu au
legătură cu aceasta), validitatea se referă la calitatea măsurării. În psihometrie, o măsurare de
calitate implică, în plus faţă de una precisă, evidenţierea chiar a dimensiunii psihologice vizate
de instrument, şi evitarea contaminării scorului observat cu alte caracteristici psihologice ale
individului.
În termenii mai tehnici ai varianţei, fidelitatea este definită ca proporţia varianţei
adevărate din cea observată, scopul analizelor centrate pe creşterea ei fiind minimizarea varianţei
eroare. Definirea validităţii pleacă de la segmentarea varianţei adevărate în două componente:
cea pertinentă - care provine din diferenţele între subiecţi pe trăsătura vizată de instrument - şi
cea non-pertinentă, care provine din diferenţele pe alte caracteristici psihologice decât cea vizată
de instrument. Acestea sunt considerate erori în estimarea validităţii, chiar dacă reflectă
caracteristici reale; deoarece ele influenţează răspunsul subiectului de fiecare dată când el
completează acel instrument, se numesc „erori sistematice”.
Validitatea este definită ca proporţia varianţei pertinente din cea observată; de aceea,
faptul că diferenţele dintre scorurile observate sunt determinate de diferenţe psihologice reale
între subiecţi nu mai este suficient. Ea solicită ca aceste diferenţe reale să fie „pertinente”, adică
să fie nu în privinţa oricărei caracteristici psihologice, ci doar a celei pe care îşi propune să o
evalueze instrumentul. Deci, scopul analizelor centrate pe validitate este minimizarea varianţei
non-pertinente; dacă diferenţele dintre scorurile observate la intrument provin în cea mai mare
măsură din diferenţe psihologice reale dintre subiecţi, însă care nu au legătură cu dimensiunea
psihologică vizată de el, atunci instrumentul este unul fidel, dar nu este valid. El evaluează precis
oamenii, îi localizează la niveluri de intensitate psihologică ce corespund realităţii lor mentale,
ierarhiei lor adevărate, însă nu se ştie care sunt aceste dimensiuni psihologice; în orice caz, ele
sunt altele decât cele pe care ar trebui să le evalueze instrumentul. Cu alte cuvinte, am avea un
instrument care evaluează corect oamenii, numai că nu am şti ce anume evaluăm cu adevărat la
ei.
Dat fiind faptul că validitatea ţine de proporţia varianţei pertinente din cea observată, iar
aceasta este considerată a fi compusă, în acest caz, din trei tipuri de varianţă (pertinentă, non-
pertinentă şi eroare), ea este condiţionată nu doar de amploarea varianţei non-pertinente
(comentată mai sus), ci şi de cea a varianţei eroare, care este luată în calcul şi în estimarea
fidelităţii. De aceea, calculele de estimare a fidelităţii le preced pe cele vizând validitatea;
instrumentul trebuie să fie în cât mai mică măsură afectat de surse de eroare externe în raport cu
1

curs 4 28
Evaluare psihologică – metode psihometrice curs 4

dimensiunile psihologice ale individului (denumite „erori aleatorii”), înainte de a se pune


problema varianţei pertinente şi non-pertinente. Însă asigurarea unui nivel satisfăcător de
fidelitate nu este decât primul pas pentru evaluarea validităţii, deoarece varianţa adevărată mare
(ca proporţie din cea totală, observată) ar putea proveni în cea mai mare măsură din alte
dimensiuni psihologice decât cele care ar trebui să conteze, deci ea ar putea fi în cea mai mare
parte varianţă non-pertinentă. Cu alte cuvinte, validitatea este limitată de fidelitate (dacă varianţa
eroare este mare, cea pertinentă nu poate fi suficientă), dar fidelitatea este o condiţie necesară, nu
şi suficientă pentru validitate. De aceea, un test valid este şi fidel (varianţa non-pertinentă mare
implicând o varianţă adevărată mare), însă un test fidel nu este în mod necesar şi valid.

2. Tipuri de validitate
Ca şi în cazul fidelităţii, validitatea reprezintă o calitate psihometrică abstractă; evaluarea
ei nu se poate face decât prin intermediul unor faţete particulare. Totuşi, spre deosebire de
fidelitate, unde fiecare astfel de faţetă este susţinută de o perspectivă distinctă şi auto-suficientă
(în sensul că de multe ori estimarea fidelităţii se realizează printr-o singură abordare din cele trei
posibile), estimarea validităţii necesită toate abordările enumerate mai jos (primele trei fiind cele
„tradiţionale” în această arie, iar tehnicile care se referă la ultimul tip reprezentând preocupări
mai recente în psihodiagnostic). Deci, susţinerea validităţii unui instrument se bazeză pe dovezi
ce se referă la toate aceste tipuri; ele nu sunt abordări echivalente între ele, ci planuri diferite de
analiză ce compun împreună validitatea instrumentului.
Principalele tipuri de validitate a instrumentelor din evaluarea psihometrică sunt
următoarele:
• De conţinut
• De criteriu
• De construct
• Incrementală

2.1. Validitatea de conţinut

Acest tip de validitate are în atenţie măsura în care itemii scalei acoperă satisfăcător
conţinutul conceptului evaluat de acel instrument. Se presupune că orice concept psihologic
poate fi vizat de o populaţie infinită de itemi posibili; instrumentul are validitate de conţinut dacă
itemii săi compun un eşantion reprezentativ din această populaţie. Această problemă are două
componente, corespunzătoare celor două forme ale validităţii de conţinut, ambele focalizate pe
conţinutul itemilor şi a conceptului psihologic evaluat de instrument, şi anume:
a. Validitatea aparentă se referă la gradul în care fiecare item din instrument se
încadrează în aria psihologică a conceptului vizat. Evaluarea ei se face prin raţionament (aşa-
numita „metodă a experţilor”), judecându-se potrivirea dintre fiecare item şi constructul pe care
îl evaluează instrumentul.

curs 4 29
Evaluare psihologică – metode psihometrice curs 4

b. Validitatea logică se referă la măsura în care ansamblul de itemi acoperă toate faţetele
conceptului vizat; ea presupune tot o evaluare subiectivă, prin analiza psihologică a conceptului,
identificarea tuturor nuanţelor sale şi judecarea gradului în care fiecare dintre acestea se
regăseşte în conţinutul itemilor.
În ambele cazuri, un nivel satisfăcător de validitate de conţinut necesită nu doar ca
dimensiunea psihologică vizată să fie acoperită corespunzător (aspect important pentru creşterea
varianţei pertinente a instrumentului), ci şi ca itemii să nu invoce alte dimensiuni (crescând astfel
varianţa non-pertinentă), adică să ducă la răspunsuri generate de alte caracteristici psihologice
ale subiecţilor care îl completează. Acest aspect este investigat prin intermediul conceptului de
„erori de răspuns”.

2.1.1. Erorile de răspuns


Validitatea de conţinut poate fi afectată de diverse distorsiuni ale răspunsului, induse de
obicei de formularea itemilor. Ele scad validitatea răspunsurilor deoarece reflectă alte dimensiuni
psihologice decât cele vizate de instrument, scorurile la instrument fiind astfel “contaminate” cu
caracteristici irelevante ce cresc varianţa non-pertinentă.
În general, aceste caracteristici irelevante vizate de itemi pot fi:
- dimensiuni cognitive – mai ales în cazul itemilor cu formulări complexe; răspunsurile la
astfel de itemi reflectă nu doar dimensiunea psihologică vizată de instrument, ci şi gradul de
atenţie şi inteligenţă al subiectului.
- dimensiuni de personalitate – în acest caz, itemii conţin nuanţe semantice care activează
astfel de caracteristici suplimentare faţă de cea care ar trebui evaluată. Una dintre trăsăturile
psihologice ce poate contamina uşor itemii instrumentelor ce evaluează alte caracteristici este
nevrozismul, deoarece ea constituie o dimensiune largă de personalitate, ce influenţează reacţiile
umane într-o mare varietate de situaţii; de aceea, există pericolul ca itemul să conţină nuanţe
referitoare la situaţii în care comportamentul subiectului să fie determinat şi de gradul său de
nevrozism. Această caracteristică influenţează cu precădere răspunsurile la itemi ce conţin
formulări în termeni de emoţii negative (de exemplu “mă îngrijorez..., mă enervează...”), chiar
dacă ei vizează alte trăsături specifice.

a. Dezirabilitatea socială
Cea mai frecventă sursă de contaminare a instrumentelor psihologice este dezirabilitatea
socială, definită de obicei ca tendinţa de a proiecta o imagine pozitivă în exterior. Itemii multor
instrumente permit contaminarea răspunsurilor cu această caracteristică, deoarece ei plasează
subiectul în situaţii în care el devine motivat să ofere un răspuns care să implice faptul că posedă
trăsături pozitive şi, de asemenea, pentru că ei permit subiectului să dea un răspuns dezirabil
social (anumite instrumente nu oferă subiectului această posibilitate; de exemplu, tehnicile
implicite de evaluare psihologică scad capacitatea lui de a-şi controla răspunsurile, evitându-se
aproape complet această problemă a dezirabilităţii sociale).

curs 4 30
Evaluare psihologică – metode psihometrice curs 4

Dată fiind frecvenţa contaminării cu această dimensiune la majoritatea instrumentelor, au


fost propuse diverse metode de control post-hoc, care presupun corecţia scorurilor subiecţilor la
instrumentul respectiv prin eliminarea influenţei pe care a exercitat-o dezirabilitatea socială
asupra răspunsurilor.
Una dintre metodele cele mai utilizate de control este utilizarea unor instrumente
suplimentare care evaluează nivelul de dezirabilitate socială a comportamentului fiecărui subiect
în general. Premisa acestei metode este aceea că subiectul a răspuns la instrumentul care ne
interesează într-o manieră echivalentă ca tendinţă de dezirabilitate socială cu cea care îi
caracterizează comportamentul său obişnuit. Cea mai cunoscută scală e dezirabilitate socială este
Marlowe-Crowne, cu 33 de itemi; o alternativă mai analitică este instrumentul Balanced
Inventory of Desirable Responding, ce conţine 40 itemi repartizaţi pe 2 dimensiuni, şi anume:
- Managementul impresiei – latura publică şi intenţionată a dezirabilităţii sociale,
echivalentă cu definiţia generală a acestei trăsături.
- Iluziile despre propria persoană - latura privată şi inconştientă, dar foarte importantă
pentru felul în care individul procesează informaţiile din exterior despre propria persoană şi, în
consecinţă, ajunge să îşi evalueze propriile trăsături. Majoritatea oamenilor au mecanisme
cognitive (conţinute în acest factor de personalitate) care le permit să îşi păstreze o imagine de
sine pozitivă chiar şi în condiţiile în care comportamentul lor obiectiv nu ar justifica o astfel de
evaluare. Aceste mecanisme funcţionează practic prin introducerea de distorsiuni ale
informaţiilor despre propria persoană, analizate în psihologie sub eticheta de „erori cognitive”,
„euristici inferenţiale”, etc.
Indiferent de instrumentul de dezirabilitate socială ales, această metodă presupune
corecţia statistică a scorurilor la instrumentul de interes prin eliminarea efectului dezirabilităţii
sociale, adică prin ponderarea scorului la acest instrument cu cel de la scala de dezirabilitate
socială.
O variantă mai analitică, ce ţine cont de semnificaţia fiecărui item în parte, presupune
utilizarea unor metode statistice de corecţie a dezirabilităţii sociale a itemilor acelui instrument.
Acest lucru este posibil, în principal, prin evaluările prealabile ale dezirabilităţii sociale ale
fiecărui item de către experţi. După aplicarea instrumentului, scorul la fiecare item este ponderat
cu evaluarea primită de el în privinţa dezirabilităţii; cu cât impactul acesteia este mai mare, cu
atât diferenţa dintre scorul rezultat din răspunsul subiectului la item şi scorul final, ce va fi luat în
calcul în evaluarea individului, va fi mai mare.

b. Tendinţa de achiesare
Aceasta reprezintă un alt factor ce poate induce distorsiuni ale răspunsurilor; de data
aceasta, el ţine cu precădere de caracteristicile psihologice ale individului căruia îi este
administrat instrumentul, însă prin cunoaşterea acestei surse de eroare pot fi luate măsuri în
construcţia formatului acestuia astfel încât influenţa ei să fie minimizată.
Ea presupune tendinţa de a aproba toţi itemii, şi are două forme, fiecare dintre ele putând
fi specifice unui individ:
4

curs 4 31
Evaluare psihologică – metode psihometrice curs 4

b1. achiesarea de acord presupune tendinţa de a acorda răspunsuri afirmative la toţi


itemii; un subiect cu o astfel de tendinţă ar răspunde, de exemplu, “da” şi la un item de tipul “În
general sunt curajos”, şi la altul opus semantic: “În general sunt temător”.
Unul dintre instrumentele despre care s-a constatat faptul că este semnificativ afectat de
achiesarea de acord (în sensul că formularea itemilor determină subiecţii să aprobe majoritatea
itemilor indiferent de nivelul real în care ei posedă trăsătura pe care o vizează ei) este inventarul
de temperament EPI. O ilustrare a erorilor de evaluare psihologică la care poate duce această
tendinţă este aceea că la acest instrument s-a observat faptul că apar corelaţii mai mari între
factorul N (nevrozism) şi E (extraversiune) în versiunile în care ambii au itemi cu formulări
afirmative (deci, sunt congruente) decât când sunt incongruente. Prin urmare, profilul psihologic
rezultat în privinţa unui subiect va depinde de versiunea de instrument pe care a completat-o.
Soluţia cea mai des utilizată în construcţia instrumentelor pentru a diminua tendinţa de
achiesare este contrabalansarea itemilor, adică formularea a jumătate dintre ei cu semnificaţie
negativă. Totuşi, această metodă poate introduce ea însăşi probleme suplimentare, ce ţin în
special de faptul că itemii cu formulări negative sunt receptaţi psihologic într-o manieră complet
opusă decât cei cu formulări pozitive. Aceasta face ca în multe cazuri, analizele factoriale asupra
scorurilor din pretestarea acestor instrumente să indice gruparea itemilor în doi factori, fiecare
conţinând itemii cu un anumit tip de formulare (negativă sau pozitivă), chiar dacă nu acesta este
criteriul de segmentare psihologică relevant pentru teoria ce susţine instrumentul. Deci, acest
criteriu de clasificare a nuanţelor psihologice ale conceptului evaluat (de exemplu tipul de auto-
reglare: cognitivă şi emoţională) devine „mascat”, nesemnificativ în comparaţie cu cel al
formulării itemilor (care ar trebui să fie, în realitate, unul superficial).
Studiile pe această temă au constatat faptul că efectul formulării negative este mai mare
la itemii ce conţin negaţia explicită – “nu” (de exemplu „Nu sunt fericit”) – decât la cei cu prefix
negativ (de exemplu “Sunt nefericit”) sau cu frecvenţă negativă (de exemplu “rareori sunt
fericit”). De asemenea, o soluţie alternativă formulării negative a itemilor este folosirea
antonimelor pentru caracteristicile vizate (de exemplu “trist”). Totuşi, nici această opţiune nu
rezolvă neapărat problema tendinţei de achiesare, pentru că ea poate face loc celei de-a doua
forme a acesteia.
b2. achiesarea de acceptare presupune auto-atribuirea tuturor caracteristicilor prezente în
itemi, indiferent de formularea lor; de exemplu, răspunsul “da” la itemul “În general sunt
curajos”, respectiv “nu” la “În general nu sunt temător”, subiectul atribuindu-şi ambele
caracteristici (curajos şi temător), chiar dacă ele sunt opuse semantic.

c. Interpretarea subiectivă (personală) a itemilor


Acest factor se referă la stilul în care fiecare individ se raportează la conţinutul itemilor;
el introduce o sursă de eroare în varianţa itemilor, pentru că diferenţe între scorurile obţinute de
subiecţi care nu provin din trăsătura măsurată, ci din interpretările diferite ale itemilor. În această
privinţă, o serie de studii au încercat să clasifice diversele maniere în care oamenii decid asupra

curs 4 32
Evaluare psihologică – metode psihometrice curs 4

răspunsului pe care îl oferă la itemii instrumentelor psihologice, în funcţie şi de conţinutul


acestora.
Cunoaşterea acestor maniere pleacă de la analiza proceselor mentale implicate în
răspunsul la item; un exemplu de astfel de abordare este studiul lui Angleitner et al. (1986), ale
cărui concluzii susţin existenţa a trei etape ale răspunsului la itemi, şi anume:
1. Reprezentarea mentală a itemului – decodificarea semnificaţiei sale;
2. Compararea cu sine – comparaţia dintre semnificaţia itemului şi informaţiile din
memorie, apoi decizia cu privire la gradul de acord cu itemul;
3. “Controlul utilităţii” – evaluarea deciziei din punctul de vedere al normelor sociale.
În etapa a doua, alegerea răspunsului depinde de modalitatea de procesare a itemului şi
cea în care subiectul se auto-evaluează prin raportare la semnificaţia lui. În această arie, studiile
au pus în evidenţă mai multe strategii potenţiale de răspuns, care depind în mare măsură de
formularea itemilor. Concluzia generală a acestor cercetări este aceea că modul de formulare al
itemului poate afecta în grade diferite validitatea răspunsurilor, pentru că el pune în funcţiune o
anumită strategie de construcţie a răspunsului la el. Tema poate fi ilustrată printr-o clasificare a
validată de mai multe studii (de exemplu Gordon & Holden, 1996), conform căreia cele mai
frecvente strategii de răspuns la item sunt următoarele:
1. Referinţa la un singur comportament sau experienţă; un exemplu de item ce
declanşează această strategie este: “La alegeri votez candidaţi despre care ştiu foarte puţine
lucruri.”
2. Referinţa la mai multe comportamente sau experienţe, de exemplu: “În copilărie le
puteam spune uşor părinţilor problemele mele.”
3. Referinţa la o singură caracteristică sau trăsătură, de exemplu: “Aş fi dispus să dau
bani pentru a repara o nedreptate, chiar dacă nu a fost vina mea.”
4. Referinţa la mai multe caracteristici sau trăsături, de exemplu: “Dacă aş avea prilejul,
aş fi un bun lider.”
5. Referinţa la o comparaţie cu o altă persoană, de exemplu: “Admir oamenii liberi şi
spontani.”
6. Referinţa la o comparaţie cu mai multe persoane, de exemplu: “Am mai multe
probleme de concentrare decât par a avea alţii.”
7. Referinţa la o descriere făcută subiectului de o altă persoană, de exemplu: “M-aş
descrie ca având o personalitate destul de puternică”.
8. Referinţa la o descriere făcută subiectului de alte persoane, de exemplu: „Majoritatea
cunoscuţilor cred că reacţionez spontan”.
Scorurile generate de itemii relevanţi pentru fiecare dintre aceste strategii au fost evaluate
după diverse criterii ce ţin de validitate, constatându-se că itemii cu validitate scăzută sunt, în
general, cei care evocă experienţe sau comportamente specifice. Pe de altă pare, itemii cu
validitate ridicată sunt cei care se referă la mai multe trăsături sau caracteristici, respectiv cei
care se referă la descrieri făcute subiectului de alte persoane. Problema este că aceste tipuri de
itemi sunt aplicabili la puţine dimensiuni de personalitate, în sensul că este dificil de formulat
6

curs 4 33
Evaluare psihologică – metode psihometrice curs 4

itemi care să genereze la răspunsuri construite de subiect prin intermediul acestor strategii cu
nivel ridicat de validitate.

2.2. Validitatea de criteriu

Dacă validitatea de conţinut se referă la interiorul instrumentului, la formularea şi


semnificaţiile itemilor săi, cea de criteriu are în vedere legăturile dintre dintre scorurile obţinute
de subiecţi la instrument şi un criteriu exterior. În acest caz, un instrument este considerat a fi
valid dacă el ne poate ajuta să cunoaştem comportamentele şi deciziile din viaţa reală a
individului care sunt determinate de trăsătura evaluată. Cu alte cuvinte, validitatea de criteriu se
referă la utilitatea practică a scalei, măsura în care el poate ajuta psihologul să realizeze prognoze
şi decizii corecte. De exemplu, un instrument care evaluează anxietatea socială are validitate de
criteriu dacă oamenii care obţin scoruri ridicate la el sunt cei care evită să intre în situaţii în care
ar putea interacţiona cu alţi oameni, în timp ce subiecţii cei care obţin scoruri reduse pot face
acest lucru cu uşurinţă.
Asocierea dintre instrument şi comportamentele reale este evaluată, în mod tradiţional,
prin intermediul metodei statistice a regresiei, care are două forme generale în funcţie de tipul de
scală psihometrică pe care este măsurat criteriul. Când el este măsurat pe scală de interval (în
exemplul anxietăţii sociale, numărul de prieteni apropiaţi pe care îi are un individ) se utilizează
metoda regresiei cantitative; când el este măsurat pe scală categorială (de exemplu, modul în care
alege să îşi petreacă seara în mod obişnuit, cu două posibilităţi: singur sau împreună cu alţi
oameni) se foloseşte regresia logistică.
În termenii abordării regresiei, instrumentul este etichetat ca „predictor”, iar
comportamentele exterioare – „criteriu”. Validitatea de criteriu a instrumentului este estimată
prin intermediul unui parametru statistic care arată puterea legăturii dintre cele două, şi anume
pătratul corelaţiei dintre ele, ce indică procentul de varianţă a criteriului explicată de varianţa
scalei de evaluare. Astfel, dacă acest procent ar fi, de exemplu, 60% în cazul asocierii dintre
instrumentul de anxietate socială şi evitarea comportamentală a situaţiilor sociale, acest lucru
indică faptul că diferenţa dintre doi oameni pe criteriu – unul evitând în mai mare măsură decât
celălalt situaţiile sociale – este determinată într-o proporţie de 60% de diferenţele dintre scorurile
lor la instrumentul respectiv.

2.2.1. Tipuri de validitate de criteriu:


a) Validitatea predictivă vizează asocierea scorurilor instrumentului cu un eveniment ce
ar putea avea loc în viitor; un exemplu este cel al scalelor MMPI (şi al multor alte scale clinice),
ce prezic probabilitatea ca subiectul să dezvolte în viitor tulburări mentale. Deci, ele vizează
evoluţia psihologică viitoare a subiectului.

curs 4 34
Evaluare psihologică – metode psihometrice curs 4

b) Validitatea concurentă vizează cunoaşterea situaţiei psihologice şi a


comportamentelor subiectului din prezent. În acest caz, criteriul este reprezentat de un eveniment
măsurat în acelaşi timp.
c) Validitatea discriminativă (de diferenţiere a grupurilor cunoscute) se referă la
capacitatea instrumentului de a separa corect oamenii din cele două tipuri extreme după criteriul
trăsăturii măsurate (de exemplu, validitatea discriminativă a unui instrument care evaluează
temperamentul presupune diferenţierea între oamenii extravertiţi şi cei introvertiţi). Problema în
acest caz este cea a posibilei subiectivităţi ce poate interveni în împărţirea oamenilor în cele două
grupuri. De aceea, această metodă este utilizată cu precădere atunci când pot fi identificate
criterii precise, cât mai obiective de stabilire a componenţei celor două grupuri; acest lucru este
mai dificil pentru unele instrumente decât pentru altele. De exemplu, un instrument care
evaluează persistenţa motivaţională poate fi pus în legătură cu persistenţa individului în anumite
comportamente reale (cum ar fi numărul de zile în care poate ţine dietă atunci când îşi propune
acest lucru, numărul de recidive în cazul tentativelor de a se lăsa de fumat, etc.). Tehnic,
validitatea discriminativă poate fi estimată în mai multe feluri; cel mai simplu este cel al
calculării diferenţelor între media scorurilor la instrument a grupului care posedă acea trăsătură şi
a celui care nu o posedă. De asemenea, ea poate fi estimată (mai precis) şi prin tehnica ROC, (ce
urmează a fi prezentată într-un alt curs).

2.2.2. Eroarea standard de estimare


Aşa cum în calculele fidelităţii prin abordarea consistenţei interne se poate utiliza eroarea
standard specifică ei – cea de măsurare – pentru a afla intervalul în care se situează scorurile
adevărate ale unui subiect, şi în calculele validităţii de criteriu (mai precis a validităţii de criteriu
predictive) există un indicator util – cel al erorii standard de estimare (SEst). El este folosit pentru
a calcula marja de eroare a modelului de predicţie construit (prin metoda statistică a regresiei)
pentru a estima criteriul pe baza scorului subiectului la instrument. Mai precis, folosind acest
parametru se poate calcula intervalul în care se va afla scorul real al subiectului la criteriu (de
exemplu, numărul de zile de dietă în cazul instrumentului de persistenţă motivaţională) în jurul
scorului calculat prin ecuaţia de regresie (plecând de la scorul la predictor, deci la instrument).
Axioma pe care se bazează estimarea acestui interval este tot cea a normalităţii distribuţiei
scorurilor reale în jurul celui pe care îl cunoaştem (în acest caz, a celui calculat prin ecuaţia de
regresie), în sensul că 68% dintre scorurile la criteriu se află la o eroare standard de estimare de
scorul calculat prin ecuaţie, 95% la 2 SEst, 99% la 3 SEst. Astfel se poate estima intervalul în care
se vor afla scorurile reale ale subiectului la criteriu, cu probabilităţi de 68%, 95%, 99%.

Bibliografie

• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press

curs 4 35
Evaluare psihologică – metode psihometrice curs 4

• Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological
Assessment, 7, 309-319.
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Crowne, D. P., & Marlowe, D. (1960). A new scale of social desirability independent of psychopathology.
Journal of Consulting Psychology, 24, 349–354.
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Gordon, E., Holden, R. (1996). Use of item ratings to examine personality test item cognitive response
processes. Personality and Individual Differences Vol. 21, No. 6, pp. 897-905.
• Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Konstabel, K., Aavik, T., Allik, J. (2006). Social Desirability and Consensual Validity of Personality Traits,
European Journal of Personality 20: 549–566
• Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses
and performances as scientific inquiry into score meaning. American Psychologist, Vol 50(9), 741-749.
• Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

curs 4 36
Evaluare psihologică – metode psihometrice curs 5

2.3. Validitatea de construct

În psihologie rareori sunt evaluate concepte concrete şi observabile, sau care să aibă
manifestări exterioare uşor de remarcat şi direct asociate cu ele; un exemplu de caracteristică ce
implică astfel de manifestări este dependenţa de modificări corporale, ce poate fi evaluată prin
intermediul schimbărilor corporale vizibile (tatuaje, piercing-uri, etc.) ale persoanei. Însă de cele
mai multe ori sunt utilizate instrumente ce vizează concepte latente şi abstracte, denumite
„constructe”.
Premisa în construcţia unui instrument psihologic este că toate constructele au o serie de
manifestări care pot fi evaluate prin intermediul unor itemi; deci, ansamblul acestor itemi se
referă la un set de comportamente care ar trebui să fie inter-relaţionate, în virtutea faptului că
sunt generate sau cel puţin influenţate de acelaşi construct. Analiza validităţii de construct se
referă la măsura în care instrumentul permite evaluarea unui construct prin intermediul acelui set
de comportamente observabile prin care este el operaţionalizat în itemi.
Experienţa construcţiei instrumentelor psihologice arată că unele constructe sunt mai uşor
de operaţionalizat decât altele; de asemenea, în cazul unor constructe încrederea pe care o putem
avea în instrumentele elaborate pentru a le evalua este mai mare decât în cazul altora. De
exemplu, viteza de reacţie – ca trăsătură individuală – poate fi măsurată printr-un număr redus de
metode, ale căror rezultate sunt puternic corelate. Pe de altă parte, anxietatea reprezintă un
construct ale cărui instrumente dezvoltate până acum sunt mai puţin consensuale. Ea poate fi
evaluată prin metode diverse, însă studiile indică faptul că această diversitate a metodelor este
însoţită şi de o diversitate a rezultatelor; de exemplu, între rezultatele scalelor de auto-raportare
şi cele de observaţie clinică există de obicei corelaţii slabe, deci evaluările aceluiaşi individ prin
cele două abordări pot fi diferite. Acelaşi lucru poate fi valabil şi în cazul folosirii instrumentelor
psihometrice.
Pentru a elucida această problemă a corespondenţei dintre itemi şi construct, perspectiva
validităţii de construct se focalizează pe încadrările teoretice ale acestuia. Astfel, teoria pe care se
bazează constructul cuprinde, pe de o parte, definiţiile acelui concept, dar şi „reţeaua sa
nomologică”, adică acele constructe apropiate psihologic de cel vizat. Scopul procedurilor de
estimare a validităţii de construct este acelaşi ca cel al validităţii în general, adică cel de a
identifica sursele diferenţelor dintre scorurile la instrument, ale varianţei observate. Un
instrument valid este cel care generează scoruri ce provin din constructul urmărit şi nu din altele
irelevante sau din alte surse de eroare. Pentru a obţine informaţii despre sursele varianţei
scorurilor, în estimarea validităţii de construct există trei abordări, fiecare putând fi pusă în
practică prin anumite metode.

2.3.1. Abordări ale validităţii de construct


a. Studierea relaţiilor dintre observaţiile produse de instrument, adică dintre scorurile
la itemii acestuia: această abordare presupune investigarea consistenţei interne a scalei, la fel ca
în cazul evaluării fidelităţii instrumentului. Ipoteza pe care se bazează ea este aceea că dacă
1

Curs 5 37
Evaluare psihologică – metode psihometrice curs 5

observaţiile sunt inter-corelate, atunci poate fi postulat (acceptat) un construct psihologic care să
le explice.
Această perspectivă este doar una parţială, deoarece acest construct poate fi altul decât
cel vizat de instrument; deci, la fel ca în cazul fidelităţii în general, consistenţa internă este
necesară, dar nu suficientă pentru a susţine validitatea de construct. Totuşi, atunci când
consistenţa internă este de nivel redus, ea reprezintă un indicator cert al unei validităţi de
construct nesatisfăcătoare a acelui instrument.
b. validitatea convergentă se referă la legăturile instrumentului cu altele ce măsoară
concepte apropiate (din „reţeaua sa nomologică”). Această abordare pleacă de la premisa că un
instrument ce vizează cu adevărat constructul pe care ar trebui să îl evalueze va avea asocieri
puternice cu instrumentele care evaluează concepte apropiate psihologic de acesta. De aceea,
dovada validităţii de construct a unui instrument nou poate fi constituită din legăturile sale
puternice cu alte instrumente, deja validate şi acceptate de comunitatea ştiinţifică, ce vizează
celelalte (sau o parte din) conceptele din reţeaua sa nomologică. În caz contrar, asocierile slabe
cu aceste instrumente indică faptul că ceea ce evaluează acel instrument nu reprezintă un concept
din acea reţea, şi deci itemii săi nu se referă cu adevărat la constructul pe care ar trebui să îl
operaţionalizeze.
c. validitatea divergentă are în vedere „limitele instrumentului”; un instrument valid nu
ar trebui să fie influenţat de trăsături psihologice din afara reţelei nomologice a constructului
vizat. Practic, aceasta implică faptul că o condiţie a validităţii de construct este ca scalele ce
evaluează astfel de trăsături non-relevante să nu fie asociate cu scorurile la instrumentul
respectiv. În construcţia instrumentelor există pericolul acoperirii unei arii psihologice prea mari,
semnificativ mai extinse decât constructul vizat. În aceste cazuri, condiţia validităţii convergente
ar fi respectate (instrumentul ar fi asociat cu cele care măsoară caracteristici apropiate), însă
scorurile ar fi influenţate şi de alte trăsături cu o legătură slabă cu acel construct, şi deci ar apărea
surse de varianţă non-pertinentă; de aceea este necesară şi respectarea validităţii divergente.

2.3.2. Metode de estimare a validităţii de construct


a. analiza factorială reprezintă o tehnică statistică ce poate fi utilizată pentru a oferi
informaţii relevante pentru toate cele trei forme ale validităţii de construct enumerate anterior; de
aceea, validitatea de construct estimată prin această metodă mai poartă numele de „validitate
factorială”.
Prin analiza factorială se realizează gruparea itemilor în funcţie de dimensiunile lor
psihologice latente cu care fiecare dintre ei corelează cel mai puternic; astfel, ansamblul itemilor
este redus la un set de factori ce explică o proporţie semnificativă a varianţei scorurilor. Fiecare
factor ar trebui să reflecte una dintre faţetele constructului (de exemplu, în cazul unui instrument
de evaluare a auto-monitorizării, cele două faţete ale sale sunt auto-prezentarea şi sensibilitatea
faţă de comportamentul expresiv emoţional al celorlaltor oameni). De asemenea, corelaţiile intra-
subscale (dintre itemii aceluiaşi factor) trebuie să fie mai mari decât cele inter-subscale, dar nici
acestea nu trebuie să fie de nivel redus pentru a putea susţine ipoteza unui construct general
2

Curs 5 38
Evaluare psihologică – metode psihometrice curs 5

comun. Din moment ce aproximativ 70% din instrumentele psihologice au astfel de subscale
(vizând factori distincţi), metoda analizei factoriale este des utilizată pentru acest scop al grupării
itemilor în factori.
De asemenea, ea poate fi folosită şi pentru operaţii ce au ca scop creşterea validităţii de
construct; astfel, în etapa de pretestare a instrumentelor această metodă permite, pe lângă
identificarea structurii lor factoriale, selecţia itemilor, prin raportare la două criterii:
- eliminarea celor care nu corelează suficient de puternic cu nici unul dintre factorii
extraşi şi, deci, cu ansamblul celorlaltor itemi;
- prin aplicarea în pretestare şi a unor alte instrumente ce vizează constructe fără legătură
cu cel pe care ar trebui să îl evalueze instrumentul respectiv, analiza factorială oferă informaţii
despre relaţiile dintre itemii acestuia şi factorii celorlaltor instrumente. O astfel de metodă
permite aprecierea „graniţelor” instrumentului la modul general, adică a validităţii sale
divergente, dar şi eliminarea itemilor insuficient de specifici, deci a celor care corelează puternic
şi cu celelalte instrumente.
Pe lângă selecţia itemilor din varianta finală a instrumentului, analiza factorială permite
estimarea validităţii sale de construct (factoriale), prin următorii indicatori:
- asocierea dintre fiecare dintre itemi şi factorul de care aparţin (consistenţa internă);
- cantitatea de varianţă a instrumentului explicată de factorii extraşi, indicând măsura în
care structura factorială rezultată acoperă scorurile observate. În cazul în care ea are valori
reduse, înseamnă că faţetele constructului reprezintă o sursă minoră a scorurilor la instrument;
deci acesta este puternic contaminat cu alte caracteristici psihologice (necunoscute încă), el
având o validitate de construct nesatisfăcătoare.
- în cazul folosirii şi a unor instrumente care măsoară alte concepte în acea aplicare se pot
obţine informaţii despre această posibilă contaminare, prin examinarea relaţiilor dintre itemii
acestora şi factorii instrumentului pretestat. Dacă aceste legături sunt puternice, înseamnă că el
vizează şi acele constructe evaluate prin respectivele instrumente suplimentare, având deci o
validitate divergentă nesatisfăcătoare. Aşadar, validitatea divergentă poate fi analizată în două
maniere: prin intermediul relaţiilor dintre itemii instrumentului respectiv şi factorii altor scale ce
evaluează caracteristici din afara reţelei sale nomologice (itemii care corelează puternic cu
aceştia putând fi eliminaţi), respectiv prin examinarea contaminării factorilor instrumentului
pretestat cu itemi din aceste alte scale.
- în cazul folosirii şi a unor instrumente ce evaluează constructe apropiate psihologic,
studierea asocierilor dintre factorii rezultaţi este utilă pentru evaluarea validităţii convergente; în
acest caz, legăturile dintre factorii instrumentului pretestat şi cei ai celorlaltor instrumente ar
trebui să fie puternice pentru a susţine validitatea convergentă.
Date fiind exigenţele şi problemele practice ale analizei factoriale, uneori folosirea sa este
foarte dificilă; în aceste cazuri, se pot obţine unele informaţii despre validitatea factorială a
instrumentului, respectiv despre itemii ce ar trebui eliminaţi prin intermediul corelaţiilor fiecărui
item cu scorul total la instrument (ce indică consistenţa internă), respectiv cu cel al altor alte
instrumente (ce indică validitatea divergentă).
3

Curs 5 39
Evaluare psihologică – metode psihometrice curs 5

b) corelaţiile cu scorurile la alte instrumente reprezintă o metodă mai simplă ce poate


fi folosită pentru estimarea validităţii convergente şi divergente. Corelaţiile mari dintre scorurile
totale ale instrumentului şi cele ale altor instrumente ce vizează constructe psihologice apropiate
indică un nivel satisfăcător de validitate convergentă. Corelaţiile mici cu scorurile totale ale
instrumentelor ce vizează concepte din afara reţelei nomologice a celui vizat indică niveluri
satisfăcătoare de validitate divergentă.
De exemplu, unul dintre cele mai utilizate instrumente de evaluare a tendinţei de
îngrijorare este Penn State Worry Questionnaire, conţinând 16 itemi; el măsoară frecvenţa şi
intensitatea îngrijorării, ca şi abilitatea individului de a o controla. Autorii au construit o formă
scurtă, de 8 itemi, a scalei (denumită PWSQ-A: Penn State Worry Questionnaire - Abbreviated),
căreia i-au estimat validitatea de construct prin calcularea corelaţiilor sale cu alte instrumente, şi
anume:
- validitatea convergentă a fost evaluată prin corelaţiile cu STAI – T (State-Trait Anxiety
Inventory—Trait), Inventarul de Anxietate Beck, GADQ-IV (Generalized Anxiety Disorder
Questionnaire), WDQ (Worry Domains Questionnaire) şi Scala Intoleranţei la Incertitudine.
Toate acestea vizează constructe despre care teoria psihologică susţine că sunt apropiate de cel
vizat de instrument; mai precis, o persoană cu episoade intese, frecvente şi incontrolabile de
îngrijorare este probabil să aibă niveluri ridicate de anxietate generalizată, ca stare şi trăsătură, un
nivel redus de toleranţă la incertitudine şi să manifeste îngrijorare în majoritatea domeniilor
existenţiale. De asemenea, autorii au introdus în pretestare şi forma iniţială a instrumentului
PWSQ.
- validitatea divergentă a fost evaluată prin intermediul corelaţiei cu Inventarul de
Depresie Beck, deoarece depresia reprezintă, conform teoriei psihologice a îngrijorării pe care se
bazează instrumentul PWSQ, un construct din afara reţelei apropiate de caracteristici psihologice
a îngrijorării.

c. abordarea multitrăsături – multimetode presupune analiza corelaţiilor dintre forme


diferite de evaluare a cel puţin două concepte. De cele mai multe ori, aceste forme diferite
presupun metode complet distincte de evaluare, cum ar fi folosirea unui instrument psihometric
şi observaţia comportamentală. Premisa acestei abordări este aceea că o parte din varianţa
scorurilor la un instrument este determinată de metoda de evaluare în sine. În pretestarea unui
instrument psihologic, ea oferă informaţii despre trei calităţi psihometrice ale acestuia, şi anume:
- fidelitatea metodei, prin intermediul corelaţiei dintre evaluările aceluiaşi construct prin
aceeaşi metodă (de exemplu, dintre scorurile obţinute de subiecţi la un instrument vizând
anxietatea în două situaţii de aplicare).
- validitatea convergentă, prin intermediul corelaţiei dintre evaluările aceluiaşi construct
prin metode diferite – „corelaţia trăsăturii”; aceasta ar trebui să fie peste 0,6 pentru a susţine
validitatea convergentă a noului instrument.

Curs 5 40
Evaluare psihologică – metode psihometrice curs 5

- validitatea divergentă, prin intermediul corelaţiei dintre evaluările conceptelor diferite


prin aceeaşi metodă – „corelaţia metodei”. Ea ar trebui să fie cât mai redusă pentru a susţine
validitatea divergentă a instrumentului.
Tabelul următor conţine centralizarea informaţiilor generate de abordarea multitrăsături –
multimetode într-un exemplu de măsurare a anxietăţii şi a depresiei prin observaţie, respectiv
printr-un instrument de auto-evaluare cu răspunsuri pe scală Likert.

Likert Observaţie
Metoda
Trăsătura Anxietate Depresie Anxietate Depresie
Corelaţia Corelaţia
Anxietate Fidelitate
metodei trăsăturii
Likert
Corelaţia Corelaţia
Depresie Fidelitate
metodei trăsăturii
Corelaţia Corelaţia
Anxietate Fidelitate
trăsăturii metodei
Observaţie
Corelaţia Corelaţia
Depresie Fidelitate
trăsăturii metodei

Bibliografie

• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Angleitner, A., John, 0.P. & Löhr, F.J. (1986). It's how you ask and what you ask: an itemmetric analysis of
personality questionnaires. In: Angleitner, A. & Wiggins, J.S. (eds.). Personality Assessment via Questionnaires.
New York: Springer, 61-108.
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological
Assessment, 7, 309-319.
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses
and performances as scientific inquiry into score meaning. American Psychologist, Vol 50(9), 741-749.
• Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.
5

Curs 5 41
Evaluare psihologică – metode psihometrice curs 6

2.4. Validitatea incrementală

Acest tip de validitate se referă la capacitatea instrumentului de a oferi informaţii


suplimentare în comparaţie cu celelalte instrumente deja existente ce evaluează acelaşi construct.
Formele de validitate descrise anterior vizează anumite calităţi intrinseci ale instrumentului
(conţinutul itemilor săi, relevanţa pentru un criteriu exterior, potrivirea cu predicţiile teoretice ale
ariei psihologice din care face parte constructul). Cea incrementală nu se raportează la o altă
faţetă a instrumentului, ci are în vedere plusul faţă de celelalte instrumente pe care îl aduce
instrumentul pe aceste dimensiuni ale validităţii.
Cele mai frecvente evaluări ale validităţii incrementale se realizează asupra a două dintre
faţetele validităţii de criteriu, şi anume cea predictivă şi cea discriminativă. În primul rând, un
instrument nou ar trebui să permită predicţia mai precisă a unor comportamente reale ale
individului (care reprezintă criteriul de validare pe această dimensiune a validităţii predictive). În
al doilea, el ar trebui să indice mai bine diferenţele dintre oamenii care posedă acea caracteristică
psihologică la un nivel ridicat şi cei care nu o posedă (cei de la polul opus) şi, deci, să ofere
diagnostice mai precise, identificând mai corect indivizii din cele două categorii. În sinteză, se
consideră că un instrument are validitate incrementală dacă permite creşterea corectitudinii
diagnosticului şi a predicţiilor făcute pe baza instrumentului.

2.4.1. Validitatea incrementală predictivă este evaluată prin analiza capacităţii


instrumentului de a creşte corectitudinea predicţiilor care pot fi făcute prin utilizarea sa cu privire
la anumite comportamente reale (criterii). Tehnic, instrumentul are validitate incrementală
predictivă dacă el duce la identificarea unei proporţii mai mari a cauzelor diferenţelor dintre
subiecţi în ceea ce priveşte criteriul. Acest aspect este examinat prin metoda statistică a regresiei,
analizând creşterea procentului de varianţă explicată a criteriului prin introducerea respectivului
instrument ca predictor. Dacă el explică un procent mai mare de varianţă decât celelalte
instrumente deja existente, înseamnă că diferenţele dintre oameni la scorurile sale sunt în mai
mare măsură asociate cu diferenţe în privinţa respectivului comportament. Deci, el ajută mai
mult decât celelalte instrumente în predicţia măsurii în care oamenii vor realiza acel
comportament, având astfel validitate incrementală.

b. Validitatea incrementală discriminativă


În cursul despre validitatea de criteriu, cea discriminativă (ca formă a acesteia) a fost
definită ca fiind capacitatea instrumentului de a separa corect oamenii din cele două tipuri
extreme după criteriul trăsăturii măsurate. Dat fiind faptul că în cazul validităţii incrementale
trebuie comparate mai multe instrumente după acest criteriu al separării corecte, simpla diferenţă
dintre grupuri nu mai este suficientă. De aceea, pentru evaluarea diferenţierii între grupurile
cunoscute la mai multe instrumente (cel nou şi cele deja existente), a fost elaborată o abordare
mai complexă a validităţii discriminative în general (cu aplicaţii directe în cea incrementală),
1

Curs 6 42
Evaluare psihologică – metode psihometrice curs 6

care este focalizată pe corectitudinea diagnosticului ce poate fi pus prin folosirea acelui
instrument.
În practică, instrumentele au un etalon ce permite identificarea de niveluri ale acelei
caracteristici psihologice, şi deci diagnosticarea oricărui individ care le completează prin
includerea sa într-o categorie. Decizia cu privire la aceasta se ia prin compararea scorului total cu
etalonul; de exemplu, un instrument care evaluează intensitatea depresiei şi care împarte oamenii
în două categorii (depresie prezentă / absentă) ar putea avea scorul de demarcaţie între cele două
25. În acest caz, toţi subiecţii cu scor mai mare decât 25 ar fi diagnosticaţi ca depresivi, iar cei cu
scor sub 25 – ca non-depresivi. În general, această abordare se aplică pe instrumentele similare
cu cel din acest exemplu, adică cele care oferă o evaluare în termeni bipolari: fie prezenţa
trăsăturii („diagnostic pozitiv”), fie absenţa sa („diagnostic negativ”).
Validitatea discriminativă este analizată, în această abordare, pe baza a două dimensiuni,
şi anume sensibilitatea şi specificitatea instrumentului.
a. Sensibilitatea înseamnă procentul de identificări pozitive corecte; de exemplu, dacă
dintre 100 de depresivi instrumentul ar diagnostica ca depresivi pe 80, atunci sensibilitatea sa ar
fi de 0,8. Termenul de „sensibilitate” sugerează tocmai această idee, a gradului în care
instrumentul poate detecta trăsătura pe care o evaluează (deci, este „sensibil” la ea). Deci,
sensibilitatea se calculează în etapa de pretestare (ce necesită aplicarea instrumentului pe oameni
din cele două categorii diagnostice – de exemplu, depresivi şi non-depresivi) ca raport dintre
numărul de identificări pozitive corecte şi numărul total de indivizi care au trăsătura. În aplicarea
viitoare a acelui instrument, ea indică probabilitatea de a obţine un diagnostic pozitiv corect în
populaţia cu acea trăsătură (“true positives”).
b. Specificitatea înseamnă procentul de identificări negative corecte; de exemplu, dacă
dintre 100 de oameni care nu au depresie, instrumentul ar diagnostica ca non-depresivi pe 40,
atunci specificitatea ar fi de 0,4 (implicit, el ar greşi la 60 dintre ei, diagnosticându-i ca
depresivi). Termenul de „specificitate” sugerează necesitatea ca instrumentul să fie specific în
diagnosticarea trăsăturii, adică diagnosticul pozitiv să fie limitat la oamenii care chiar au acea
trăsătură, să fie „specific” lor, şi să nu fie aplicat şi pe cei de la polul opus. În pretestare,
specificitatea se calculează ca raportul dintre numărul de identificări negative corecte şi numărul
de indivizi care nu au acea trăsătură. În aplicarea viitoare a acelui instrument, ea indică
probabilitatea de a obţine un diagnostic negativ corect în populaţia care nu posedă acea trăsătură
- “true negatives.
Deoarece în psihologie nu există instrumente perfecte, cele două dimensiuni sunt
dependente reciproc, în sensul că creşterea sensibilităţii (prin schimbarea punctului de tăiere, de
separare a celor două categorii, al scorurilor la instrument) duce la scăderea sensibilităţii: cu cât
creştem probabilitatea de a detecta oamenii care posedă acea trăsătură, cu atât mai mult ne
asumăm riscul de a diagnostica pozitiv – ca având acea caracteristică – şi oameni care, în
realitate, nu o posedă. De exemplu, dacă vrem să detectăm toţi oamenii care au acea trăsătură,
mutând punctul de tăiere în jos (de exemplu, la un instrument de evaluare a depresiei ce
generează scoruri de la 1 la 10, am putea stabili linia de demarcaţie între cele două categorii la 2,
2

Curs 6 43
Evaluare psihologică – metode psihometrice curs 6

cei cu scoruri peste aceasta fiind diagnosticaţi ca depresivi), atunci este foarte probabil să
diagnosticăm pozitiv şi mare parte din cei care nu au acea trăsătură.
Analiza validităţii discriminative a unui instrument presupune şi această investigare a
punctului de tăiere optim pentru a respecta obiectivele legate de specificitate şi sensibilitate.
Tehnic, o metodă de examinare a sa este ROC (Receiver Operating Characteristic). Ea
calculează cei doi parametri pentru fiecare scor al testului, considerat ca punct de tăiere:
- Sensibilitatea – indicând procentul de indivizi care posedă acea trăsătură care au scorul
mai mare decât acel punct de tăiere, deci procentul identificărilor pozitive corecte (în exemplul
precedent, procentul de subiecţi depresivi cu scor peste 2);
- 1 – specificitatea – aici, tehnica generează parametrul opus sensibilităţii, aşa cum a fost
definită teoretic; acest parametru indică procentul de indivizi care nu posedă acea trăsătură şi
care au, totuşi, scorul la test mai mare decât acel punct de tăiere (în exemplul anterior, procentul
de depresivi care au şi ei scorul mai mare de 2 şi care ar fi diagnosticaţi greşit de instrument ca
fiind depresivi). Deci, el arată procentul identificărilor pozitive eronate, care este inversul
specificităţii (procentul identificărilor negative corecte): dacă din 100 de indivizi care nu au
depresie, 40 sunt diagnosticaţi (greşit) ca având această caracteristică, atunci instrumentul oferă
un diagnostic negativ corect pentru restul de 60.
Cei doi parametri sunt reprezentaţi grafic, calculându-se “aria de sub curbă”, ce
reprezintă indicatorul de bază al validităţii discriminative a testului. Această arie trebuie să fie
semnificativ mai mare decât linia diagonală de reper, corespunzătoare valorii medii de 0,5, adică
ghicirii la întâmplare a celor care au acea trăsătură. Aplicând această metodă a ghicirii,
probabilitatea de a oferi un diagnostic corect unui individ este de 50% - din moment ce
caracteristica respectivă are 2 posibilităţi (de exemplu depresiv – non-depresiv) -, indiferent dacă
el este sau nu depresiv în realitate.

Linia de reper

Aria de sub curbă

Curs 6 44
Evaluare psihologică – metode psihometrice curs 6

Aria de sub curbă este calculată pe baza sensibilităţii şi specificităţii calculate pentru
fiecare scor total la instrument; acestea sunt prezentate comparativ într-un tabel ca cel următor:
Coordinates of the Curve

Test Result Variable(s): scor test 1


Positive if
Greater Than
a
or Equal To Sensitivity 1 - Specificity
1.0000 1.000 1.000
2.5000 1.000 .939
3.5000 .926 .879
4.5000 .721 .576
5.5000 .588 .364
6.5000 .485 .121
7.5000 .368 .121
8.5000 .132 .030
10.0000 .000 .000
The tes t res ult variable(s ): scor test 1 has at least one tie
between the positive actual s tate group and the negative
actual state group.
a. The smallest cutoff value is the minimum
observed test value minus 1, and the largest cutoff
value is the maximum observed test value plus 1.
All the other cutoff values are the averages of two
consecutive ordered obs erved test values .

Prima coloană conţine fiecare dintre posibilele puncte de tăiere ce ar putea face diferenţa
între cele două categorii, derivate din scorurile totale ale instrumentului; a doua conţine
sensibilitatea obţinută dacă punctul de tăiere ar fi stabilit la acea valoare, iar ultima conţine
indicatorul „1 – specificitatea”, rezultat în aceeaşi situaţie. De exemplu, punctul de tăiere ar fi
stabilit la 6,5, atunci sensibilitatea ar avea valoarea 0,485, adică 48,5% dintre subiecţii care au în
realitate depresie ar fi diagnosticaţi ca atare; parametrul 1 – specificitatea ar fi 0,121, deci 12,1%
din oamenii diagnosticaţi cu depresie nu ar avea, în realitate, această trăsătură (specificitatea ar fi
de 87,9%).
Tabelul următor conţine valoarea ariei de sub curbă şi testarea semnificaţiei diferenţei
sale faţă de 0,5 (ghicirea la întâmplare).
Area Unde r the Curve
Test Result Variable(s): scor tes t 1
As ymptotic 95% Confidenc e
As ymptotic Int erval
a b
Area St d. E rror Sig. Lower Bound Upper Bound
.662 .055 .008 .554 .770
The tes t result variable(s): s cor test 1 has at leas t one tie bet ween the
positive ac tual state group and t he negative actual st ate group. S tatis tic
may be biased.
a. Under the nonparametric as sumption
b. Null hy pothesis : true area = 0.5

Valoarea Asymptotic Sig este mai mică decât 0,05, deci instrumentul oferă o clasificare
semnificativ mai bună decât ghicirea. Valoarea ariei de sub curbă este 0,662; ea indică
4

Curs 6 45
Evaluare psihologică – metode psihometrice curs 6

probabilitatea ca un individ care are, în realitate, acea trăsătură să obţină un scor diferit (în acest
caz, mai mare) la instrument decât unul care nu o posedă. Acest indicator sintetizează validitatea
discriminativă a instrumentului, deoarece cu cât el este mai mare, cu atât acesta face diferenţa
mai precis între oamenii din cele două categorii. Dacă valoarea ariei de sub curbă este maximă
(1) atunci ar fi sigur (probabilitate de 100%) că orice subiect depresiv ar obţine un scor mai mare
decât orice non-depresiv. Dacă ea ar fi redusă (apropiată de 0,5), ar înseamna că probabilitatea ca
oamenii care au acea trăsătură să obţină scoruri mai mari decât cei care nu o au este la fel cu cea
ca ei să obţină scoruri mai mici. Aşadar, instrumentul nu ar diferenţia între cele două grupuri şi
nu ar putea fi folosit pentru a decide dacă un individ are sau nu acea trăsătură (validitatea sa de
criteriu ar fi, în consecinţă, una redusă).

Aplicaţii ale tehnicii ROC


1. evaluarea validităţii incrementale, prin compararea validităţii discriminative a noului
instrument cu cea a unui instrument deja existent. Practic, această situaţie presupune alegerea
instrumentul cu cea mai mare arie de sub curbă.
De exemplu, presupunem că folosim două instrumente pentru evaluarea depresiei,
aplicate pe un lot de subiecţi cărora le cunoaştem diagnosticul (ca fiind depresivi sau non-
depresivi).
Procedurile în SPSS sunt: Analyse – ROC Curve; Standard error and confidence
interval; Coordinate points of the ROC curve; Value of state variable: 2 (codul depresivilor în
baza de date).
Rezultatele calculării ariilor de sub curbă indică faptul că testul 2 (al cărui parametru este
0,991, deci există o probabilitate de 99,1% ca un depresiv să aibă scorul la testul 2 mai mare ca
un non-depresiv) are o arie mai mare, şi deci o validitate discriminantă mai bună, chiar dacă
ambele oferă o clasificare semnificativ mai bună decât ghicirea:
Area Under the Curve

As ymptotic 95% Confidence


As ymptotic Interval
a b
Test Result Variable(s) Area Std. Error Sig. Lower Bound Upper Bound
scor test 1 .662 .055 .008 .554 .770
scor test 2 .991 .007 .000 .978 1.005
The tes t res ult variable(s ): scor test 1, scor test 2 has at leas t one tie between the positive actual
state group and the negative actual state group. Statistics may be biased.
a. Under the nonparametric ass umption
b. Null hypothesis : true area = 0.5

2. Identificarea punctului optim de tăiere al scorurilor la test – în funcţie de scopul


utilizării instrumentului (screening sau diagnostic)
- dacă instrumentul urmează a fi folosit în scop diagnostic, atunci este importantă
echilibrarea, pe cât posibil, a celor două dimensiuni (sensibilitatea şi specificitatea)
5

Curs 6 46
Evaluare psihologică – metode psihometrice curs 6

- dacă instrumentul urmează a fi folosit în scop de screening, adică de detecţie a


oamenilor care ar putea avea acea trăsătură, atunci ne putem asuma riscul includerii unora care
nu o au; aceştia vor fi identificaţi de evaluările ulterioare de profunzime. De exemplu, în
populaţia de adolescenţi poate fi importantă detecţia celor care ar putea avea ideaţii suicidare la
orice nivel, indiferent cât de slab ar fi el, chiar dacă am include în această categorie şi un număr
ridicat de adolescenţi care nu au, în realitate, astfel de ideaţii. Deci, pentru a atinge acest obiectiv
al detecţiei maxime, sunt necesare valori mari ale sensibilităţii instrumentelor.
Revenind la exemplul următor, valorile celor doi parametri ai instrumentului 2 sunt:
Coordinates of the Curve

Test Resul t Variable(s): scor test 2


Positive if
Greater Than
a
or Equal To Sensiti vity 1 - Specificity
.0000 1.000 1.000
1.5000 1.000 .909
2.5000 1.000 .697
3.5000 1.000 .455
4.5000 1.000 .121
5.5000 .926 .030
6.5000 .706 .000
7.5000 .412 .000
8.5000 .103 .000
9.5000 .015 .000
11.0000 .000 .000
The tes t res ult variable(s ): scor test 2 has at least one tie
between the positive actual s tate group and the negative
actual state group.
a. The sm allest cutoff value is the m inim um
observed test value minus 1, and the largest cutoff
value is the maximum observed test value plus 1.
All the other cutoff values are the averages of two
consecutive ordered obs erved test values .

În scop diagnostic, valoarea recomandabilă a punctului de tăiere ar fi aici 5,5, deoarece


astfel am obţine o sensibilitate şi specificitate de peste 0,9 (aproape egale). Deci, peste 90% din
depresivi ar fi identificaţi ca atare, şi peste 90% din non-depresivi nu ar fi diagnosticaţi ca având
depresie (şi ei primind, deci, diagnosticul corect). În scop de screening, valoarea recomandabilă
ar fi de 4,5, deoarece ea ne-ar oferi o sensibilitate maximă (chiar şi cu o diminuare a specificităţii
faţă de pragul anterior de 5,5.
Valorile celor doi parametri ai instrumentului 1 sunt:

Curs 6 47
Evaluare psihologică – metode psihometrice curs 6

Coordinates of the Curve

Test Result Variable(s): scor test 1


Positive if
Greater Than
a
or Equal To Sensitivity 1 - Specificity
1.0000 1.000 1.000
2.5000 1.000 .939
3.5000 .926 .879
4.5000 .721 .576
5.5000 .588 .364
6.5000 .485 .121
7.5000 .368 .121
8.5000 .132 .030
10.0000 .000 .000
The tes t res ult variable(s ): scor test 1 has at least one tie
between the positive actual s tate group and the negative
actual state group.
a. The smallest cutoff value is the minimum
observed test value minus 1, and the largest cutoff
value is the maximum observed test value plus 1.
All the other cutoff values are the averages of two
consecutive ordered obs erved test values .

Aici, scopul diagnostic poate fi urmărit prin stabilirea punctului de tăiere la 5,5, deoarece
el echilibrează cel mai mult cei doi parametri: 0,588 la sensibilitate şi 0,636 la sensibilitate (1-
0,364). În scop de screening punctul de tăiere ar putea fi stabilit la 2,5, ceea ce ar asigura
sensibilitatea maximă, însă specificitatea ar fi extrem de redusă (de doar 0,061, deci peste 90%
din oamenii care nu au depresie ar fi diagnosticaţi greşit ca având). Acest procent extrem de
mare al identificărilor pozitive eronate face ca instrumentul 1 să fie mai puţin recomandat pentru
screening.

Bibliografie

• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological
Assessment, 7, 309-319.
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

Curs 6 48

S-ar putea să vă placă și