Sunteți pe pagina 1din 7

Evaluare psihologică – metode psihometrice curs 4

Etalonarea instrumentelor

1. Etaloane și psihodiagnostic
Scopul general al evaluării psihologice este determinarea procentului din populația din
care face parte persoana evaluată care are nivelul de intensitate al trăsăturii măsurate mai redus
sau mai ridicat față de ea. Pe baza acestei poziționări a individului în raport cu populația sa pot fi
realizate inferențe cu privire la profilul psihologic al persoanei evaluate, adică vizând
caracteristicile sale pe dimensiunea măsurată de test. De exemplu, dacă în urma evaluării se
constată că persoana evaluată are nivelul de anxietate mai ridicat decât 80% din membrii
populației sale, de aici se pot formula caracterizări asupra anxietății acelui individ în sine, prin
formulări de tipul ”nivel ridicat de anxietate”. Esențială însă este poziționarea individului față de
populația sa, apreciată în funcție de scorul la test obținut de acea persoană, raportat la scorurile
aproximative ale întregii populații din care el face parte.
Etalonul înseamnă un set de puncte de reper în funcţie de care sunt stabilite nivelurile de
intensitate ale respectivei trăsături la oamenii evaluați prin acel test prin raportare la populația
din care ele fac parte. Practic, etalonul constituie un tabel de corespondență între scorurile brute
la test și ”normele” sale, adică scorurile care descriu populația respectivă și care reprezintă astfel
sistemul de referință în funcție de care pot fi înțelese scorurile brute. Construcția etalonului
reprezintă etapă din traseul construcției testului, sau de adaptare a sa în alt spațiu cultural; cu alte
cuvinte, doar testele despre care verificările anterioare au atestat faptul că ele posedă un nivel
satisfăcător de fidelitate și că îndeplinesc toate criteriile validității ajung să fie etalonate pe
populația respectivă.
Evident, construcția testelor nu poate apela la întreaga populație pentru aflarea scorurilor
de reper. Acestea sunt aproximate prin intermediul aplicării testului asupra unui eșantion din
respectiva populație, adică a unui lot de persoane reprezentativ pentru ea. În acest caz ideal, cu
toate că există o marjă de eroare inerentă procesului de eșantionare, totuși scorurile membrilor
eșantionului oferă o aproximare rezonabilă a celor pe care le-ar obține întreaga populație. În alte
cazuri, limitele resurselor investite în construcția sau adaptarea în altă țară a unui test împiedică
recrutarea unui eșantion în studiul de etalonare, utilizându-se în schimb scorurile unui lot de
participanți, adică a unui grup de persoane de volum mai redus, și eventual mai puțin echilibrat
pe unele caracteristici socio-demografice importante, cum ar fi genul sau vârsta. Aceste
deficiențe fac ca și rezultatul interpretării testului prin raportarea la etalonul construit pe un astfel
de lot să fie mai puțin cert decât în cazul eșantionului. Mai mult, în cazul ideal eșantionul ar
trebui să fie stratificat pe caracteristicile socio-demografice importante pentru trăsătura evaluată.
De exemplu, dacă studiile anterioare indică diferențe semnificative de gen în ceea ce privește
stabilitatea emoțională, atunci un același scor obținut de o femeie evaluată cu un test care
măsoară stabilitatea emoțională ar indica un alt nivel al trăsăturii decât dacă ar fi obținut de un
bărbat: un scor de 20 reflectă un nivel mai redus al trăsăturii când majoritatea populației are
scoruri peste 25 decât atunci când ea are scoruri între 20 și 30. Ca urmare, un etalon nediferențiat
pe genuri nu ar putea oferi precizia necesară evaluării psihologice în acest caz. Importanța
1
Evaluare psihologică – metode psihometrice curs 4

etaloanelor cât mai specifice poate fi iluustrată folosind un exemplu practic al unui test adaptat și
etalonat pe populația românească, cel al testului MMSE – 2 (Mini Mental State Examination),
forma sa scurtă, la care același scor brut de 13 obținut de persoane cu același nivel de educație
(9-12 ani) conduce la un psihodiagnostic diferit în funcție de vârsta persoanei evaluate. Mai
precis, persoană cu vârsta între 18-39 de ani ar primi un scor T de 32, care reflectă o performanță
cognitivă superioară față de doar 4% din populație, în timp ce o persoană cu vârsta între 60 – 64
de ani ar fi localizată în raport cu această populație printr-un T = 37, reflectând o performanță
cognitivă semnificativ mai bună, la polul superior al procentului de 9% din populație.
Din aceste motive, este important ca psihologul să consulte, în deciziile sale cu privire la
testele utilizate, informațiile relevante (incluse de obicei în textul de prezentare a testului), cum
ar fi cele vizând caracteristicile lotului sau eșantionului din studiul de validare / standardizare /
adaptare culturală a sa (mărimea și compoziția socio-demografică a acestui grup), dar și
modalitatea de selecție a participanților la studiu, contextul completării instrumentului etc., care
pot sugera un anumit grad de validitate a diagnosticului pus prin acel test, și de adecvare a sa
pentru contextul profesional. De asemenea, contează și perioada în care s-a desfășurat studiul de
validare pe respectiva populație, deoarece schimbările socio-culturale produc și modificări
psihologice și comportamentale care fac ca sistemul de referință prin care ele sunt evaluate să
trebuiască actualizat. Diagnosticul stabilit unei persoane din prezent prin raportare la un etalon
de acum câteva zeci de ani va duce, probabil, la concluzii false, deoarece acel individ ar fi
comparat cu o populație cu caracteristici sensibil diferite decât ale celei căreia el aparține în
realitate.
În sinteză, în stabilirea diagnosticului psihologic nu este suficientă analiza scorului la test
obținut de persoana evaluată, deoarece el nu poate oferi direct informații despre comparația
dintre acel individ și populația sa, esențiale pentru evaluare. Acest scor se interpretează prin
raportarea la etalonul testului, care condensează scorurile obținute de eșantionul sau lotul pe care
a fost aplicat acel instrument în studiul de etalonare. Deoarece aceste scoruri caracterizează
întreaga populație, mai sunt denumite și ”scoruri normative”, iar eșantionul pe care ele sunt
construite este denumit ”eșantion normativ”. Pentru a accentua diferența dintre caracterul general
și standardizat pe întreaga populație al acelor scoruri și scorul la test al persoanei evaluate,
ultimul primește deseori eticheta de ”scor brut”, evidențiind astfel natura sa primară, care
necesită analize suplimentare pentru a fi rafinat sub forma uneia care să reflecte rezultatul
psihodiagnosticului.

2. Tipuri de etaloane
Există mai multe tipuri de etaloane care pot fi construite pentru interpretarea scorurilor
brute la teste. Alegerea tipului de etalon se face de cele mai multe ori în funcţie de normalitatea
distribuţiei scorurilor brute, factor care determină două clase de etaloane.
2.1. dacă distribuţia nu este normală, atunci aplicarea unei metode de etalonare care s-
ar baza pe caracteristicile curbei normale ar putea duce la erori. Ca urmare, în acest caz se
utilizează cu precădere etaloanele în cuantile. Acestea reprezintă scoruri la test între care se
2
Evaluare psihologică – metode psihometrice curs 4

încadrează acelaşi procent din participanții la studiul de etalonare. Cuantilele diferă în funcție de
numărul de grupuri pe care îl generează; cea mai simplă formă de cuantilare este prin folosirea
medianei, adică a scorului care împarte distribuția participanților în jumătăți. Astfel, 50% din
participanți ar avea scorul sub mediană, iar ceilalți deasupra ei. Firește, în etalonarea testelor se
folosesc cuantile care oferă o clasificare mai fină a participanților, pentru a putea determina mai
detaliat, și astfel cu mai mare precizie, poziția unui subiect evaluat cu acel test în raport cu
participanții din studiul de validare (lotul de standardizare). Clasificarea poate fi făcută într-un
număr de clase până la 100, în acest caz testul având un etalon în percentile. În alte cazuri se
utilizează decile, cvartile, cvintile, etc.
Fiecare cuantilă indică procentul persoanelor din lotul de standardizare cu scoruri până la
maxim acea cuantilă. De exemplu, tabelul de mai jos prezintă un etalon în cvintile al unei scale
de evaluare a stabilității emoționale. Etalonul împarte lotul de standardizare în 5 clase egale ca
număr (și procent) de oameni, și astfel oferă posibilitatea aprecierii nivelului stabilității
emoționale pentru orice persoană evaluată cu acel test, prin raportarea la lotul de standardizare.
De exemplu, o persoană cu scorul 23 ar fi încadrată în clasa Q2, ceea ce ar implica faptul că ea
are un nivel de stabilitate emoțională superior procentului de persoane din Q1 (20%) sau, altfel
spus, este în primii 40% (Q1 + Q2) din oamenii din acea populație din punctul de vedere al
acestei trăsături psihologice.

Clasă percentilă Scor brut


Q1 (0%-20%) 10-21
Q2 (21%-40%) 22-26
Q3 (41%-60%) 27-29
Q4 (61%-80%) 30-34
Q5 (81%-100%) 35-50

Avantajul major al cuantilelor este acela că ele sunt ușor de calculat și de înțeles. Ele au
însă multiple dezavantaje. În primul rând, ele oferă o poziționare a persoanei evaluate în raport
cu lotul de standardizare, nu direct în raport cu populația. Cu alte cuvinte, clasificarea produsă de
etalon (în procente de oameni) este valabilă pentru acest lot, și poate fi generalizată la nivelul
întregii populații doar admițând posibilitatea unui risc de eroare însemnat. Doar proprietățile
matematice ale curbei normale, pe care se bazează următorul tip de etaloane, oferă șansa
generalizării la nivelul întregii populații.
Un alt dezavantaj al etaloanelor pe bază de cuantile este acela că ele cuprind unități
inegale ca scor brut. În exemplul de mai sus, prima clasă (deci primii 20% din oameni) au scoruri
brute între 10 și 21 (deci cu o diferență de 11 puncte), în timp ce clasa de mijloc cuprinde
persoanele cu scoruri între 27 și 29 (diferență de două puncte). Această inegalitate a intervalelor
se datorează faptului că, chiar dacă distribuția nu este normală, totuși mai mulți oameni iau
scoruri brute la mijlocul distribuției decît spre extreme și la aceste teste. Ca urmare, un procent
3
Evaluare psihologică – metode psihometrice curs 4

ridicat se aglomerează între scoruri brute apropiate: în exemplul de referință, 20% din lotul de
standardizare au avut scoruri cu o diferență de 2 puncte între ele (27-29). Consecința
dezavantajoasă pentru psihodiagnostic a acestui fapt este cea că aceeași creștere de scor brut
produce o diferență mai mare în cuantile la mijlocul distribuției decât la extreme. De exemplu,
având în vedere că niciun test nu are fidelitate perfectă, este ușor de imaginat că scorul real al
unei persoane testate cu această scală poate varia de la o aplicare la alta. Dacă în prima aplicare
ea ar obține scorul 28, atunci ar fi plasată în clasa Q3 în etalonul de mai sus, fiind poziționată
chiar în mijlocul acestei clase. Dacă însă la a doua aplicare ar obține scorul 30 (deci diferit doar
cu 2 unități de scor brut), diagnosticul ar plasa-o în clasa Q4, mai sus față de încă 20% din
populație în comparație cu diagnosticul anterior. În schimb, aceeași modificare de 2 puncte de la
o testare la alta nu ar produce schimbări de clasă la persoane care ar fi plasate la mijlocul unei
clase de la extremele etalonului (de exemplu, cineva care ar obține scorul 16 la prima aplicare ar
rămâne în Q1 și dacă la a doua ar obține scorul 18). În ansamblu, deci, diagnosticul este mai
instabil (și deci mai puțin demn de încredere) atunci când el plasează persoana evaluată într-o
clasă din mijlocul etaloanelor în cuantile.

2.2. Dacă distribuţia scorurilor brute ale participanților din lotul sau eșantionul de
standardizare este normală, atunci se pot construi etalonări pe baza scorurilor standard (z),
sau pe baza transformării acestora.
Scorurile z se calculează prin formula (scorul brut al persoanei respective – media
lotului) / abaterea standard a lotului. Calculând scorurile z pentru toți participanții la studiul de
standardizare, dacă distribuția scorurilor brute este una normală, distribuţia acestor scoruri z are
media 0 şi abaterea standard 1. Prin formula aplicată, scorul z exprimă poziția persoanei față de
media lotului de standardizare, nu doar față de scorurile separate ale acestui lot, și luând în calcul
variabilitatea lor (prin intermediul abaterii standard). Ele variază în general între -3 și 3, deoarece
majoritatea oamenilor au scoruri între pragurile situate cu trei abateri standard sub, respectiv
deasupra mediei pe majoritatea dimensiunilor psihologice.
Cel mai important avantaj al scorurilor standard este acela că pe baza proprietăților curbei
normale se pot estima procentele din populație cu scoruri mai mici și mai mari decât orice scor z.
De exemplu, 50% din populație are scorul mai mic sau egal decât oamenii care la un test au z = 0
(valoare corespunzătoare mediei și medianei distribuțiilor normale). Similar, procentul din
populație cu niveluri ale trăsăturii măsurate inferior persoanelor cu z = 1,5 la acel test este
93,3%. Tabelele de conversie din scoruri z în procente de populație sunt incluse ca anexe în
majoritatea cărților de statistică; de asemenea, ele sunt accesibile online la căutarea pe acest
subiect. Figura de mai jos prezintă ilustrativ distribuțiile procentelor din populație între scoruri z
aflate la diferențe de 0,5 puncte între ele.

4
Evaluare psihologică – metode psihometrice curs 4

Deci, un avantaj major al etaloanelor în scoruri standard este precizia localizării în raport
cu populația. Mai mult, diferențele de scoruri z au aceeași diferență de scor brut (datorită
formulei care ia în calcul variabilitatea scorurilor, prin abaterea standard), eliminând problema
lipsei de stabilitate a diagnosticului la mijlocul etaloanelor, evidențiată mai sus în cazul
etaloanelor prin cuantile. Pe de altă parte, scorurile z pot fi și negative, și astfel în folosirea lor
practică, dacă ar fi comunicate persoanei evaluate, le-ar putea sugera probleme psihologice, chiar
și în cazul scorurilor z între (-1, 0) – între care se află, după cum se observă în figura de mai sus,
un procent mare din populație, adică 34,1%. De aceea, multe teste folosesc etaloane cu
transformări de scor z în intervale pozitive, adică scoruri standard transformate.

Scorurile standard transformate


Cele mai frecvente tipuri de etaloane construite cu aceste scoruri sunt:
a. etalonul în stanine
Staninele (notate S9) reprezintă un tip de scoruri standard transformate prin aplicarea
asupra scorurilor z a formulei S9= 5 +2*z. Astfel se obțin scoruri care (majoritatea) variază între
1 și 9, distribuția lor având media 5 şi abaterea standard 2. Similar scorurilor z, fiecare subiect
evaluat cu un test are un scor calculat în sistemul de referinţă al staninelor, ce permite evaluarea
sa în raport cu restul populaţiei din care face parte, în procente. Tabelul de mai jos oferă o
aproximare a procentelor de populație situate în jurul fiecărei stanine.

Stanină Procent din populaţie cu scoruri în jurul fiecărei stanine


1 4
2 7
3 12
4 17
5 20

5
Evaluare psihologică – metode psihometrice curs 4

6 17
7 12
8 7
9 4

Un astfel de tabel este util pentru interpretarea rezultatelor la un test cu etalon în stanine a
oricărei persoane care l-ar completa. De exemplu, dacă la un test persoana evaluată obține scorul
32, iar etalonul testului menționează că acestui scor brut îi corespunde stanina 4, aceasta implică
faptul că acea persoană are trăsătura evaluată la un nivel superior față de 23% din populație
(suma procentelor asociate S9=1 - S9=3), și se află într-o categorie de oameni de aproximativ
12% din populație cu același nivel al trăsăturii.

b. etalonul în note sten


Notele sten (notate S10) reprezintă un tip de scoruri standard transformate prin aplicarea
asupra scorurilor z a formulei S9= 5,5 +2*z. Astfel se obțin scoruri care (majoritatea) variază
între 1 și 10, distribuția lor având media 5,5 şi abaterea standard 2. Tabelul de mai jos oferă o
aproximare a proporțiilor din populație cu scoruri în diverse zone ale distribuției notelor sten.

Note sten Proporţie din populaţie cu scoruri în jurul acelei note sten
1-3 1/6
4 1/6
5-6 1/3
7 1/6
8-10 1/6

c. Etalonul in scoruri T
Scorurile T se obțin prin formula T = 50 + 10*z, care generează valori plasate
(majoritatea) între 20 și 80. Având o plajă de variație mai largă (în numere întregi), ele oferă
posibilitatea localizării extrem de precise a individului evaluat în raport cu populația sa, similar
scorurilor z și folosind tabele statistice asemănătoare. Ca urmare, etalonul în scoruri T a ajuns să
fie varianta preferată pentru multe teste psihologice dezvoltate sau adaptate în ultima perioadă.
Ca ilustrare a sporului lor de precizie, dacă scorul brut de 55 obținut de persoana evaluată la un
test ar corespunde în etalon scorului T = 70, asta ar implica un nivel al trăsăturii măsurate
superior față de 98% din populație. Un scor brut mai mic, asociat unui T = 68, ar implica
superioritatea față de 97% din populație, adică localizarea individului evaluat mai jos cu 1% față
de populația sa. În contrast, aplicarea rețetei staninelor ar conduce în ambele cazuri la valori
apropiate (9, respectiv 8,5), care nu oferă aceeași precizie, cel puțin folosind numerele întregi ale
distribuției staninelor și procentele lor asociate (așa cum sunt prezentate frecvent, inclusiv în
tabelul anterior).
6
Evaluare psihologică – metode psihometrice curs 4

Chiar dacă scopul evaluării psihologice este localizarea individului în raport cu populația
sa, totuși deseori se preferă conturarea unei aprecieri a nivelului de intensitate a trăsăturii
evaluate în sine. O variantă des folosită în acest scop pe scorurile T este cea care include
următoarea clasificare: T < 30: nivel foarte scăzut; 30-40: nivel scăzut; 40-60: nivel mediu; 60-
70: nivel ridicat; > 70: nivel foarte ridicat.
În concluzie, etalonul este punctul de reper care face posibilă utilizarea acelui instrument
pentru psihodiagnostic. Scorul brut la instrument are o valoare informativă minimă cu privire la
nivelul trăsăturii la acel individ. Un exemplu ilustrativ al deformărilor de evaluare psihologică pe
care le-ar putea induce folosirea scorurilor brute este cel al Inventarului de depresie Hamilton.
Scorul brut total la acest test variază între 0 și 73, ceea ce poate sugera o plajă foarte mare de
variație a scorurilor populației, și implicit ideea că o persoană evaluată ar trebui să obțină un scor
foarte mare (spre 73) pentru a fi diagosticată ca având un nivel ridicat de depresie. Însă aceasta ar
fi doar o iluzie, odată ce etalonul pe populaţie românească specifică faptul că centila 99 începe
de la scorul brut X = 31,5 (deci, conform acestui etalon în cuantile, 99% din populație are scoruri
brute de maxim 31,5). Mai mult, scorul T = 80 este asociat valorii X = 25,5 (indicând faptul că,
după acest etalon în T, 99,9% din populație are scoruri de maxim 25,5). Ambele valori
procentuale sunt mult inferioare pragului maxim de 73 în scoruri brute, ilustrând irelevanța
acestora pentru diagnosticul psihologic.

Bibliografie
• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Nunnally, J., Bernstein, I. (1994). Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

S-ar putea să vă placă și