Sunteți pe pagina 1din 88

Universitatea Babeş-Bolyai

PSIHODIAGNOSTIC
Sem I

Anca Dobrean
I. Informatii generale

Date de identificare ale cursului :


Numele cursului : PSIHODIAGNOSTIC
Codul cursului : Psy 2093
Anul : II ; Semestrul I
Tipul cursului : Obligatoriu
Număr de credite : 6,5
Pagina web a cursului : www.psychology.ro

Date de contact ale titularului de curs:


Nume: Anca Dobrean
Birou: str. Republicii, nr. 37
Telefon: 0264-434141
Fax: 0264-434141
E-mail: AncaDobrean@psychology.ro
Consultatii : Joi 10-12

Date de identificare curs si contact tutori:


Tutori :
Asistent de cercetare drd. Cristina Mogoaşe
Asistent de cercetare drd. Simona Ştefan
Adresa e-mail tutori: psihodiagnostictutor@psychology.ro

2
Conditionări si cunostinte prerechizite

Înscrierea la acest curs este condiŃionată de parcurgerea şi promovarea următoarelor discipline Psihologie
generală I , Psihologie generală II, Psihologie Experimentală I şi Psihologie Experimentală II. CunoştinŃele
dobândite prin aprofundarea acestor discipline sporesc considerabil accesibilitatea temelor propuse în acest
curs. În totalitatea lor, aceste prerechizite vor fi foarte utile în rezolvarea sarcinilor de lucru şi, respectiv în
promovarea examenului de evaluare finală.

Descrierea cursului

Cursul de Psihodiagnostic face parte din pachetul de discipline fundamentale ale specializării psihologie,
nivel licenŃă, din cadrul FacultăŃii de Psihologie şi ŞtiinŃe ale EducaŃiei a UniversităŃii „Babeş-Bolyai” din
Cluj-Napoca. Cursul are ca obiectiv formarea cunoştinŃelor de bază în ceea ce priveste psihodiagnosticul şi
evaluarea psihologică, elemente esenŃiale în anatomia oricărui demers psihologic. Cursul abordează o serie
de modalităŃi şi instrumente de evaluare psihologică, urmărind formarea cunoştinŃelor şi competenŃelor de
analiză a principalelor calităŃi psihometrice ale acestor instrumente (fidelitatea, validitatea, etalonarea)
precum şi oferirea unor cunoştinŃe de bază privind construcŃia, aplicarea şi interpretarea testelor psihologice.

Organizarea temelor în cadrul cursului

Cursul este structurat pe opt module de învăŃare, prezentate în continuare:


Conceptele de măsurare, evaluare in psihologie, Evaluarea psihologică: indici statistici de măsurare/evaluare,
Etalonarea testelor, Fidelitatea testului psihologic, Validitatea testului psihologic, Algoritmul construcŃiei
unui test psihologic, Utilitatea diagnostică a unui test psihologic, Adaptarea instrumentelor pentru alte
culturi.
Nivelul de intelegere si, implicit, utilitatea informatiilor pe care le regăsiti in fiecare modul vor fi optimizate
dacă, în timpul parcurgerii suportului de curs, veti consulta sursele bibliografice recomandate. De asemenea,
rezolvarea sarcinilor de lucru presupune parcurgerea referinŃelor obligatorii, menŃionate la finalul fiecărui
modul.

Formatul si tipul activităŃilor implicate de curs

Parcurgerea celor opt module descrise va presupune atât întâlniri faŃă în faŃă (consultatii), cât şi
muncă individuală. Consultatiile, pentru care prezenta este facultativa, reprezinta un sprijin direct acordat
dumneavoastra din partea titularului si a tutorilor. Acestea vor presupune prezentarea teoretică a
informaŃiilor fiecărui modul. Pentru fiecare modul, dumneavoastra veti parcurge materialele bibliografice
obligatorii. Vor exista doua sarcini obligatorii, discutate şi detaliate la fiecare dintre cele două consultaŃii.
Grila de notare si enunŃul acestora vor fi specificate la aceste întâlniri. Modalitatea de notare si, respectiv,
ponderea acestor activitati obligatorii, în nota finala va sunt precizate în secŃiunea politica de evaluare şi
notare.
Pe scurt, având în vedere particularităŃile învăŃământului la distanŃă dar şi reglementările interne ale
CFCID al UBB parcurgerea şi promovarea acestei discipline presupune antrenarea studenŃilor în următoarele
tipuri de activităŃi:
a. consultaŃii – pe parcursul semestrului vor fi organizate două întâlniri de consultaŃii faŃă în faŃă;
prezenŃa la aceste întâlniri este facultativă;
b. realizarea a două sarcini de lucru obligatorii, anunŃate cu cel puŃin 30 de zile înaintea datei de
depunere a acesteia, trimise tutorilor în conformitate cu calendarul disciplinei.

Materiale bibliografice obligatorii

In suportul de curs, la finalul fiecarui modul sunt precizate referinŃele biblografice obligatorii.
Sursele bibliografice au fost astfel stabilte încât să ofere posibilitatea adâncirii nivelului de analiză si,
implicit, comprehensiunea fiecărei teorii, facilitând înŃelegerea şi aprofundarea temelor de studiu abordate în
fiecare modul.
Acestea pot fi accesate la Biblioteca Centrala Universitara LUCIAN BLAGA, Cluj-Napoca.

3
Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium.
Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut.
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition.
Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom

Materiale si instrumente necesare

- retroproiector
- folii retroproiector
- staŃie sonorizare (pentru curs)
- laptop
- videoproiector
- materiale xeroxate pentru activităŃi seminar

Calendarul cursului

Sunt programate 2 întâlniri faŃă în faŃă (consultaŃii) cu toŃi studenŃii.


Pentru prima întâlnire se recomandă lectura atentă a primelor patru module; la cea de a doua se
discuta ultimele patru module si se realizeaza o secventa recapitulativa pentru pregatirea examenului final.
De asemenea in cadrul celor doua intalniri studenti au posibilitatea de solicita titularului si/sau
tutorilor sprijin pentru sarcinilor de lucru obligatorii. Pentru a valorifica maximal timpul alocat celor doua
intalniri se recomandă parcurgerea obligatorie a cel putin a uneia dintre sursele bibliografice de referinta, pe
suportul de curs. La fiecare dintre aceste două întâlniri vor fi prezentate detaliat sarcinile obligatorii şi
termenul limită de predare a lor.

Politica de evaluare si notare

Evaluarea finala se va realiza pe bază unui examen grilă desfasurat in sesiunea de la finele
semestrului III. Nota finală se compune din: a. punctajul obtinut la acest examen în proporŃie de 70%
(7puncte) b. evaluarea sarcinilor obligatorii de pe parcurs – 30% (3 puncte, adica 1.5 puncte/sarcină).
InstrucŃiuni suplimentare privind modalităŃile de elaborare, redactare, dar şi criteriile de notare ale
lucrărilor, vă vor fi furnizate de către titularul de curs sau tutori în cadrul întâlnirilor faŃă în faŃă.
Pentru predarea sarcinilor se vor respecta cu stricteŃe cerintele formatorilor. Sarcinile predate dupa
data afişata nu vor fi luate în considerare pentru notare.
Evaluarea acestor sarcini se va face imediat după preluare, iar afişarea pe site a notelor acordate se
va realiza la cel mult 2 săptămâni de la data depunerii/primirii lucrării. Daca studentul considera ca
activitatea sa a fost subapreciata de catre evaluatori atunci poate solicita feedback suplimentar prin
contactarea titularului sau a tutorilor prin email.
StudenŃii care susŃin examene de mărire de notă sau restante trebuie să prezinte toate sarcinile
aferente cursului.
Rezultatele finale vor fi puse la dispoziŃia studentilor prin afisaj electronic.

Elemente de deontologie academică

• StudenŃii care susŃin examene de mărire de notă sau restante trebuie să prezinte toate sarcinile
aferente cursului.
• Fraudarea examenului sau a sarcinilor de lucru de pe parcursul semestrului se penalizează prin
exmatriculare.
• Proiectele copiate, discuŃiile sau colaborările în timpul examenelor se sancŃionează cu nota 1.
Nepredarea lucrării scrise de către un student care se prezintă la examen este sancŃionată cu nota 1.
• Orice material elaborat de catre studenti pe parcursul activităŃilor va face dovada originalitatii.
Studentii ale căror lucrări se dovedesc a fi plagiate nu vor fi acceptati la examinarea finala.
• DiscuŃiile sau colaborările în timpul examenelor se sancŃionează cu nota 1. Nepredarea lucrării scrise
de către un student care se prezintă la examen este sancŃionată cu nota 1.

4
• Contestarea notei primite la examen se face în scris, la secretariatul facultăŃii, în termen de 48 ore de
la afişarea rezultatelor. Nota finală la disciplina respectivă este cea obŃinută în urma contestaŃiei.

Studenti cu nevoi speciale

Studentii afectati de dizabilităti motorii sau intelectuale pot contacta titularul cursului sau tutorii
pentru a li se acorda materialele de studiu necesare si suportul informational necesar. Titularul cursului si
echipa de tutori îşi exprima disponibilitatea, în limita constrangerilor tehnice si de timp, de a adapta
conŃinutul şi metodelor de transmitere a informaŃiilor precum şi modalităŃile de evaluare (examen oral,
examen on line etc) în funcŃie de tipul dizabilităŃii cursantului.
Adresa contact titular de curs : AncaDobrean @psychology.ro
Adresa contact tutori : psihodiagnostictutor@psychology.ro

Strategii de studiu recomandate

Pentru fiecare modul, studenŃilor li se recomandă să citească notiŃele de la curs şi capitolul aferent din
minim una din cărŃile prezentate la bibliografie. Realizarea sarcinilor oligatorii va facilita intelegerea şi
aprofundarea cunoştinŃelor din aceste module. Lectura fiecărui modul şi rezolvarea la timp a lucrărilor de
evaluare garantează nivele înalte de înŃelegere a conŃinutului tematic şi totodată sporesc şansele promovării
cu succes a acestei discipline

5
I. CONCEPTELE DE MĂSURAREA ŞI EVALUARE ÎN PSIHOLOGIE

• Titlul şi numărul modulului:


1. Conceptele de măsurare, evaluare in psihologie.

• Scopul şi obiectivele: obiectivul esenŃial al acestui modul este să se poată face diferenŃa
între conceptele de evaluare psihologică şi testare psihologică. Acest modul este unul introductiv
care îi ajută pe studenŃi să îşi facă o imagine iniŃială a ceea ce înseamnă psihodisgnosticul.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi fi familiarizaŃi cu termenii de testare psihologică şi evaluare psihologică
 VeŃi putea oferi o serie de informaŃii legate de istoricul testului psihologic
 VeŃi cunoaşte o serie de informaŃii specifice legate de testele psihologice (de ex. care sunt scalele
de măsură, ce este un item, de câte tipuri sunt itemii, etc)

• Structura logică a modulului


1. Evaluare versus testare psihologică
2. DefiniŃii ale testului psihologic
3. Testul ca instrument de măsurare / evaluare
4. Testul vizează un eşantion de comportament
5. Testul implică o procedură de standardizare
6. Testul ca rezultantă a unei colecŃii de itemi
7. Scopul utilizării testelor psihologice
8. Domenii ale utilizării testelor psihologice
9. Clasificări ale testelor psihologice

• ConŃinutul informaŃional detaliat

EVALUARE VERSUS TESTARE PSIHOLOGICĂ

Thorndike (1918) - Dacă ceva există, atunci există într-o oarecare măsură
McCall (1939) - Orice există într-o oarecare măsură poate fi evaluat

CE ESTE EVALUAREA PSIHOLOGICA?


Maloney & Ward (1976) definesc evaluarea psihologica ca fiind un proces de rezolvare de probleme care
vizează descoperirea manifestărilor realitatii. Acest proces implica un scop bine precizat, o serie de
instrumente de evaluare - printre care si testul - precum si o serie de variabile specifice situatiei.

Evaluare versus testare psihologica


Termenii de evaluare respectiv testare psihologica sunt doi temeni distincti. Evaluarea psihologica include
testarea psihologica. Testarea psihologica constituie procesul de administrare, cotare si interpretarea a
rezultatelor unui test psihologic. Ea are un camp mult mai îngust deoarece include doar testul psihologic ca
instrument de evaluare. A reduce evaluarea psihologica la testare este o practica nestiintifica. Predictiile pe

6
care le facem pe baza unui test iau in considerare doar o singura sursa si anume testul respectiv. Predictiile
pe care le facem pe baza unei evaluări psihologice Ńin seama de o multitudine de surse de informaŃie
(incluzând bineinteles si testarea psihologica).

REPERE ISTORICE ÎN EVOLUłIA TESTĂRII PSIHOLOGICE

Tabelul 1. Repere istorice în evoluŃia testării psihologice


2200 ÎC Chinezii încorporau militarii pe baza unor evaluări prealabile
1877 Wilhem Wundt înfiinŃează primul laborator de testare psihologică la Leipzig,
Germania
1884 Francis Galton realizează prima baterie de teste
1890 James McKeen Cattell utilizează pentru prima dată termenul de "mental test",
evaluând aptitudinile intelectuale pe baza unor probe ce vizau timpul de reacŃie şi
capacitatea de discriminare senzorială
1901 Clark Wissler susŃine că indicii obŃinuŃi de Cattell nu corelează cu notele şolare
1905 Scala Metrica a Inteligentei - primul test de inteligenŃă elaborat de Binet-Simon
1914 Stern introduce termenul de coeficient de inteligenŃă
(IQ) = vârsta mintală/vârsta cronologică
1916 Lewis Terman reia scalele Binet-Simon, publicând Scalele Stanford-Binet. Acestea
vor fi revizuite treptat în anii 1937, 1960, 1986
1917 Robert Yerkes realizează testele pentru încorporarea în armata americană în timpul
Primului Război Mondial: Army Alpha şi Army Beta
1920-1940 Dezvoltarea majoră a testelor de personalitate
1920 Testul Rorchach
1921 Este fondat Psychological Corporation (Cattell, Thorndike, Woodworth)
1927 Este elaborat primul chestionar ce viza orientarea profesională
1939 Wechsler Bellevue Intelligence Scale elaboarată de David Wechsler. Va fi revăzută
ulterior şi îmbunătăŃită în anii 1955 (WAIS) şi 1981 (WAIS-R)
1942 Minesota Multiphasic Personality Inventory (MMPI)
1949 Weschler Intelligence Scale for Children (WISC). Va fi revăzut şi îmbunătăŃit în anii
1974 (WISC-R) şi 1990 (WISC-III)
1967 Wechsler Primary and Prescholl Intelligence Scale (WPPSI)

I.2. DEFINIłII ALE TESTULUI PSIHOLOGIC

Testul reprezintă alături de alte instrumente ale metodei experimentale o sursă de informaŃii extrem de utilă
în evaluarea comportamentului uman.

Literatura de specialitate indică diferite definiŃii ale testului psihologic:


• Testul psihologic constă dintr-o probă, mai frecvent dintr-o serie de probe, construite în scopul
stabilirii prezenŃei (sau absenŃei) unui aspect psihic, a particularităŃilor de comportare sau a gradului
de dezvoltare psihică (Roşca, 1972);
• Un test psihologic este o procedură standardizată prin care se formează un eşantion de
comportamente care va fi descris prin categorii sau scoruri. În plus, multe teste au norme sau
standarde care fac posibilă utilizarea rezultatelor la predicŃia altor comportamente, mai importante
(Gregory, 1992);
• Testul reprezintă o măsură obiectivă şi standardizată a unui eşantion de comportament (A. Anastasi,
1976).
• instrument de evaluare;
• vizează un eşantion de comportament;
• implică o procedură standard privind administrarea, cotarea şi interpretarea rezultatelor.

7
I.3. TESTUL CA INSTRUMENT DE MĂSURARE/EVALUARE

A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate
(Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor şi proprietăŃile
obiectelor/fenomenelor.

• testele psihologice vizează atribute/trăsături specifice;


• are ca instrumente scalele de măsură.
 scale nominale
I.3.1. SCALE DE MĂSURĂ  scale ordinale
Distingem 4 tipuri de scale de măsură  scale de interval
(Stevens, 1946):  scale de raport / proporŃii

I.3.1.1. SCALELE NOMINALE

DefiniŃie

Măsurarea pe o scală nominală poate fi realizată ori de câte ori


caracteristica studiată permite împărŃirea în clase de elemente echivalente.

 relaŃie de echivalenŃă
Orice două submulŃimi ale unei clase, nu
trebuie să se intersecteze

Exemple:
1. sexul (femei / bărbaŃi) - o clasă de elevi cuprinde 31 elevi din care 14 băieŃi şi 17 fete;
2. categoriile socioprofesionale

Statistic, nu este posibilă realizarea nici unei analize (X2, procente).

I.3.1.2. SCALELE ORDINALE

DefiniŃie
Măsurarea pe o scală ordinală realizează ierarhizarea claselor.

 relaŃie de echivalenŃă
 relaŃie de ordine

8
ObservaŃie:

Clasele sunt ordonate, dar distanŃa dintre ele nu poate


fi estimată.

Exemple: Statistic poate fi calculată mediana, centilele.


• A>B>C Grafic putem să ne referim la histograme.
• Aprecierile ca “foarte bun”, “bun”, “slab”

I.3.1.2. SCALELE DE INTERVAL

DefiniŃie
Măsurarea pe o scală de interval presupune o unitate de măsură comună şi
constantă.

 relaŃie de echivalenŃă
 relaŃie de ordine
 distanŃa între clase (zero arbitrar)

Exemple:
1. IQ
2. Coeficient perceptiv.

Permite utilizarea celor mai numeroşi indici statistici


(media, varianŃa, coeficienŃi de corelaŃie).

I.3.1.4. SCALELE DE PROPORłII

DefiniŃie
Posedă proprietăŃile scalelor de interval, dar în plus au un punct zero nonarbitrar.

 În psihologie măsurarea nu se realizează pe scale de proporŃii.

Concluzii privind scalele de măsură

Tabelul 2. Principalele caracteristici ale scalelor de măsură


Prelucrări statistice
Scale RelaŃii

Nominale EchivalenŃă Modul, frecvenŃe


Ordinale EchivalenŃă Mediana, centilele, coef. de
Ordine corelaŃie al lui Spearman
EchivalenŃă Media, varianŃa, coeficientul de
De interval corelaŃie Bravais-Pearson
Ordine
ExistenŃa unei unităŃi de măsură
De proporŃii

9
I.4. TESTUL VIZEAZĂ UN EŞANTION DE COMPORTAMENT

Testul psihologic, la fel ca testele în alte ştiinŃe realizează observaŃii pe un eşantion de


comportamente ale unui subiect. Dacă un psiholog doreşte să evalueze vocabularul unui copil sau
aptitudinile sale aritmetice sau coordonarea motrică la un pilot va trebui să aleagă din totalitatea
comportamentelor disponibile câteva reprezentative pentru ale include într-o probă psihologică.

I. 5. TESTUL IMPLICĂ O PROCEDURĂ DE STANDARDIZARE

Standardizarea = procesul de obiectivare şi uniformitate a unui test raportat la:


 modalitatea de aplicare/administrare;
 modalitatea de cotare;
 modalitatea de interpretare şi raportare la norme/etaloane

I.6. TESTUL CA REZULTANTĂ A UNEI COLECłII DE ITEMI

I.6.1. CE ESTE UN ITEM ?


Item este un stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat independent.

I.6.2. TIPURI DE ITEMI


În funcŃie de tipul de răspus solicitat putem distinge între itemi de tip eseu şi itemi cu răspunsuri date:

I. Itemi de tip "eseu" - subiectului i se cere să răspundă liber la un item.


ex. DiscutaŃi implicaŃiile teoriei lui Piaget în practica educaŃională.

II. Itemi cu răspunsuri date care pot fi:

1. Itemi de tip "da-nu", "adevărat-fals"


ex. Bogota este capitala Columbiei?
 sunt utilizaŃi cel mai adesea în testele de cunoştinŃe;
 uneori sunt utilizaŃi şi în testele de personalitate;
 sunt consideraŃi inadecvaŃi în chestionarele de atitudini sau în cele ce evaluează simptomele clinice (în
aceste domenii nu există răspunsuri corecte sau greşite);
 avantaje: uşor şi rapid de administrat;
 dezavantaje: subiectul are 50% şanse de a ghici răspunsul.

2. Itemi cu răspunsuri la alegere


ex. Care este capitala Columbiei ?
A. La Paz
B. Bogota
C. Lima
D. Santiago
 sunt utilizaŃi în testele de cunoştinŃe;
 avantaje: procentul de a ghici răspunsul scade;

3. Itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parŃial-dezacord",


"întotdeauna-adesea-uneori-niciodată"
ex. Sunt o persoană anxioasă în situaŃii de examen.
A. întotdeauna
B. adesea
C. uneori
D. niciodată

4. Itemi cu răspunsuri ce trebuie alăturate după diferite criterii

10
ex. __ 1. primul test de inteligenŃă A. Raven
__ 2. test proiectiv de personalitate B. Binet-Simon
__ 3. test de inteligenŃă de grup C. Rorschach

! Itemul este un stimul specific care determină un anumit comportament ce poate fi cotat şi
evaluat independent
Tipuri de itemi:
I. Itemi de tip "eseu"
II.Itemi cu răspunsuri date: a. itemi de tip "da-nu", b. "adevărat-fals", itemi cu răspunsuri la
alegere, c. itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parŃial-dezacord",
d. Itemi cu răspunsuri ce trebuie alăturate după diferite criterii

I.7. SCOPUL UTILIZĂRII TESTELOR PSIHOLOGICE

1. SelecŃie/clasificare.
2. Diagnostic şi intervenŃie
3. Autocunoaştere
4. Proiecte de evaluare a unor modificări intervenite în urma unor intervenŃii educative, psihoterapeutice.
5. Instrumente ale cercetării ştiinŃifice

I.8. DOMENII DE UTILIZARE A TESTELOR PSIHOLOGICE

Tabelul 3. Domenii de utilizare a testelor


Domeniu de aplicabilitate Activitatea vizată spre evaluare
Psihologia clinică - evaluarea inteligenŃei
- evaluarea psihopatologiei

Consilierea psihologică - orientarea şcolară şi profesională


- evaluarea aptitudinală
- evaluarea comportamentului relaŃional/social

Psihologia - evaluarea potenŃialului managerial


industrială/organizaŃională - evaluarea aptitudinilor cognitive şi psihomotorii

Psihologia şcolară - evaluarea maturităŃii şcolare


- evaluarea progresului în procesul instructiv-educativ
- evaluarea potenŃialului de învăŃare
- evaluarea copiilor cu cerinŃe speciale
Neuropsihologia - evaluarea leziunilor cerebrale

I.9. CLASIFICĂRI ALE TESTELOR PSIHOLOGICE

Testele psihologice pot fi clasificate în funcŃie de diferite criterii (Albu, 1999).


1. Clasificări în funcŃie de conŃinutul testului:
a). după modul de executare a sarcinii de către subiect
 teste orale;
 teste scrise;
 teste de performanŃă :
 teste cu manipulare de aparate şi piese;

11
 teste administrate de calculator.
b). după utilizarea limbajului în rezolvarea sarcinii
 teste verbale ;
 teste nonverbale.
c). după modul de procesare implicat:
 teste de eficienŃă
 teste de aptitudini;
 teste de dezvoltare intelectuală;
 teste de cunoştinŃe;
 probe de lucru;
 teste situaŃionale
 teste de personalitate (nonintelective).
2. Clasificări în funcŃie de modul de administrare a testului:
a). după numărul persoanelor care pot fi examinate simultan:
 teste individuale;
 teste de grup.
b). după timpul de execuŃie
 teste de viteză;
 teste de randament:
 cu limită de timp;
 cu timp de lucru nelimitat.

3. Clasificări în funcŃie de modul de cotare a testului şi de interpretare a scorului:


a). după modul de stabilire a cotei la test:
 teste obiective;
 teste subiective.
b). după modul în care se interpretează scorurile testelor
 teste normative;
 teste centrate pe criteriu;
 teste idiografice;
teste ipsative.

1. Ce este un test psihologic?

2. Ce este evaluarea psihologică?

3. Ce sunt scalele de măsurare şi de câte tipuri sunt acestea?

4. Ce este un item?

5. Cum se clasifică testele psihologice?

12
• Sumar
Termenii de evaluare respectiv testare psihologica sunt doi temeni distincŃi. Evaluarea psihologica
include testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a
rezultatelor unui test psihologic. Testul psihologic reprezintă, alături de alte instrumente ale metodei
experimentale, o sursă de informaŃii extrem de utilă în evaluarea comportamentului uman. În literatura de
specialitate găsim diferite definiŃii ale testului psihologic. Este important de reŃinut că acesta reprezintă o
colecŃie de itemi care pot fi, fie de tip eseu, fie cu răspunsuri date.
Prin conceptul de măsurare se înŃelege atribuirea de numere obiectelor sau fenomenelor potrivit unor
reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor
şi proprietăŃile obiectelor / fenomenelor. Astfel, prin testul psihologic se vizează acele atribute / trăsături
specifice iar pentru a le măsura se utilizează scalele de măsură (scale nominale, ordinale, de interval, de
raport / proporŃii).

Bibliografie modul

Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 13-20


Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut p 37-40
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. P 3-27
Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom p 11-36

13
II. ETALONAREA TESTELOR

• Titlul şi numărul modulului


2. Etalonarea testelor.

• Scopul şi obiectivele: în cadrul acestui modul studenŃii vor acumula informaŃii cu privire la
modalităŃile de interpretare a rezultatelor obŃinute în urma aplicării unui test psihologic.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi putea defini etalonul (norma sau standardele)
 VeŃi cunoaşte paşii de construcŃie a unui etalon
 VeŃi cunoaşte scopurile etalonării
 VeŃi putea enumera metodele de normare

• Scurtă recapitulare a conceptelor prezentate anterior


Termenii de evaluare respectiv testare psihologica sunt doi temeni distincŃi. Evaluarea psihologica
include testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a
rezultatelor unui test psihologic. Testul psihologic reprezintă, alături de alte instrumente ale metodei
experimentale, o sursă de informaŃii extrem de utilă în evaluarea comportamentului uman. În literatura de
specialitate găsim diferite definiŃii ale testului psihologic. Este important de reŃinut că acesta reprezintă o
colecŃie de itemi care pot fi, fie de tip eseu, fie cu răspunsuri date.
Prin conceptul de măsurare se înŃelege atribuirea de numere obiectelor sau fenomenelor potrivit unor
reguli determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenŃă între proprietăŃile numerelor şi
proprietăŃile obiectelor / fenomenelor. Astfel, prin testul psihologic se vizează acele atribute / trăsături
specifice iar pentru a le măsura se utilizează scalele de măsură (scale nominale, ordinale, de interval, de
raport / proporŃii).

• Structura logică a modulului


1. DefiniŃia etalonului
2. Scopurile etalonului
3. Paşii de construcŃie ai unui etalon
4. Metodele de etalonare
a. distribuŃia normală
b. scorurile standard
c. scorurile în clase normalizate

• ConŃinutul informaŃional detaliat


NORMELE TESTELOR
Cum interpretăm rezultatul obŃinut de un subiect la un test?

În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă
brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde
sau etaloane.

14
Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia. Un scor brut
obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanŃa unui
subiect.

Să luăm un exemplu.
Să presupunem că la un test de cunoştinŃe de matematică alcătuit din 100 de itemi un subiect rezolvă corect
30 de itemi. Scorul brut obŃinut de subiect la acest test este 30. Ce reprezintă această valoare? Reprezintă o
performanŃă slabă, medie sau bună la test? Pentru a putea răspunde la această întrebare trebuie să comparăm
această valoare cu un cadru de referinŃă sau etalon. Acest etalon poate fi reprezentat de performanŃa obŃinută
de ceilalŃi subiecŃi la test şi astfel raportăm subiectul la performanŃa celorlalŃi sau dimpotrivă, cadrul de
referinŃă îl poate constitui o normă naŃională în care cadrul de referinŃă îl constituie întreaga populaŃie din
care face parte.
Procesul de etalonare al unui test reprezintă stabilirea unui cadru de referinŃă, a unei scări care să permită
determinarea locului ocupat de rezultatele unui subiect faŃă de rezultatele unei populaŃii de referinŃă, suficient
de numeroasă, formată din persoane comparabile cu cea examinată.

ETALONAREA
Etalonarea are astfel următoarele scopuri:
1. conferă semnificaŃi scorurilor şi permite interpretarea acestora;
2. permite compararea directă a scorurilor. Astfel, un scor de 33 obŃinut de un subiect la un test poate
să nu aibă aceeaşi semnificaŃie la un al doilea test.

Procesul de construcŃie a unui etalon respectă următorii paşi:


1. definirea populaŃiei sau a cadrului de referinŃă pentru care se doreşte construcŃia testului;
2. eşantionarea;
3. administrarea testului la eşantionul ales;
4. construcŃia cotelor sau a normelor testului.

1. Definirea populaŃiei constituie primul pas în construirea normelor. Acest proces cuprinde de fapt
circumscriera persoanelor pentru care este destinat testul. Astfel, această definire se face prin prezentarea
unor caracteristici care vor permite recunoaşterea unei persoane ca aparŃinând sau nu populaŃiei pentru
care a fost construit testul.

Exemplu.
a. Testul Bender Gestalt evaluează funcŃia perceptiv motrică între 5 şi 10 ani. În această situaŃie ştim că
orice persoană cu vârsta între 5 şi 10 ani poate fi evaluată cu testul Bender pentru a se identifica nivelul
dezvoltării funcŃiei perceptiv motrice.

b. Testul de cunoştinŃe matematice „X” cuprinde toŃi copiii de liceu (14-18 ani) din judeŃul Cluj. Pentru ca
performanŃa unui copil la acest test de cunoştinŃa matematice să poată fi raportată la etalon, copilul
respectiv trebuie să aibă următoarele caracteristici: să aibă vârsta cuprinsă între 14-18 ani şi să urmeze un
liceu în judeŃul Cluj.

2. Deoarece testul nu poate fi aplicat la întreaga populaŃie pentru care a fost construit se impune selecŃia din
cadrul populaŃiei (stabilite anterior) a unui grup sau eşantion de normare. Eşantionarea în psihologie se
constituie mult mai greu decât în alte domenii cum ar fi sociologia deoarece examinările sunt costisitoare
dacă se fac la domiciliul subiecŃilor.

!ATENłIE! la eşantionarea pe bază de cunoştinŃe, voluntariat, etc. → deformări sistematice


în estimarea parametrilor !(eşantionarea deconvenienŃă duce la supraestimarea scorurilor)

15
Eşantionul trebuie să fie reprezentativ pentru populaŃie. Astfel structura eşantionului trebuie să respecte
structura populaŃiei. Variabilele care se vor lua în considerare în construirea eşantionului Ńin cont atât de
caracteristicile populaŃiei (vezi definirea acesteia) cât şi de caracteristicile constructului măsurat de test.

Exemplu
Dacă avem un test adaptat în România care evaluează inteligenŃa la copiii preşcolari, populaŃia testului o
constituie copiii de vârsta 4 – 7 ani din România. Acestea reprezintă caracteristicile populaŃiei. În afara
acestor caracteristici trebuie să Ńinem cont însă şi de caracteristicile constructului. În acest caz, inteligenŃa
depinde şi de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vârstă construită vom avea ca
variabilă mediul (ex. Rural sau urban).

Construirea eşantionului se poate realiza prin mai multe tipuri de selecŃie. Cele mai des întâlnite selecŃii sunt
cele aleatoare şi cele stratificate. În cazul selecŃiei aleatoare oricare membru al populaŃiei are şanse egale de a
fi inclus în eşantion. În cazul selecŃiei stratificate se face întâi o împărŃire a populaŃiei în clase (în funcŃie de
variabilele relevante) şi apoi pentru fiecare clasă se trece la o selecŃie aleatoare.

Când poate fi considerat un eşantion aleatoriu? – dacă fiecare subiect are o probabilitate aleatoare de
a fi selectat. Extragerea Loto este aleatoare? La primul nr da.

Programele statistice au opŃiuni de a genera numere aleatoare.


A etalona un test sau a norma un test sunt considerate activităŃi identice.

3. Deoarece rezultatele nu se pot culege de un singur examinator, la un singur moment în timp, este
important ca în timpul etalonării administrarea să se realizeze standard, păstrând aceleaşi condiŃii de
aplicare şi cotare.

4. După ce s-a aplicat testul la întregul eşantion se obŃine o colecŃie de date pe baza cărora se impune
construirea normelor testului.

! Scopurile etalonării sunt: 1. conferirea de semnificaŃii scorurilor şi permiterea


interpretării acestora şi 2. perminterea comparării directe a scorurilor

! Paşii construcŃiei nui etalon sunt: 1. definirea populaŃiei; 2. eşantionarea;


3. administrarea testului , 4. construcŃia cotelor

METODE DE ETALONARE (NORMARE)


Orice persoană evaluată obŃine la un instrument de evaluare un rezultat observabil
a. la testele de aptitudini cognitive: răspunsuri corecte sau greşite
b. la testele de personalitate: evidenŃierea unei trăsături investigate faŃă de conŃinutul aserŃiunii
unui item

DistribuŃia normală
Cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss.
- proprietăŃile curbei normale (figura 1): 68% este între + 1sigma, 95% este intre + 2sigma,
Beneficiul interpretării rezultatelor pe baza distribuŃiei normale = simplifică interpretarea scorurilor
individuale la un test. In cazul distribuŃiei normale media, mediana şi modul au aceeaşi valoare
- cunoscând că o persoana se găseşte în intervalul + 1 sigma ne spune ca aproximativ 2 treimi din
populaŃie are acelaşi scor.

16
Figura 1. ProprietăŃile distribuŃiei normale

Scorurile standard
- Transformările liniare în scoruri standard, folosind media şi abaterea standard a
distribuŃiilor
Un scor standard este un scor care a fost transformat dintr-o scală în alta, ultima
fiind una pe baza căreia se pot face comparaŃii.
- cele mai cunoscute sunt scorurile z şi T

Scorurile z
- scorul z are media 0 si abaterea standard 1
z = (X –M)/ δ
Exemplu
La un test de citire un subiect obŃine un scor brut de 24 (media=20, sigma=3), iar la matematică un scor brut
de 42, media = 60, sigma=10. CalculaŃi scorul z pentru ambele performanŃe. InterpretaŃi valorile obŃinute.

Scorurile T
T = 50 + 10z
• T este o scală a cărei medie este 50 si sigma este 10;
• Propus de McCall (1922, 1939) în cinstea profesorului sau Thorndike (T);
17
• Cuprinde 5 sigma sub/peste medie;
• Scorul care se gaseste la exact 5 δ sub medie va reprezentat un scor T de 0, media va fi 10, iar 5
sigma peste medie va fi 100;
• Avantajul la scorurile T este ca nu avem o valoare negativa;
• Utilizat de exemplu la testul Minesota Multiphasic Personalty Inventory (MMPI).

Scorurile în clase normalizate


5 clase: 7%, 24%, 38%, 24%, 7%
7 clase: 5, 11%, 21%, 26%, 21%, 11%, 5%,
9 clase (stanine): 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%,

Paşi:
1. se aranjează scorurile de la cel mai mare la cel mai mic;
2. se stabileşte frecventa pentru fiecare scor;
3. se stabileşte frecventa cumulata;
4. se calculează procentul fiecărei clase;
5. se face corespondenŃa scor + procent din distribuŃia de frecvenŃă cumulată;

Exemplu
Să presupunem că un test a fost aplicat la 325 de subiecŃi. Scorul maxim al testului este 42 iar scorul minim
este 2. Tabelul 1 prezintă frecvenŃa fiecărui scor, frecvenŃa cumulată şi stanina corespunzătoare.

FrecvenŃă Stanine FrecvenŃă Stanine


Scor FrecvenŃa cumulată Scor FrecvenŃa cumulată
brut fiecărui brut fiecărui
scor scor
42 1 1 Stanina 9 22 16 216 Stanina 4
41 1 2 21 11 227
40 2 4 20 14 241
39 6 10 19 12 253
38 7 17 Stanina 8 18 13 266 Stanina 3
37 4 21 17 14 280
36 9 30 16 8 288
35 4 34 15 9 297 Stanina 2
34 10 44 Stanina 7 14 6 303
33 7 51 13 3 306
32 13 64 12 6 312
31 19 83 11 2 314 Stanina 1
30 11 94 Stanina 6 10 3 317
29 14 108 9 2 319
28 16 124 8 2 321
27 12 136 7 2 323
26 13 149 Stanina5 6 1 324
25 11 160 5 0 324
24 18 178 4 0 324
23 22 200 3 0 324
2 1 325
- 325
Cum obŃinem staninele pentru fiecare scor?

Calculul scorului care intră în stanina 9.


Se ia procentul corespunzător acestei stanine (4%) şi se raportează la datele existente astfel:

18
325....................100%
x.........................4%
x=13
Valoarea obŃinută reprezintă frecvenŃa cumulată a scorurilor din stanina 9. Observăm în coloana frecvenŃelor
cumulate că această valoare nu există, deci vom lua valoarea existentă cea mai apropiată de 13. În coloana
frecvenŃelor cumulate avem valorile 10 şi 17. Deoarece 10 este mai aproape de 13 vom lua această valoare
ca limită pentru stanina 9. Deci scorurile care intră în stanina 9 sunt cele cuprinse între 42 şi 39 (este
corespunzător frecvenŃei cumulate 10).

Pentru a afla scorurile care intră în stanina 8 luăm procentul din populaŃie din stanina 9 la care adăugăm
procentul corespunzător staninei 8 adică:
4% + 7% = 11%
Repetăm apoi algoritmul utilizat în stabilirea scorurilor pentru stanina 9:
325....................100%
x.........................11%
x=35,75

Valoarea frecvenŃei cumulate cea mai apropiată de 35,75 este valoarea 34, valoarea căreia îi corespunde
scorul brut de 35. deci, în stanina 8 avem toate scorurile între 38 şi 35.

Pentru stanina 7 calculul este următorul:


11%+12%=23%
325….................100%
x…......................23%
x= 74,75
Pentru stanina 6 calculul este următorul:
23% +17% = 40%
325….................100%
x…......................40%
x=130
Pentru stanina 5 calculul este următorul:
40% + 20% = 60%
325….................100%
x…......................60%
x=195
Pentru stanina 4 calculul este următorul:
60% + 17% = 77%
325….................100%
x…......................77%
x=250,25
Pentru stanina 3 calculul este următorul:
77% + 12% = 89%
325….................100%
x…......................89%
x=289,25
Pentru stanina 2 calculul este următorul:
89% + 7% = 96%
325….................100%
x…......................96%
x=312

19
Dacă performanŃa subiectului se găseşte în staninele 4, 5 sau 6 putem spune că performanŃa sa la test este una
medie. O performanŃa încadrată în staninele 2 şi 3 este un slabă, iar o performanŃă încadrată în stanina 1 este
una foarte slabă. De cealaltă parte a medie, staninele 7 şi 8 indică o performanŃă bună la un test, iar stanina 9
reprezintă o performanŃă foarte bună.

Etaloanele în decile, quartile, centile, împart distribuŃia în clase egale; decilele cuprind 10 clase (10% din
populaŃie în fiecare clasă), quartilele cuprind 4 clase (25%), iar centilele 100.

Orice manual al unui test psihologic conŃine normele testului şi trebuie să includă următoarele
aspecte:
1. indicii demografici ai populaŃiei pentru care a fost construit testul. Cei mai frecvenŃi indicatori sunt:
vârsta, sexul, mediul din care fac parte subiecŃii, nivelul de şcolarizare Putem spune că aceşti
indicatori definesc populaŃia pentru care este destinat testul. Astfel, un test care evaluează inteligenŃa
la copiii preşcolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de
referinŃă la care să raportăm performanŃa obŃinută de acest copil.
2. numărul persoanelor pe care a fost etalonat testul şi modul de eşantionare ales. Această informaŃie
este utiă pentru analiza semnificaŃiei etalonului. Ne interesează în acest caz dacă etalonul testului are
la bază un număr suficient de mare de persoane dintr-o populaŃie pentru a-l putea considera
reprezentativ.
3. data construirii normelor. Această informaŃie este utilă deoarece ne ajută ă identificăm dacă
populaŃia pe care a fost etalonat testul mai posedă caracteristicile populaŃiei din care face parte
subiectul testat. Este cunoscut faptul că unele constructe psihologice sau cunoştinŃe sunt dependente
de evoluŃie. De exemplu un test care evalua nivelul dezvoltării vocabularului la o anumită populaŃie
în anii 1940-1950 nu mai are aceleaşi norme în prezent deoarece populaŃia a evoluat şi astfel
normele trebuie mereu reactualizate.

1. Ce reprezintă etalonul?

2. Care sunt scopurile etalonării?

3. Care este procesul de construcŃie de construcŃie al unui etalon?

4. ce metode de măsurare se utilizează?

• Sumar
În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă
brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde sau
etaloane. Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia.
Un scor brut obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează
performanŃa unui subiect. Etalonarea conferă semnificaŃi scorurilor şi permite interpretarea acestora şi
permite compararea directă a scorurilor. Pe lângă aceasta este foarte important ca procesul de construcŃie a
unui etalon să respecte o serie de paşi. În cadrul metodelor de etalonare trebuie să Ńinem cont de distribuŃie
(cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss) şi de o serie
de scoruri: standard sau in clase normalizate.

20
Sarcini şi teme ce vor fi notate

1. La un test de performanŃă de citire, un subiect are scorul brut de 24. Care este nivelul
însuşirii cunoştinŃelor sale dacă:
i. media la test este 30 şi δ este 4?
ii. media la test este 30 şi δ este 7?
iii. media la test este 40 şi δ este 5?

2. Pentru fiecare din studiile următoare se va descrie procedura de eşantionare. CitiŃi fiecare descriere şi
identificaŃi tipul de eşantionare folosit:
A. Un profesor de psihologie ataşează un scurt chestionar care vizează obiceiurile de studiu al elevilor la
fiecare al patrulea test şi distribuie aceste teste elevilor pe măsură ce aceştia intră în clasă.
B. Cercetătorul selectează aleatoriu jumătate din celulele unui penitenciar şi intervievează toŃi indivizii din
celulele selectate.
C. Un administrator dintr-un cămin de studenŃi selectează aleatoriu cinci dormitoare din campus şi din
studenŃii acestora selectează aleator 60% studenŃi de anul I şi 40% studenŃii din anii mai mari pentru un
studiu vizând consumul de alcool.

• Bibliografie modul

Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut. p 14-37, 65-
82
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 3-27

21
III. FIDELITATEA TESTULUI PSIHOLOGIC

• Titlul şi numărul modulului


3. Fidelitatea testului psihologic

• Scopul şi obiectivele: scopul acestui modul este de a îi învăŃa pe studenŃi ce reprezintă fidelitatea
testului psihologic, de câte tipuri este aceasta, cum se calculează fidelitatea şi modalităŃile de influenŃare a
fidelităŃii unui test. Aceste elemente sunt foarte importante pentru că fidelitatea reprezintă absenŃa relativă
dintr-o probă psihologică a erorilor de măsurare. În psihologie acest lucru nu poate fi întâlnit; de aceea orice
test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Astfel, calculul fidelităŃii îi
ajută pe studenŃi să indice măsura în care scorurile obŃinute la test exprimă de fapt valorile reale ale
constructului pe care testul îl măsoară.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi putea o definiŃie corectă a fidelităŃii testului
 VeŃi putea enumera tipurile de fidelitate
 VeŃi ştii să calculaŃi fidelitatea unui test
 VeŃi putea enumera modalităŃile de influenŃare a fidelităŃii unui test

• Scurtă recapitulare a conceptelor prezentate anterior


În general, numărul de itemi rezolvaŃi corect de subiect la un test este operaŃionalizat prin scor sau cotă
brută. Această valoare însă nu are nici o semnificaŃie dacă nu o comparăm cu anumite norme, standarde sau
etaloane. Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia. Un
scor brut obŃinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează
performanŃa unui subiect. Etalonarea conferă semnificaŃi scorurilor şi permite interpretarea acestora şi
permite compararea directă a scorurilor. Pe lângă aceasta este foarte important ca procesul de construcŃie a
unui etalon să respecte o serie de paşi. În cadrul metodelor de etalonare trebuie să Ńinem cont de distribuŃie
(cu cât avem o colecŃie mai mare de date cu atât acestea respectă mai mult distribuŃia lui Gauss) şi de o serie
de scoruri: standard sau in clase normalizate.

• Structura logică a modulului


1. ConsistenŃa internă
2. Stabilitatea în timp a rezultatelor
3. Metode de calcul a fidelităŃii interne
a. Metoda consistenŃei interne
b. Metoda test – retest
c. Metoda formelor paralele
d. Metoda fidelitatea interevaluatori

• ConŃinutul informaŃional detaliat

FIDELITATEA TESTELOR

The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in
vacuum during the time interval of 1/299 792 458 of a second. This replaces the two previous definitions of
the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a
definition adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case,
the change in definition achieved not only an increase in accuracy, but also progress toward the goal of

22
using fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of
atomic systems. - Taylor,1991.

Fidelitatea unui test psihologic se referă la două aspecte:


1. consistenŃa internă;
2. stabilitatea în timp a rezultatelor testării.

Analiza fidelităŃii unui test porneşte de la conceptul de eroare. Orice scor la un test psihologic este rezultatul
scorului real şi al unei erori de măsură:
Xobservat = Xreal + e (e = eroarea de măsură)
Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru
însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori
aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de fapt
valorile reale ale constructului pe care testul îl măsoară.

Fidelitatea unui test poate fi calculată pe baza a patru metode:


1. metoda consistenŃei interne → coeficienŃi de consistenta internă;
2. test retest → coeficienŃi de stabilitate;
3. metoda formelor paralele → coeficienŃi de echivalenŃă;
4. metoda fidelităŃii interevaluatori → coeficienŃi interevaluatori.

II.1.1. CONSISTENłA INTERNĂ


ConsistenŃa internă a unui test se referă la măsura în care toŃi itemii testului măsoară aceeaşi variabilă.
Calculul coeficientului de consistenŃă internă va consta în analiza corelaŃiei ce exista între fiecare item.
Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculaŃi următorii
coeficienŃi:
1. α Cronbach pentru testele cu orice tip de itemi;
2. λ3 Guttman;
3. ρ20 şi ρ21 Kuder Richardson (dacă itemii testului sunt binari).

ToŃi coeficienŃii prezentaŃi se bazează pe un calcul de corelaŃie între itemii ce alcătuiesc testul.
Un coeficient de consistenŃă ridicat exprimă faptul că toŃi itemii testului se referă la aceeaşi
variabilă. În afara coeficienŃilor prezentaŃi anterior, consistenŃa internă a unui test poate fi calculată
şi pe baza metodei înjumătăŃirii. Pe baza acestei metode testul este împărŃit în jumătate,
calculându-se coeficientul de corelaŃie dintre cele două părŃi. Dacă acest coeficient este ridicat el ne
indică o bună fidelitate (consistenŃa internă) a testului. O formă particulară a metodei înjumătăŃirii o
constituie metoda item cu item, în care testul este împărŃit în două prin selectarea itemilor pari
respectiv a celor impari. Aceasta tehnică este utilă mai ales în cazul testelor în care itemii sunt
prezentaŃi în ordinea crescândă a dificultăŃii. Se calculează şi acest caz coeficientul de consistenŃă
internă între cele doua părŃi ale testului, valoarea lui reprezentând valoarea coeficientului de
fidelitate.

II.1.2. STABILITATEA
Stabilitatea rezultatelor testării ne indică în ce măsură la aplicări diferite în timp un subiect obŃine
rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizează astfel:
a) se administrează testul la un grup de persoane;
b) după un interval de timp se readministrează testul;
c) se calculează un coeficient de corelaŃie între rezultatele la cele două administrări.

O valoare mare a acestui coeficient indică o bună stabilitate în timp a rezultatelor. Se poate spune despre acel
instrument că este fidel deoarece relevă aceleaşi valori ale unei variabile la măsurători diferite în timp.

23
Factori care influenŃează calculul fidelităŃii test-retest (stabilităŃii):
 Intervalul de timp între test şi retest. Dacă timpul este prea scurt există o mare probabilitate
ca subiecŃii să îşi reamintească răspunsurile date anterior; respectiv un timp prea lung între test şi retest
poate determina maturizarea eşantionului de subiecŃi. Astfel dacă aplicăm un test de percepŃie la 4 ani şi îl
reaplicăm la un interval de 6 luni există o mare probabilitate să obŃinem rezultate diferite la cele două
administrări ale testului deoarece în intervalul de 6 luni subiecŃii s-au maturizat. În acest caz retestul va
include în evaluare nivelul de maturizare al subiecŃilor. Datorită acestor argumente este destul de dificil de
stabilit cu exactitate un timp optim între test şi retest.

Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest,
vârsta subiecŃilor precum şi condiŃiile în care s-au administrat testele pentru a putea identifica eventualele
surse de eroare de măsură.

 Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori fie prea dificili se vor obŃine
coeficienŃi de stabilitate ridicaŃi deoarece itemii testului fie vor fi rezolvaŃi de majoritatea subiecŃilor (în
primul caz) fie nu vor fi rezolvaŃi nici la test nici la retest (al doilea caz).

 Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaŃii în care se obŃin
performanŃe diferite la retest deoarece subiectul fie a învăŃat să răspundă la itemi după prima administrare,
fie această primă administrare a determinat schimbări de atitudini faŃă de o anumită problemă.

! Factori care influenŃează calculul fidelităŃii test - retest (stabilităŃii):


1. intervalul de timp între test şi retest
2. gradul de dificultate al itemilor
3. schimbări ale subiectului determinate de prima aplicare

II.1.3. METODA FORMELOR PARALELE


Există o serie de situaŃii practice care necesită aplicări repetate a unui test psihologic la un interval foarte
scurt de timp. În acest caz aplicarea aceluiaşi test este improprie deoarece s-a văzut anterior că la un interval
scurt de timp subiecŃii pot să îşi reamintească răspunsurile date anterior. În acest caz trebuie să se
construiască forme echivalente sau paralele ale unui test. Două teste sunt paralele dacă pentru un subiect
erorile de măsură la cele două administrări sunt variabile aleatoare independente. În acest caz itemii celor
două teste trebuie să fie logic izomorfi, adică să aibă acelaşi nivel de dificultate.

Avantajul acestei metode este acela că nu mai permite reamintirea răspunsurilor şi nici posibilitatea căutării
răspunsurilor la întrebările la care nu s-a ştiut răspunde.
Dezavantajele acestei metode sunt următoarele:
 necesită consum de timp prin două administrări;
 subiecŃii se pot plictisi dacă testările sunt prea lungi;
 este greu de realizat fiind dificilă şi costisitoare.

II.1.4. FIDELITATEA INTEREVALUATORI


Este necesar a fi calculată în cazul testelor care nu au o cotare obiectivă aşa cum sunt testele proiective de
personalitate la care scorul este influenŃat şi de interpretarea pe care o dă persoana care face cotarea. Pentru a
verifica în ce măsură scorul la test este influenŃat de modalitatea în care se face cotarea de diferite persoane
se va cere la diferiŃi evaluatori să calculeze scorurile la test, iar apoi se va realiza un coeficient de corelaŃie

24
interevaluatori. Acest coeficient va exprimă măsura în care testul este independent de erori datorate
modalităŃii de cotare a răspunsurilor subiectului.

CoeficienŃii de fidelitate transformaŃi în coeficienŃi de determinare (pătratul coeficientului de fidelitate)


relevă proporŃia în care varianŃa totală a rezultatelor psihometrice se datorează varianŃei “reale” – diferenŃelor
individuale reale – sau din contră, varianŃei “eroare”, definită diferit, în funcŃie de metoda particulară urmată
în stabilirea tipului de fidelitate (Kulcsar, 1980). În consecinŃă, deşi semnificaŃia diferiŃilor coeficienŃi de
fidelitate nu este aceeaşi, totuşi orice coeficient de fidelitate, ridicat la pătrat, poate fi interpretat în termeni
de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 înseamnă
că .802=64% din varianŃa totală a rezultatelor psihometrice considerate se datorează varianŃei reale a
domeniului explorat, iar 36% varianŃei eroare, generată de unele din sursele multiple ale deosebirilor în
rezultatele psihometrice.

! Trebuie menŃionat faptul ca deşi fidelitatea unui test este importanta, ea nu este suficientă
pentru un test bun. Un test poate avea o bună consistenŃă internă (toŃi itemii evaluează aceeaşi variabilă)
respectiv o bună stabilitate în timp, dar să măsoare altceva decât îşi propune. Problema evaluării corecte a
ceea ce îşi propune să măsoare un test constituie subiectul validităŃii testelor.

Interpretarea unui coeficient de fidelitate

Murphy & Davidshopher (1998) prezintă următoarele repere în interpretarea coeficienŃilor de fidelitate
(tabelul 1):

Tabelul 1. SemnificaŃia coeficienŃilor de fidelitate


Valori ale Tipul testului Interpretare
coeficienŃilor de
fidelitate
0.95
0.90 Testele de inteligenŃă de grup Fidelitate mare
0.85 Testele de performanŃă
0.80
0.75 Testele cu răspunsuri multiple Fidelitate moderată
0.70 Scalele comportamentale
0.65
0.60 Unele măsurători proiective Fidelitate scăzută
0.55
0.50 Scorul real şi eroarea au efect egal
asupra scorurilor la test

Aşa cum am precizat anterior orice rezultat (scorul observat) pe care o persoană îl obŃine la un test este
alcătuit din aptitudinea reală (scor real) căreia i se adaugă eroarea de măsură. Adică:
Xobservat = Xreal + e (e = eroarea de măsură)

Întrebarea pe care este necesar să o analizăm în acest caz ar fi următoarea: care este intervalul în care se
găseşte scorul real. Altfel spus, dat fiind faptul că o persoană obŃine un anumit scor la un test, ne interesează
care este intervalul în care putem spune că se găseşte scorul real la test. Acest interval este denumit interval
de încredere şi este definit ca probabilitatea ca scorul real al persoanei la un test să se găsească între anumite
limite.

25
Calculul intervalului de încredere (IC).
Intervalul de încredere se obŃine astfel:
IC = Xobservat + z*SEm SEm= eroarea standard de măsură

SEm = SD* (1 − r ) SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate

Să luăm un exemplu.
Presupunem că la un test de inteligenŃă o persoană a obŃinut un scor de 115. Coeficientul de fidelitate alpha
este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflăm intervalul în care se găseşte
scorul real al persoanei la test?

1. Calculăm eroarea standard de măsură

SEm = SD* (1 − r )

SEm = 15* (1 − 0.98)

SEm = 15* 0.02


SEm = 2.12
2. Calculăm intervalul de încredere
IC = Xobservat + z*SEm
IC = 115 + z*2.12

Alegerea scorului z care va intra în calcul se face în funcŃie de precizia cu care dorim să lucrăm. Dacă
alegem să lucrăm cu o probabilitate de 95% scorul z corespunzător este de 1.96 . Pentru o probabilitate de
90% scorul z corespunzător este de 1.65. În acest exemplu să vom lucra cu o precizie de 95%, deci z=1.96.
Astfel vom avea:
IC = 115 + 1.96*2.12
IC= 115 + 4.15

În acest caz putem spune cu o probabilitate de 95% că scorul real al persoanei se găseşte în intervalul 110.85
– 119.15.

! DE REłINUT:
• intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem un
coeficienŃi de fidelitate mici, atunci intervalul se măreşte, deci eroarea este mai mare.
• intervalul de încredere depinde de abaterea standard a scorurilor la test.

26
1. La ce se referă fidelitatea unui test?

2. De la ce porneşte analiza fidelităŃii unui test?

3. Ce este consistenŃa internă a unui test?

4. Ce reprezintă fidelitatea interevaluatori?

5. Care sunt factorii care influenŃează calculul fidelităŃii test – retest?

6. Care sunt avantajele şi dezavantajele metodei formelor paralele?

• Sumar
Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru
însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor
erori aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de
fapt valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test psihologic se referă la
două aspecte: 1. consistenŃa internă şi 2. stabilitatea în timp a rezultatelor testării.
Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenŃei interne, 2. test
retest, 3. metoda formelor paralele, 4. metoda fidelităŃii interevaluatori

Sarcini şi teme ce vor fi notate

RezolvaŃi următoarele probleme:


1. Testul A are abaterea standard 4, fidelitatea testului este 0.89
Testul B are abaterea standard 7, fidelitatea testului este 0.88
Considerând că toŃi ceilalŃi parametri ai celor 2 teste sunt egali, pe care dintre teste îl
consideraŃi mai bun?

2. Testul C are eroarea standard de măsură 3,20 iar fidelitatea testului 0,76
Testul D are eroarea standard de măsură 5,6 iar fidelitatea testului 0,62
Considerând că toŃi ceilalŃi parametri ai celor 2 teste sunt egali, pe care dintre teste îl consideraŃi mai bun?

3. CalculaŃi eroarea standard de măsură pentru un scor observat de 15 şi utilizaŃi valoarea obŃinută
pentru a determina intervalul de încredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a
scorurilor la test este 8; Fidelitatea testului este 0,74. CalculaŃi:

a. Eroarea standard de măsură:______________


b. Intervalul de încredere la 90%_________________________________
c. ExplicaŃi semnificaŃia acestui interval.
d. Intervalul de încredere la 95%_________________________________
e. ExplicaŃi semnificaŃia acestui interval.

• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63, 63-98

27
IV. VALIDITATEA TESTULUI PSIHOLOGIC

• Titlul şi numărul modulului


4. Validitatea testului psihologic

• Scopul şi obiectivele: obiectivul acestui modul este să le ofere studenŃilor o serie de informaŃii cu
privire la validitatea testelor psihologice şi importanŃa acesteia, adică faptul că e necesar să demonstrăm că
testul măsoară ceea ce şi-a propus. Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele
validităŃii.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi putea defini validitatea testelor psihologice
 VeŃi putea enumera tipurile de validitate existente
 VeŃi recunoaşte modalităŃile de influenŃare a validităŃii

• Scurtă recapitulare a conceptelor prezentate anterior


Fidelitatea reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru însă
în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori
aleatoare de măsură. Calculul fidelităŃii indică măsura în care scorurile obŃinute la test exprimă de fapt
valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test psihologic se referă la două
aspecte: 1. consistenŃa internă şi 2. stabilitatea în timp a rezultatelor testării.
Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenŃei interne, 2. test
retest, 3. metoda formelor paralele, 4. metoda fidelităŃii interevaluatori

• Structura logică a modulului


1. DefiniŃia validităŃii testului
2. Istoric al studiilor despre validitate
3. Forme ale validităŃii
a. validitate de criteriu
b. validitate de conŃinut
c. validitate de construct

• ConŃinutul informaŃional detaliat

VALIDITATEA TESTELOR

DefiniŃia validităŃii
Evaluarea psihologică vizează o anumită realitate fie internă, fie externă. Numim domeniu de
evaluare orice realitate (internă sau externă) care este supusă evaluării. În orice proces de evaluare
psihologică pornim de la definirea domeniului de evaluare şi apoi propunem o serie de modalităŃi cantitative
prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea
domeniului poate să fie mai mult sau mai puŃin corectă ne punem întrebarea dacă aptitudinile /caracteristicile
măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a
domeniului de evaluare este necesar să obŃinem o serie de informaŃii care să reflecte faptul că testul măsoară
ceea ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei măsurători.

28
Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. TradiŃional, definiŃia cea
mai des întâlnită a validităŃii este “modalitatea în care un test măsoară ceea ce îşi propune să măsoare”
(Anastasi, 1976). Validitatea se referă deci la relaŃia dintre scorul obŃinut la un test şi un anumit criteriu sau o
performanŃă externă. Acest criteriu poate să aparŃină oricărui domeniu; poate include selecŃia de personal,
reuşita şcolară sau nosologia.

Istoric al studiilor despre validitate


Este cunoscut deja faptul că măsurarea psihologică şi deci implicit şi validarea îşi au rădăcinile demult în
timp. Într-un articol care viza rolul testelor în selecŃia de personal, Guion (1976) realizează o trecere în
revistă a principalelor aspecte de care se Ńinea cont la vremea respectivă în analiza validităŃii unei măsurători
psihologice. Acestea sunt prezentate în tabelul 2:
Tabelul 2.2. Referiri la validitate

Aspecte ObservaŃii
1. Scopul validării* este acela de a prezice o “este…important a se cunoaşte dacă scorurile la
performanŃă viitoare un test sunt într-o modalitate mai mare sau mai
mică predictive pentru succesele ulterioare”
(Bingham, 1937, p.216)
2. Predictorii şi criteriile trebuie să fie
selectaŃi pe baza analizei muncii.
3. Instrumentele de evaluare trebuie “Pentru a putea compara performanŃele unei
standardizate. persoane la un test la diferite momente în timp,
testul trebuie să fie uniform” (Freyd, 1923, p.232)
4. Testele trebuie validate empiric. “Un test nu are nici o semnificaŃie înainte ca
acesta să fie validat” (Link, 1924)
5. Validarea este specifică unei situaŃii.
6. Un singur test nu este suficient. “Hull (1928) susŃine că pentru a putea prezice cu
mare acurateŃe un anumit criteriu, trebuie utilizată
o baterie alcătuită din 4, 5 sau mai multe teste”
(Guion, 1976, p.783).
7. Este bine să se utilizeze doar un singur Freyd (1923) descrie procesele prin care este
criteriu. selectat un “criteriu”
8. Metodele psihometrice sunt preferate “Evaluatorul nu se va limita la un instrument
metodelor nepsihometrice. anume de măsură, dar cele pe care trebuie să le
utilizeze cel mai des sunt testele şi chestionarele”
(Freyd, 1923, p.231)
9. Un test trebuie să Ńină cont de diferenŃele “PerformanŃele la un test trebuie analizate - acolo
individuale. unde este cazul - diferit în funcŃie de sexe”
(Freyd, 1923).

Analiza făcută de Guion (1976) ne oferă o imagine globală a ceea ce însemna la începutul sec. xx
modalităŃi tradiŃionale de realizare a studiilor de validitate a unui instrument de evaluare psihologică.

O abordare mai recentă şi poate mai corectă a validităŃii este formulată de APA1, AERA2, NCSEPT3
în 1974. Conform standardelor asociaŃiilor amintite “Validitatea se referă la corectitudinea inferenŃelor
realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de întrebări la
care dorim să răspundem pe baza unei evaluări psihologice trebuie să ne verificăm cât de corecte (sau valide)
sunt răspunsurile (sau informaŃiile) oferite de un test psihologic (Ghiselli & all, 1986).

Validitatea trebuie atribuită întotdeauna inferenŃelor făcute pe baza performanŃelor la un test.


Validitatea nu este o caracteristică a testului psihologic ci este mai degrabă o caracteristică a inferenŃelor care

*
Validarea este procesul prin care se obŃin informaŃii legate de validitatea unui test.
1
American Psychological Association
2
American Educational Research Association
3
National Council on Standards for Educational and Psychological Tests

29
rezultă în urma utilizării acestuia (unei forme de evaluare - chiar a observaŃiei). Altfel spus, validitatea
determină relaŃia dintre inferenŃele făcute pe baza performanŃelor la un test şi realitate (este inclus aici orice
aspect care este supus evaluării). Dacă analizăm definiŃia dată de Nunnally (1978) validităŃii, şi anume “cât
de util ştiinŃific” este un instrument de măsură observăm că şi în acest caz este vorba de inferenŃe, sau
judecăŃi realizate pe baza instrumentului respectiv.

Forme ale validităŃii.


Literatura de specialitate indică diferite tipuri de validitate psihologică. Ele trebuie înŃelese ca fiind
tehnici, modalităŃi prin care se încearcă optimizarea unui instrument de măsură psihologică. Modalitatea cea
mai des întâlnită în literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o
constituie următoarea taxonomie:
• validitate de criteriu
• validitate de conŃinut
• validitate de construct.

În afara celor trei tipuri de validitate, normele APA analizează validitatea de aspect.
Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară”
(APA, 1974). Exprimă de fapt modul în care persoana evaluată percepe itemii testului; ea este importantă în
măsura în care poate influenŃa răspunsurile persoanei examinate la test. Dacă persoana examinată apreciază
că testul măsoară ceea ce îşi propune să măsoare de fapt, atunci putem spune că testul are o validitate de
aspect ridicată. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu
important pentru inferenŃele făcute pe baza unui test.

CRITERIU
II.2.1.VALIDITATEA DE CRITERIU

Nu de puŃine ori suntem confruntaŃi cu întrebări ca: “În ce măsură performanŃa la un test de
inteligenŃă este predictivă pentru reuşita şcolară?”, “În ce măsură rezultatul la un test de aptitudini prezice
performanŃa în muncă?”, “În ce măsură performanŃa la un test de memorie constituie un bun predictor
pentru declinul cognitiv la vârsta a treia?”. Aceste întrebări se adresează validităŃii de criteriu. Adesea
acest tip de validitate este întâlnit sub denumirea de validitate empirică (Lyman, 1998). Validitatea de
criteriu indică deci măsura în care testul este un bun predictor pentru un eşantion de comportamente viitoare.
În acest caz performanŃa la un test trebuie raportată la o altă performanŃă pe care o numim criteriu.

Criteriul este definit ca standardul la care este raportată performanŃa la un test. Astfel criteriul poate
fi “performanŃa unui pilot care conduce un Boeing 767”, “numărul de zile petrecut într-un spital de
psihiatrie”, “notele obŃinute de un elev la disciplinele umane”, “performanŃa la un alt test”. Aşa cum se poate
observa nu există reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau
un grup de comportamente, o perioadă de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia
din sânge, etc. Deşi la o prima vedere se poate spune că un criteriu poate constitui orice, acest lucru este
adevărat doar dacă criteriul este relevant pentru domeniul de evaluare, dacă este necontaminat, dacă este
valid şi fidel.

Un test psihologic este adecvat dacă este relaŃionat cu un criteriu şi deci poate fi considerat un bun
substitut al criteriului. În general numim testul ca fiind predictor pentru criteriul respectiv.

Caracteristicile unui criteriu.


Criteriul reprezintă o măsură directă şi independentă a ceea ce testul doreşte să prezică. Astfel pentru un test
de aptitudini mecanice criteriul îl poate constitui performanŃa în munca de mecanic; pentru un test de
cunoştinŃe criteriul îl pot constitui notele şcolare.
Criteriul trebuie să îndeplinească câteva condiŃii (Corsini, 1994):
 să fie relevant pentru activitatea sau caracteristica la care se referă; adică ordinea subiecŃilor la
test să coincidă cu ordinea performanŃei la criteriu;
 să fie fidel, adică să fie congruent cu evaluări diferite ale performanŃelor la care se referă,
evaluări realizate la momente diferite.

30
 să fie practic, adică să nu coste mult;
 să fie exprimat în aceleaşi unităŃi pentru toate persoanele. Dacă de exemplu, valorile variabilei
criteriu sunt dependente de vârsta subiecŃilor atunci aceste valori trebuie transformate în cote
standard (de exemplu: z sau T);

Anastasi (1954) exemplifică câteva criterii utilizate în analizarea validităŃii testelor care vizează constructe:
 vârsta – se foloseşte ca şi criteriu în cazul constructelor ce vizează procese care cunosc o
maturizare (ex. inteligenŃa, funcŃiile perceptive, etc.). Nu este un criteriu bun pentru testele care
vizează aspecte invariabile în timp (ex. variabilele ce Ńin de temperament).
 performanŃele şcolare – sunt un criteriu bun pentru testele de cunoştinŃe sau pentru testele care
evaluează aptitudini şcolare.
 performanŃele la diverse programe de instruire specială (muzică, sport, etc.) sunt criterii
adecvate pentru testele de aptitudini speciale.
 rezultatele altor teste se utilizează adesea ca şi criteriu în construirea de noi teste. Astfel Scala
Metrica a inteligenŃei construită de Binet-Simon (1905) a folosit drept criteriu pentru teste
ulterioare construite în scopul evaluării inteligenŃei;
 grupele contrastante - pentru un test de inteligenŃă acestea ar fi constituite din copiii care
frecventează şcoala de masă, respectiv copiii integraŃi în şcoala ajutătoare.

Ca şi scorurile la test, un criteriu trebuie să fie fidel (Cohen, 1999).

Dacă ar fi posibil întotdeauna să obŃinem direct scoruri la criteriu pentru un anumit individ nu am
mai avea nevoie de măsura predictorului şi de nici o aproximare a validităŃii de criteriu. Din păcate însă nu
putem obŃine imediat scorurile la un criteriu; ele pot fi obŃinute doar la anumite intervale în timp sau pot fi
adesea extrem de costisitoare pentru a fi obŃinute la cerere pentru orice individ.

Să considerăm un exemplu.
S-a pus nu de puŃine ori întrebarea ce înseamnă o performanŃă bună într-o anumită organizaŃie.
PerformanŃa poate fi definită din mai multe puncte de vedere. Astfel, organizaŃia poate fi interesată de cât de
mult contribuie o persoană la creşterea profitului, iar pentru persoana respectivă performanŃa poate însemna
măsura în care simte că este apreciată. Avem în acest caz de-a face cu mai multe dimensiuni ale unui
criteriu. Aceste surse de informaŃii pot fi utilizate pentru a prezice fiecare dintre cele două surse ale
criteriului iar validitatea acestora va fi determinată diferit. Dacă un criteriu este adecvat este cel mai adesea
o judecată de valoare (Ghiselli et. all). Putem estima prin diferite modalităŃi fidelitatea unui criteriu
(stabilitatea acestuia în timp de ex.) însă formularea lui, respectiv conŃinutul acestuia constituie cel mai
adesea un raŃionament sau o judecată a celui care realizează evaluarea.

În exemplul anterior criteriul aparŃine viitorului şi în momentul evaluării nu este disponibil, deci
avem nevoie de o serie de predictori pentru estimarea acestuia. Să presupunem însă că avem de-a face cu un
criteriu care poate fi estimat acum (adică în momentul evaluării). Întrebarea pe care trebuie să ne-o punem
este următoarea: “avem la dispoziŃie măsurători economice ale criteriului care pot fi folosite acum?”. Un
exemplu de astfel de criteriu este măsura în care o serie de indivizi prezintă o formă sau alta de tulburare
psihică. O analiză completă a acestei dimensiuni ar dura câteva zile şi ar fi neeconomică. Dacă în plus
sarcina psihologului este acela de a analiza un număr mare de persoane din prisma acestor criterii ar trebui
găsită o altă modalitate decât cea clinică, completă. Problema cu care ne confruntam acum este aceea de a
găsi o modalitate economică (rapidă în timp şi necostisitoare) care ar putea substitui examinarea clinică
completă care constituie criteriul.

Există de multe ori evenimente care s-au petrecut în trecut şi care deci nu mai pot fi evaluate în mod
direct. Care este în acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De
exemplu, analiza de către medic a unei electrocardiograme (predictor) poate fi utilizată ca modalitate de a
decide dacă pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intră în această
categorie este rolul pe care îl are un judecător de a stabili dacă un individ a comis o crimă în trecut (criteriul)
pe baza prezentării faptelor la proces (predictor).

31
Înainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reŃinută următoarea afirmaŃie. O
anumită variabilă poate constitui un criteriu într-o anumită situaŃie respectiv predictor în altă situaŃie. Ceea ce
este astăzi criteriu poate să nu mai fie mâine.

APA (1974) diferenŃiază între două tipuri de validitate de criteriu:


• validitate predictivă.
• validitate concurentă

Validitatea predictivă.
Termenul de predicŃie poate fi utilizat fie în sens larg când se referă la predicŃia unui test pentru orice
situaŃie, sau în sens restrâns când se referă la predicŃie într-un interval de timp. Validitatea predictivă vizează
cel de-al doilea sens.

Validitatea predictivă este definită ca acurateŃea cu care putem estima în ce măsură o anumită
caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă
o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la
facultate ne poate interesează în ce măsură aptitudinile de care dispune acum o persoana sunt predictive
pentru performanŃa academică. Pe baza notei la examenul de admitere (predictor) am putea face o predicŃie
asupra reuşitei academice ulterioare (criteriu).

În practica clinică de exemplu, un test care ar reuşi să prezică tentativele viitoare de suicid ar constitui un
bun predictor pentru acest criteriu.

Ce este predicŃia?
PredicŃia este procesul de stabilire a unor expectaŃii despre viitor având la baza date / evenimente
curente – de exemplu desprinderea unor date despre performanŃa viitoare în muncă pornind de la
caracteristicile actuale ale unei persoane.

În literatura de specialitate, datele actuale se numesc „predictori”, în timp ce variabilele care descriu
performanŃa se numesc „criteriu”.

Principii ale predicŃiei.


Psihologia personalului, orientată pe selecŃie oferă 2 modele ştiinŃifice ale predicŃiei: „abordarea pe bază de
trăsături” şi „abordarea pe baza generalizării comportamentelor” (Wernimont & Campbell, 1968).

Abordarea pe bază de trăsături (figura 1) porneşte de la asumpŃia că există un număr de relaŃii


bine precizate între trăsăturile unei persoane şi activităŃile pe care persoana le desfăşoară, relaŃii exprimate în
forma legilor psihologice. Această abordare are la bază principiul deductiv nomologic (principiul DN) din
teoria ştiinŃei (Stegmuller, 1974). Când pentru un grup de persoane o anumită lege psihologică stabileşte că
există o legătură între o caracteristică A a persoanei şi un anumit tip de comportament E, putem realiza, pe
baza acestei legi, predicŃia că o persoană care posedă caracteristica A va manifesta comportamentul E.
Principiul nu poate fi aplicat în această formă simplă din mai multe motive. În primul rând, relaŃia dintre
predictor şi criteriu este mai degrabă una probabilistică şi nu deterministă. Astfel, cunoscând scorul unei
persoane la o variabilă predictor, putem face doar o inferenŃă despre scorul la criteriu; această inferenŃă se
realizează cu o anumită probabilitate şi nu cu certitudine. În al doilea rând, trăsăturile şi caracteristicile
comportamentale, nu pot fi măsurate în mod direct, ci ele sunt măsurate pe baza unor instrumente care au
caracteristici psihometrice specifice. În al treilea rând legile dintre trăsături şi comportamente trebuie
stabilite foarte clar, fără contradicŃii logice. Astfel de contradicŃii ar putea apare atunci când un test ar realiza
o predicŃie a unei performanŃe bune a persoanei, iar un alt test ar prezice o performanŃă slabă.

32
Caracteristica A Lege psihologică Comportamentul E

Ipoteze pe bază de Ipoteze pe bază de


observaŃie observaŃie

PredicŃie
Caracteristica a observată Comportamentul observat e

Figura 2.1. PredicŃia pe baza principiului deductiv-nomologic

Abordarea pe baza generalizării comportamentului (figura 2) are la bază următoarea asumpŃie:


atunci când o persoană se comportă de o manieră E într-o anumită situaŃie G1 se poate concluziona că
persoana respectivă se va comporta de aceeaşi manieră E într-o altă situaŃie Gi, situaŃie similară cu prima.
Avem de-a face în acest caz cu o generalizare a comportamentului observat într-un eşantion de situaŃii la un
o altă situaŃie similară cu cele din eşantionul ales. Pe baza acestei generalizări putem vorbi de „principiul
eşantionului de situaŃii”. Figura 2 prezintă grafic o reprezentare a acestui principiu.

Eşantion de situaŃii Reprezentativitate Univers de situaŃii

Reprezentare Reprezentare

Eşantion de sarcini PredicŃie Univers de sarcini

Figura 2.2. PredicŃia pe baza principiului generalizării comportamentului

Cele două modele ale predicŃiei diferă din punctul de vedere al bazei lor epistemologice. Abordarea
pe baza trăsăturilor relaŃionează o caracteristică durabilă a unei persoane (ceva ce persoana are) cu activitatea
sa (ceva ce persoana face). Abordarea pe baza generalizării comportamentului nu ia în considerare trăsătura,
ea relaŃionează comportamente (ce face o persoană cu altceva ce face). Această a doua abordare are la bază o
similaritate mai mare între predictor şi criteriu, fapt ce poate determina o mai bună predicŃie. Acest argument
susŃine şi faptul că instrumentele de tipul celor orientate pe conŃinut au o validitate predictivă mai mare decât
cele bazate pe trăsături (Schmitt&Noe, 1986). Similaritatea dintre cele două abordări se referă la faptul că ele
au la bază asumpŃia că există o stabilitate a comportamentului; în primul caz stabilitatea este dată de
trăsătură, iar în al doilea caz stabilitatea este dată de o constantă comportamentală (comportamentul nu se
schimbă atâta timp cât situaŃia nu se schimbă).

Ce model de predicŃie este utilizat în testul de personalitate 16PF?

Validarea predictivă presupune existenŃa unui interval de timp între test şi verificarea criteriului.
Pentru un test care are ca scop predicŃia reuşitei şcolare la scris-citit în clasa I testul va fi aplicat la intrarea în
clasa I, iar criteriul (performanŃele la scris-citit) va fi verificat fie după un semestru, fie la sfârşitul clasei I.

33
Studiul de validare al unui test care vizează prognoza reuşitei la citire în clasa I, trebuie să parcurgă
următoarele etape (Kulcsar, 1980) (figura 1):
 analiza psihologică a activităŃii de citire; indicarea premiselor psihologice ale reuşitei la citire;
 alegerea unui test sau a unor teste psihologice care explorează tocmai acele aspecte psihologice
care condiŃionează reuşita la citire;
 aplicarea testului sau a testelor psihologice destinate predicŃiei reuşitei la citire;
 măsurarea criteriului, adică evaluarea gradului de însuşire a deprinderii de citire pe baza notelor
şcolare sau a unor probe de citire elaborate în acest scop;
 analiza cantitativă şi calitativă a rezultatelor la test şi la criteriu; studierea legăturii între cele
două categorii de rezultate.

15 septembrie 1980 15 iunie 1981


Aplicarea testului sau a bateriei de teste predictive Măsurarea criteriului (notele şcolare; aplicarea unor
(la intrarea în clasa I) probe de citire)

TEST (15 sept. 1980)


Studierea legăturii între reuşita la şi prin:
CITIRE (15 iunie 1981)

 metoda grupelor reprezentative; intercorelarea celor două categorii de rezultate


(coeficientul de validitate relevă eroarea estimării)
 metoda grupelor extreme sau contrastante; se studiază comparativ media şi
dispersia rezultatelor la două categorii de subiecŃi semnificativ diferite sub
aspectul criteriului – reuşita la citire / nereuşita la citire

Figura 2.3. Ilustrarea procesului de validare predictivă (Kulcsar, 1980).


Validarea concurentă presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la
test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta se ajunge pe o cale puŃin
diferită faŃă de cea urmată în studierea validităŃii predictive (Cronbach, 1970).
Trebuie menŃionat faptul că distincŃia logică între validitatea predictivă şi cea concurentă (figura 2) nu se
bazează pe relaŃia temporală dintre test şi criteriu ci mai ales pe obiectivele testării. Astfel, în timp ce
validitatea concurentă are ca scop rezolvarea unei probleme privind starea actuală a subiectului, validarea
predictivă vizează evoluŃia sa în viitor. DiferenŃa între cele două tipuri de validitate poate fi sumarizată pe
baza următoarelor întrebări: “Este X anxios?” (validare concurentă) şi “Este posibil ca X să devină anxios?”
(validare predictivă).

15 septembrie 1980 15 septembrie 1980


Testare psihologică Măsurarea criteriului

Studierea legăturii între cele două categorii de rezultate


Figura 2.4. Ilustrarea procesului de validare concurentă (Kulcsar, 1980)

Dacă rezultatele la predictor (test) sunt obŃinute simultan cu rezultatele la criteriu, măsura relaŃiei
dintre predictor şi criteriu o constituie validitatea concurentă. Validitatea concurentă exprimă deci în ce

34
măsură scorurile la test pot fi utilizate pentru a estima performanŃa actuală a unei persoane la un anumit
criteriu.

Analiza validităŃii de criteriu (fie ea predictivă sau concurentă) se bazează pe două tipuri de analize statistice:
coeficienŃii de validitate.

CoeficienŃii de validate
Validitatea de criteriu a unui test reprezintă o modalitate cantitativă şi obiectivă a relaŃiei dintre scorurile la
predictor şi scorurile la criteriu. Astfel coeficienŃii de corelaŃie sunt o modalitate de a estima validitatea
predictivă. Când aceştia sunt utilizaŃi pentru a indica relaŃia dintre un predictor şi un criteriu, ei sunt denumiŃi
coeficienŃi de validitate.

! APA (1974) diferenŃiază între două tipuri de validitate de criteriu:


- validitate predictivă (este definită ca acurateŃea cu care putem estima în ce măsură o anumită
caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana
posedă o serie de caracteristici sau aptitudini curente (Ghiselli, et. all)

- validitate concurentă (presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp cu


scorurile la test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta se ajunge pe o
cale puŃin diferită faŃă de cea urmată în studierea validităŃii predictive (Cronbach, 1970)

CONłINUT
II.2.2. VALIDITATEA DE CONłINUT

Validitatea de conŃinut implică examinarea sistematică a conŃinutului testului pentru a se verifica dacă testul
acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel
pentru a vorbi de o validitate de conŃinut ridicată trebuie ca itemii care alcătuiesc testul să fie reprezentativi
pentru ceea ce testul doreşte să măsoare.

Analiza validităŃii de conŃinut a unui test trebuie să surprindă:


1. Definirea şi descrierea domeniului de conŃinut a testului. Această descriere trebuie să fie extrem de clară
şi să includă toate faŃetele domeniul care se doreşte a fi evaluat.
2. Analiza itemilor care sunt incluşi în test. Vor trebui să fie eliminaŃi acei itemi care nu evaluează aspecte
ale domeniului de conŃinut identificat anterior. Această analiză se va face de către experŃi care pot să
aprecieze relevanŃa fiecărui item pentru un domeniu dat. Validitatea de conŃinut nu depinde însă de
relevanŃa aparentă a conŃinutului itemilor ci de caracterul relevant al răspunsurilor subiectului la itemi
(Anastasi, 1976). Pentru a stabili validitatea de conŃinut a testului, orice analiză teoretică trebuie deci să
fie confirmată empiric (Kulcsar, 1980).
3. Compararea structurii testului cu domeniul de conŃinut. Astfel se va analiza dacă itemii acoperă toate
aspectele domeniului, respectiv dacă ei sunt proporŃionali în test cu importanŃa şi mărimea fiecărui
aspect.
Deoarece acest tip de validare nu reclamă metode şi modele statistice, ea făcându-se doar pe baza de
raŃionamente, o găsim în literatura de specialitate şi sub denumirea de validare logică sau raŃională
(Thorndike, Hagen, 1961).

Validarea referitoare la conŃinut se impune a fi calculată în următoarele cazuri:


1. în cazul testelor de cunoştinŃe atunci când nu exista un criteriu extern adecvat pentru analiza validităŃii de
criteriu;

35
2. în cazul testelor utilizate la măsurarea unui atribut ce nu poate fi exprimat printr-un construct (Murphy &
Davidshofer, 1991). De exemplu, se poate descrie cu uşurinŃa domeniul de conŃinut al unui test construit
pentru “cunoştinŃe de aritmetică la elevii clasei I”, dar este foarte dificil să găsim comportamente prin
care această caracteristică să poată fi observată.
3. în cazul testelor care evaluează performanŃa în munca în scopuri de selecŃie şi clasificare a angajaŃilor.
Acest tip de validare este adecvat când testul reprezintă un eşantion de comportamente din ceea ce
reprezintă deprinderile şi cunoştinŃele specifice muncii respective.
CONSTRUCT
II.2.3. VALIDITATEA DE CONSTRUCT
Validitatea de construct reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o
trăsătură specifică. În termeni generali “constructul” este sinonim cu acela de concept (Kline, 1992) fiind
utilizat pentru a desemna o serie de fenomene într-un cadru ştiinŃific. El este util atunci când poate fi
operaŃionalizat. Dacă luăm de exemplu conceptul de “specie”, el este extrem de util în investigare şi
clasificare în ştiinŃele naturii. Cu toate aceste nu există o entitate distinctă pe care putem să o etichetăm
“specie”, ea nu poate fi deci studiată şi observată direct. Este doar o categorie, creată în scopul înŃelegerii
diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologică care oferă cadrul menit
să fundamenteze analiza semnificaŃiei psihologice a rezultatelor la test. Vorbim de validitate relativă la
construct în cazul testelor de personalitate.
Pentru a putea fi utilizat şi evaluat, un concept trebuie corect şi precis operaŃionalizat. Această
operaŃionalizare impune descrierea constructului în termeni comportamentali concreŃi. Murphy &
Davidshofer (1991) identifică următorii paşi în operaŃionalizarea unui construct:
1. identificarea comportamentelor care au legătură cu constructul;
2. identificarea altor constructe, pentru fiecare decizându-se dacă au sau nu legătură cu constructul
măsurat de test;
3. alcătuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprimă.
Pentru fiecare comportament, pe baza relaŃiilor dintre constructe se decide dacă are sau nu
legătură cu constructul măsurat de test.
Spunem despre un test că are validitate convergentă dacă evaluează aceleaşi constructe ca şi alte
teste, adică dacă între scorurile sale şi scorurile altor teste există o relaŃie funcŃională. Un test are validitate
de discriminare dacă evaluează altceva decât alte teste despre care se ştie că se referă la constructe ce nu au
legătură cu constructul măsurat de test. Acest lucru înseamnă că între scorurile la test şi scorurile la alte teste
sau variabile nu există o relaŃie funcŃională.
Campbell & Fiske (1959) propun ca şi metodă de verificare a validităŃii convergente şi de
discriminare a unui test metoda bazată pe matricea “trăsături multiple-metode multiple” (tabelul 6). Pe baza
acestei metode sunt relevaŃi coeficienŃii de corelaŃie între diferite măsurători ale aceloraşi constructe,
măsurători obŃinute prin teste diferite.

Metoda 1 Metoda 2 Metoda 3


Trăsături A1 B1 C1 A2 B2 C2 A3 B3 C3
A1 (.89)
Metoda 1 B1 .51 .(89)
C1 .38 .37 (.76)
A2 .57 .22 .09 (.93)
Metoda 2 B2 .22 .57 .10 .68 (.94)
C2 .11 .11 .46 .59 .58 (.84)
A3 .56 .22 .11 .67 .42 .33 (.94)
Metoda 3 B3 .23 .58 .12 .43 .66 .34 .67 (.92)
C3 .11 .11 .45 .34 .32 .58 .58 .60 (.85)

Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trăsături multiple-metode multiple”

36
Tabelul de mai sus prezintă toate corelaŃiile posibile între scorurile obŃinute când sunt evaluate trei
trăsături (A, B, C) prin trei metode / teste. Cele trei trăsături reprezintă trăsături de personalitate cum ar fi:
(A) dominanŃa, (B) sociabilitatea, (C) motivaŃia de realizare. Cele trei metode prin care se evaluează aceste
caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indică
scorurile la dominanŃă evaluate pe baza unui chestionar, A2 indică scorurile la dominanŃă evaluate pe baza
unui test proiectiv, iar C3 indică scorurile pentru motivaŃia de realizare evaluată printr-o scală de
comportament. Tabelul include pe de o parte corelaŃiile între trăsături diferite evaluate pe baza aceleiaşi
metode (chenar întreg) precum şi corelaŃiile între trăsături diferite prin metode diferite (chenar întrerupt).
Pentru verificarea validităŃii convergente în cazul constructului (A) avem următorii coeficienŃi:
 .57 metoda 1 cu metoda 2
 .56 metoda 1 cu metoda 3
 .67 metoda 2 cu metoda 3
Validarea convergentă a unui test este necesară, dar nu şi suficientă pentru a dovedi că testul
măsoară ceea ce şi-a propus; etichetele atribuite testelor reprezintă trăsăturile sau caracteristicile pe care
testele ar trebui să le măsoare. CorelaŃia mare între două teste înseamnă că testele măsoară acelaşi lucru, însă
nu se poate spune că itemii cuprinşi în teste sunt reprezentativi pentru constructul pe care testele
intenŃionează să îl măsoare. Analiza factorială sau analiza de clusteri efectuată asupra itemilor din testele
care evaluează aceleaşi constructe poate ajuta la explicarea corelaŃiilor dintre scorurile testelor (Albu, 1999)

1. Ce reprezintă validitatea?

2. Ce reprezintă validitatea de criteriu?

3. Ce reprezintă validitatea de conŃinut?

4. C reprezintă validitatea de aspect?

5. Care sunt caracteristicile unui criteriu?

6. Care sunt tipurile validităŃii de criteriu?

7. Ce trebuie să surprindă analiza validităŃii de conŃinut?

• Sumar
În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi
propunem o serie de modalităŃi cantitative prin care observăm dacă indivizii posedă sau nu
caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai
puŃin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test corespund
domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de
evaluare este necesar să obŃinem o serie de informaŃii care să reflecte faptul că testul măsoară ceea
ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei măsurători. Orice instrument de
evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. Există diferite tipuri de validitate
psihologică. Aceste tipuri reprezintă modalităŃi prin care se încearcă optimizarea unui instrument de
măsurare psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi, 1976;
Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: 1. validitate de
criteriu, 2. validitate de conŃinut, 3. validitate de construct.

• Bibliografie modul

Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 237-256

37
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63

V. ALGORITMUL CONSTRUCłIEI UNUI TEST PSIHOLOGIC

• Titlul şi numărul modulului


5.Algoritmul construcŃiei unui test psihologic

• Scopul şi obiectivele: în cadrul acestui modul obiectivul principal este ca studenŃii să înveŃe
modalităŃile cele mai bune de construcŃie de itemi astfel încât aceştia să ofere imaginea acurată a
constructului de măsurat.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi putea formula corect itemi
 VeŃi realiza itemi utilizând un format adecvat al opŃiunilor de răspuns
 VeŃi realiza analiză de itemi
 VeŃi putea calcula validitatea de construct
 VeŃi putea realiza analiza factorială

• Scurtă recapitulare a conceptelor prezentate anterior


În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi propunem
o serie de modalităŃi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului
respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puŃin corectă ne punem întrebarea
dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul
să fie considerat o măsură bună a domeniului de evaluare este necesar să obŃinem o serie de informaŃii care
să reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinŃe decurge problema validităŃii unei
măsurători. Orice instrument de evaluare psihologică trebuie să satisfacă cerinŃele validităŃii. Există diferite
tipuri de validitate psihologică. Aceste tipuri reprezintă modalităŃi prin care se încearcă optimizarea unui
instrument de măsurare psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi,
1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: 1. validitate de
criteriu, 2. validitate de conŃinut, 3. validitate de construct.

• Structura logică a modulului


1. Formularea itemilor
2. Formatul opŃiunilor de răspuns
3. Analiza de itemi
4. Validitatea de construct
5. Analiza factorială

• ConŃinutul informaŃional detaliat

38
CONSTRUCłIA ŞI ANALIZA DE ITEMI

1. ConstrucŃia de itemi
Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume dorim să
evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a
aspectului care ne interesează.

Formularea itemilor
Construirea de itemi este un proces pretenŃios, în continuare vom prezenta câteva aspecte orientative
legate de formularea lor:
1. DefiniŃi clar ceea ce aveŃi de măsurat, pentru a putea formula itemii cât mai specific posibil.
2. GeneraŃi o bază de itemi, evitaŃi itemii redundanŃi.
3. EvitaŃi formularea unor itemi lungi, care ar putea fi greu înŃeleşi.
4. ÎncercaŃi să formulaŃi itemii într-un limbaj accesibil persoanelor evaluate cu acest instrument.
5. EvitaŃi formularea unor itemi care surprind două aspecte sau idei, de exemplu:
„Îmi place să lucrez într-un mediu bine organizat, pentru că vreau să fiu cel
mai bun la locul de muncă”
Acest item are în vedere două aspecte: „îmi place să lucrez într-un mediu bine organizat” şi „vreau să
fiu cel mai bun la locul de munca”, astfel în momentul în care persoana evaluată va alege o opŃiune de
răspuns, va fi imposibil de decelat la care din cele două aspecte evaluate se referă.
6. ÎncercaŃi să formulaŃi itemi pozitivi şi negativi în aceeaşi măsură, pentru a evita biasarea care apare
în cazul formulării itemilor pozitivi. Această biasare este determinată de tendinŃa persoanei evaluate
de a fi de acord cu toŃi itemii testului.

Formatul opŃiunilor de răspuns


În funcŃie de constructul pe care dorim să-l evaluăm anumite formate devin mai mult sau mai
puŃin adecvate. Prezentăm în continuare cele mai frecvent întâlnite forme ale itemilor.

a. Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i
se acordă un punct la cotarea performanŃei persoanei evaluate. Itemii au forma unor afirmaŃii, iar sarcina
subiecŃilor este de a decide asupra valorii de adevăra a acesteia.
Avantajele acestui tip de itemi sunt:
• sunt uşor de cotat;
• sunt uşor de construit (în construirea unui test de evaluare a cunoştinŃelor profesorul poate
utiliza fragmente din suportul de curs pentru a formula itemii);
• completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris;
• necesită o evaluare în termeni absoluŃi (alb sau negru);

Dezavantaje acestui tip de itemi sunt:


• în cadrul testelor de cunoştinŃe acest tip de itemi pot încuraja studenŃii să â memoreze
materialul;
• şansa de a ghici răspunsul corect este foarte mare, de 50%.

b. Itemi cu mai multe opŃiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au
mai mult de două alternative de răspuns. Se acordă un punct numai unei opŃiuni de răspuns, iar celelalte
care nu sunt corecte poartă denumirea de distractori. Itemii construiŃi în scopul evaluării performanŃei
academice au de cele mai multe ori acest format.
Avantajele acestui tip de itemi sunt:
• aceşti itemii sunt uşor de cotat;
• sunt uşor de construit;
• completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris;
• şansa de a ghici răspunsul corect este redusă;

39
Dezavantajul cel mai mare al acestui tip de itemi se referă la construirea unor distractori buni,
procedeu care necesită mai mult timp. În cazul itemilor polinomici, probabilitatea de a ghici răspunsul
există, deşi este mai mică decât în cazul itemilor dihotomici (este de 25% în cazul a patru alternative, de
33.33% în cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a
scorului obŃinut de către fiecare persoană evaluată. Această formulă se exprimă astfel:

Scorul corect = R – W/ n – 1
R este numărul opŃiunilor corecte;
W este numărul opŃiunilor greşite;
n este numărul opŃiunilor de răspuns ale itemilor.

Răspunsurile omise nu sunt incluse deoarece acestea nici nu cresc şi nici nu duc la scăderea
scorului final. De exemplu în cazul unui test de 100 de itemi, cu câte 4 opŃiuni de răspuns (din care una
singură este corectă, celelalte trei sunt greşite la fiecare item), dacă vom completa aleator răspunsurile
corecte vom obŃine scorul de 25 (bine înŃeles aceasta este o situaŃie ipotetică în realitate avem puŃine
şanse să obŃinem tocmai 25 de puncte care este scorul mediu aşteptat).
În acest caz, conform formulei anterioare, scorul corect este de:
25 - 75/4-1 = 25 – 25 = 0
Astfel, după aplicarea corecŃiei scorul expectat este 0.
Întrebarea este în ce măsură în cazul testelor de cunoştinŃe este recomandat ca studenŃii să încerce
să ghicească răspunsul? În cazul în care nu se utilizează procedura de corecŃie răspunsul este clar,
„încercaŃi să nimeriŃi”, dar nu şi în cazul în care se utilizează procedura de corecŃie. Există situaŃia în care
nu sunteŃi siguri de răspunsul corect, dar ştiŃi sigur că două din cele patru alternative de răspuns sunt
greşite, în acest caz vă sfătuim să încercaŃi să ghiciŃi. Formula de corecŃie are la bază asumpŃia că fiecare
din cele patru alternative de răspuns are aceeaşi probabilitate de a fi aleasă, deci aveŃi şansa de 1 la 4. În
cazul în care eliminaŃi două dintre alternative şansa dvs. creşte la 1 la 2, ceea ce vă oferă un avantaj
asupra procedurii de corecŃie.

c. Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de
personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faŃă de a o afirmaŃie
(se numeşte scală Likert, pentru că a fost introdusă de către Likert în 1932, în scopul evaluării
atitudinilor).

De exemplu la itemul: „Îmi este frică de înălŃime.”


Avem următoarele opŃiuni de răspuns:
1 2 3 4 5
acord total acord nici acord nici dezacord dezacord dezacord
total
Pentru a se evita alegerea unui răspuns neutru din partea celui evaluat (în cazul exemplului de mai
sus 3), se utilizează scale cu un număr par de opŃiuni de răspuns, de exemplu:
1 2 3 4 5 6
acord acord acord dezacord dezacord dezacord
puternic puternic
moderat moderat

40
Acest tip de răspuns permite cotarea inversă, scorul total este calculat prin însumarea numerelor
corespunzătoare răspunsurilor.

d. Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opŃiuni de
răspuns, de cele mai multe ori sunt utilizate scale cu 10 opŃiuni de răspuns. Pentru utilizarea lor adecvată este
foarte important ca punctele extreme ale scalei să fie clar definite şi permanent reamintite celor care
realizează evaluarea.
Una dintre principalele probleme legate de acest tip de scală este numărul de categorii care poate fi
utilizat, care poate fi de 10 şi 15 sau 66? S-au realizat câteva studii în acest sens, ele au arătat că depinde
mult de scopul pe care îl avem şi de nivelul de expertiză al evaluatorului. De exemplu dacă dorim să evaluăm
performanŃa unor jucători de fotbal, o scală cu 7 nivele va fi suficientă pentru ochiul unui nonexpert care nu
sesizează aspectele de fineŃe, dar nu şi în cazul unui expert, al unui antrenor care poate sesiza mai multe
diferenŃe între jucători.

e. Q- sort – este o metodă utilizată cu precădere în evaluarea personalităŃii. Persoana evaluată va primi
o listă de adjective pe care le va sorta în funcŃie de măsura în care acestea îl caracterizează.

!Cele mai frecvent întâlnite forme ale itemilor:


1. itemi dihotomici
2. itemi polinomici
3. scale Likert
4. scale categoriale
5. Q - sort

2. Analiza de itemi
Care sunt criteriile pe baza cărora putem spune că un item este bun?
Aşa după cum putem analiza un test din prisma fidelităŃii şi validităŃii, la fel putem analiza
conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii
de subiecŃi; putem spune de asemenea că un item este bun dacă performanŃa la item
corelează cu performanŃa la test.
Care este procesul pe baza căruia putem analiza itemii? După ce am generat itemii, după ce
aceştia au fost aplicaŃi unui eşantion de subiecŃi, ne interesează în ce măsură ei pot fi consideraŃi
itemi buni, respectiv la care dintre itemi ar trebui să renunŃăm deoarece nu satisfac criteriile.
Totalitatea procedeelor statistice cunoscute sub denumirea de „analiză de itemi” servesc scopurilor
prezentate. Este important de menŃionat faptul că analiza de itemi cuprinde atât procedee cantitative
cât şi procedee calitative.
Analiza calitativă de itemi
Tehnicile de analiză calitativă a itemilor unui test constituie un procedeu des întâlnit în analiza
itemilor unui test. Tabelul 5 prezintă o serie de aspecte ale analizei calitative de itemi pe care trebuie să le ia
în calcul o persoană care construieşte un test.
Tabelul 2.3. Aspecte ale analizei calitative de itemi
Aspecte Întrebări
Specificitatea culturală Crezi că itemii testului sunt discriminativi pentru un grup anume de persoane?
De ce?
Validitatea de aspect Testul măsoară ceea ce crezi tu că măsoară? Dacă nu este aşa ce anume din test

41
te îndreptăŃeşte să susŃii acest lucru?
Examinatorul Crezi că performanŃa obŃinută la test a fost influenŃată de comportamentul
examinatorului? Dacă da, care au fost acele comportamente care te-au
influenŃat?
Mediul de testare Crezi că unele condiŃii ale mediului în care ai fost testat au influenŃat
performanŃele la test? Dacă da, care au fost acelea?
Limbajul testului Modalitatea de prezentare a instrucŃiunilor sau alte aspecte verbale ale testului
au influenŃat performanŃa la test?
Lungimea testului Care este opinia ta în privinŃa lungimii testului – se vor discuta 2 aspecte:
timpul total şi numărul itemilor
Răspunsurile aleatoare Au fost itemi în test la care ai dat răspunsuri la întâmplare? Care este
procentajul de itemi la care ai răspuns la întâmplare? Ai folosit anumite
strategii specifice?
Corectitudinea testării Crezi că s-a putut trişa la acest test? Dacă da, care crezi că au fi sunt
modalităŃile de a trişa?
Starea psihică/fizică a Cum ai descrie starea ta (psihică sau fizică) din timpul testului? Crezi ca
subiectului în timpul această stare ar putea influenŃa în vre-un fel performanŃa la test?
examinării
Impresia generală Care este impresia ta generală lăsată de acest test? Care sunt sugestiile pe care
le-ai face pentru îmbunătăŃirea testului?
PreferinŃe Ce Ńi-a plăcut/displăcut la acest test? Au existat părŃi ale testului pe care le-ai
resimŃit ca provocându-Ńi anxietate sau alte stări negative?
Pregătirea anterioară Cum te-ai pregătit pentru acest test? Dacă ar trebui să sfătuieşti pe cineva
privind modul în care ar trebui să se pregătească pentru acest test ce i-ai
sugera?

Analiza cantitativă de itemi din perspectiva teoriei clasice

Atunci când ne referim la teoria clasică a testelor avem în vedere modelul de măsurare prezentat în
cadrul modulului II. În acest subcapitol vom prezenta procedurile de analiză a itemilor bazate pe acest model
şi pe asumpŃiile sale.
Procedurile statistice utilizate în analiza itemilor sunt nu de puŃine ori extrem de complexe, de aceea
scopul nostru este de a prezenta aici doar procedurile de bază. Vom prezenta în continuare modalităŃile
principale utilizate în analiza itemilor. Este important de reŃinut faptul că importanŃa acestor procedee
depinde de funcŃia şi obiectivele pe care autorul testului doreşte să le atribuie testului.
Printre indicatorii care ar trebui luaŃi în calcul în analiza de itemi se găsesc:
 indicele de dificultate al itemului;
 indicele de discriminare;

Indicele de dificultate al unui item


Să presupunem că un item al unui test este rezolvat corect de toŃi subiecŃii. Putem spune că itemul
acesta este un item bun? Ce se întâmplă dacă dimpotrivă, nici un subiect nu răspunde corect la acest item. În
ambele cazuri putem considera că itemul respectiv nu este unul bun. Dacă la un item toŃi subiecŃii răspund
corect înseamnă că itemul este prea uşor; dacă dimpotrivă, nici un subiect nu răspunde la un item atunci
putem spune că itemul este prea dificil. În ambele cazuri, se recomandă rescrierea itemului sau eliminarea
din test.

42
ObservaŃie. La unele teste de cunoştinŃe, primul item al testului este unul extrem de facil
(răspund deci majoritatea subiecŃilor). Acest lucru este indicat a se realiza fie pentru a
verifica dacă subiectul a înŃeles sarcina de lucru, fie pentru a-i forma o atitudine pozitivă
faŃă de test şi astfel de a-i creşte motivaŃia.

Indicele de dificultate al unui item (px) se obŃine calculând proporŃia subiecŃilor care au răspuns
corect la item. Valoarea teoretică a indicelui de dificultate se găseşte între 0 (dacă nici un subiect nu a
rezolvat itemul corect) şi 1 (dacă toŃi subiecŃii au răspuns corect la un item).

Exemple.
1. Dacă 50 din cei 100 de subiecŃi la care a fost aplicat un test au răspuns la itemul 2 corect atunci
putem spune că indicele de dificultate al itemului 2 este 50/100 adică p2=0,5
2. Dacă 75 din cei 100 de subiecŃi la care a fost aplicat un test au răspuns la itemul 3 corect atunci
putem spune că indicele de dificultate al itemului 3 este 75/100 adică p3=0,75 şi vom spune că itemul
3 este mai uşor decât itemul 2.

Se poate observa că cu cât indicele de dificultate al itemului este mai mare cu atât itemul este mai uşor.
Deoarece „p” se referă la procentul celor care au rezolvat corect itemul, putem spune că cu cât este mai mare
valoarea indicelui cu atât itemul este mai uşor. Vorbim de indice de dificultate pentru testele de performanŃă,
însă în cazul testelor de personalitate acest indice exprimă procentul de subiecŃi care a răspuns „da” la item,
sau în alte cazuri procentul de subiecŃi care a agreeat itemul.
Un indice global de dificultate al itemilor unui test se poate calcula făcând media indicilor fiecărui item.
Astfel se face suma tuturor indicilor de dificultate şi rezultatul obŃinut se împarte la numărul itemilor
testului. Pentru o maximă discriminare, este important ca media indicilor de dificultate al unui test să fie 0.5,
deci indicii fiecărui item al testului să varieze între 0.3 şi 0.8.
Ceea ce trebuie să luăm în calcul când analizăm indicele de dificultate al unui item este şansa ca
subiectul să dea răspunsul corect la întâmplare (adică de a ghici răspunsul). În acest caz indicele optim de
dificultate al unui item se găseşte la mijlocul distanŃei dintre 1 şi rata de răspuns la întâmplare care pentru un
item cu 2 răspunsurile este de 0,50. Mijlocul distanŃei dintre 1 şi 0.50 este 0.75 – deci indicele optim de
dificultate al acestui item este 0.75. În general acest indice optim se obŃine însumând valoarea şansei cu 1 şi
apoi împărŃind valoarea obŃinută la 2, sau:

0,50+1,00=1,5
1,5/2=0,75
Pentru un item care are 5 variante de răspuns şansa de a răspunde corect este 1/5 adică 0,20. În acest
caz, indicele de dificultate optim se va obŃine astfel:
0,20+1,00=1,20
1,20/2=0,60

Indicele de discriminare al unui item


Indicele de discriminare al unui item (d) constituie o măsură a cât de bine reuşeşte un item să separe sau să
discrimineze subiecŃii care au obŃinut scoruri mari şi cei care au obŃinut coruri mici la test. Mai precis, un
item este considerat discriminativ dacă subiecŃii care au obŃinut o performanŃă bună la test au rezolvat corect
itemul, respectiv dacă cei care au obŃinut o performanŃă scăzută la test nu au rezolvat corect itemul. Dacă
majoritatea subiecŃilor cu performanŃă mare la test nu au rezolvat corect un item atunci înseamnă că itemul
respectiv nu discriminează între categorii diferite de subiecŃi. Similar, în cazul testelor de personalitate
subiecŃii care au un scor mare la o anumită trăsătură (evaluată de întregul test) trebuie să aibă un scor mare şi
la un item care se presupune că evaluează trăsătura respectivă.
Indicele de discriminare are în vedere performanŃa eşantionului la un item Ńinând cont de
performanŃa scorurilor din ultima treime sau din prima treime a distribuŃiei totale a scorurilor. Limita până la

43
care putem considera prima/ultima arie a distribuŃiei scorurilor este valoarea de 27% din scoruri (Kelley,
1939). Indicele de discriminare al unui item este reprezentat de măsura diferenŃei dintre proporŃia celor care
au rezolvat corect itemul şi cei care nu au rezolvat corect itemul. Cu cât valoarea lui d este mai mare cu atât
este mai mare numărul subiecŃilor „buni” care au rezolvat itemul. O valoare negativă pentru un d reprezintă
o problemă a itemului deoarece indică situaŃia în care cei care au avut o performanŃă slabă la test rezolvă
corect itemul. În această situaŃie se cere revizuirea sau eliminarea itemului.

Exemplu.
Să presupunem că un profesor administrează un test la 119 persoane şi selectează primele 27% şi
ultimele 27% din performanŃele la test, selectând 32 de teste în fiecare grup. În continuare în tabelul 3 sunt
prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:

Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test


Item Superior (S) Inferior (I) S-I n d = (S-I)/n
1 20 16 4 32 0,43
2 30 10 20 32 0,63
3 32 0 32 32 1,00
4 20 20 0 32 0,00
5 0 32 -32 32 -1,00

Pentru itemul 1 se poate observa că 20 dintre subiecŃii care au obŃinut performanŃe superioare la test
au rezolvat corect itemul, în timp ce 16 dintre cei care au obŃinut performanŃe inferioare la test au rezolvat
corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai
mulŃi subiecŃi dintre cei care au obŃinut o performanŃă bună la test, au răspuns corect la item. Se poate
observa că cu cât este mai mare valoarea indicelui de discriminare cu atât itemul separă mai bine categoriile
de subiecŃi şi este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de
discriminare este +1 (toŃi subiecŃii care au obŃinut performanŃa superioare la test au rezolvat corect itemul);
valoarea cea mai mică pe careo poate avea un indice de discriminare al unui item este –1 (nici unul dintre
subiecŃii care au obŃinut performanŃe superioare la test nu au rezolvat corect itemul).
Analiza alternativelor de răspuns la itemi.
Calitatea fiecărei alternative de răspuns la itemii cu răspunsuri multiple poate fi analizată
comparând-o cu performanŃa obŃinută de subiecŃii care au avut performanŃe superioare (primii 27%) şi cei
care au obŃinut performanŃe inferioare (ultimii 27%) la un test.
Să analizăm (tabelul 4) performanŃa la 5 itemi ipotetici, test la care 32 de subiecŃi au obŃinut
performanŃe inferioare (I) şi 32 de subiecŃi au obŃinut performanŃe superioare (S).
Tabelul 2.5. Răspunsurile la 5 itemi ai unui test (Răspunsul corect al fiecărui item este marcat cu caractere
îngroşate)
Alternative a b c d e
Item
1 S 24¤ 3 2 0 3
I 10¤ 5 6 6 5
2 S 2 13 3 2 12¤

44
I 6 7 5 7 7¤
3 S 0 0 32¤ 0 0
I 3 2 22¤ 2 3
4 S 5 15¤ 0 5 7
I 4 5¤ 4 4 15
5 S 14 0 0 5¤ 13
I 7 0 0 16¤ 9

Analiza itemilor.
Itemul 1 este un item bun – mai multe persoane cu performanŃă superioară la test l-au rezolvat corect.
Itemul 2 – un număr mare de S au ales un distractor în locul răspunsului corect (răspunsul b). Acest item ar
trebui revăzut.
Itemul 3 reprezintă modalitatea optimă de răspuns la un item; toŃii S au răspuns corect
Itemul 4 este mai dificil decât itemul 3 deoarece o proporŃie mai mică de S au răspusn corect la item, dar
discriminează mai bine (o proporŃie mai mică de I au răspuns cirect la item).
Itemul 5 este un item slab deoarece mai mulŃi de I au răpsuns corect la item.

Analiza curbei caracteristice itemului


O modalitate de a afla noi informaŃii despre comportamentul itemilor este trasarea curbei caracteristice
itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y
proporŃia persoanelor care au răspuns corect la item (vezi figura 2.5).

0.5

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Scorul total la test
Figura 2.5. Curba caracteristică a itemului

Scorul total reprezintă nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi măsurat, doar
estimat pe baza acestui scor. RelaŃia dintre performanŃa la unul dintre itemi şi cea obŃinută la aplicarea
întregului test ne oferă informaŃii legate de item.
Astfel figura de mai sus reprezintă curba caracteristică a unui item relativ bun, observăm cum curba
creşte pe măsură ce creşte şi scorul total la test, aceasta înseamnă că itemul discriminează bine în cazul
tuturor nivelelor de performanŃă.
Să luăm spre exemplu o persoană care are un scor mai mic de 20 puncte, conform curbei (Figura
2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.
1

45
0.5
Figura 2.6. Curba caracteristică a itemului
În cazul în care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a răspunde
corect este de 50 respectiv 100%.
Un item bun trebuie să prezinte un asemenea patern de comportament, adică pe măsură ce creşte
nivelul de abilitate a persoanelor testate să crească şi şansa de a fi rezolvat corect.
În figura 2.7 dorim să prezentăm itemi care prezintă un patern comportamental diferit de cel
1
prezentat anterior. Vă rugăm să analizaŃi curba trasată cu linie întreruptă.

0.5

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Scorul total la test
Figura 2.7. Curba caracteristică a 2 itemi
Observăm că şi dacă nivelul de abilitate al persoanelor din eşantionul nostru creşte, probabilitatea de
a răspunde corect la acest item este aceeaşi, cu alte cuvinte itemul nu ne oferă nici o informaŃie despre
nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie întreruptă). Este posibil ca acest item
să măsoare un alt aspect decât cel pe care îl evaluează ceilalŃi itemi ai testului.
Spre deosebire de acesta, itemul trasat cu linie neîntreruptă este rezolvat numai de persoanele care au
un scor brut de cel puŃin 25 de puncte, probabilitatea de a-l rezolva corect creşte apoi treptat împreună cu
nivelul de abilitate. Acest item este de dificultate medie, este puŃin probabil ca el să fie rezolvat corect de
persoanele cu scor mai mic de 25.

2. Analiza de itemi din perspectiva teoriei răspunsului la item (item response theory - IRT)
Teoria răspunsului la item propune un nou model de explicare şi de analiză a itemului şi a
comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, după care
acesta a fost dezvoltat şi adaptat la diferite situaŃii de testare.
Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure
trăsături latente sau multidimensionale, în cazul testelor care evaluează mai multe dimensiuni. De asemenea
în funcŃie de răspunsul la item dihotomic sau cu mai mute opŃiuni avem mai multe tipuri de modele. În
continuare vom discuta despre modele unidimensionale dihotomice. În cazul modelelor IRT unidimensionale
diferenŃele dintre persoanele care alcătuiesc eşantionul pot fi explicate numai pe baza unei singure
dimensiuni.
Modelele IRT implică două asumpŃii:

46
• Curba caracteristică itemului (item characteristic curve - ICC) trebuie să aibă o formă specifică
(acesta descrie modul în care modificările la nivelul abilităŃii induc modificări la nivelul
probabilităŃii de apariŃie a răspunsului corect);
• Trebuie îndeplinită condiŃia de independenŃă locală (aceasta înseamnă că nu trebuie să avem
corelaŃie între itemi, în condiŃiile în care nivelul de abilitate al persoanelor evaluate este menŃinut
constant).

Înainte a trece la prezentarea concretă a unui model IRT, dorim să reamintim modelul care stă la baza
teoriei clasice.
Xobservat = Xreal + e (e = eroarea de măsură)

Acesta are următoarele asumpŃii:

• Valoare expectată a erorii pentru fiacre persoană în parte este 0;


• Eroarea nu covariază cu alte variabile (aceste asumpŃii sunt importante pentru interpretarea erorii
standard de măsurare).

Limitele care au fost reproşate acestui model sunt următoarele:

1. sunt menŃionate două variabile independente de care depinde scorul obŃinut de o persoană, şi
anume scorul real şi eroarea de măsurare, dar acestea nu pot fi separate în mod real în
cadrului scorului obŃinut de către o persoană, astfel modelul este util în cadrul realizării unor
estimări la nivel de populaŃie;
2. Din acest model sunt omise proprietăŃile itemului care şi ele au un impact asupra scorului
persoanei (dacă de exemplu toŃi itemii sunt uşori, atunci majoritatea persoanelor vor ave un
scor maxim);

Modelele IRT explică performanŃa la test considerând doi sau mai mulŃi parametrii: nivelul de
abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare,
probabilitatea de a ghici răspunsul corect, iată notaŃiile utilizate.

X is = răspunsul persoanei s la itemul i (care în cazul itemilor dihotomici poate fi 0 sau 1)

p(Xis=1) = probabilitatea ca persoana s să ofere un răspuns corect la itemul i

θ s = nivelul de abilitate al persoanei s

β i = dificultatea itemului i

α i = discriminarea itemului i

γ i = probabilitatea de a ghici răspunsul corect la itemul i

Vom explicita modelul de măsurare utilizat de această abordare prin prezentarea modelului
uniparametric 1PL.

p(Xis=1) = 1/(1 + e (-(θ - β i))

În cadrul acestuia probabilitatea de a răspunde un răspuns corect la un item i, depinde de nivelul de


abilitate al persoanei evaluate şi de parametrul de dificultate al itemului. Acesta se numeşte model
uniparametric deoarece este considerat numai un singur parametru al itemului.

47
Dacă analizăm acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat
nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un răspuns corect la itemii a
căror curbă este trasată), observăm cum curbele caracteristice itemilor au acelaşi unghi de înclinare, ceea ce
diferă este locaŃia lor de-a lungul nivelului de abilitate, practic această locaŃie este un indicator al dificultăŃii
itemului. De exemplu itemul trasat cu linie întreruptă (figura 2.8) este rezolvat de persoanele cu un nivel de
abilitate de 01 în proporŃie de aproximativ 55%, în timp ce aceleaşi persoane rezolvă itemul trasat cu linia
punctată în proporŃie de 20%, deci acesta din urmă este mai dificil decât primul.

0.5

-3 -2 -1 0 1 2 3
nivelul de abilitate
Figura 2.8. Curba caracteristică a 2 itemi

În cazul acestui model, parametrul de discriminare este menŃinut constant (egal cu 1).
În cadrul modelului biparametric – 2PL, este considerat şi parametrul de discriminare a itemului. În
figura 2.9 prezentăm itemi care au acelaşi nivel de dificultate, dar care au o discriminare diferită.
p(Xis=1) = 1/(1 + e (-α i (θ - β i))

0.5

-3 -2 -1 0 1 2 3
nivelul de abilitate

Figura 2.9. Curba caracteristică a 3 itemi

1
nivelul de abilitate şi parametrii itemilor (dificultate, discriminare) pot lua valori între minus şi plus infinit deoarece
sunt pe scală logit.

48
Discriminarea este reprezentată grafic prin gradul de înclinare a curbelor care descriu
comportamentul itemului. Un item cu o curbă abruptă discriminează mai bine comparativ cu un item cu o
curbă mai domoală. Acest lucru înseamnă că o modificare mică la nivelul abilităŃii persoanelor testate va
duce la o modificare mare a probabilităŃii de a răspunde corect la item. Curba trasată cu linie neîntreruptă
reprezintă un item care are o discriminare perfectă, deoarece nici o persoană cu un nivel de abilitate mai mic
de 0.25 nu va avea şansa de a rezolva acest item, în schimb persoanele cu o abilitate mai mare îl vor rezolva.
Modelul tri-parametric – 3PL, introduce şi parametrul care permite estimarea şansei de a ghici
răspunsul corect la item.

p(Xis=1) = γ i + (1 - γ i)[1/(1 + e (-α i (θ - β i))]

Probabilitatea de ghici răspunsul corect este vizibilă în punctul în care curba caracteristică itemului
intersectează axa Y. Aceasta înseamnă că şi persoanele care au un nivel de abilitate scăzut vor rezolva corect
itemul, ghicind răspunsul corect (Figura 2.10).
Utilizarea unui model 3PL devine necesară mai ales în situaŃia în care probabilitatea de a ghici
răspunsul corect este mare, de exemplu în cazul unui item cu 2 posibilităŃi de răspuns acesta este de 1 din 2,
spre deosebire de cea cu 6 opŃiuni, în care probabilitatea de a ghici răspunsul corect este semnificativ mai
mică, 1 din 6.

0.5

-3 -2 -1 0 1 2 3
nivelul de abilitate

Figura 2.10. Curba caracteristică itemului


Aceste modele reflectă modul în care IRT a contribuit la perfecŃionarea procedurilor de
dezvoltare a instrumentelor de măsurare, dar analiza atentă a asumpŃiilor acestora oferă o nouă
perspectivă asupra vechilor reguli de măsurare, aşa cum spunea Emreston şi Reise (2000).

ANALIZA FACTORIALĂ
Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza
factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica
dimensiunile care stau la baza uneui set de măsurăori empirice”. Cel mai adesea este
utilizată pentru:
• identificarea factorilor care stau la baza performanŃei la un test de aptitudini
• identificarea unor dimensiuni ale personalităŃii
• identificarea unor sindroame clinice
• identificarea factorilor relaŃionaŃi cu satisfacŃia în muncă
În continuare vor fi discutate principalele concepte implicate în analiza factorială.

49
Concepte generale
Atributele interne pot fi gândite ca şi constructe ipotetice. Ele nu sunt cu necesitate reale
sau concrete. Acestea sunt mai degrabă constructe care aşa cum vom vedea pot fi utilizate pentru a
înŃelege şi a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie văzute ca
o critică a abordării factoriale. Utilizarea constructelor ipotetice constituie o practică obişnuită în
multe domenii ale ştiinŃei. De exemplu, fizicienii utilizează o serie de constructe (gravitate,
magnetism) pentru a explica o serie de fenomene. Aceste forŃe reprezintă de fapt constructe
neobservabile, a căror existenŃă a fost inferată pe baza fenomenelor observabile. Aceste constructe,
împreună cu teoriile care le însoŃesc pot explica o serie de fenomene observabile. Într-o manieră
asemănătoare, analiza factorială postulează că există atribute interne neobservabile care pot explica
variaŃia şi covariaŃia dintre o serie de atribute de suprafaŃă, adică acele atribute care pot fi
măsurate şi observate direct.
Un concept teoretic central al analizei factoriale îl constituie deci relaŃia dintre atributele interne şi
cele de suprafaŃă. Principiul de bază este acela că atributele interne influenŃează sistematic atributele de
suprafaŃă. Acest fapt implică ideea că atunci când avem o măsură a unui atribut de suprafaŃă, această măsură
este, cel puŃin în parte, rezultatul influenŃei atributelor interne. De exemplu, scorul obŃinut de o persoană la
un test de adunare (atribut de suprafaŃă) este influenŃat de aptitudinea numerică (atribut intern). TradiŃional,
aceste relaŃii dintre atributele de suprafaŃă şi cele interne sunt considerate a fi lineare.
În continuare este util să distingem între 2 tipuri de atribute interne sau factori: factori comuni şi
factori specifici. Factorul comun este definit ca un atribut intern care afectează /influenŃează mai mult de o
variabilă de suprafaŃă. De exemplu, dacă factorul aptitudine numerică influenŃează mai mult decât o variabilă
de suprafaŃă (să presupunem că influenŃează atât adunarea cât şi înmulŃirea) atunci acesta factor este un
factor comun. Factorii specifici influenŃează doar o singură variabilă de suprafaŃă; astfel poate exista un
număr de factori specifici pentru fiecare variabilă de suprafaŃă. Prin schimbarea variabilelor de suprafaŃă
factorul comun se poate transforma în factor specific dacă se înlătură toate variabilele de suprafaŃă care îl
alcătuiesc, mai puŃin una; sau dimpotrivă, dacă lărgim bateria, un factor specific se poate transforma într-un
factor comun dacă el influenŃează mai multe variabile de suprafaŃă.
În afara celor 2 variabile interne (factorii comuni şi specifici) care influenŃează variabilele de
suprafaŃă, există o a treia influenŃă asupra acestora. Această a treia influenŃă o constituie erorile de măsură
asociate observării atributelor de suprafaŃă. Aceste erori sunt reprezentate în analiza factorială ca factori
adiŃionali, deşi ele nu fac parte din cadrul atributelor interne; adică nu reprezintă caracteristici neobservate
ale indivizilor. Mai degrabă erorile de măsură apar ca rezultat al influenŃelor datorate măsurătorii atributelor
de suprafaŃă. Se poate observa relaŃia directă între factorii de suprafaŃă şi erorile de măsură; astfel, cu cât
fidelitatea măsurătorilor este mai mare cu atât erorile sunt mai mici. Deci, utilizarea unor teste mai puŃin
fidele va influenŃa erorile de măsură, dar nu în mod necesar factorii comuni sau specifici. De asemenea,
adăugarea sau înlăturarea unor variabile de suprafaŃă va influenŃa factorii comuni sau specifici, însă nu va
influenŃa erorile de măsură.
Factorii specifici şi erorile de măsură caracteristice unui set de observaŃii se pot combina rezultând
factori unici. Un factor unic este alcătuit dintr-un factor specific caracteristic unei singure variabile de
suprafaŃă precum şi din eroarea de măsură asociată variabilei de suprafaŃă respective. Factorul unic se va
modifica la orice modificare a factorului specific sau a erorii de măsură.
Pornind de la aceste definiŃii ale factorilor, Ńinând cont de faptul că factorii influenŃează atributele de
suprafaŃă se poate înŃelege că factorii se combină pentru a putea explica un anumit nivel al trăsăturilor de
suprafaŃă. Mai precis, orice nivel al atributelor de suprafaŃă poate fi văzut ca o rezultantă a factorilor
relevanŃi. De exemplu, scorul unei persoane la un test de adunare poate fi văzut ca o rezultantă a factorului
comun aptitudine numerică şi a factorului specific asociat adunării. De asemenea, eroarea de măsură
contribuie la scorul obŃinut la testul de adunare. Generalizând putem spune că diferenŃele individuale sau
varianŃa atributelor de suprafaŃă poate fi atribuită factorilor adiacenŃi acestor atribute. Astfel diferenŃele la
nivelul atributelor de suprafaŃă sunt datorate diferenŃelor la nivelul factorilor ce influenŃează aceste atribute şi
de asemenea diferenŃele sunt datorate şi erorilor de măsură.
DistincŃia realizată anterior între factorii comuni, specifici şi eroarea de măsură ne ajută să înŃelegem
modul în care factorii explică varianŃa atributelor de suprafaŃă. Este important de reŃinut faptul că varianŃa
observată la nivelul atributelor de suprafaŃă poate rezulta din trei surse. O parte din varianŃă este datorată
influenŃei factorilor comuni – aceasta poartă numele de varianŃă comună sau comunalitate. O altă parte din
varianŃa atributelor de suprafaŃă poate fi datorată factorului specific – această varianŃă este denumită varianŃă
specifică sau specificitate. Cea de-a treia sursă de varianŃă este datorată erorilor de măsură – şi este denumită

50
varianŃa erorii de măsură. VarianŃa specifică este adesea combinată cu varianŃa erorii de măsură şi formează
varianŃa unică sau unicitatea. Altfel spus, varianŃa observată la nivelul unui atribut de suprafaŃă este datorată
în parte factorilor care influenŃează şi alte atribute de suprafaŃă şi în parte factorilor care influenŃează doar
atributul respectiv.
Printr-o extensie a conceptelor putem spune că analiza factorială Ńine cont şi de covarianŃa dintre
variabilele de suprafaŃă. Adesea se poate observa că variabilele de suprafaŃă dintr-un domeniu specific tind
să coreleze într-o anumită măsură una cu cealaltă. Potrivit analizei factoriale această corelaŃie este datorată
influenŃei factorilor comuni. Deci, o corelaŃie între două variabile de suprafaŃă este datorată dependenŃei
celor două variabile de unul sau mai mulŃi factori comuni. De exemplu scorul la un test de adunare va tinde
să coreleze pozitiv cu scorul la un test de înmulŃire deoarece ambele variabile depind de acelaşi factor comun
– aptitudinea numerică. Din contră însă, rezultatul la testul de adunare va corela mai puŃin cu rezultatul la un
test de citire deoarece cele două variabile de suprafaŃă sunt influenŃate de factori comuni diferiŃi. Putem
spune că nivelul de intercorelaŃie dintre atributele de suprafaŃă este rezultatul dependenŃei acestor atribute de
aceiaşi factori comuni.
Este extrem de important a se reŃine faptul că doar factorii comuni pot explica corelaŃia variabilelor
de suprafaŃă; factorii unici nu determină astfel de corelaŃii. La fel, factorii specifici sau erorile de măsură nu
pot determina corelaŃii între atributele de suprafaŃă deoarece prin definiŃie ei influenŃează doar o singură
variabilă de suprafaŃă.
Pentru a sumariza aceste principii putem spune că într-un anumit domeniu există un număr mic de
factori comuni care influenŃează un vast număr de atribute de suprafaŃă. VariaŃia factorilor de suprafaŃă este
datorată în parte variaŃiei factorilor comuni. Ceea ce rămâne se datorează factorilor unici sau factorilor
specifici şi erorilor de măsură. CovarianŃa variabilelor de suprafaŃă este atribuită dependenŃei acestora de
aceiaşi factori comuni.

În continuare (figura 5) vor fi prezentate conceptele şi principiile discutate anterior în forma propusă
de Tucker (1940) pentru a ilustra teoria analizei factoriale. În cadrul diagramelor, pătratele reprezintă
atributele de suprafaŃă, iar cercurile reprezintă atributele interne şi alŃi factori. SăgeŃile unidirecŃionale
exprimă o relaŃie liniară (printr-un proces cauzal), iar cele bidirecŃionale reprezintă corelaŃii fără influenŃă
cauzală.

Atribute de suprafaŃă
Factori comuni
(atribute interne)

Factori specifici
(atribute interne)

Factori unici

Factori ERM
51
Figura 2.11. RelaŃia dintre atributele de suprafaŃă şi cei trei
tipuri de factori

! DE REłINUT:
Teoria factorială este o teorie care explică dinamica şi influenŃele care determină variaŃia
şi covariaŃia atributelor de suprafaŃă.

Obiectivele analizei factoriale

1. Identificarea factorilor adiacenŃi variabilelor de suprafaŃă


Obiectivul primar ala analizei factoriale este acela de a determina umărul şi natura factorilor comuni precum
şi modul în care aceştia influenŃează atributele de suprafaŃă. Prin identificarea factorilor care explică un mare
număr de variabile se pot înŃelege mai bine datele de care dispunem.
De exemplu o companie aeriană doreşte să studieze aproximativ 50 de variabile pe care le consideră
importante din puntul de vedere al consumatorului care trebuie să opteze pentru o companie (variabilele pot
fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de zbor,
facilităŃile oferite în timpul zborului, etc.). Dacă pe baza analizei factoriale aceste 50 de variabile pot fi
explicate pe baza unor factori vom înŃelege mai bine variabilele fundamentale care stau la baza alegerii
făcute de consumator.
2. Screeningul variabilelor
O a doua utilizare a analizei factoriale se referă la analiza pe bază de screening a variabilelor care ulterior pot
fi incluse în investigaŃii statistice ca analiza de regresie. Deoarece analiza factorială identifică grupe de
variabile care sunt corelate între ele putem opta la alegerea unei singura variabile din fiecare factor şi
includerea acestei variabile într-o ecuaŃie de predicŃie.
3. Sumarizarea datelor
O altă aplicaŃie a analizei factoriale se referă la flexibilitatea de a extrage câŃi factori se doreşte dintr-un set
iniŃial de variabile. Primii factori extraşi dintr-un set de variabile explică cea mai mare parte din varianŃa
acestora; cu fiecare extragere ulterioară se obŃine tot mai puŃin.
4. SelecŃia variabilelor
AF ne permite extragerea factorilor diferiŃi dintr-un set de variabile. De exemplu dacă se pune problema
selecŃie caracteristicilor definitorii ale unui automobil în vederea construcŃiei unei reclame ne interesează să
păstrăm un număr de variabile rezonabil pentru a putea construi reclama. Este important însă ca acest
variabile selectate să nu se refere la acelaşi factor, ele trebuind să nu coreleze între ele.
Luând în considerare aspectele prezentate privind validitatea unui test psihologic, se poate spune că
trebuie să avem întotdeauna în vedere funcŃia şi scopul pe care le va avea testul pentru a putea aprecia corect
tipurile de validitate. Exemplul (tabelul 7) următor ilustrează modul în care putem privi validitatea unui test
de cunoştinŃe la matematică (Anastasi, 1976):

Tabelul 2.7. Tipuri de validitate a unui test de cunoştinŃe matematice. (Anastasi, 1976).

52
SCOPUL TESTĂRII PROBLEMA STUDIATĂ TIPUL DE VALIDITATE
Evaluarea cunoştinŃelor de Cât de mult a învăŃa elevul din Validitate de conŃinut
matematică în ciclul primar matematica predată?
Anticipare a performanŃelor Care vor fi performanŃele elevului în Validitate predictivă
elevului în gimnaziu gimnaziu la matematică?
Psihodiagnosticul dificultăŃilor Care sunt dificultăŃile specifice pe care le Validitate concurentă
de învăŃare întâmpină elevul în învăŃarea matematicii
Evaluarea gândirii logice Prin ce se caracterizează gândirea Validitate de construct
elevului?

! Obiectivele analizei factoriale sunt:


 Identificarea factorilor adiacenŃi variabilelor de suprafaŃă
 Screeningul variabilelor
 Sumarizarea datelor
 SelecŃia variabilelor

1. Care sunt aspectele esenŃiale de care trebuie să Ńinem cont când formulăm
un item?

2. Ce sunt itemii dihotomici şi care sunt avantajele şi dezavantajele lor?

3. Ce sunt itemii polinomici şi care sunt avantajele şi dezavantajele lor?

4. Ce sunt scalele Likert?

5. Ce este o scală categorială?

6. Ce reprezintă Q – Sort?

7. Care este procesul pe baza căruia se realizează analiza factorială?

8. Ce reprezintă analiza calitativă de itemi?

9. Ce reprezintă analiza cantitativă de itemi?

10. Care sunt obiectivele analizei factoriale?

53
• Sumar
Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume
dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere
imagine acurată a aspectului care ne interesează. Pentru a construi itemii trebuie să parcurgem un
proces pretenŃios în cazul căruia trebuie să urmăm o serie de paşi. Mai mult decât atât, trebuie să
Ńinem cont şi de formatul opŃiunilor de răspuns. Astfel, în funcŃie de constructul pe care dorim
să-l evaluăm anumite formate devin mai mult sau mai puŃin adecvate. Pentru a putea spune
despre un item că este bun sau nu trebuie să Ńinem cont de o serie de criterii pe care le
descoperim în urma unei analize a itemilor. Aşa după cum putem analiza un test din prisma
fidelităŃii şi validităŃii, la fel putem analiza conform acestor criterii un item. Mai precis, un item
bun discriminează între două categorii de subiecŃi; putem spune de asemenea că un item este bun
dacă performanŃa la item corelează cu performanŃa la test. Un element foarte important este
validitatea de construct care reprezintă măsura în care se poate susŃine că testul măsoară o
variabilă sau o trăsătură specifică. Una dintre metodele utilizate în validara de construct este
analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate
pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”.

Sarcini şi teme ce vor fi notate

1. Mai jos sunt prezentate descrierile câtorva studii de validare. CitiŃi fiecare descriere şi
identificaŃi orice probleme potenŃiale care ar putea afecta rezultatele.
A. Un profesor de matematică de la un liceu, face un test pentru a identifica elevii supradotaŃi la
matematică şi aplică acest test la o sută de elevi din şcoală. Cei care vor obŃine cel mai mare punctaj la test
vor avea posibilitatea să se înscrie la facultate. La sfârşitul semestrului, profesorul face o corelaŃie între
scorul obŃinut la test şi notele obŃinute de elevi la matematică. El nu a găsit nici o corelaŃie semnificativă
între aceste variabile.
B. Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o
anumită corporaŃie şi cere supraveghetorilor să noteze muncitorii prezenŃi pe o scală cu următoarele
categorii : „peste medie”, „mediu”, „sub medie”. După aceasta psihologul testează muncitorii din categoria
„peste medie” şi „sub medie” şi compară mediile celor două grupuri. În urma analizei psihologul găseşte o
diferenŃă semnificativă în favoarea grupului „peste medie”.

2. Pentru fiecare din următoarele situaŃii indicaŃi ce tip de studiu de validare ar fi cel mai
potrivit.
A. Un psiholog social dezvoltă un inventar cu scopul de a identifica peroanele care lucrează în
domeniul sănătăŃii care prezintă „sindromul de epuizare (burnout)”. Pentru a defini sindromul de
„burnout” se utilizează o varietate de comportamente cum ar fi: absenteismul, eşec în a respecta
politica firmei, relaŃii reci cu colegii şi şefii etc.
B. Un psiholog al dezvoltării specializat în problemele adolescenŃilor doreşte să dezvolte un inventar
care să se adreseze elevilor din clasele IX – X pentru a prezice cine va trece mai departe în clasele
XI-XII.
C. Un test de aptitudini non-verbale este dezvoltat pentru copiii preşcolari cu deficit de auz. Se
intenŃionează ca testul să fie o măsură de screening pentru identificarea copiilor care ar putea avea
dificultăŃi în învăŃarea cititului (încadraŃi într-o clasă cu copii normali).

• Bibliografie modul

54
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 133-135
Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium. p 170-173
Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom, P 202-242

VI. ASPECTE METODOLOGICE ŞI CONCEPTUALE ALE CONSTRUCłIEI TESTELOR

• Titlul şi numărul modulului


6. Aspecte metodologice şi conceptuale ale construcŃiei testelor psihologice

• Scopul şi obiectivele: obiectivul esenŃial al acestui modul este ca studenŃii să poată face diferenŃa
între evaluările psihologice, acestea fiind diferite cel puŃin în cazul a trei aspecte.

Obiective de studiu:

După parcurgerea acestui capitol:


 VeŃi diferenŃia între tipurile de evaluare psihologică
 VeŃi şti care este algoritmul de construcŃie al unui instrument de evaluare
 VeŃi putea enumera tipurile de scale utilizate
 VeŃi recunoaşte aspectele care Ńin de conŃinutul manualului unui test

• Scurtă recapitulare a conceptelor prezentate anterior


Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume
dorim să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine
acurată a aspectului care ne interesează. Pentru a construi itemii trebuie să parcurgem un proces
pretenŃios în cazul căruia trebuie să urmăm o serie de paşi. Mai mult decât atât, trebuie să Ńinem
cont şi de formatul opŃiunilor de răspuns. Astfel, în funcŃie de constructul pe care dorim să-l
evaluăm anumite formate devin mai mult sau mai puŃin adecvate. Pentru a putea spune despre un
item că este bun sau nu trebuie să Ńinem cont de o serie de criterii pe care le descoperim în urma
unei analize a itemilor. Aşa după cum putem analiza un test din prisma fidelităŃii şi validităŃii, la fel
55
putem analiza conform acestor criterii un item. Mai precis, un item bun discriminează între două
categorii de subiecŃi; putem spune de asemenea că un item este bun dacă performanŃa la item
corelează cu performanŃa la test. Un element foarte important este validitatea de construct care
reprezintă măsura în care se poate susŃine că testul măsoară o variabilă sau o trăsătură specifică.
Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza factorială este
definită ca „un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la
baza uneui set de măsurăori empirice”.

• Structura logică a modulului


1. Aspectele care diferenŃiază evaluările psihologice
2. Algoritmul de construcŃie al unui instrument
3. Tipuri de scale
4. ConŃinutul manualului unui test

• ConŃinutul informaŃional detaliat

ASPECTE CONCEPTUALE ŞI METODOLOGICE ALE CONSTRUCłIEI


TESTELOR PSIHOLOGICE

Evaluările psihologice nu sunt echivalente. Ele diferă în cel puŃin trei aspecte. În primul rând
ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea
rând ele diferă în privinŃa structurii logice. Iar în al treilea rând ele diferă din perspectiva
informaŃiilor pe care ele le aduc, sau mai precis din perspectiva greutăŃii inferenŃelor pe care aceste
le suportă.

Algoritmul de construcŃie al unui instrument de evaluare ar trebui să respecte următorii paşi

1. POSTULATE
AsumpŃii, valori, credinŃe, metafore

2. CONSTRUCTE TEORETICE FORMALE


Constructe ipotetice, procese, relaŃii, predicŃii (e.g.
memorie implicită, anxietate, depresie)

3. REFERENTI
Măsuri obiective sau reflecŃii ale constructelor (e.g.
anxietate: transpiraŃia palmelor, etc.)

4. METODE INSTRUMENTALE
Sarcini, tehnici, teste, instrumente proceduri

5. MODEL DE MĂSURĂ
atribuirea unei scale de măsură fenomenelor

56
6. CULEGEREA DATELOR

7. ANALIZA DATELOR
metode statistice, modele matematice

8. INTERPRETĂRI ŞI INFERENłE
InferenŃa statistică, evaluare logică, analiza modelului
Figura 1. Componente ale unui model ştiinŃific de construcŃie a unui intrument de evaluare (McFall & Townsend, 1998)

! Scopul oricărei evaluări psihologice este acela de a clarifica (de a oferi informaŃii) o serie de
probleme, fie ele teoretice sau practice. Astfel putem spune că există o relaŃie esenŃială între teorie şi
evaluare: evaluarea trebuei astfel construită încât să răspundă unor întrebări teoretice.

Nivelul de plecare în construcŃia unui instrument de evaluare se găseşte la nivelul


postulatelor care serveşte ca punct fundmental (Polya, 1957, Smith, 1984). Postulatele sunt simplu
tratate ca “ceva ce este dat”. O dată stipulate însă ele constrâng tot procesul ulterior, intrâun mod
adesea foarte subtil (Lakoff & Johnson, 1980).
Nivelul următor cuprinde constructele teoretice formale. Acest nivel trebuie să fie
congruent cu postulatele anterioare deoarece derivă logic din acestea. Cu toate acestea însă există o
multitudine de teorii plauzibile care pot satisface postulatele încât cercetătorii trebuie să ia în calcul
o serie de aspecte legate de validitatea teoriilor care adesea sunt în competiŃie. Este vorba deci de a
opta, pe baza unei analize de cele mai multe ori dificile, pentru o teorie Ńinând cont de atuurile
acesteia în competiŃia cu altele. Personalitatea ca şi construct glogal sau temperamentul ca şi
construct mai specific pot fi abordate din perspectiva mai multor teorii. OpŃiunea pentru o teorie a
personalităŃii se face, în construcŃia unui instrument de evaluare, la acest nivel al
constructelorteoretice formale.
Procesul de validare al unui test începe la nivelul constructelor teoretice prin formularea
constructelor derivate dintr-o teorie, din cercetări anterioare sau din observaŃii sistematice ale unui
domeniu relevant de comportamente. Itemii testului vor fi mai târziu (la nivelul referenŃilor)
formulaŃi, astfel încât să atingă cerinŃele formulate la acest nivel.

La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului
trebuie să ne punem următoarele întrebări:
 Ce dorim să măsoare testul? Această întrebare este legată de modul în care este definit
constructul şi de cum această definiŃie este diferită de altele care îşi propun să măsoare acelaşi
construct.
 Care este obiectivul testului? Când sau pentru ce scop va fi utilizat testul? Va fi analizat la
acest nivel în ce măsură obiectivul testului este diferit de testele existente.
 Este nevoie de construcŃia acestui test?
 Cine va utiliza testul? Clinicienii, psih. educaŃional sau alte categorii.

57
 Cui se adresează testul? Cine este populaŃia Ńintă. Aici se impune o analiză detaliată a
caracteristicilor populaŃiei (vârstă, sex, mediu socioeconomic – ce factori culturali pot influenŃa
performanŃa la test). Ce nivel de citire este necesar pentru aplicarea testului.

Cel de al treilea nivel, al referenŃilor, cuprinde măsurători observabile ale constructelor


formulate. Astfel, constructul de anxietate se poate exprima la nivelul referenŃilor prin măsurători
ale conductanŃei electrice a pielii, prin rata cardiacă, etc.
Pentru ca datele de la nivelul anterior să poată fi culese avem nevoie de o serie de medode
instrumentale. Este vorba de generarea unor măsurători, care în cadrul testului adesea iau forma
itemilor.
Itemii (vezi modulul 1) unui test sunt:
 în majoritatea cazurilor generaŃi de psihologi pornind de la constructele formulate;
 În cazul testelor de cunoştinŃe itemii sunt formulaŃi de specialişti în domeniul respectiv;
 Pot fi luaŃi din testele existente.
În general, este generat un număr mai mare de itemi decât numărul final al itemilor testului,
creându-se banca de itemi. Aiken (1994) recomandă ca numărul itemilor de plecare să fie mai mare
cu 20% decât lungimea tesului.
Măsurările sunt realizate pe diferite tipuri de scale. Acestă problematică a alegerii scalei sau
a formatului itemlor se încadrează la nivelul modelului de măsurare. Nu există un tip general
corect de scală de măsurare.

Tipuri de scale.
Scala de tip Likert.
 Este o scală sumativă (propusă de Likert în 1932)
 utilizată destul de des în psihologie mai ales în măsurarea atitudinilor.
 Este o scală ordinală (distanŃa dintre 2şi 3 nu este întotdeauna egală cu distanŃa dintre 4 şi 5)
 Format: „niciodată rareori câteodată adesea întotdeauna”
 Are 5 trepte
 Dezavantaje: nu există o interpretare identică pentru fiecare subiect aceea ce înseamnă fiecare
categorie prezentată.

Scalele Guttman
 Când se doreşte ierarhizarea unor comportamente.
 Se prezintă comportamentele şi cere ierarhizarea acestora prin atribuirea de numere (de la 1 la
X, pentru X comportamente)

Nivelul culegerii datelor se referă la obŃinerea unei variante a testului şi aplicarea acesteia
pe populaŃia Ńintă. Se Ńin cont în această fază de condiŃiile de standardizare.
Analiza datelor cuprinde în cadrul testului procesul de analiză a itemilor, analiza tipurilor
de validitate de criteriu precum şi aprecierea fidelităŃii testului.
Dacă rezultatele obŃinute sunt satisfăcătoare se trece la construirea manualului testului. Dacă pe
baza rezultatelor obŃinute nu se pot face inferenŃe valoroase atunci se recomandă identificarea
erorilor şi reluarea procedeului.
Manualul unui test trebuie să cuprindă aspectele pe baza cărora utilizatorul testului să poată analiza
valoarea testului, să poată utiliza testul şi să poată interpreta rezultatele acestuia. Aceste aspecte se
referă la informaŃii legate de:

58
1. Datele de identificare ale testului
- autorul (autorii) testului
- editura care a publicat testul
- anul publicării
- numele testului
2. Standardizarea testului
- pe câte persoane a fost etalonat testul
- care sunt caracteristicile demografice ale eşantionului
- cum s-a făcut eşantionarea
3. Fidelitatea testului
- care au fost metodele utilizate pentru estimarea fidelităŃii testului
- în ce măsură valorile coeficienŃilor de fidelitate sunt sufiecte pentru scopul testului
4. Validitatea testului
- care au fost criteriile pe baza cărora s-a validat testul
- în ce măsură testul este satisfăcător pentru ceea ce îşi propune să măsoare
5. Modul de aplicare, cotare şi interpretare a rezultatelor
- care sunt instrucŃiunile de lucru
- care sunt criteriile de acordare a punctajului pentru răspunsurile subiecŃilor?
- În ce măsură testul poate fi cotat electronic (acolo unde este cazul)
6. ConsideraŃii practice
- cât timp durează aplicarea testului
care este nivelul de pregătire pe care trebuie să îl aibă cel care administrează testul şi cum se poate obŃine
această pregătire.

59
1. Care sunt paşii algoritmului de construcŃie al unui instrument de
evaluare?

2. Care este scopul oricărei evaluări psihologice?

3. Ce întrebări trebuie să ne punem la nivelul de conceptualizare al


testului?

4. La ce se referă nivelul de culegere al datelor?

• Sumar
Evaluările psihologice nu sunt echivalente. Ele diferă în cel puŃin trei aspecte. În primul
rând ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să
răspundă. În al doilea rând ele diferă în privinŃa structurii logice. Iar în al treilea rând ele
diferă din perspectiva informaŃiilor pe care ele le aduc, sau mai precis din perspectiva
greutăŃii inferenŃelor pe care aceste le suportă. Pentru construcŃia unei scale trebuie să se
respecte un algoritm. Un element foarte important îl reprezintă manualul testului.

• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles,
Applications and Issues, Wadsworth Thomson Learning, Fifth Edition. p 529-563

60
III. Anexe

Bibliografia completă a cursului :

Obligatorie:
1. Suportul de curs, Psihodiagnostic
2. Capitolele aferente tematicii de mai sus din următoarele surse:
- Albu, M. (1998). Construirea şi utilizarea testelor psihologice, Editura Clusium.

- Albu, M. (2000). Metode şi instrumente de evaluare în psihologie. Editura Argonaut.

- Stan, A. (2002). Testul psihologic. EvoluŃie construcŃie, aplicaŃii. Editura Polirom.

- Haynes, S. N., Richard, D. & Kubany, E. S. (1995). Content validity in Psychological


Assessment: A functional approach to contcepts and methods. Psychological
Assessment,7,3, 238-247

- Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences


From Persons' Responses and Performances as Scientific Inquiry Into Score Meaning.
American Psychologist, September 1995 Vol. 50, No. 9, 741-749.

Facultativă:
- Anastasi, A. (1988). Psychological Testing. (6th ed). New York: Macmillan.

- Murphy,K & Davidshofer, C. O. (1994). Psychological testing: Priciples and applications


(3rd ed). Englewood Cliffs, NJ: Pretince Hall.

- www.rash.org

61
Increasing the Validity of Adapted Tests: Myths to be Avoided and Guidelines
for Improving Test Adaptation Practices1,2

Ronald K. Hambleton and Liane Patsula


University of Massachusetts at Amherst

Adapting or translating achievement, ability, and personality tests and questionnaires


prepared in one language and culture into other languages and cultures has had a long
history in educational and psychological testing though this fact is not well-known
among educational researchers and measurement specialists. At least five reasons can
be found in the literature for adapting tests:

1. very often adapting a test is considerably cheaper and faster than constructing
a new test in a second language,
2. when the purpose for the adapted test is cross-cultural or cross-national
assessment (such as with many credentialing exams), an adapted test is the
most effective way to produce an equivalent test in a second language,
3. there may be a lack of expertise for developing a new test in a second
language,
4. there is a sense of security that is associated with an adapted test more so than
a newly constructed test especially when the original test is well-known, and
5. fairness to examinees often results from the presence of multiple language
versions of a test (see Hambleton & Patsula, 1998).

Unfortunately, though the practice of adapting or (simply) translating tests can be


traced to the intelligence tests of the French psychologist Alfred Binet at the
beginning of this century, there is substantial evidence to suggest that improved
methods for adapting or translating tests from one language and culture to others are
needed, and that considerably more attention should be given to this important task
than it is typically given by researchers and/or test developers. Too often in practice
the test adaptation process seems to be viewed as a routine task that can be completed
by anyone who knows the relevant languages. One consequence is adapted tests in the
target languages of interest with only superficial equivalence to the tests in the source
language.

The purposes of this paper are two-fold: First, a set of myths or problems which need
to be discarded/overcome about the test adaptation process will be presented. These
myths are widespread and undermine effective test adaptation initiatives. Second,
steps for adapting tests will be offered along with a discussion of the importance of
each step in the test adaptation process.

Myths About Adapting Tests

There are a number of myths associated with adapting tests which appear in
measurement practice and should be discarded as quickly as possible:

Myth 1. The preferable strategy is always to adapt an existing test rather than
develop a new test for a second language group.

62
There are many good reasons for adapting a test, but there are reasons for not
proceeding with a test adaptation as well. Especially when cross-cultural comparisons
are not of interest, it may be substantially easier and more relevant to construct a new
test for a second language group. This avoids any complications with copyright,
insures that the format will be suitable, and any desired modifications in the definition
of the construct of interest can be made at the outset of the test development process.

Sometimes, too, it may be desirable not to adapt a test but rather to require all
examinees to take a test in a single language. For example, in the United States, there
has been interest in some states in making high school graduation tests available in
both English and Spanish. Technically this is possible, but the question of whether or
not to make two language versions of a test available depends on many factors
including the definition of the construct being measured. Is the language in which
performance is to be demonstrated a part of the construct definition or not? In the case
of reading, reading in the language of English is almost always part of the construct of
interest. Producing a Spanish equivalent version of a reading test in English makes
very little sense because inferences of English reading proficiency cannot be made
from a test administered in Spanish.

The situation with a mathematics test may be very different. The construct of interest
may be focused on computation skills, concepts, and problem-solving skills and here,
the purpose of the test is to look for a demonstration of the skills, and the language in
which the performance is assessed and demonstrated may be of little or no interest. Of
course, if the desired inference is mastery of mathematics skills when the test
questions are presented in English, then a Spanish version of the test would be
inappropriate in this situation too.

Myth 2. Anyone who knows the two languages can produce an acceptable
translation of a test.

This is one of the most troublesome myths because it results in unqualified persons
adapting tests. There is considerable evidence suggesting that test translators need to
be familiar with both source and target languages and the cultures, and they need to be
generally familiar with the construct being assessed, and the principles of good test
development practices. How, for example, can someone translate a high school
physics test from English into Spanish without some knowledge of the content?
Would a translator with little knowledge of test development principles be aware to
preserve the relevant features of the original test in an adapted test such as clearly
written item stems, a single correct or best answer, answer choices of approximately
the same length, etc.?

Myth 3. A well-translated test guarantees that the test scores will be valid in a
second language or culture for cross-language comparative purposes.

Van de Vijver and Poortinga (1997) make the point that not only should the meaning
of a test be consistent across persons within a language group and culture but, that
meaning, whatever it is, must be consistent across language groups and cultures. For
example, if a test is more speeded in a second language version because of the nature
of that language, then the two language versions of the test are not equally valid. We
have encountered just such a problem in some German test translations we are

63
currently working on. Quite simply, the German words are longer than English words
and take correspondingly longer to read. The result is a slightly more speeded German
version of the test. In this instance, the test may be equally valid in each language
group and culture, but still not be suitable for cross-cultural comparisons.

Many other examples could be introduced. For one, the non-equivalent familiarity of
students in different cultures with certain item formats, e.g., the multiple-choice
format, places examinees from this second cultural group at a serious disadvantage.
The translation could be excellent, but the scores from the two language versions are
not equally valid.

Myth 4. Constructs are universal, and therefore all tests can be translated into other
languages and cultures.

One of the best counter examples of this myth concerns intelligence tests. The
Western notion of intelligence places considerable emphasis on speed of response. In
some cultures, speed of response is of minor importance as a operating characteristic
for life, and members of these cultural groups often score lower on Westernized
intelligence tests because of a failure to perform quickly. But, it only in this limited
sense of the Western definition of the construct of intelligence that these cultural
groups appear of less intelligence. By another definition, perhaps one that devalues
speed of response and emphasizes other human attributes of intelligence (see
Sternberg and Gardner (1983) for broader definitions of intelligence which
incorporate, for example, social and artistic skills) the results would be opposite.

There is currently considerable interest in cross-cultural comparisons of quality of


life. It is interesting to discover that the construct associated with quality of life in this
country is often very different in other countries and this makes cross-cultural
comparisons very different. Televisions, portable telephones, personal computers, the
great outdoors, and college sports are of no importance and do not affect the quality of
life for persons in many other cultures. Cross-cultural comparisons of quality of life
are difficult to carry out because the construct may have very different meanings
across cultures.

Myth 5. Translators are capable of finding flaws in a test adaptation. Field testing
is not usually necessary.

This is another of the major myths about adapting tests. There are literally thousands
of examples of poorly adapted test items in the literature, and many of the items in
these tests were approved by translators. The fact is translators are not able to
anticipate all of the problems encountered by examinees taking a test in a second
language.

One of the best examples because it was discovered on an international comparative


study of reading achievement (and a study where the American students were about
the middle of 20 countries) is the following:

Determine whether these two words are similar or


different--

64
p
e
s
s
i
m
i
s
t
i
c

s
a
n
g
u
i
n
e

In the English version of the test item, only about 54% of the American students were
able to determine the correct response (a performance level slightly above chance)
which is that the two words have a different meaning. In a second language version,
the item was adapted as follows--

p
e
s
s
i
m
i
s
t
i
c

o
p
t
i
m
i
s
t
i
c

65
In the foreign language version of the test item, almost 100% of the examinees
answered the item correctly. Clearly, a poor translation had made the test item
considerably easier. The reason given was that the word "sanguine" had no equivalent
word in the second language and therefore another word was chosen which too, had a
different meaning to pessimistic. Interestingly, this easier version of the test item was
used in the country which finished number one among the 20 countries. One wonders
what role this item and other improperly adapted test items played in the final
rankings of the 20 countries.

In summary, all of the myths can seriously compromise the validity of a test in a
second language or cultural group, or negatively influence the validity of adapted tests
for use in cross-language comparison studies. Fortunately, each myth is
straightforward to address in practice. What follows are steps for adapting tests which
should eliminate all of the myths and other shortcomings in test adaptation
methodology.

Steps for Adapting Tests

The International Test Commission (ITC) guidelines (Hambleton, 1994; van de Vijver
& Hambleton, 1996) provide an excellent framework to guide researchers in the test
adaptation process. Appendix A contains a copy of those guidelines. The following
steps for adapting a test from one culture and/or language for use in another are a
mixture of findings and recommendations from the ITC guidelines and many
empirical studies (e.g., Angoff & Cook, 1988, Prieto, 1992; Hambleton, 1994).
Geisinger's (1994) work in cross-cultural assessment was especially influential in our
thinking about the topic of steps for adapting tests. The steps are still evolving.
Through the application of the steps in different contexts new insights will be gained
and certain additions, deletions, and clarifications may be necessary.

Step 1 – Ensure that construct equivalence exists in the language and cultural
groups of interest.

Assess whether construct equivalence exists between the cultures of interest and if it
does not, either consider "decentering" (that is, revising the definition of the construct
to be equally equivalent in each language and cultural group) or discontinue the
project. The publication by Harkness (1998) is especially helpful in the study of
construct equivalence.

Central questions are as follows: Does the particular construct that a researcher (e.g.,
the content domain for a credentialing exam) is interested in measuring exist in both
cultures? Does it make sense to compare these two cultures on this construct? Would
any cross-cultural comparison on this construct be meaningful? Does the construct
that is being measured mean the same thing in all cultures being compared?

Researchers familiar with both languages and cultures are in a strong position to make
judgments about construct equivalence between cultures. One can also judge whether
cross-cultural construct equivalence exists by interviewing or observing people from
the cultures of interest, researching the cultures of interest, asking others who know
about the cultures, or visiting people in the culture.

66
Suggestions:

1. Through discussions with psychologists and other knowledge


persons in each culture, determine if the construct exists, and if
the same definition applies equally well in both language and
cultural groups.

Step 2 – Decide whether to adapt an existing test or develop a new test.

Consider the purpose of the adapted test, and the advantages and disadvantages of
adapting an existing test rather than developing a new test. It is clear too that some
tests will be more amenable to translation into certain languages than others
(Ahluwalia, 1990, p. 20). The more similar the target language and/or culture are to
the source language and/or culture, the easier will be the adaptation (thus, English to
Spanish adaptations may make more sense than English to Arabic or English to
Chinese adaptations). With tests intended for cross-cultural comparisons, test
adaptation (possibly with some decentering) may be the only option. But when cross-
cultural comparisons are not of interest, it may be easier to actually produce a new test
that meets the cultural parameters in the second language group, than to adapt an
already existing test which may have a number of shortcomings (e.g., a less than
satisfactory definition of the construct, inappropriate item formats, use of some
cultural specific content, etc.).

The standards with which to evaluate whether to adapt an existing test require some
level of expertise in measurement, some knowledge of the relevant literature of the
original test, and some knowledge of the language and culture to which the test is
being adapted.

Suggestions:

1. Consider the purpose of the adapted test, and carefully consider


the advantages and disadvantages of adapting a test versus
constructing a new test.

Step 3 – Select well-qualified translators.

This is often one of the major shortcomings of a test adaptation project. Two points
can be made: First, in selecting translators, search for persons who are fluent in both
languages and who are very familiar with the cultures under study, and who have
some knowledge of test construction and the construct being measured. As knowledge
of test construction practices is not common among translators, this may be addressed
with some training prior to initiating the test adaptation process. Adding a
psychometrician to the mix may be desirable, too.

Second, some researchers have found that panels or committees of people translate
the test better than individuals. Committees produce pooled adaptations that are often
more accurate than translations from a single translator.

Suggestions:

67
1. Seek out translators with language proficiency, knowledge of
the relevant cultures, and some subject matter
knowledge/knowledge of the construct of interest.
2. Involve more than one translator in the process to provide a
mix of perspectives and to enable checking to be conducted.

Step 4 – Translate and adapt the test.

One approach to increasing the likelihood of a valid test adaptation is to adopt one of
the two (or both) standard designs: forward- and back-translation. Forward translation
designs are the most technically sound because the focus of the review is on both the
source and target language versions of the test. Backward translation designs can also
be revealing of poor translations but without a focus on the target language version of
the test, problems in the adaptation can be missed. For example, with a hard-to-
translate concept like "ice hockey" into Chinese, these English words may be used in
the adapted version. They are very easy to back translate, but they may be quite
meaningless in the target language version of the test.

Suggestions:

1. Use a forward translation design but a backward translation


design can be useful too, but not as the only design.

Step 5 – Review the adapted version of the test and make necessary revisions.

In a forward translation design, another set of translators examine the adapted version
of the test for any errors that may lead to differences in meaning between the two
language versions. The group of translators' focus at this point would be on the quality
of the translation or adaptation of the test. As Geisinger (1994) suggests, this review
can be accomplished in a group meeting, individually, or by some combination of
individual and group work. Geisinger believes that the most effective strategy is to
first have the translators review the items and react in writing and then to have the
individuals share their comments with one another and to reconcile any differences in
opinion and make any changes in the original and/or adapted language versions as
necessary.

The National Institute for Testing and Evaluation in Israel is responsible for adapting
college admissions tests into five languages from the original Hebrew-language
version. One special feature in their process is that their translators work from the
translated version first and attempt to determine the validity of the questions: For
example, is the stem clear? Is there a single correct answer? Are there grammatical
clues that lead the test-wise candidate to the correct answer? After it is determined
that the test items can stand on their own merits, then the equivalence of the adapted
version and the original Hebrew version are compared. Translators look at several
features of the adapted items: accuracy of the translation as well as the clarity of the
sentences, the level of difficulty of the words, and the fluency of the translation.

With a backward translation design, translators would take the adapted version of the
test, back translate to the source language, and then judgments would be made about
the equivalence of the original and back-translated versions of the test. Where non-

68
equivalence is identified, changes in the adapted version of the test are considered.
The idea is that if the adaptation has been effective, the back-adapted version of the
test should look very much like the original. Of course, when the adaptation involves
format changes, time changes, and other changes, the target language version of the
test may be fine, but a back-translated test may not look at all like the original. In
general, back-translation designs seem like an excellent supplement to the forward
translation design, but they are not likely to be able to stand on their own. The
information they provide about the validity of the adapted test is limited.

Based on the comments of the reviewers, changes can be made in the original and/or
adapted version of the test, as necessary. Of course, if many changes are made, there
may be advantages to repeating step 4 and 5.

Suggestions:

1. Review and revision of the adapted test is absolutely necessary,


following the initial translation. In most cases, the adapted test
is too important to be dependent on the insights of a single
translator or group of translators.

Step 6 – Conduct a small tryout of the adapted version of the test.

It is at this step that many studies seem to go wrong. Too many researchers and test
developers feel that judgmental review is sufficient evidence to establish the validity
of a test in a second language. But validity evidence for using a test in a second
language depends on stronger evidence than that the test seems to look acceptable to
translators and/or reviewers. Not only is empirical evidence needed to support the
validity of inferences from an adapted version of a test, but perhaps two or more
empirical studies are needed. A good example of what researchers might learn from a
tryout of test items in a second language and culture is clearly highlighted in the paper
by Allalouf and Sireci (1998).

Beginning with a small tryout of the adapted test seems to be prudent before investing
considerable resources in a more ambitious field test. Pilot test the instrument using a
small sample of individuals representative of the eventual target population and
compare the results to results obtained from a source sample. The pilot test should
consist of administering the test, as well as interviewing the individuals to obtain their
criticisms of the test itself, instructions, time limits, etc. These findings form the basis
for revising the test. One good suggestion from Ellis and Mead (1998) might be
carried out at this point. Ellis and Mead suggest that when there are disagreements
about the best adaptation of a test item, these variations might all be field tested, and
the results used to make the final decision about which adaptation is best.

Suggestions:

1. Conduct a pilot test to gain preliminary information about the


test, and revise accordingly.

Step 7 – Carry out a more ambitious field test.

69
This is one of the most important steps in the total test adaptation process. Good
translators are often capable of identifying and fixing many shortcomings in adapted
tests. But many problems go unidentified until test items are field tested. For example,
in a recent study by Hambleton, Slater, and Yu (in press) in which National
Assessment of Educational Progress (NAEP) mathematics items were adapted into
Chinese, the NAEP test item went unidentified by the translators. A field test revealed
a major problem with the item which could not be identified by the translators
because it was a curriculum issue. Chinese students at the eighth grade were
unfamiliar with the concept of estimation.

Field test the adapted test using a larger sample of individuals representative of the
eventual target population and conduct preliminary statistical analyses, such as a
reliability analysis and a classical item analysis. In addition, check for construct
equivalence using factor analysis should be carried out.

Suggestions:

1. Design and carry out an ambitious field test to check out test
items (using classical or modern item analysis procedures), test
and subtest reliabilities, and the factor structure of the test
(factor analysis or structural equating modeling are popular for
this analysis). Compare findings to those obtained with the
source language version of the test.

Step 8 – Choose a statistical design for connecting scores on the source and target
language versions of the test.

This step is necessary when cross-cultural comparisons are of interest, or the test
score norms or performance standards (i.e., the passing score on a credentialing exam)
with the source language version of the test are of interest with the target language
version of the test. At this step (which might be combined with step 7), a linking
design is needed to place the test scores from the different versions of the test on a
common scale. There are three popular linking designs:

1. bilingual group design,


2. matched monolingual group design, and
3. monolingual group design.

All three designs are popular, though the third design may be the easiest to implement
in practice (see, for example, Angoff & Cook, 1988). For a worked example based on
item response modeling of the data, studies by Angoff and Cook (1988) or Woodcock
and Munoz-Sandoval (1993) would be of special interest.

Suggestions:

1. Choose a linking design to equate scores from the source and


target language versions of the test. Item response modeling is
a standard way to proceed. Large samples are highly desirable
at this step to produce a stable linking of scores from one test to
the other.

70
Step 9 – If cross-cultural comparisons are of interest, ensure equivalence of the
language versions of the test.

This step, too, may be combined with steps 7 and 8. We have highlighted this activity
as a step because of its central importance in the test adaptation process. Administer
the source version of the test to a large sample of the source population and perform
statistical analyses to determine whether or not the items function similarly in both the
adapted and source language versions of the test. This is accomplished through the
use of an item bias study (often called a "differential item functioning" or DIF study).
If there are items that function differently for each group, rewrite or retranslate,
readminister, and reanalyze those items to determine whether they function the same
for both groups. The Muniz, Hambleton, and Xing (1998) study highlights the fact
that even small samples (i.e., 50 candidates per group) can be useful in detecting
flaws in the translation/adaptation process.

Suggestions:

1. Conduct a DIF study using one or more of the standard


statistical procedures--Mantel-Haenszel statistic, logistic
regression, IRT-based area procedures, etc.

Step 10 – Perform validation research as appropriate.

Regardless of the interest in cross-cultural comparisons of scores from the two


language versions of the test, and the related research generated by that concern, there
is also a need to ensure that the test scores of the newly adapted test are valid and
reliable. Step 1 involved judgmental strategies for collecting evidence of construct
equivalence, as there was no data available with which to conduct statistical analyses.
Now that the test has been administered, there are data available and so evidence of
construct-related validity can be compiled. This may be compiled from factor
analytic, experimental, or other correlational information (e.g., predictive or
concurrent validity studies). Again, this step may be combined with steps 7 to 9.

Suggestions:

1. Conduct empirical studies which address the equivalence of the


multilanguage versions of the test in the populations where the
test will be used. Evidence of construct equivalence as well as
the absence of method and item bias are important.

Step 11 – Document the process and prepare a manual for the users of the adapted
test.

Document results obtained from steps 1 to 10 and prepare a manual for the users of
the adapted test. The manual should include specifics regarding the administration of
the test, as well as how to interpret the test scores. This is a very important step, yet
often overlooked.

Suggestions:

71
1. Document the full process of adapting a test. Everything from
the persons involved, and designs used, to the findings and the
nature of the changes which were made needs to be compiled
and placed in a technical manual for future reference.

Step 12 – Train users.

Where possible, train the users of the test. Although documentation and a manual will
assist users of the adapted instrument, training will further assist them.

Suggestions:

1. Train test administrators to follow the directions and to answer


any questions appropriately which may arise. Especially when
cross-cultural comparisons are being made, or the norms for the
target language version of the test are being used, standardized
test administrations are essential across language groups.

Step 13 – Ongoing monitoring of the adapted test.

Often cross-cultural studies are a "one-shot affair." But some tests are adapted for
ongoing use in a second language group. Popular intelligence, credentialing, aptitude,
and personality tests would be ones which are adapted and intended for ongoing use.
Researchers should remain vigilant to potential flaws in their adapted tests, and this
means that ongoing monitoring of adapted tests is needed. Re-investigation and re-
evaluation of the reliability and validity of test scores should be ongoing.

Suggestions:

1. Continue to monitor the evaluation of adapted tests and assess


their reliability and validity on a regular basis. The reliability
and validity of all tests can be expected to change over time due
to changes in curriculum, values, experiences, exposure to the
test, etc.

Conclusions

An increasing number of educational, credentialing, and psychological tests are being


adapted for use in other languages and cultures. At the same time, these adapted tests
will have limited value unless they are adapted with a high degree of concern for
issues of usability, reliability and validity. There is a rapidly emerging psychometric
literature on the topic of test adaptation methodology, and more advances can be
expected in the coming years as researchers respond to the expanding need for
adapted tests of high technical quality. Avoiding the five myths and following the 13
steps introduced in this paper for the test adaptation process should go a long way
toward improving current practices. In addition, the 13 steps provide a framework for
incorporating new methodology into the process as it is developed.

References

72
Ahluwalia, N. T. (1990). Comparability of translated
tests in occupational testing. CLEAR Exam Review, 1,
19-21.

Allalouf, A., & Sireci, S. G. (1998, April). Detecting


sources of DIF in translated verbal items. Paper
presented at the meeting of AERA, San Diego.

Angoff, W. H., & Cook, L. L. (1988). Equating the


scores of the Prueba de Aptitud Academica and the
Scholastic Aptitude Test (Report No. 88-2). New York,
NY: College Entrance Examination Board.

Ellis, B., & Mead, A. (1998, August). Measurement


equivalence of a 16PF Spanish translation: An IRT
differential item and test functioning analysis. Paper
presented at the 24th meeting of the International
Association of Applied Psychology, San Francisco.

Geisinger, K. F. (1994). Cross-cultural normative


assessment: Translation and adaptation issues
influencing the normative interpretation of assessment
instruments. Psychological Assessment, 6, 304-312.

Hambleton, R. K. (1994). Guidelines for adapting


educational and psychological tests: A progress report.
European Journal of Psychological Assessment, 10,
229-244.

Hambleton, R. K., & Patsula, L. (1998). Adapting tests


for use in multiple languages and cultures. Social
Indicators Research, 45, 153-171.

Hambleton, R. K., Slater, S. C., & Yu, J. (in press).


Field test of the ITC guidelines for adapting
psychological tests. European Journal of Psychological
Assessment.

Harkness, J. (Ed.). (1998), Cross-cultural equivalence.


Mannheim, Germany: ZUMA.

Muniz, J., Hambleton, R. K., & Xing, D. (1998). Small


sample studies to detect flaws in test translation. Paper
presented at the meeting of AERA, San Diego.

Prieto, A. J. (1992). A method for translation of


instruments to other languages. Adult Education
Quarterly, 43, 1-14.

73
Sternberg, R. L., & Gardner, M. K. (1983). Unities
in inductive reasoning. Journal of Experimental
Psychology: General, 112, 80-116.

Van de Vijver, F. J. R., & Hambleton, R. K. (1996).


Translating tests: Some practical guidelines. European
Psychologist, 1, 89-99.

van de Vijver, F. J. R., & Poortinga, Y. H. (1997).


Towards an integrated analysis of bias in cross-cultural
assessment. European Journal of Psychological
Assessment, 13, 29-37.

Woodcock, R. W., & Munoz-Sandoval, A. F. (1993).


An IRT approach to cross-language test equating and
interpretation. European Journal of Psychological
Assessment, 9, 233-241.

Appendix A

ITC Test Adaptation Guidelines

Context

C.1 Effects of cultural differences which are not


relevant or important to the main purposes of the study
should be minimized to the extent possible.

C.2 The amount of overlap in the constructs in the


populations of interest should be assessed.

Test Development and Adaptation

D.1 Test developers/publishers should insure that the


adaptation process takes full account of linguistic and
cultural differences among the populations for whom
adapted versions of the instrument are intended.

D.2 Test developers/publishers should provide evidence


that the language use in the directions, rubrics, and
items themselves as well as in the handbook are
appropriate for all cultural and language populations for
whom the instrument is intended.

D.3 Test developers/publishers should provide evidence


that the choice of testing techniques, item formats, test
conventions, and procedures are familiar to all intended
populations.

74
D.4 Test developers/publishers should provide evidence
that item content and stimulus materials are familiar to
all intended populations.

D.5 Test developers/publishers should implement


systematic judgmental evidence, both linguistic and
psychological, to improve the accuracy of the
adaptation process and compile evidence on the
equivalence of all language versions.

D.6 Test developers/publishers should ensure that the


data collection design permits the use of appropriate
statistical techniques to establish item equivalence
between the different language versions of the
instrument.

D.7 Test developers/publishers should apply appropriate


statistical techniques to

1. establish the equivalence of the different


versions of the instrument, and
2. identify problematic components or aspects of
the instrument which may be inadequate to one
or more of the intended populations.

D.8 Test developers/publishers should provide


information on the evaluation of validity in all target
populations for whom the adapted versions are
intended.

D.9 Test developers/publishers should provide


statistical evidence of the equivalence of questions for
all intended populations.

D.10 Non-equivalent questions between versions


intended for different populations should not be used in
preparing a common scale or in comparing these
populations. However, they may be useful in enhancing
content validity of scores reported for each population
separately.

Administration

A.1 Test developers and administrators should try to


anticipate the types of problems that can be expected,
and take appropriate actions to remedy these problems
through the preparation of appropriate materials and
instructions.

75
A.2 Test administrators should be sensitive to a number
of factors related to the stimulus materials,
administration procedures, and response modes that can
moderate the validity of the inferences drawn from the
scores.

A.3 Those aspects of the environment that influence the


administration of an instrument should be made as
similar as possible across populations for whom the
instrument is intended.

A.4 Test administration instructions should be in the


source and target languages to minimize the influence
of unwanted sources of variation across populations.

A.5 The test manual should specify all aspects of the


instrument and its administration that require scrutiny in
the application of the test in a new cultural context.

A.6 The administrator should be unobtrusive and the


administrator-examinee interaction should be
minimized. Explicit rules that are described in the
manual for the test should be followed.

Documentation/Score Interpretations

I.1 When a test is adapted for use in another population,


documentation of the changes should be provided, along
with evidence of the equivalence.

I.2 Score differences among samples of populations


administered the test should not be taken at face value.
The researcher has the responsibility to substantiate the
differences with other empirical evidence.

I.3 Comparisons across populations can only be made at


the level of invariance that has been established for the
scale on which scores are reported.

I.4 The test developer should provide specific


information on the ways in which the socio-cultural and
ecological contexts of the populations might affect
performance on the test, and should suggest procedures
to account for these effects in the interpretation of
results.

1
August 1999, JATT, Volume1, No.1, 1-30.

2
Paper presented at the annual meeting of CLEAR, Denver, September, 1998.

76
Normele de avizare a metodelor şi tehnicilor de
evaluare şi asistenŃă psihologică
(Colegiul Psihologilor din Romania, www.copsi.ro)

Capitolul 1 - DispoziŃii generale

Art. 1 (1) - În temeiul Legii nr. 213/2004, art.33, lit. h, publicată în Monitorul Oficial
din 1.06.2004, Comitetul Director (CD) al Colegiului Psihologilor din România
(CPR), prin Comisia Metodologică (CM) elaborează normele de avizare şi avizează
metodele şi tehnicile de evaluare şi asistenŃă psihologică utilizate în practică.
(2) - CD al CPR, prin CM reprezintă autoritatea centrală abilitată pentru a analiza
valoarea metodelor şi tehnicilor de evaluare şi asistenŃă psihologică şi a emite avize
de utilizare a acestora.

Art. 2 (1) - Avizarea metodelor şi tehnicilor de evaluare şi asistenŃă psihologică se


realizează pentru a asigura calitatea serviciilor psihologice oferite în România.
(2) - Valoarea serviciilor psihologice este dependentă de calitatea metodelor şi
tehnicilor de evaluare şi asistenŃă psihologică existente precum şi de cunoştinŃele şi
abilităŃile psihologului de a le alege şi utiliza corect.

Art. 3 (1) - Comisia Metodologică a Colegiului Psihologilor din România, prin


normele de avizare prezente, stabileşte standardele de calitate şi procedurile de
avizare pentru metodele şi tehnicile de evaluare şi asistenŃă psihologică.
(2) - Comisiile aplicative din cadrul Colegiului Psihologilor din România, prin
normele de avizare specifice, atestă competenŃele profesionale ale psihologilor de a
utiliza metode şi tehnici de evaluare şi asistenŃă psihologică. Toate comisiile de
specialitate vor avea în vedere competenŃele generale de utilizare a testelor
psihologice precizate în documentul de faŃă.

Art. 4 (1) - Metodele şi tehnicile de evaluare şi asistenŃă psihologică ce au fost


avizate, sunt consemnate într-un Catalog al metodelor şi tehnicilor utilizate în
România.
(2) - Comitetul Director al Colegiului Psihologilor din România are obligaŃia să
asigure publicarea şi actualizarea acestui Catalog prin mijloace electronice, ori de câte
ori este necesar.

Art. 5 (1) - În cuprinsul prezentelor norme sunt utilizaŃi anumiŃi termeni de


specialitate care au un înŃeles specific.
(2) - Metodele şi tehnicile de evaluare psihologică: demersuri fundamentate ştiinŃific
şi efectuate în scopul cercetării, investigării unei persoane, grup de persoane sau
organizaŃii sub aspect psihologic;
(3) - Metodele şi tehnicile de asistenŃă psihologică: demersuri fundamentate ştiinŃific,
efectuate în scopul declarat al ameliorării sau optimizării activităŃii psihice a unei
persoane, grup de persoane sau organizaŃii;
(4) – Norme: set prescripŃii minime metodologice, explicit formulate,
adoptate şi respectate în mod obligatoriu de către membri organizaŃiilor
profesionale ale psihologilor ce asigură coerenŃă în formularea
investigaŃiilor şi a concluziilor diagnostice;

77
(5) - Utilizatorul de metode şi tehnici de evaluare sau de asistenŃă psihologică:
orice persoană care are certificată competenŃa profesională de a folosi aceste
instrumente;
(6) - Testele psihologice: probe sau dispozitive standardizate de extragere
a unei secvenŃe relevante din comportamentul sau procesările cognitiv-
afective ale unei persoane sau grup, fundamentate pe un etalon sau un
reper pertinent şi pe o interpretare responsabilă din partea specialistului;
(7) - Utilizatorul de teste psihologice: persoana responsabilă cu selecŃia,
administrarea, cotarea unui test, ori care ia decizii, în parte, pe baza rezultatelor la
test. În categoria utilizatorilor de teste intră şi persoanele care realizează doar etapa de
administrare a unor teste complexe cum ar fi probele proiective;
(8) - Distribuirea pe piaŃă: acŃiunea de a face disponibil contra cost sau gratuit un
produs sau un serviciu de natură psihologică în vederea utilizării sale, în condiŃiile în
care acesta nu se regăseşte în Catalogul metodelor şi tehnicilor de evaluare şi asistenŃă
psihologică avizate;
(9) - Solicitantul de aviz: persoane fizice sau juridice care introduc pe piaŃă serviciul
sau produsul de natură psihologică, în condiŃiile în care acesta nu se regăseşte în
Catalogul metodelor şi tehnicilor de evaluare şi asistenŃă psihologică. În această
categorie regăsim: autorul, producătorul, reprezentantul autorizat al acestuia,
importatorul ori utilizatorul.

Capitolul 2 - Avizarea metodelor şi tehnicilor de evaluare psihologică

SecŃiunea 1 – Documentele necesare pentru avizare

Art. 6 - În vederea obŃinerii avizului, solicitantul adresează CM din cadrul CPR o


cerere însoŃită de o declaraŃie de conformitate şi de un dosar tehnic.

Art. 7 - Cererea are un format tipizat şi este prezentată în anexa I, iar declaraŃia de
conformitate se face pe proprie răspundere şi este prezentată în Anexa II pentru a
evidenŃia că datele prezentate în documentaŃia tehnică corespund cu realitatea şi că
metodele sau tehnicile respective nu sunt nocive pentru sănătatea individului. CM
poate solicita suplimentar un certificat de calitate eliberat de firma producătoare
conform legilor în vigoare, după caz.

Art. 8 (1) - Dosarul va conŃine documentaŃia tehnică a metodei sau tehnicii


respective, trebuind să cuprindă în mod explicit:
a) fundamentarea teoretică;
b) domeniul de aplicabilitate (ex. domeniul clinic, organizaŃional, şcolar, apărare etc.);

c) scopul metodei sau tehnicii (ex. diagnostic; predicŃie; monitorizare etc.);


d) descrierea detaliată a metodei sau a tehnicii, inclusiv a instrucŃiunilor de utilizare,
cotare şi interpretare;
e) prezentarea calităŃilor tehnice, psihometrice (validitate, fidelitate, etalonare);

f) competenŃele necesare pentru utilizare;


g) instituŃii şi persoane care oferă stagii de formare, după caz;

78
h) bibliografie;
i) alte informaŃii utile în aprecierea metodei.
(2) – În cazul probelor psihologice standardizate utilizate în evaluarea psihologică,
informaŃiile din dosar trebuie să corespundă standardelor de calitate menŃionate în
Anexa III.
(3) - În cazul în care datele cuprinse în dosarul tehnic nu sunt suficiente
pentru acordarea avizului, se pot cere probe, documente şi clarificări
suplimentare prin consultarea Comisiilor aplicative, pe cheltuiala solicitantului.

SecŃiunea 2 – Procedura de avizare

Art. 9 (1) - Studierea dosarului tehnic se face de către CM a CPR.


(2) - Fiecare metodă supusă avizării va fi analizată independent de către doi membri ai

Comisiei Metodologice, ce vor fi aleşi prin tragere la sorŃi dintre membrii disponibili.

(3) - În cazul probelor psihologice standardizate, evaluarea se va face pe baza ghidului


ce conŃine standardele de calitate ale testelor psihologice, precizate în anexa III.

Art. 10 (1) - În urma analizei, evaluatorii pot propune acordarea a trei tipuri de avize:
a) avizarea pe o perioadă nedeterminată;
b) avizare temporară;
c) respingere a metodei sau tehnicii respective.
(2) - Evaluatorii vor întocmi un referat prin care să justifice tipul de aviz dat şi
recomandările făcute pentru îmbunătăŃirea calităŃilor psihometrice ale probelor.
(3) - În cazul în care concluziile celor doi evaluatori diferă, în ceea ce priveşte tipul de
aviz acordat, metoda sau tehnica va fi reevaluată de o a treia persoană din cadrul CM,
aleasă prin tragere la sorŃi de către Preşedintele Comisiei, dar alta decât primele două.

Art. 11 (1) - În cazul testelor psihologice, avizul pe o perioadă nedeterminată îi obligă


pe cei care distribuie pe piaŃă produsele sau serviciile respective să le actualizeze
periodic la un interval de maximum 10 ani pe populaŃia autohtonă.
(2) - Dacă reactualizarea conduce la modificări în punctele b şi c din cadrul art.8,
alin.1 ori în conŃinutul probei, în modul de administrare a acesteia sau în modalitatea
de cotare şi interpretare a rezultatelor este necesară o reînnoire a avizului.

Art. 12 (1) - Metodele şi tehnicile de evaluare psihologică pot primi un aviz temporar,
pe o durata de 24 luni, cu condiŃia punerii în practică de către persoanele responsabile
a recomandărilor membrilor CM.
(2) - Avizul temporar poate fi acordat, atât probelor noi, aflate în perioadă de
experimentare, dar utilizate în procesul de evaluare psihologică, cât şi probelor care
necesită îmbunătăŃiri din perspectiva caracteristicilor tehnice.
(3) - La expirarea celor 24 de luni de utilizare a metodei sau tehnicii pe baza avizului
temporar, se reevaluează situaŃia metodei sau tehnicii. Dacă solicitantul nu satisface
normele de avizare definitivă a metodei sau tehnicii aflată în această situaŃie, CM prin
CD al CPR va retrage avizul temporar de utilizare a metodei.

79
Art. 13 (1) - Avizul primit din partea CD se rezumă la aria de aplicabilitate
specificată în caracteristicile domeniului vizat, şi nu poate fi extins spre alte domenii
de activitate fără o testare prealabilă.
(2) - ExcepŃie de la necesitatea obŃinerii avizului fac probele aflate în perioadă de
experimentare, ale căror rezultate nu sunt luate în considerare în procesul de evaluare
psihologică.

Art. 14 (1) - Tipul de aviz primit poate fi contestat de către solicitant, printr-o cerere,
adresată în primă instanŃă Preşedintelui CD, în care să argumenteze motivele pentru
care consideră că avizul este nejustificat.
(2) – Dacă argumentele prezentate sunt considerate viabile, Preşedintele CM va
extrage aleator alŃi doi membri pentru reevaluarea metodei sau tehnicii respective, în
caz contrar cererea se respinge.
(3) - Decizia luată în urma re-evaluării este definitivă.
(4) - În cazul în care dosarul a fost respins, solicitantul poate cere o nouă evaluare, pe
baza unei documentaŃii reactualizate, după un an de zile de la data deciziei de
respingere a metodei şi tehnicii respective.

Capitolul 3 - Dreptul de utilizare a testelor psihologice

SecŃiunea 1 – Dobândirea şi certificarea competenŃelor utilizatorilor

Art. 15 - Orice psiholog va trebui să dovedească o serie de competenŃe pentru a putea


utiliza probe psihologice.

Art. 16 – (1) - CompetenŃele pot fi grupate în două categorii: competenŃe generale şi


competenŃe complementare, specifice domeniului de aplicaŃie.
(2) - CompetenŃele generale includ cunoştinŃe şi abilităŃi legate de activitatea de
testare psihologică, indiferent de aria de aplicabilitate.
(3) - CompetenŃele complementare în utilizarea testelor psihologice includ cunoştinŃe
şi abilităŃi dependente de aria în care îşi desfăşoară activitatea psihologul.
(4) – CompetenŃele complementare presupun dobândirea anterioară a celor generale.

Art. 17 (1) - CompetenŃele generale dobândite trebuie să acopere sfera de competenŃe


stabilite la nivel internaŃional de Comisia InternaŃională de Testare.
(2) - Categoriile majore de competenŃe, vizează următoarele aspecte etice în aplicarea
testelor:
a) adoptarea unei conduite profesioniste, în acord cu normele deontologice ale
psihologului şi cu respectarea legilor internaŃionale şi naŃionale privind copyright-
ul (legea drepturilor de autor şi a drepturilor conexe - nr. 8/1996);
b) utilizarea doar a acelor teste pentru care au competenŃa necesară;
c) asumarea responsabilităŃii pentru modul de utilizare a testelor;
d) asigurarea securităŃii pentru testele utilizate, astfel încât ele să nu-şi piardă calităŃile
din cauza deconspirării publice a conŃinutului ori a mecanismelor de cotare;
e) asigurarea confidenŃialităŃii rezultatelor;
f) acordul scris sau în formă electronică de includere a rezultatelor în baza de date a
utilizatorului probei psihologice.

80
(3) - Categoriile majore de competenŃe, vizează următoarele aspecte tehnice în
aplicarea testelor:
a) determinarea necesităŃii de a utiliza teste psihologice în funcŃie de contextul
evaluării psihologice şi a calităŃilor psihometrice ale acestora;
b) asigurarea faptului că testarea psihologică nu va avea un impact discriminatoriu
pentru anumite categorii de persoane;
c) pregătirea adecvată a sesiunii de testare psihologică;
d) administrarea corectă, în acord cu instrucŃiunile din manual, a probelor;
e) cotarea corectă a testelor administrate;
f) interpretarea adecvată a rezultatelor obŃinute;
g) comunicarea rezultatelor într-un mod concis şi pe înŃelesul persoanelor care au
solicitat testarea şi/sau au fost testate;
h) revizuirea calităŃilor psihometrice ale probelor utilizate;

Art. 18 (1) - CompetenŃele generale în utilizarea testelor psihologice standardizate de


către absolvenŃii cu licenŃă în psihologie sau asimilată sunt acoperite de următorul
pachet de cursuri:
a) Psihologia personalităŃii
b) Psihodiagnostic;
c) Introducere în teoriile măsurării şi psihometrie;
d) Statistică psihologică şi prelucrarea informatizată a datelor;
e) Metodologia cercetării în psihologie.

(2) CompetenŃele complementare se pot obŃine de către absolvenŃii cu licenŃă în


psihologie sau asimilată prin programe universitare, masterale sau doctorale ori prin
cursuri formative de specializare în diverse metodologii recunoscute de CPR, conform
cerinŃelor Comisiilor aplicative.

Art. 19 - Persoanele, cu licenŃă în psihologie sau asimilată, care nu au urmat aceste


cursuri le pot urma în regim de taxă, prin cursuri organizate de către asociaŃii
profesionale recunoscute de CPR ori persoane juridice specializate acreditate de CPR;

Art. 20 (1)- AbsolvenŃii cu licenŃă în psihologie sau asimilată, dobândită după intrarea
în vigoare ale acestor norme, vor certifica în faŃa comisiei aplicative de la care doreşte
să obŃină atestatul de liberă practică, dobândirea competenŃelor de utilizare a testelor.
Se pot prezenta copii după documente care dovedesc parcurgerea cerinŃelor precizate
la art.18 alin.1 sau alin.2.
(2) AbsolvenŃii cu licenŃă în psihologie care obŃin titlul de Doctor în specializarea
Psihologie au competenŃe generale de utilizare a testelor, nefiind nevoiŃi să intre sub
incidenŃa prevederilor art.18, alin.1.

Art. 21 (1) - Autorii sau producătorii unor teste psihologice pot propune criterii
suplimentare cu scopul de a restricŃiona dreptul de utilizare a testelor pe care le
introduc pe piaŃă, inclusiv o anumită experienŃă de utilizare sub supervizare, cursuri
de formare.
(2) - Decizia de includere a acestor criterii suplimentare rămâne un atribut exclusiv al
CM.

81
SecŃiunea 2 – Reglementarea utilizării testelor psihologice

Art. 22 (1) – Distribuitorul de teste, solicitant de aviz este obligat să difuzeze testele
psihologice către utilizatori numai însoŃite de un manual tehnic şi de utilizare a probei
respective, indiferent de tipul de test: creion-hârtie, aparate, probă computerizată. În
caz contrar, probele respective nu vor primi aviz favorabil, fie el temporar sau pe o
perioadă nedeterminată.
(2) – Distribuitorul de teste, solicitant de aviz este obligat să pună la dispoziŃia
utilizatorului de teste care achiziŃionează un anumit produs, toate elementele necesare
pentru administrarea, cotarea şi interpretarea rezultatelor de către utilizator.
(3) – Psihologii cu drept de liberă practică care utilizează teste psihologice nu le pot
utiliza în absenŃa unui manual de utilizare şi a informaŃiilor psihometrice menite să
îmbunătăŃească interpretarea rezultatelor obŃinute, indiferent de forma de prezentare a
testului: creion-hârtie, aparate, probe computerizate.
(4) – Psihologii cu drept de liberă practică care folosesc metode sau tehnici avizate
fără a avea drept de licenŃă asupra metodelor respective încalcă prevederile legale în
vigoare şi sunt pasibili de sancŃiuni potrivit legii.
(5) – Psihologii care achiziŃionează probe psihologice, dar le utilizează în alte condiŃii
decât cele prevăzute prin licenŃa cumpărată de la distribuitor sau autor, ori le
înstrăinează unei terŃe persoane încalcă prevederile legale în vigoare privind legea
drepturilor de autor.
(6) – Psihologii cu drept de liberă practică care folosesc metode sau tehnici avizate
fără să dovedească competenŃele necesare utilizării de probe psihologice, cele care nu
respectă prevederile aliniatelor (4) şi (5) ale prezentului articol sau cele care utilizează
în exclusivitate metode care nu sunt avizate de către CM al CPR, încalcă prevederile
codului deontologic şi sunt pasibili de sancŃiuni conform prevederilor codului
deontologic adoptat de CPR.
(7) – Prima abatere de se sancŃionează cu retragerea temporară a atestatului de liberă
practică. Repetarea abaterii conduce la retragerea definitivă a atestatului de liberă
practică.

Art.23 – Cei care comercializează teste psihologice se supun reglementărilor şi


dispoziŃiilor Consiliului ConcurenŃei şi Oficiului pentru ProtecŃia Consumatorului din
România.

SecŃiunea 3 – Acreditarea cursurilor de specializare

Art. 24 (1) - Cursurile de formare a competenŃelor generale specificate trebuie avizate


de CD al CPR la propunerea CM.
(2) - CM al CPR va întocmi şi reactualiza anual o listă a cursurilor acreditate pentru
dobândirea competenŃelor generale de utilizare a testelor psihologice, aceasta fiind
făcută public prin mijloace electronice.

Art. 25 (1) - Pentru a obŃine acreditarea cursurilor, persoanele sau instituŃiile


interesate de a organiza astfel de cursuri vor depune o cerere către CM a CPR, însoŃită
de o documentaŃie tehnică ce include programa cursului / cursurilor respective, un CV

82
al trainerului/formatorului şi resursele avute la dispoziŃie pentru a realiza într-o
manieră profesionistă aceste cursuri.
(2) - În cazul unui răspuns favorabil, se plăteşte anual o taxă către CPR în valoare de
5% din veniturile brute obŃinute în urma derulării cursurilor în anul respectiv.
(3) - Acreditarea primită din partea CPR, prin intermediul CM, are durata de doi ani
de zile, ea putând fi reînnoită.
(4) - Retragerea acreditării poate fi făcută înainte de termenul de valabilitate al
acesteia atunci când CM constată că organizatorul cursurilor nu respectă documentaŃia
tehnică specificată la obŃinerea acreditării, dacă nu se plăteşte taxa către CPR sau dacă
survin probleme de natură deontologică sau penală legate de modul de desfăşurare a
cursurilor.

Art. 26 (1) - Persoanele care vor urma astfel de cursuri vor susŃine în final un examen
de cunoştinŃe, pe baza unei metodologii şi a unei bibliografii specificate de către CM.
(2) - ParticipanŃii care vor promova acest examen vor putea primi un certificat de
absolvire a disciplinei sau disciplinelor evaluate.

Capitolul 4 - Avizarea tehnicilor şi metodelor de asistenŃă psihologică

Art. 27 - Psihologul cu drept de liberă practică, poate apela la orice metodă sau
tehnică de asistenŃă psihologică pentru care îşi asumă responsabilitatea, conform
normelor deontologice, că este benefică pentru client şi pentru care certifică
competenŃa de a o utiliza.

Art. 28 (1) - Metodele şi tehnicile de asistenŃă psihologică sunt avizate implicit dacă
sunt dobândite în următoarele condiŃii:
a) pe parcursul studiilor universitare, masterale sau doctorale;
b) prin intermediul unor training-uri sau altor cursuri de formare desfăşurate sub egida
CPR sau a altor asociaŃii profesionale ale psihologilor ori asimilate care au fost
acreditate de CPR;
c) prin experienŃă sub supervizare, acolo unde este cazul.
(2) - Metodele şi tehnicile de asistenŃă psihologică pot fi avizate explicit de către CM,
la cererea unei Comisii aplicative a CPR.

Art. 29 (1) - În vederea obŃinerii avizului explicit, CM cere solicitantului, interesat de


promovarea unei anumite metode sau tehnici de asistenŃă psihologică, un dosar tehnic
însoŃit de o declaraŃie de conformitate.
(2) - DeclaraŃia de conformitate este o declaraŃie pe proprie răspundere că datele
prezentate în documentaŃia tehnică sunt conforme cu realitatea şi că metodele sau
tehnicile respective nu sunt nocive asupra individului sau organizaŃiei evaluate.
(3) - Dosarul tehnic trebuie să cuprindă informaŃii despre:
a) fundamentarea teoretică;
b) domeniul de aplicabilitate (ex. domeniul clinic, organizaŃional, şcolar, apărare etc.);
c) scopul metodei sau tehnicii;
d) descrierea detaliată a metodei sau a tehnicii;
e) dovezi despre eficienŃa metodei;
f) limitele şi contraindicaŃiile existente;
g) competenŃele necesare pentru utilizare;

83
h) instituŃii şi persoane care oferă stagii de formare;
i) bibliografia aferentă cu trimitere spre studii care susŃin valoarea metodei;
j) alte informaŃii utile în aprecierea metodei.

Art. 30 (1) - Metodele şi tehnicile de asistenŃă psihologică, care intră sub procedura
de avizare explicită pot primi aviz favorabil sau pot fi respinse.
(2) - În cazul primirii unui aviz nefavorabil, solicitantul poate cere o nouă evaluare, pe
baza unei documentaŃii reactualizate, după un an de zile de la data deciziei de
respingere a metodei şi tehnicii respective.

Art. 31 (1) - CM se poate sesiza din oficiu cu privire la utilizarea de metode sau
tehnici de asistenŃă psihologică neavizate
(2) - Procedura de avizare pentru situaŃiile prevăzute la alin. (1) este cea prevăzută în
prezentele norme.

Capitolul 5 - DispoziŃii finale

Art. 32 – Nivelul taxelor necesare acoperirii costurilor de avizare a metodelor şi


tehnicilor de evaluare şi asistenŃă psihologică se aprobă de Consiliul Colegiului, la
propunerea Comitetului director.
Art. 33 - Normele de avizare a metodelor şi tehnicilor de evaluare şi asistenŃă
psihologică se aprobă de către ConvenŃia NaŃională a CPR şi intră în vigoare la data
aprobării.
Art. 34 - Normele de avizare a metodelor şi tehnicilor de evaluare şi asistenŃă
psihologică se aduc la cunoştinŃa tuturor membrilor CPR, după aprobare, prevederile
acestora devenind obligatorii pentru toŃi psihologii.
Art. 35 – Normele prezente se completează cu prevederile Legii 213/2004 şi cu
normele metodologice de aplicare a legii respective.
Art. 36 – Normele prezente pot fi modificate şi completate numai la propunerea CM
cu aprobarea CD al CPR.

ANEXA 1
Model cerere tip
Domnule Preşedinte,
Subsemnatul ……………………………………………....
de profesie ……………………, CNP ………………………….
cu domiciliul in…………………………………………………..
în calitate de ………………………………………………….....
va rog sa avizati metoda/tehnica/testul ……………………….
pentru a putea fi utilizat(a) in………………………………….
In acest scop anexez dosarul tehnic si declaratia de conformitate.
Data : Semnatura:

ANEXA 2

84
DECLARATIE DE CONFORMITATE
Nr. ................

Noi, ..........................................................................,
(denumirea completa a persoanei juridice sau persoanei fizice autorizate)
...............................................................................,
(sediul)
cu Certificat de înregistrare/AutorizaŃie nr. .............../.................,
asiguram, garantam si declaram pe propria răspundere, conform prevederilor art.
5 din Hotărârea Guvernului nr. 1.022/2002 privind regimul produselor si
serviciilor care pot pune in pericol viata, sănătatea, securitatea muncii si
protecŃia mediului, ca produsul/serviciul ......................................
................................................................................
(denumirea, tipul sau modelul, eventual numărul lotului, seriei şi numărul de
exemplare)
la care se refera aceasta declaraŃie nu pune in pericol viaŃa, sănătatea,
securitatea muncii, nu produce un impact negativ asupra mediului şi este în
conformitate cu: ...............................................................
................................................................................
(titlul si/sau numărul şi data publicării documentului/documentelor
normativ/normative)
................................. ............................................
(locul si data emiterii) (numele si prenumele in clar si stampila)

ANEXA 3
În curs de traducere şi de dezbatere: „The Revised Dutch Rating System for Test
Quality”.

85
Glosar

A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli
determinate (Stevens, 1951).

Analiza factorială - un set de proceduri matematice utilizate pentru a identifica dimensiunile


care stau la baza uneui set de măsurăori empirice

ConsistenŃa internă a unui test - se referă la măsura în care toŃi itemii testului măsoară
aceeaşi variabilă

Criteriul – standardul la care este raportată performanŃa la un test

Definirea populaŃiei - circumscriera persoanelor pentru care este destinat testul

Etalon - reprezintă deci cadrul de referinŃă al unui subiect cu populaŃia

Etalonarea unui test - reprezintă stabilirea unui cadru de referinŃă, a unei scări care să
permită determinarea locului ocupat de rezultatele unui subiect faŃă de rezultatele unei
populaŃii de referinŃă, suficient de numeroasă, formată din persoane comparabile cu cea
examinată.

Etalonul (norma sau standardele) reprezintă deci cadrul de referinŃă al unui subiect cu
populaŃia

Evaluarea psihologica este un proces de rezolvare de probleme care vizează descoperirea


manifestărilor realitatii.

Fidelitatea - reprezintă absenŃa relativă dintr-o probă psihologică a erorilor de măsurare.

Fidelitatea interevaluatori exprimă măsura în care testul este independent de erori datorate
modalităŃii de cotare a răspunsurilor subiectului

Item - stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat
independent.

Itemi cu mai multe opŃiuni (polinomici) – au un format similar celor dihotomici, atâta doar
că au mai mult de două alternative de răspuns

Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre
acestea i se acordă un punct la cotarea performanŃei persoanei evaluate

Metoda formelor paralele - două teste sunt paralele dacă pentru un subiect erorile de măsură
la cele două administrări sunt variabile aleatoare independente

PredicŃia - este procesul de stabilire a unor expectaŃii despre viitor având la baza date /
evenimente curente

Q- sort – este o metodă utilizată cu precădere în evaluarea personalităŃii. Persoana evaluată


va primi o listă de adjective pe care le va sorta în funcŃie de măsura în care acestea îl
caracterizează

Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de
opŃiuni de răspuns, de cele mai multe ori sunt utilizate scale cu 10 opŃiuni de răspuns

86
Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de
personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faŃă de a
o afirmaŃie

Scor standard - este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe
baza căreia se pot face comparaŃii.

Stabilitatea rezultatelor testării - ne indică în ce măsură la aplicări diferite în timp un


subiect obŃine rezultate similare la un test psihologic

Standardizarea - procesul de obiectivare şi uniformitate a unui test

Testarea psihologica - constituie procesul de administrare, cotare si interpretarea a


rezultatelor unui test psihologic

Validarea – procesul prin care se obŃin informaŃii legate de validitatea unui test

Validitate concurentă (presupune obŃinerea scorurilor la criteriu aproximativ în acelaşi timp


cu scorurile la test. În cazul validităŃii concurente este vorba tot de o predicŃie, dar la aceasta
se ajunge pe o cale puŃin diferită faŃă de cea urmată în studierea validităŃii predictive

Validitate convergentă - măsura în care testul evaluează aceleaşi constructe ca şi alte teste

Validitate de discriminare – măsura în care testul evaluează altceva decât alte teste despre
care se ştie că se referă la constructe ce nu au legătură cu constructul măsurat de test

Validitatea de aspect - ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară
Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea
ce măsoară”

Validitatea de construct - reprezintă măsura în care se poate susŃine că testul măsoară o


variabilă sau o trăsătură specifică

Validitatea de conŃinut - implică examinarea sistematică a conŃinutului testului pentru a se


verifica dacă testul acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat
prin test

Validitatea de criteriu - indică măsura în care testul este un bun predictor pentru un
eşantion de comportamente viitoare

Validitatea predictivă - este definită ca acurateŃea cu care putem estima în ce măsură o


anumită caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii
în care persoana posedă o serie de caracteristici sau aptitudini curente

87
Scurtă biografie a titularului de curs

Lector univ. dr. Anca DOBREAN este titular la Catedra de Psihologie Clinică şi
Psihoterapie din cadrul Universitatii Babes Bolyai. Domeniile sale de competenŃă includ:
psihodiagnostic, psihodiagnostic validat ştiinŃific, patologia copilului şi adolescentului.
Anca Dobrean participat in calitate de director, coordonator sau membru in 8
proiecte de cercetare naŃionale şi internaŃionale, şi a publicat ca autor sau coautor peste 30 de
studii stiintifice in reviste de specialitate, indexate ISI, recenzate in baze de date
internaŃionale şi/sau recunoscute CNCSIS.

88