Documente Academic
Documente Profesional
Documente Cultură
Anca Dobrean
PSIHODIAGNOSTIC
Sem I
Calendarul cursului:
- consultaţiile online (faţă în faţă) vor avea loc în luna noiembrie 2021 şi ianuarie 2022.
(Notă: informațiile legate de ora și dată se vor consulta pe site)
Proiectul va fi trimis până în data de 09 ianuarie 2022 pe adresa de email : psihodiagnosticid@gmail.com
Tutori: prof. dr. Anca Dobrean, dr. Raluca Georgescu, drd. Iulia Coșa
Adresa de contact: psihodiagnostid@gmail.com
Obs.: toate mesajele legate de această disciplină se vor trimite doar pe adresa psihodiagnosticid@gmail.com
Ore de consultaţii prof. univ. dr. Anca Dobrean: joi 10-12, online.
Disciplina Psihodiagnostic este o disciplină obligatorie pentru anul II. Scopul principal pentru semestrul I
este acela de a asimila principalele cunoştinţe şi deprinderi de a analiza un instrument de evaluare psihologică.
Condiţionări şi cunoştinţe prerechizite
Înscrierea la acest curs este condiţionată de parcurgerea următoarelor discipline Psihologie generală I ,
Psihologie generală II, Psihologie Experimentală I şi Psihologie Experimentală II. Cunoştinţele dobândite
prin aprofundarea acestor discipline sporesc considerabil accesibilitatea temelor propuse în acest curs. În
totalitatea lor, aceste prerechizite vor fi foarte utile în rezolvarea sarcinilor de lucru şi, respectiv în
promovarea examenului de evaluare finală.
1
Descrierea cursului
Cursul de Psihodiagnostic face parte din pachetul de discipline fundamentale ale specializării psihologie, nivel
licenţă, din cadrul Facultăţii de Psihologie şi Ştiinţe ale Educaţiei a Universităţii „Babeş-Bolyai” din Cluj-
Napoca. Cursul are ca obiectiv formarea cunoştinţelor de bază în ceea ce priveşte psihodiagnosticul şi
evaluarea psihologică, elemente esenţiale în anatomia oricărui demers psihologic. Cursul abordează o serie de
modalităţi şi instrumente de evaluare psihologică, urmărind formarea cunoştinţelor şi competenţelor de analiză
a principalelor calităţi psihometrice ale acestor instrumente (fidelitatea, validitatea, etalonarea) precum şi
oferirea unor cunoştinţe de bază privind construcţia, aplicarea şi interpretarea testelor psihologice.
Parcurgerea celor opt module descrise va presupune atât întâlniri faţă în faţă (consultaţii), cât şi
muncă individuală. Consultaţiile, pentru care prezenţa este facultativă, reprezintă un sprijin direct acordat
dumneavoastră din partea titularului şi a tutorilor. Acestea vor presupune prezentarea teoretică a informaţiilor
fiecărui modul. Pentru fiecare modul, dumneavoastră veţi parcurge materialele bibliografice obligatorii. Vor
exista două sarcini obligatorii, discutate şi detaliate la fiecare dintre cele două consultaţii. Grila de notare şi
enunţul acestora vor fi specificate la aceste întâlniri. Modalitatea de notare şi, respectiv, ponderea acestor
activităţi obligatorii, în nota finală vă sunt precizate în secţiunea politică de evaluare şi notare.
Pe scurt, având în vedere particularităţile învăţământului la distanţă dar şi reglementările interne ale
CFCID al UBB parcurgerea şi promovarea acestei discipline presupune antrenarea studenţilor în următoarele
tipuri de activităţi:
a. consultaţii – pe parcursul semestrului vor fi organizate două întâlniri de consultaţii online (faţă în
faţă); prezenţa la aceste întâlniri este facultativă;
b. realizarea unei sarcini de lucru, anunţată cu cel puţin 30 de zile înaintea datei de depunere a acesteia,
trimise tutorilor în conformitate cu calendarul disciplinei.
În suportul de curs, la finalul fiecărui modul sunt precizate referinţele biblografice obligatorii. Sursele
bibliografice au fost astfel stabilte încât să ofere posibilitatea adâncirii nivelului de analiză şi, implicit,
comprehensiunea fiecărei teorii, facilitând înţelegerea şi aprofundarea temelor de studiu abordate în fiecare
modul. Bibliografia obligatorie aferentă acestui curs este:
Gregory, R. J. (2014). Psychological testing: History, principles, and applications. Allyn & Bacon.
(Capitolele 1-4)
Kaplan, R., Saccuzzo, D. (2017) Psychological Testing: Principles, Applications, and Issues-Cengage
Learning. (Partea I)
Urbina, S. (2010). Testarea psihologica. Editura Trei. Bucuresti.
2
Materiale şi instrumente necesare
- laptop/calculator desktop
- conexiune Internet
- statie video (cameră video)
- staţie sonorizare (căști audio)
Calendarul cursului
Sunt programate 2 întâlniri (consultaţii online) cu toţi studenţii în noiembrie 2021 şi ianuarie 2022.
Pentru prima întâlnire se recomandă lectura atentă a primelor patru module; la cea de a doua se
discuta ultimele patru module şi se realizează o secvenţă recapitulativă pentru pregătirea examenului final.
De asemenea în cadrul celor două întâlniri studenţi au posibilitatea de solicita titularului şi/sau
tutorilor sprijin pentru sarcinilor de lucru obligatorii. Pentru a valorifica maximal timpul alocat celor două
întâlniri se recomandă parcurgerea obligatorie a cel puţin uneia dintre sursele bibliografice de referinţă. La
fiecare dintre aceste două întâlniri vor fi prezentate detaliat sarcinile obligatorii şi termenul limită de predare a
lor.
Politica de evaluare şi notare
Evaluarea finală se va realiza pe bază unui examen grilă desfăşurat în sesiunea de la finele semestrului
I. Nota finală se compune din:
a. punctajul obţinut la acest examen în proporţie de 60% (6 puncte)
b. evaluarea sarcinilor obligatorii de pe parcurs – 30%. (3 puncte)
c. punct din oficiu – 10% (1 punct)
Instrucţiuni suplimentare privind modalităţile de elaborare, redactare, dar şi criteriile de notare ale
lucrărilor, vă vor fi furnizate de către titularul de curs sau tutori în cadrul întâlnirilor faţă în faţă.
Pentru predarea sarcinilor se vor respecta cu stricteţe cerinţele formatorilor. Sarcinile predate după
data afişata nu vor fi luate în considerare pentru notare.
Rezultatele finale vor fi puse la dispoziţia studenţilor prin afişaj electronic.
• Studenţii care susţin examene de mărire de notă sau restanţe trebuie să prezinte toate sarcinile aferente
cursului.
• Fraudarea examenului sau a sarcinilor de lucru de pe parcursul semestrului se penalizează prin
exmatriculare.
• Proiectele copiate, discuţiile sau colaborările în timpul examenelor se sancţionează cu nota 1.
Nepredarea lucrării scrise de către un student care se prezintă la examen este sancţionată cu nota 1.
• Orice material elaborat de către studenţi pe parcursul activităţilor va face dovada originalităţii.
Studenţii ale căror lucrări se dovedesc a fi plagiate nu vor fi acceptaţi la examinarea finală.
• Discuţiile sau colaborările în timpul examenelor se sancţionează cu nota 1. Nepredarea lucrării scrise
de către un student care se prezintă la examen este sancţionată cu nota 1.
• Contestarea notei primite la examen se face în scris, la secretariatul facultăţii, în termen de 48 ore de
la afişarea rezultatelor. Nota finală la disciplină respectivă este cea obţinută în urma contestaţiei.
3
• Studenţi cu nevoi speciale
Studenţii afectaţi de dizabilităţi motorii sau intelectuale pot contacta titularul cursului sau tutorii
pentru a li se acorda materialele de studiu necesare şi suportul informaţional necesar. Titularul cursului şi
echipa de tutori îşi exprimă disponibilitatea, în limita constrângerilor tehnice şi de timp, de a adapta
conţinutul şi metodelor de transmitere a informaţiilor precum şi modalităţile de evaluare (examen oral,
examen on line etc) în funcţie de tipul dizabilităţii cursantului.
Adresa contact titular de curs : ancadobrean@psychology.ro
Adresa contact tutori : psihodiagnosticid@gmail.com
Pentru fiecare modul, studenţilor li se recomandă să citească notiţele de la curs şi capitolul aferent din
minim una din cărţile prezentate la bibliografie. Realizarea sarcinilor oligatorii va facilita înţelegerea şi
aprofundarea cunoştinţelor din aceste module. Lectura fiecărui modul şi rezolvarea la timp a lucrărilor de
evaluare garantează nivele înalte de înţelegere a conţinutului tematic şi totodată sporesc şansele promovării cu
succes a acestei discipline
4
I. CONCEPTELE DE MĂSURAREA ŞI EVALUARE ÎN PSIHOLOGIE
• Scopul şi obiectivele: obiectivul esenţial al acestui modul este să se poată face diferenţa
între conceptele de evaluare psihologică şi testare psihologică. Acest modul este unul introductiv
care îi ajută pe studenţi să îşi facă o imagine iniţială a ceea ce înseamnă psihodisgnosticul.
Obiective de studiu:
5
EVALUARE VERSUS TESTARE PSIHOLOGICĂ
Thorndike (1918) - Dacă ceva există, atunci există într-o oarecare măsură
McCall (1939) - Orice există într-o oarecare măsură poate fi evaluat
Test psihologic
Test psihologic
Alte
instrumumente
de evaluare
6
1914 Stern introduce termenul de coeficient de inteligenţă
(IQ) = vârsta mintală/vârsta cronologică
1916 Lewis Terman reia scalele Binet-Simon, publicând Scalele Stanford-Binet. Acestea
vor fi revizuite treptat în anii 1937, 1960, 1986
1917 Robert Yerkes realizează testele pentru încorporarea în armata americană în timpul
Primului Război Mondial: Army Alpha şi Army Beta
1920-1940 Dezvoltarea majoră a testelor de personalitate
1920 Testul Rorchach
1921 Este fondat Psychological Corporation (Cattell, Thorndike, Woodworth)
1927 Este elaborat primul chestionar ce viza orientarea profesională
1939 Wechsler Bellevue Intelligence Scale elaboarată de David Wechsler. Va fi revăzută
ulterior şi îmbunătăţită în anii 1955 (WAIS) şi 1981 (WAIS-R)
1942 Minesota Multiphasic Personality Inventory (MMPI)
1949 Weschler Intelligence Scale for Children (WISC). Va fi revăzut şi îmbunătăţit în anii
1974 (WISC-R) şi 1990 (WISC-III)
1967 Wechsler Primary and Prescholl Intelligence Scale (WPPSI)
Testul reprezintă alături de alte instrumente ale metodei experimentale o sursă de informaţii extrem de utilă în
evaluarea comportamentului uman.
A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate
(Stevens, 1951). Aceste reguli stabilesc o corespondenţă între proprietăţile numerelor şi proprietăţile
obiectelor/fenomenelor.
7
▪ scale nominale
▪ scale ordinale
I.3.1. SCALE DE MĂSURĂ
▪ scale de interval
Distingem 4 tipuri de scale de măsură (Stevens,
1946): ▪ scale de raport / proporţii
Definiţie
relaţie de echivalenţă
Orice două submulţimi ale unei clase, nu
trebuie să se intersecteze
Exemple:
1. sexul (femei / bărbaţi) - o clasă de elevi cuprinde 31 elevi din care 14 băieţi şi 17 fete;
2. categoriile socioprofesionale
Definiţie
Măsurarea pe o scală ordinală realizează ierarhizarea claselor.
relaţie de echivalenţă
relaţie de ordine
Observaţie:
Clasele sunt ordonate, dar distanţa dintre ele nu poate
fi estimată.
8
I.3.1.2. SCALELE DE INTERVAL
Definiţie
Măsurarea pe o scală de interval presupune o unitate de măsură comună şi
constantă.
relaţie de echivalenţă
relaţie de ordine
distanţa între clase (zero arbitrar)
Exemple:
1. IQ
2. Coeficient perceptiv.
Definiţie
Posedă proprietăţile scalelor de interval, dar în plus au un punct zero nonarbitrar.
9
I.4. TESTUL VIZEAZĂ UN EŞANTION DE COMPORTAMENT
Testul psihologic, la fel ca testele în alte ştiinţe realizează observaţii pe un eşantion de comportamente
ale unui subiect. Dacă un psiholog doreşte să evalueze vocabularul unui copil sau aptitudinile sale aritmetice
sau coordonarea motrică la un pilot va trebui să aleagă din totalitatea comportamentelor disponibile câteva
reprezentative pentru ale include într-o probă psihologică.
10
4. Itemi cu răspunsuri ce trebuie alăturate după diferite criterii
ex. __ 1. primul test de inteligenţă A. Raven
__ 2. test proiectiv de personalitate B. Binet-Simon
__ 3. test de inteligenţă de grup C. Rorschach
! Itemul este un stimul specific care determină un anumit comportament ce poate fi cotat şi
evaluat independent
Tipuri de itemi:
I. Itemi de tip "eseu"
II.Itemi cu răspunsuri date: a. itemi de tip "da-nu", b. "adevărat-fals", itemi cu răspunsuri la alegere, c.
itemi cu răspunsuri pe scale de tip: "da-nu-nu ştiu", "de acord-acord parţial-dezacord", d. Itemi cu
răspunsuri ce trebuie alăturate după diferite criterii
"întotdeauna-adesea-uneori-niciodată"
I.7. SCOPUL UTILIZĂRII TESTELOR PSIHOLOGICE
1. Selecţie/clasificare.
2. Diagnostic şi intervenţie
3. Autocunoaştere
4. Proiecte de evaluare a unor modificări intervenite în urma unor intervenţii educative, psihoterapeutice.
5. Instrumente ale cercetării ştiinţifice
11
I.9. CLASIFICĂRI ALE TESTELOR PSIHOLOGICE
12
Testeaza-ti singur cunostintele:
4. Ce este un item?
1) Copii din şcoala primară au fost evaluaţi şi clasificaţi în funcţie de nivelul de citire în copii care nu
ştiu să citească (0), începători (1), intermediari (2) şi nivel avansat (4). Alege scala potrivită de
măsurare :
a. Nominală
b. Ordinală
c. De interval
d. De proporţii
2) În timpul unui intrviu clinic, supravieţuitorii unui accident aviatic au fost rugaţi să răspundă cu „da”
sau „nu” la întrebarea dacă au obervat simptome specifice ale stresului post traumatic în ultimele
săptămâni. Un răspund „nu” era notat cu 0 şi un răspuns „da” era notat cu „1”. Alege scala potrivită
de măsurare:
a. Nominală
b. Ordinală
c. De interval
d. De proporţii
3) Când operezi cu scaler de interval ce indicatori statistici poţi calcula?
a. Medie
b. Mediană
c. Coeficienţi de corelaţie
d. Varianța
4) Standardizarea este procesul de obiectivare şi uniformitate a unui test raportat la :
a. Aplicare, cotare, interpretare şi raportare.
b. Aplicare, interpretare şi raportare
c. Aplicare, interpretare, raportare şi prezentare persoanei evaluate.
d. Aplicare, cotare, interpretare, raportare şi prezentare persoanei evaluate.
5) Prin ce se deosebeşte evaluarea psihologică de testarea psihologică?
a. Sunt similare
b. Testarea psihologică este inclusă în evaluarea psihologică
c. Evaluarea psihologică include mai multe surse de informaţie
d. Testarea psihologică implică procesul de administrare, cotare şi interpretarea a unui
test psihologic.
6) Scalele de interval au aceeleasi propietati precum scalele de proporţii cu excepţia faptului că au un
punct zero arbitrar
a. Adevărat
b. Fals
7) Din punct de vedere statistic atunci când avem o scală ordinală putem calcula media, centilele şi
reprezenta grafic histogramele:
a. Adevărat
b. Fals
8) În psihologie măsurătoarea se realizează utilizând următoarele scale de măsurare:
13
a. De proporţii
b. Nominale
c. De interval
d. Ordinale
9) Scopul utlizarii unui test psihologic este de :
a. Diagnostic
b. Autocunoaştere
c. Selecţie şi clasificare
d. Instrumente ale cercetării ştiinţifice
e. Evaluare a unor modificări intervenite după anumite intervenţii
10) În psihologia organizaţională un test psihologic este utilizat în :
a. Evaluarea aptitudinilor angajaţilor
b. Evaluarea potenţialului de colegialitate
c. Evaluarea potenţialului managerial
d. Evaluarea leziunilor cerebrale
11) În psihologia clinică testul psihologic este utilizat în evaluarea psihopatologiei şi a inteligenţei :
a. Adevărat
b. Fals
• Sumar
Termenii de evaluare respectiv testare psihologica sunt doi temeni distincţi. Evaluarea psihologica include
testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test
psihologic. Testul psihologic reprezintă, alături de alte instrumente ale metodei experimentale, o sursă de
informaţii extrem de utilă în evaluarea comportamentului uman. În literatura de specialitate găsim diferite
definiţii ale testului psihologic. Este important de reţinut că acesta reprezintă o colecţie de itemi care pot fi, fie de
tip eseu, fie cu răspunsuri date.
Prin conceptul de măsurare se înţelege atribuirea de numere obiectelor sau fenomenelor potrivit unor reguli
determinate (Stevens, 1951). Aceste reguli stabilesc o corespondenţă între proprietăţile numerelor şi proprietăţile
obiectelor / fenomenelor. Astfel, prin testul psihologic se vizează acele atribute / trăsături specifice iar pentru a le
măsura se utilizează scalele de măsură (scale nominale, ordinale, de interval, de raport / proporţii).
Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. P 3-27
14
II. ETALONAREA TESTELOR
• Scopul şi obiectivele: în cadrul acestui modul studenţii vor acumula informaţii cu privire la
modalităţile de interpretare a rezultatelor obţinute în urma aplicării unui test psihologic.
Obiective de studiu:
15
NORMELE TESTELOR
În general, numărul de itemi rezolvaţi corect de subiect la un test este operaţionalizat prin scor sau cotă
brută. Această valoare însă nu are nici o semnificaţie dacă nu o comparăm cu anumite norme, standarde sau
etaloane.
Etalonul (norma sau standardele) reprezintă deci cadrul de referinţă al unui subiect cu populaţia. Un scor brut
obţinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanţa unui
subiect.
Să luăm un exemplu.
Să presupunem că la un test de cunoştinţe de matematică alcătuit din 100 de itemi un subiect rezolvă corect 30
de itemi. Scorul brut obţinut de subiect la acest test este 30. Ce reprezintă această valoare? Reprezintă o
performanţă slabă, medie sau bună la test? Pentru a putea răspunde la această întrebare trebuie să comparăm
această valoare cu un cadru de referinţă sau etalon. Acest etalon poate fi reprezentat de performanţa obţinută
de ceilalţi subiecţi la test şi astfel raportăm subiectul la performanţa celorlalţi sau dimpotrivă, cadrul de
referinţă îl poate constitui o normă naţională în care cadrul de referinţă îl constituie întreaga populaţie din care
face parte.
Procesul de etalonare al unui test reprezintă stabilirea unui cadru de referinţă, a unei scări care să permită
determinarea locului ocupat de rezultatele unui subiect faţă de rezultatele unei populaţii de referinţă, suficient
de numeroasă, formată din persoane comparabile cu cea examinată.
ETALONAREA
Etalonarea are astfel următoarele scopuri:
1. conferă semnificaţi scorurilor şi permite interpretarea acestora;
2. permite directă a scorurilor. Astfel, un scor de 33 obţinut de un subiect la un test poate să nu aibă
aceeaşi semnificaţie la un al doilea test.
1. Definirea populaţiei constituie primul pas în construirea normelor. Acest proces cuprinde de fapt
circumscriera persoanelor pentru care este destinat testul. Astfel, această definire se face prin prezentarea
unor caracteristici care vor permite recunoaşterea unei persoane ca aparţinând sau nu populaţiei pentru
care a fost construit testul.
Exemplu.
a. Testul Bender Gestalt evaluează funcţia perceptiv motrică între 5 şi 10 ani. În această situaţie ştim că
orice persoană cu vârsta între 5 şi 10 ani poate fi evaluată cu testul Bender pentru a se identifica nivelul
dezvoltării funcţiei perceptiv motrice.
b. Testul de cunoştinţe matematice „X” cuprinde toţi copiii de liceu (14-18 ani) din judeţul Cluj. Pentru ca
performanţa unui copil la acest test de cunoştinţa matematice să poată fi raportată la etalon, copilul
16
respectiv trebuie să aibă următoarele caracteristici: să aibă vârsta cuprinsă între 14-18 ani şi să urmeze un
liceu în judeţul Cluj.
2. Deoarece testul nu poate fi aplicat la întreaga populaţie pentru care a fost construit se impune selecţia din
cadrul populaţiei (stabilite anterior) a unui grup sau eşantion de normare. Eşantionarea în psihologie se
constituie mult mai greu decât în alte domenii cum ar fi sociologia deoarece examinările sunt costisitoare
dacă se fac la domiciliul subiecţilor.
Eşantionul trebuie să fie reprezentativ pentru populaţie. Astfel structura eşantionului trebuie să respecte
structura populaţiei. Variabilele care se vor lua în considerare în construirea eşantionului ţin cont atât de
caracteristicile populaţiei (vezi definirea acesteia) cât şi de caracteristicile constructului măsurat de test.
Exemplu
Dacă avem un test adaptat în România care evaluează inteligenţa la copiii preşcolari, populaţia testului o
constituie copiii de vârsta 4 – 7 ani din România. Acestea reprezintă caracteristicile populaţiei. În afara acestor
caracteristici trebuie să ţinem cont însă şi de caracteristicile constructului. În acest caz, inteligenţa depinde şi
de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vârstă construită vom avea ca variabilă
mediul (ex. Rural sau urban).
Construirea eşantionului se poate realiza prin mai multe tipuri de selecţie. Cele mai des întâlnite selecţii sunt
cele aleatoare şi cele stratificate. În cazul selecţiei aleatoare oricare membru al populaţiei are şanse egale de a
fi inclus în eşantion. În cazul selecţiei stratificate se face întâi o împărţire a populaţiei în clase (în funcţie de
variabilele relevante) şi apoi pentru fiecare clasă se trece la o selecţie aleatoare.
Când poate fi considerat un eşantion aleatoriu? – dacă fiecare subiect are o probabilitate aleatoare de a
fi selectat. Extragerea Loto este aleatoare? La primul nr da.
3. Deoarece rezultatele nu se pot culege de un singur examinator, la un singur moment în timp, este
important ca în timpul etalonării administrarea să se realizeze standard, păstrând aceleaşi condiţii de
aplicare şi cotare.
4. După ce s-a aplicat testul la întregul eşantion se obţine o colecţie de date pe baza cărora se impune
construirea normelor testului.
17
METODE DE ETALONARE (NORMARE)
Orice persoană evaluată obţine la un instrument de evaluare un rezultat observabil
a. la testele de aptitudini cognitive: răspunsuri corecte sau greşite
b. la testele de personalitate: evidenţierea unei trăsături investigate faţă de conţinutul aserţiunii
unui item
Distribuţia normală
Cu cât avem o colecţie mai mare de date cu atât acestea respectă mai mult distribuţia lui Gauss.
- proprietăţile curbei normale (figura 1): 68% este între + 1sigma, 95% este intre + 2sigma,
Beneficiul interpretării rezultatelor pe baza distribuţiei normale = simplifică interpretarea scorurilor
individuale la un test. In cazul distribuţiei normale media, mediana şi modul au aceeaşi valoare
- cunoscând că o persoana se găseşte în intervalul + 1 sigma ne spune ca aproximativ 2 treimi din populaţie
are acelaşi scor.
Scorurile standard
- Transformările liniare în scoruri standard, folosind media şi abaterea standard a
distribuţiilor
Un scor standard este un scor care a fost transformat dintr-o scală în alta, ultima fiind
una pe baza căreia se pot face comparaţii.
- cele mai cunoscute sunt scorurile z şi T
18
Scorurile z
- scorul z are media 0 si abaterea standard 1
z = (X –M)/
Exemplu
La un test de citire un subiect obţine un scor brut de 24 (media=20, sigma=3), iar la matematică un scor brut
de 42, media = 60, sigma=10. Calculaţi scorul z pentru ambele performanţe. Interpretaţi valorile obţinute.
Scorurile T
T = 50 + 10z
• T este o scală a cărei medie este 50 si sigma este 10;
• Propus de McCall (1922, 1939) în cinstea profesorului sau Thorndike (T);
• Cuprinde 5 sigma sub/peste medie;
• Scorul care se gaseste la exact 5 sub medie va reprezentat un scor T de 0, media va fi 10, iar 5 sigma
peste medie va fi 100;
• Avantajul la scorurile T este ca nu avem o valoare negativa;
• Utilizat de exemplu la testul Minesota Multiphasic Personalty Inventory (MMPI).
Paşi:
1. se aranjează scorurile de la cel mai mare la cel mai mic;
2. se stabileşte frecventa pentru fiecare scor;
3. se stabileşte frecventa cumulata;
4. se calculează procentul fiecărei clase;
5. se face corespondenţa scor + procent din distribuţia de frecvenţă cumulată;
19
Exemplu
Să presupunem că un test a fost aplicat la 325 de subiecţi. Scorul maxim al testului este 42 iar scorul minim
este 2. Tabelul 1 prezintă frecvenţa fiecărui scor, frecvenţa cumulată şi stanina corespunzătoare.
Pentru a afla scorurile care intră în stanina 8 luăm procentul din populaţie din stanina 9 la care adăugăm
procentul corespunzător staninei 8 adică:
4% + 7% = 11%
Repetăm apoi algoritmul utilizat în stabilirea scorurilor pentru stanina 9:
20
325....................100%
x.........................11%
x=35,75
Valoarea frecvenţei cumulate cea mai apropiată de 35,75 este valoarea 34, valoarea căreia îi corespunde scorul
brut de 35. deci, în stanina 8 avem toate scorurile între 38 şi 35.
Dacă performanţa subiectului se găseşte în staninele 4, 5 sau 6 putem spune că performanţa sa la test este una
medie. O performanţa încadrată în staninele 2 şi 3 este un slabă, iar o performanţă încadrată în stanina 1 este
una foarte slabă. De cealaltă parte a medie, staninele 7 şi 8 indică o performanţă bună la un test, iar stanina 9
reprezintă o performanţă foarte bună.
Etaloanele în decile, quartile, centile, împart distribuţia în clase egale; decilele cuprind 10 clase (10% din
populaţie în fiecare clasă), quartilele cuprind 4 clase (25%), iar centilele 100.
21
Orice manual al unui test psihologic conţine normele testului şi trebuie să includă următoarele aspecte:
1. indicii demografici ai populaţiei pentru care a fost construit testul. Cei mai frecvenţi indicatori sunt:
vârsta, sexul, mediul din care fac parte subiecţii, nivelul de şcolarizare Putem spune că aceşti
indicatori definesc populaţia pentru care este destinat testul. Astfel, un test care evaluează inteligenţa
la copiii preşcolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de
referinţă la care să raportăm performanţa obţinută de acest copil.
2. numărul persoanelor pe care a fost etalonat testul şi modul de eşantionare ales. Această informaţie
este utiă pentru analiza semnificaţiei etalonului. Ne interesează în acest caz dacă etalonul testului are
la bază un număr suficient de mare de persoane dintr-o populaţie pentru a-l putea considera
reprezentativ.
3. data construirii normelor. Această informaţie este utilă deoarece ne ajută ă identificăm dacă
populaţia pe care a fost etalonat testul mai posedă caracteristicile populaţiei din care face parte
subiectul testat. Este cunoscut faptul că unele constructe psihologice sau cunoştinţe sunt dependente
de evoluţie. De exemplu un test care evalua nivelul dezvoltării vocabularului la o anumită populaţie în
anii 1940-1950 nu mai are aceleaşi norme în prezent deoarece populaţia a evoluat şi astfel normele
trebuie mereu reactualizate.
1. Ce reprezintă etalonul?
• Sumar
În general, numărul de itemi rezolvaţi corect de subiect la un test este operaţionalizat prin scor sau cotă brută.
Această valoare însă nu are nici o semnificaţie dacă nu o comparăm cu anumite norme, standarde sau etaloane.
Etalonul (norma sau standardele) reprezintă deci cadrul de referinţă al unui subiect cu populaţia. Un scor brut
obţinut la un test nu are nici o valoare deoarece pe baza lui nu putem şti unde se situează performanţa unui subiect.
Etalonarea conferă semnificaţi scorurilor şi permite interpretarea acestora şi permite compararea directă a
scorurilor. Pe lângă aceasta este foarte important ca procesul de construcţie a unui etalon să respecte o serie de paşi.
În cadrul metodelor de etalonare trebuie să ţinem cont de distribuţie (cu cât avem o colecţie mai mare de date cu
atât acestea respectă mai mult distribuţia lui Gauss) şi de o serie de scoruri: standard sau in clase normalizate.
22
Testează-ți cunoștințele singur!
1. La un test de performanţă de citire, un subiect are scorul brut de 24. Care este nivelul
însuşirii cunoştinţelor sale dacă:
i. media la test este 30 şi este 4?
ii. media la test este 30 şi este 7?
iii. media la test este 40 şi este 5?
2. Pentru fiecare din studiile următoare se va descrie procedura de eşantionare. Citiţi fiecare descriere şi
identificaţi tipul de eşantionare folosit:
A. Un profesor de psihologie ataşează un scurt chestionar care vizează obiceiurile de studiu al elevilor la
fiecare al patrulea test şi distribuie aceste teste elevilor pe măsură ce aceştia intră în clasă.
B. Cercetătorul selectează aleatoriu jumătate din celulele unui penitenciar şi intervievează toţi indivizii din
celulele selectate.
C. Un administrator dintr-un cămin de studenţi selectează aleatoriu cinci dormitoare din campus şi din
studenţii acestora selectează aleator 60% studenţi de anul I şi 40% studenţii din anii mai mari pentru un studiu
vizând consumul de alcool.
3.Procesul de construcţie a unui etalon curpinde definirea populaţiei, eşantionarea şi construcţia cotelor:
a) adevărat
b) fals
4. Etalonarea şi normarea unui test sunt activităţi identice.
a) adevărat
b) fals
5. Scopul etalonării unui test este de a da semnificaţie scorurilor, de a permite interpretarea lor şi de a putea
face o comparaţie directă între ele .
a) adevărat
b) fals
6. Media, mediană şi modul în cazul distribuţiilor normale ( Gauss) au aceleaşi valori.
a) adevărat
b) fals
7. Într-o distribuţie Gauss media şi modul sunt egale.
a) adevărat
b) fals
8. Scorurile T şi Z sunt scoruri standard. Ele sunt obţinute din media şi abaterea standard a distribuţiilor.
Scorurile z au mereu media 0 şi abaterea standard 1.
a) adevărat
b) fals
9. Un chestionar a fost aplicat la 549 de angajaţi. Scorul maxim al testului este 50 iar scorul minim este 6.
Pentru a calcula stanina corespunzătoare fiecărui scor avem nevoie de scorurile brute şi de frecvenţă fiecărui
scor.
a) adevărat
b) fals
10. Indicii demografici, numărul personelor şi data construirii normelor sunt aspecte specificate în:
_____________________________________________________
• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 3-27
Urbina, S. (2010). Testarea psihologica. Editura Trei, București.
23
III. FIDELITATEA TESTULUI PSIHOLOGIC
• Scopul şi obiectivele: scopul acestui modul este de a îi învăţa pe studenţi ce reprezintă fidelitatea
testului psihologic, de câte tipuri este aceasta, cum se calculează fidelitatea şi modalităţile de influenţare a
fidelităţii unui test. Aceste elemente sunt foarte importante pentru că fidelitatea reprezintă absenţa relativă
dintr-o probă psihologică a erorilor de măsurare. În psihologie acest lucru nu poate fi întâlnit; de aceea orice
test psihologic trebuie să estimeze valoarea acestor erori aleatoare de măsură. Astfel, calculul fidelităţii îi ajută
pe studenţi să indice măsura în care scorurile obţinute la test exprimă de fapt valorile reale ale constructului pe
care testul îl măsoară.
Obiective de studiu:
24
FIDELITATEA TESTELOR
The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in
vacuum during the time interval of 1/299 792 458 of a second. This replaces the two previous definitions of
the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a definition
adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case, the change
in definition achieved not only an increase in accuracy, but also progress toward the goal of using
fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of atomic
systems. - Taylor,1991.
Analiza fidelităţii unui test porneşte de la conceptul de eroare. Orice scor la un test psihologic este rezultatul
scorului real şi al unei erori de măsură:
Xobservat = Xreal + e (e = eroarea de măsură)
Fidelitatea reprezintă absenţa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru însă
în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor erori
aleatoare de măsură. Calculul fidelităţii indică măsura în care scorurile obţinute la test exprimă de fapt valorile
reale ale constructului pe care testul îl măsoară.
Toţi coeficienţii prezentaţi se bazează pe un calcul de corelaţie între itemii ce alcătuiesc testul.
Un coeficient de consistenţă ridicat exprimă faptul că toţi itemii testului se referă la aceeaşi variabilă.
În afara coeficienţilor prezentaţi anterior, consistenţa internă a unui test poate fi calculată şi pe baza
metodei înjumătăţirii. Pe baza acestei metode testul este împărţit în jumătate, calculându-se
coeficientul de corelaţie dintre cele două părţi. Dacă acest coeficient este ridicat el ne indică o bună
fidelitate (consistenţa internă) a testului. O formă particulară a metodei înjumătăţirii o constituie
metoda item cu item, în care testul este împărţit în două prin selectarea itemilor pari respectiv a celor
impari. Aceasta tehnică este utilă mai ales în cazul testelor în care itemii sunt prezentaţi în ordinea
crescândă a dificultăţii. Se calculează şi acest caz coeficientul de consistenţă internă între cele doua
părţi ale testului, valoarea lui reprezentând valoarea coeficientului de fidelitate.
25
II.1.2. STABILITATEA
Stabilitatea rezultatelor testării ne indică în ce măsură la aplicări diferite în timp un subiect obţine
rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizează astfel:
a) se administrează testul la un grup de persoane;
b) după un interval de timp se readministrează testul;
c) se calculează un coeficient de corelaţie între rezultatele la cele două administrări.
O valoare mare a acestui coeficient indică o bună stabilitate în timp a rezultatelor. Se poate spune despre acel
instrument că este fidel deoarece relevă aceleaşi valori ale unei variabile la măsurători diferite în timp.
Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest, vârsta
subiecţilor precum şi condiţiile în care s-au administrat testele pentru a putea identifica eventualele surse de
eroare de măsură.
➢ Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori fie prea dificili se vor obţine
coeficienţi de stabilitate ridicaţi deoarece itemii testului fie vor fi rezolvaţi de majoritatea subiecţilor (în
primul caz) fie nu vor fi rezolvaţi nici la test nici la retest (al doilea caz).
➢ Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaţii în care se obţin
performanţe diferite la retest deoarece subiectul fie a învăţat să răspundă la itemi după prima administrare, fie
această primă administrare a determinat schimbări de atitudini faţă de o anumită problemă.
26
Avantajul acestei metode este acela că nu mai permite reamintirea răspunsurilor şi nici posibilitatea căutării
răspunsurilor la întrebările la care nu s-a ştiut răspunde.
Dezavantajele acestei metode sunt următoarele:
➢ necesită consum de timp prin două administrări;
➢ subiecţii se pot plictisi dacă testările sunt prea lungi;
➢ este greu de realizat fiind dificilă şi costisitoare.
! Trebuie menţionat faptul ca deşi fidelitatea unui test este importanta, ea nu este suficientă
pentru un test bun. Un test poate avea o bună consistenţă internă (toţi itemii evaluează aceeaşi variabilă)
respectiv o bună stabilitate în timp, dar să măsoare altceva decât îşi propune. Problema evaluării corecte a
ceea ce îşi propune să măsoare un test constituie subiectul validităţii testelor.
Murphy & Davidshopher (1998) prezintă următoarele repere în interpretarea coeficienţilor de fidelitate
(tabelul 1):
Tabelul 1. Semnificaţia coeficienţilor de fidelitate
Valori ale Tipul testului Interpretare
coeficienţilor de
fidelitate
0.95
0.90 Testele de inteligenţă de grup Fidelitate mare
0.85 Testele de performanţă
0.80
0.75 Testele cu răspunsuri multiple Fidelitate moderată
0.70 Scalele comportamentale
0.65
0.60 Unele măsurători proiective Fidelitate scăzută
0.55
0.50 Scorul real şi eroarea au efect egal
asupra scorurilor la test
27
Aşa cum am precizat anterior orice rezultat (scorul observat) pe care o persoană îl obţine la un test este
alcătuit din aptitudinea reală (scor real) căreia i se adaugă eroarea de măsură. Adică:
Xobservat = Xreal + e (e = eroarea de măsură)
Întrebarea pe care este necesar să o analizăm în acest caz ar fi următoarea: care este intervalul în care se
găseşte scorul real. Altfel spus, dat fiind faptul că o persoană obţine un anumit scor la un test, ne interesează
care este intervalul în care putem spune că se găseşte scorul real la test. Acest interval este denumit interval de
încredere şi este definit ca probabilitatea ca scorul real al persoanei la un test să se găsească între anumite
limite.
Să luăm un exemplu.
Presupunem că la un test de inteligenţă o persoană a obţinut un scor de 115. Coeficientul de fidelitate alpha
este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflăm intervalul în care se găseşte scorul
real al persoanei la test?
SEm = SD* (1 − r )
Alegerea scorului z care va intra în calcul se face în funcţie de precizia cu care dorim să lucrăm. Dacă alegem
să lucrăm cu o probabilitate de 95% scorul z corespunzător este de 1.96 . Pentru o probabilitate de 90% scorul
z corespunzător este de 1.65. În acest exemplu să vom lucra cu o precizie de 95%, deci z=1.96. Astfel vom
avea:
IC = 115 + 1.96*2.12
IC= 115 + 4.15
În acest caz putem spune cu o probabilitate de 95% că scorul real al persoanei se găseşte în intervalul 110.85 –
119.15.
28
! DE REŢINUT:
• intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem un coeficienţi de
fidelitate mici, atunci intervalul se măreşte, deci eroarea este mai mare.
• intervalul de încredere depinde de abaterea standard a scorurilor la test.
• Sumar
Fidelitatea reprezintă absenţa relativă dintr-o probă psihologică a erorilor de măsurare. Acest lucru
însă în psihologie nu poate fi întâlnit; de aceea orice test psihologic trebuie să estimeze valoarea acestor
erori aleatoare de măsură. Calculul fidelităţii indică măsura în care scorurile obţinute la test exprimă de
fapt valorile reale ale constructului pe care testul îl măsoară. Fidelitatea unui test psihologic se referă la
două aspecte: 1. consistenţa internă şi 2. stabilitatea în timp a rezultatelor testării.
Fidelitatea unui test poate fi calculată pe baza a patru metode: 1. metoda consistenţei interne, 2. test
retest, 3. metoda formelor paralele, 4. metoda fidelităţii interevaluatori
29
Testeaza-ti singur cunostintele!
2. Testul C are eroarea standard de măsură 3,20 iar fidelitatea testului 0,76
Testul D are eroarea standard de măsură 5,6 iar fidelitatea testului 0,62
Considerând că toţi ceilalţi parametri ai celor 2 teste sunt egali, pe care dintre teste îl consideraţi mai bun?
3. Calculaţi eroarea standard de măsură pentru un scor observat de 15 şi utilizaţi valoarea obţinută pentru
a determina intervalul de încredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a scorurilor
la test este 8; Fidelitatea testului este 0,74. Calculaţi:
4. Fidelitatea unui test face referire la consistenţa internă şi la stabilitatea în timp a rezultatelor testării.
a) adevărat
b)fals
5. Metoda item cu item este o formă particulară a metodei înjumătăţirii pentru a calcula consistenţa internă
unui test.
a) adevărat
b) fals
6. Discutăm despre stabilitate în cazul fidelităţii ___________________________________________
7. Dacă un test este fidel putem utiliza fără nici o restricţie testul respectiv.
a) adevărat
b) fals
8. Un coeficient de fidelitate de 0.65 conform lui Murphy &Davidshopher (1998) reprezintă un grad de
fidelitate mare al scalei.
a) adevărat
b) fals
30
9. Scorul observat al unei persoane este compus din scorul eral ( ex: aptitudinea reală) şi o eroare de măsură.
a) adevărat
b) fals
10. Intervalul de încredere al unui test depinde de coeficientul de fidelitate.
a) adevărat
b) fals.
• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63, 63-98
Urbina, S. (2010). Testarea psihologica. Editura Trei, București.
31
IV. VALIDITATEA TESTULUI PSIHOLOGIC
• Scopul şi obiectivele: obiectivul acestui modul este să le ofere studenţilor o serie de informaţii cu
privire la validitatea testelor psihologice şi importanţa acesteia, adică faptul că e necesar să demonstrăm că
testul măsoară ceea ce şi-a propus. Orice instrument de evaluare psihologică trebuie să satisfacă cerinţele
validităţii.
Obiective de studiu:
32
VALIDITATEA TESTELOR
Definiţia validităţii
Evaluarea psihologică vizează o anumită realitate fie internă, fie externă. Numim domeniu de evaluare
orice realitate (internă sau externă) care este supusă evaluării. În orice proces de evaluare psihologică pornim
de la definirea domeniului de evaluare şi apoi propunem o serie de modalităţi cantitative prin care observăm
dacă indivizii posedă sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate să fie
mai mult sau mai puţin corectă ne punem întrebarea dacă aptitudinile /caracteristicile măsurate de test
corespund domeniului de evaluare. Astfel, pentru ca testul să fie considerat o măsură bună a domeniului de
evaluare este necesar să obţinem o serie de informaţii care să reflecte faptul că testul măsoară ceea ce şi-a
propus. Din aceste cerinţe decurge problema validităţii unei măsurători.
Orice instrument de evaluare psihologică trebuie să satisfacă cerinţele validităţii. Tradiţional, definiţia cea mai
des întâlnită a validităţii este “modalitatea în care un test măsoară ceea ce îşi propune să măsoare” (Anastasi,
1976). Validitatea se referă deci la relaţia dintre scorul obţinut la un test şi un anumit criteriu sau o
performanţă externă. Acest criteriu poate să aparţină oricărui domeniu; poate include selecţia de personal,
reuşita şcolară sau nosologia.
Istoric al studiilor despre validitate
Este cunoscut deja faptul că măsurarea psihologică şi deci implicit şi validarea îşi au rădăcinile demult în
timp. Într-un articol care viza rolul testelor în selecţia de personal, Guion (1976) realizează o trecere în revistă
a principalelor aspecte de care se ţinea cont la vremea respectivă în analiza validităţii unei măsurători
psihologice. Acestea sunt prezentate în tabelul 2:
Tabelul 2.2. Referiri la validitate
Aspecte Observaţii
1. Scopul validării este acela de a prezice o “este…important a se cunoaşte dacă scorurile la
*
performanţă viitoare un test sunt într-o modalitate mai mare sau mai
mică predictive pentru succesele ulterioare”
(Bingham, 1937, p.216)
2. Predictorii şi criteriile trebuie să fie
selectaţi pe baza analizei muncii.
3. Instrumentele de evaluare trebuie “Pentru a putea compara performanţele unei
standardizate. persoane la un test la diferite momente în timp,
testul trebuie să fie uniform” (Freyd, 1923, p.232)
4. Testele trebuie validate empiric. “Un test nu are nici o semnificaţie înainte ca
acesta să fie validat” (Link, 1924)
5. Validarea este specifică unei situaţii.
6. Un singur test nu este suficient. “Hull (1928) susţine că pentru a putea prezice cu
mare acurateţe un anumit criteriu, trebuie utilizată
o baterie alcătuită din 4, 5 sau mai multe teste”
(Guion, 1976, p.783).
7. Este bine să se utilizeze doar un singur Freyd (1923) descrie procesele prin care este
criteriu. selectat un “criteriu”
8. Metodele psihometrice sunt preferate “Evaluatorul nu se va limita la un instrument
metodelor nepsihometrice. anume de măsură, dar cele pe care trebuie să le
utilizeze cel mai des sunt testele şi chestionarele”
(Freyd, 1923, p.231)
9. Un test trebuie să ţină cont de diferenţele “Performanţele la un test trebuie analizate - acolo
individuale. unde este cazul - diferit în funcţie de sexe”
(Freyd, 1923).
*
Validarea este procesul prin care se obţin informaţii legate de validitatea unui test .
33
Analiza făcută de Guion (1976) ne oferă o imagine globală a ceea ce însemna la începutul sec. xx
modalităţi tradiţionale de realizare a studiilor de validitate a unui instrument de evaluare psihologică.
O abordare mai recentă şi poate mai corectă a validităţii este formulată de APA1, AERA2, NCSEPT3
în 1974. Conform standardelor asociaţiilor amintite “Validitatea se referă la corectitudinea inferenţelor
realizate pe baza unui test sau a altei forme de evaluare” (p.25). Altfel spus, dar fiind un set de întrebări la care
dorim să răspundem pe baza unei evaluări psihologice trebuie să ne verificăm cât de corecte (sau valide) sunt
răspunsurile (sau informaţiile) oferite de un test psihologic (Ghiselli & all, 1986).
În afara celor trei tipuri de validitate, normele APA analizează validitatea de aspect.
Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară”
(APA, 1974). Exprimă de fapt modul în care persoana evaluată percepe itemii testului; ea este importantă în
măsura în care poate influenţa răspunsurile persoanei examinate la test. Dacă persoana examinată apreciază că
testul măsoară ceea ce îşi propune să măsoare de fapt, atunci putem spune că testul are o validitate de aspect
ridicată. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu
important pentru inferenţele făcute pe baza unui test.
CRITERIU
II.2.1.VALIDITATEA DE CRITERIU
Nu de puţine ori suntem confruntaţi cu întrebări ca: “În ce măsură performanţa la un test de inteligenţă
este predictivă pentru reuşita şcolară?”, “În ce măsură rezultatul la un test de aptitudini prezice performanţa
în muncă?”, “În ce măsură performanţa la un test de memorie constituie un bun predictor pentru declinul
cognitiv la vârsta a treia?”. Aceste întrebări se adresează validităţii de criteriu. Adesea acest tip de validitate
este întâlnit sub denumirea de validitate empirică (Lyman, 1998). Validitatea de criteriu indică deci măsura în
care testul este un bun predictor pentru un eşantion de comportamente viitoare. În acest caz performanţa la un
test trebuie raportată la o altă performanţă pe care o numim criteriu.
Criteriul este definit ca standardul la care este raportată performanţa la un test. Astfel criteriul poate
fi “performanţa unui pilot care conduce un Boeing 767”, “numărul de zile petrecut într-un spital de psihiatrie”,
“notele obţinute de un elev la disciplinele umane”, “performanţa la un alt test”. Aşa cum se poate observa nu
există reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de
comportamente, o perioadă de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din sânge,
1
American Psychological Association
2
American Educational Research Association
3
National Council on Standards for Educational and Psychological Tests
34
etc. Deşi la o prima vedere se poate spune că un criteriu poate constitui orice, acest lucru este adevărat doar
dacă criteriul este relevant pentru domeniul de evaluare, dacă este necontaminat, dacă este valid şi fidel.
Un test psihologic este adecvat dacă este relaţionat cu un criteriu şi deci poate fi considerat un bun
substitut al criteriului. În general numim testul ca fiind predictor pentru criteriul respectiv.
Anastasi (1954) exemplifică câteva criterii utilizate în analizarea validităţii testelor care vizează constructe:
➢ vârsta – se foloseşte ca şi criteriu în cazul constructelor ce vizează procese care cunosc o
maturizare (ex. inteligenţa, funcţiile perceptive, etc.). Nu este un criteriu bun pentru testele care
vizează aspecte invariabile în timp (ex. variabilele ce ţin de temperament).
➢ performanţele şcolare – sunt un criteriu bun pentru testele de cunoştinţe sau pentru testele care
evaluează aptitudini şcolare.
➢ performanţele la diverse programe de instruire specială (muzică, sport, etc.) sunt criterii adecvate
pentru testele de aptitudini speciale.
➢ rezultatele altor teste se utilizează adesea ca şi criteriu în construirea de noi teste. Astfel Scala
Metrica a inteligenţei construită de Binet-Simon (1905) a folosit drept criteriu pentru teste
ulterioare construite în scopul evaluării inteligenţei;
➢ grupele contrastante - pentru un test de inteligenţă acestea ar fi constituite din copiii care
frecventează şcoala de masă, respectiv copiii integraţi în şcoala ajutătoare.
Dacă ar fi posibil întotdeauna să obţinem direct scoruri la criteriu pentru un anumit individ nu am mai
avea nevoie de măsura predictorului şi de nici o aproximare a validităţii de criteriu. Din păcate însă nu putem
obţine imediat scorurile la un criteriu; ele pot fi obţinute doar la anumite intervale în timp sau pot fi adesea
extrem de costisitoare pentru a fi obţinute la cerere pentru orice individ.
Să considerăm un exemplu.
S-a pus nu de puţine ori întrebarea ce înseamnă o performanţă bună într-o anumită organizaţie.
Performanţa poate fi definită din mai multe puncte de vedere. Astfel, organizaţia poate fi interesată de cât de
mult contribuie o persoană la creşterea profitului, iar pentru persoana respectivă performanţa poate însemna
măsura în care simte că este apreciată. Avem în acest caz de-a face cu mai multe dimensiuni ale unui criteriu.
Aceste surse de informaţii pot fi utilizate pentru a prezice fiecare dintre cele două surse ale criteriului iar
validitatea acestora va fi determinată diferit. Dacă un criteriu este adecvat este cel mai adesea o judecată de
valoare (Ghiselli et. all). Putem estima prin diferite modalităţi fidelitatea unui criteriu (stabilitatea acestuia în
timp de ex.) însă formularea lui, respectiv conţinutul acestuia constituie cel mai adesea un raţionament sau o
judecată a celui care realizează evaluarea.
35
În exemplul anterior criteriul aparţine viitorului şi în momentul evaluării nu este disponibil, deci avem
nevoie de o serie de predictori pentru estimarea acestuia. Să presupunem însă că avem de-a face cu un criteriu
care poate fi estimat acum (adică în momentul evaluării). Întrebarea pe care trebuie să ne-o punem este
următoarea: “avem la dispoziţie măsurători economice ale criteriului care pot fi folosite acum?”. Un exemplu
de astfel de criteriu este măsura în care o serie de indivizi prezintă o formă sau alta de tulburare psihică. O
analiză completă a acestei dimensiuni ar dura câteva zile şi ar fi neeconomică. Dacă în plus sarcina
psihologului este acela de a analiza un număr mare de persoane din prisma acestor criterii ar trebui găsită o
altă modalitate decât cea clinică, completă. Problema cu care ne confruntam acum este aceea de a găsi o
modalitate economică (rapidă în timp şi necostisitoare) care ar putea substitui examinarea clinică completă
care constituie criteriul.
Există de multe ori evenimente care s-au petrecut în trecut şi care deci nu mai pot fi evaluate în mod
direct. Care este în acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De exemplu,
analiza de către medic a unei electrocardiograme (predictor) poate fi utilizată ca modalitate de a decide dacă
pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intră în această categorie
este rolul pe care îl are un judecător de a stabili dacă un individ a comis o crimă în trecut (criteriul) pe baza
prezentării faptelor la proces (predictor).
Înainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reţinută următoarea afirmaţie. O
anumită variabilă poate constitui un criteriu într-o anumită situaţie respectiv predictor în altă situaţie. Ceea ce
este astăzi criteriu poate să nu mai fie mâine.
Validitatea predictivă.
Termenul de predicţie poate fi utilizat fie în sens larg când se referă la predicţia unui test pentru orice
situaţie, sau în sens restrâns când se referă la predicţie într-un interval de timp. Validitatea predictivă vizează
cel de-al doilea sens.
Validitatea predictivă este definită ca acurateţea cu care putem estima în ce măsură o anumită
caracteristică sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă
o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la
facultate ne poate interesează în ce măsură aptitudinile de care dispune acum o persoana sunt predictive pentru
performanţa academică. Pe baza notei la examenul de admitere (predictor) am putea face o predicţie asupra
reuşitei academice ulterioare (criteriu).
În practica clinică de exemplu, un test care ar reuşi să prezică tentativele viitoare de suicid ar constitui un bun
predictor pentru acest criteriu.
Ce este predicţia?
Predicţia este procesul de stabilire a unor expectaţii despre viitor având la baza date / evenimente
curente – de exemplu desprinderea unor date despre performanţa viitoare în muncă pornind de la
caracteristicile actuale ale unei persoane.
În literatura de specialitate, datele actuale se numesc „predictori”, în timp ce variabilele care descriu
performanţa se numesc „criteriu”.
36
Abordarea pe bază de trăsături (figura 1) porneşte de la asumpţia că există un număr de relaţii bine
precizate între trăsăturile unei persoane şi activităţile pe care persoana le desfăşoară, relaţii exprimate în forma
legilor psihologice. Această abordare are la bază principiul deductiv nomologic (principiul DN) din teoria
ştiinţei (Stegmuller, 1974). Când pentru un grup de persoane o anumită lege psihologică stabileşte că există o
legătură între o caracteristică A a persoanei şi un anumit tip de comportament E, putem realiza, pe baza
acestei legi, predicţia că o persoană care posedă caracteristica A va manifesta comportamentul E. Principiul
nu poate fi aplicat în această formă simplă din mai multe motive. În primul rând, relaţia dintre predictor şi
criteriu este mai degrabă una probabilistică şi nu deterministă. Astfel, cunoscând scorul unei persoane la o
variabilă predictor, putem face doar o inferenţă despre scorul la criteriu; această inferenţă se realizează cu o
anumită probabilitate şi nu cu certitudine. În al doilea rând, trăsăturile şi caracteristicile comportamentale, nu
pot fi măsurate în mod direct, ci ele sunt măsurate pe baza unor instrumente care au caracteristici psihometrice
specifice. În al treilea rând legile dintre trăsături şi comportamente trebuie stabilite foarte clar, fără contradicţii
logice. Astfel de contradicţii ar putea apare atunci când un test ar realiza o predicţie a unei performanţe bune a
persoanei, iar un alt test ar prezice o performanţă slabă.
Predicţie
Caracteristica a observată Comportamentul observat e
Reprezentare Reprezentare
37
Figura 2.2. Predicţia pe baza principiului generalizării comportamentului
Cele două modele ale predicţiei diferă din punctul de vedere al bazei lor epistemologice. Abordarea
pe baza trăsăturilor relaţionează o caracteristică durabilă a unei persoane (ceva ce persoana are) cu activitatea
sa (ceva ce persoana face). Abordarea pe baza generalizării comportamentului nu ia în considerare trăsătura,
ea relaţionează comportamente (ce face o persoană cu altceva ce face). Această a doua abordare are la bază o
similaritate mai mare între predictor şi criteriu, fapt ce poate determina o mai bună predicţie. Acest argument
susţine şi faptul că instrumentele de tipul celor orientate pe conţinut au o validitate predictivă mai mare decât
cele bazate pe trăsături (Schmitt&Noe, 1986). Similaritatea dintre cele două abordări se referă la faptul că ele
au la bază asumpţia că există o stabilitate a comportamentului; în primul caz stabilitatea este dată de
trăsătură, iar în al doilea caz stabilitatea este dată de o constantă comportamentală (comportamentul nu se
schimbă atâta timp cât situaţia nu se schimbă).
Validarea predictivă presupune existenţa unui interval de timp între test şi verificarea criteriului.
Pentru un test care are ca scop predicţia reuşitei şcolare la scris-citit în clasa I testul va fi aplicat la intrarea în
clasa I, iar criteriul (performanţele la scris-citit) va fi verificat fie după un semestru, fie la sfârşitul clasei I.
Studiul de validare al unui test care vizează prognoza reuşitei la citire în clasa I, trebuie să parcurgă
următoarele etape (Kulcsar, 1980) (figura 1):
➢ analiza psihologică a activităţii de citire; indicarea premiselor psihologice ale reuşitei la citire;
➢ alegerea unui test sau a unor teste psihologice care explorează tocmai acele aspecte psihologice
care condiţionează reuşita la citire;
➢ aplicarea testului sau a testelor psihologice destinate predicţiei reuşitei la citire;
➢ măsurarea criteriului, adică evaluarea gradului de însuşire a deprinderii de citire pe baza notelor
şcolare sau a unor probe de citire elaborate în acest scop;
➢ analiza cantitativă şi calitativă a rezultatelor la test şi la criteriu; studierea legăturii între cele două
categorii de rezultate.
38
Validarea concurentă presupune obţinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la
test. În cazul validităţii concurente este vorba tot de o predicţie, dar la aceasta se ajunge pe o cale puţin diferită
faţă de cea urmată în studierea validităţii predictive (Cronbach, 1970).
Trebuie menţionat faptul că distincţia logică între validitatea predictivă şi cea concurentă (figura 2) nu se
bazează pe relaţia temporală dintre test şi criteriu ci mai ales pe obiectivele testării. Astfel, în timp ce
validitatea concurentă are ca scop rezolvarea unei probleme privind starea actuală a subiectului, validarea
predictivă vizează evoluţia sa în viitor. Diferenţa între cele două tipuri de validitate poate fi sumarizată pe
baza următoarelor întrebări: “Este X anxios?” (validare concurentă) şi “Este posibil ca X să devină anxios?”
(validare predictivă).
Dacă rezultatele la predictor (test) sunt obţinute simultan cu rezultatele la criteriu, măsura relaţiei
dintre predictor şi criteriu o constituie validitatea concurentă. Validitatea concurentă exprimă deci în ce
măsură scorurile la test pot fi utilizate pentru a estima performanţa actuală a unei persoane la un anumit
criteriu.
Analiza validităţii de criteriu (fie ea predictivă sau concurentă) se bazează pe două tipuri de analize statistice:
coeficienţii de validitate.
Coeficienţii de validate
Validitatea de criteriu a unui test reprezintă o modalitate cantitativă şi obiectivă a relaţiei dintre scorurile la
predictor şi scorurile la criteriu. Astfel coeficienţii de corelaţie sunt o modalitate de a estima validitatea
predictivă. Când aceştia sunt utilizaţi pentru a indica relaţia dintre un predictor şi un criteriu, ei sunt denumiţi
coeficienţi de validitate.
CONŢINUT
II.2.2. VALIDITATEA DE CONŢINUT
Validitatea de conţinut implică examinarea sistematică a conţinutului testului pentru a se verifica dacă testul
acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel
39
pentru a vorbi de o validitate de conţinut ridicată trebuie ca itemii care alcătuiesc testul să fie reprezentativi
pentru ceea ce testul doreşte să măsoare.
CONSTRUCT
II.2.3. VALIDITATEA DE CONSTRUCT
Validitatea de construct reprezintă măsura în care se poate susţine că testul măsoară o variabilă sau o
trăsătură specifică. În termeni generali “constructul” este sinonim cu acela de concept (Kline, 1992) fiind
utilizat pentru a desemna o serie de fenomene într-un cadru ştiinţific. El este util atunci când poate fi
operaţionalizat. Dacă luăm de exemplu conceptul de “specie”, el este extrem de util în investigare şi
clasificare în ştiinţele naturii. Cu toate aceste nu există o entitate distinctă pe care putem să o etichetăm
“specie”, ea nu poate fi deci studiată şi observată direct. Este doar o categorie, creată în scopul înţelegerii
diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologică care oferă cadrul menit
să fundamenteze analiza semnificaţiei psihologice a rezultatelor la test. Vorbim de validitate relativă la
construct în cazul testelor de personalitate.
Pentru a putea fi utilizat şi evaluat, un concept trebuie corect şi precis operaţionalizat. Această
operaţionalizare impune descrierea constructului în termeni comportamentali concreţi. Murphy & Davidshofer
(1991) identifică următorii paşi în operaţionalizarea unui construct:
1. identificarea comportamentelor care au legătură cu constructul;
2. identificarea altor constructe, pentru fiecare decizându-se dacă au sau nu legătură cu constructul
măsurat de test;
3. alcătuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprimă.
Pentru fiecare comportament, pe baza relaţiilor dintre constructe se decide dacă are sau nu
legătură cu constructul măsurat de test.
40
Spunem despre un test că are validitate convergentă dacă evaluează aceleaşi constructe ca şi alte teste,
adică dacă între scorurile sale şi scorurile altor teste există o relaţie funcţională. Un test are validitate de
discriminare dacă evaluează altceva decât alte teste despre care se ştie că se referă la constructe ce nu au
legătură cu constructul măsurat de test. Acest lucru înseamnă că între scorurile la test şi scorurile la alte teste
sau variabile nu există o relaţie funcţională.
Campbell & Fiske (1959) propun ca şi metodă de verificare a validităţii convergente şi de
discriminare a unui test metoda bazată pe matricea “trăsături multiple-metode multiple” (tabelul 6). Pe baza
acestei metode sunt relevaţi coeficienţii de corelaţie între diferite măsurători ale aceloraşi constructe,
măsurători obţinute prin teste diferite.
Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul “trăsături multiple-metode multiple”
Tabelul de mai sus prezintă toate corelaţiile posibile între scorurile obţinute când sunt evaluate trei
trăsături (A, B, C) prin trei metode / teste. Cele trei trăsături reprezintă trăsături de personalitate cum ar fi: (A)
dominanţa, (B) sociabilitatea, (C) motivaţia de realizare. Cele trei metode prin care se evaluează aceste
caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A 1 indică
scorurile la dominanţă evaluate pe baza unui chestionar, A2 indică scorurile la dominanţă evaluate pe baza
unui test proiectiv, iar C3 indică scorurile pentru motivaţia de realizare evaluată printr-o scală de
comportament. Tabelul include pe de o parte corelaţiile între trăsături diferite evaluate pe baza aceleiaşi
metode (chenar întreg) precum şi corelaţiile între trăsături diferite prin metode diferite (chenar întrerupt).
Pentru verificarea validităţii convergente în cazul constructului (A) avem următorii coeficienţi:
➢ .57 metoda 1 cu metoda 2
➢ .56 metoda 1 cu metoda 3
➢ .67 metoda 2 cu metoda 3
Validarea convergentă a unui test este necesară, dar nu şi suficientă pentru a dovedi că testul măsoară
ceea ce şi-a propus; etichetele atribuite testelor reprezintă trăsăturile sau caracteristicile pe care testele ar
trebui să le măsoare. Corelaţia mare între două teste înseamnă că testele măsoară acelaşi lucru, însă nu se
poate spune că itemii cuprinşi în teste sunt reprezentativi pentru constructul pe care testele intenţionează să îl
măsoare. Analiza factorială sau analiza de clusteri efectuată asupra itemilor din testele care evaluează aceleaşi
constructe poate ajuta la explicarea corelaţiilor dintre scorurile testelor (Albu, 1999)
41
1. Ce reprezintă validitatea?
• Sumar
În orice proces de evaluare psihologică pornim de la definirea domeniului de evaluare şi apoi propunem o
serie de modalităţi cantitative prin care observăm dacă indivizii posedă sau nu caracteristicile domeniului
respectiv. Deoarece definirea domeniului poate să fie mai mult sau mai puţin corectă ne punem întrebarea
dacă aptitudinile /caracteristicile măsurate de test corespund domeniului de evaluare. Astfel, pentru ca testul
să fie considerat o măsură bună a domeniului de evaluare este necesar să obţinem o serie de informaţii care să
reflecte faptul că testul măsoară ceea ce şi-a propus. Din aceste cerinţe decurge problema validităţii unei
măsurători. Orice instrument de evaluare psihologică trebuie să satisfacă cerinţele validităţii. Există diferite
tipuri de validitate psihologică. Aceste tipuri reprezintă modalităţi prin care se încearcă optimizarea unui
instrument de măsurare psihologică. Modalitatea cea mai des întâlnită în literatura de specialitate (Anastasi,
1976; Cohen, et. all, 2000) de a concepe validitatea o constituie următoarea taxonomie: 1. validitate de
criteriu, 2. validitate de conţinut, 3. validitate de construct.
42
3.Ce afirmaţie nu este adevărată cu privire la validitate ?
a) Validitatea face referire fie la ceea ce testul măsoară fie la ceea ce ar trebuii să măsoare.
b) Dacă testul nu este valid, atunci nici interpretarea nu poate fi validă.
c) Chiar dacă testul nu este valid, poţi totuşi să extragi interpretări corecte pe baza lui.
d) Are trei forme.
4. Anastasi, 1976 definea validitatea ca fiind modalitatea în care un test măsoară ceea ce îşi propune să
măsoare.
a) adevărat
b) fals
5. Caracteristiciile unui criteriu ( atunci când examinăm validitatea de criteriu) sunt: să fie fidel, să fie
relevant, să fie practic şi exprimat în aceleaşi unităţi pentru toate persoanele ( ex: z sau T)
a) adevărat
b)fals
• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63
Urbina, S. (2010). Testarea psihologica. Editura Trei, București.
43
V. ALGORITMUL CONSTRUCŢIEI UNUI TEST PSIHOLOGIC
• Scopul şi obiectivele: în cadrul acestui modul obiectivul principal este ca studenţii să înveţe
modalităţile cele mai bune de construcţie de itemi astfel încât aceştia să ofere imaginea acurată a constructului
de măsurat.
Obiective de studiu:
44
CONSTRUCŢIA ŞI ANALIZA DE ITEMI
1. Construcţia de itemi
Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume dorim să
evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată a
aspectului care ne interesează.
Formularea itemilor
Construirea de itemi este un proces pretenţios, în continuare vom prezenta câteva aspecte orientative
legate de formularea lor:
1. Definiţi clar ceea ce aveţi de măsurat, pentru a putea formula itemii cât mai specific posibil.
2. Generaţi o bază de itemi, evitaţi itemii redundanţi.
3. Evitaţi formularea unor itemi lungi, care ar putea fi greu înţeleşi.
4. Încercaţi să formulaţi itemii într-un limbaj accesibil persoanelor evaluate cu acest instrument.
5. Evitaţi formularea unor itemi care surprind două aspecte sau idei, de exemplu:
„Îmi place să lucrez într-un mediu bine organizat, pentru că vreau să fiu cel mai
bun la locul de muncă”
Acest item are în vedere două aspecte: „îmi place să lucrez într-un mediu bine organizat” şi „vreau să fiu
cel mai bun la locul de munca”, astfel în momentul în care persoana evaluată va alege o opţiune de
răspuns, va fi imposibil de decelat la care din cele două aspecte evaluate se referă.
6. Încercaţi să formulaţi itemi pozitivi şi negativi în aceeaşi măsură, pentru a evita biasarea care apare în
cazul formulării itemilor pozitivi. Această biasare este determinată de tendinţa persoanei evaluate de
a fi de acord cu toţi itemii testului.
a. Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i
se acordă un punct la cotarea performanţei persoanei evaluate. Itemii au forma unor afirmaţii, iar sarcina
subiecţilor este de a decide asupra valorii de adevăra a acesteia.
Avantajele acestui tip de itemi sunt:
• sunt uşor de cotat;
• sunt uşor de construit (în construirea unui test de evaluare a cunoştinţelor profesorul poate
utiliza fragmente din suportul de curs pentru a formula itemii);
• completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris;
• necesită o evaluare în termeni absoluţi (alb sau negru);
b. Itemi cu mai multe opţiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au mai
mult de două alternative de răspuns. Se acordă un punct numai unei opţiuni de răspuns, iar celelalte care nu
sunt corecte poartă denumirea de distractori. Itemii construiţi în scopul evaluării performanţei academice
au de cele mai multe ori acest format.
Avantajele acestui tip de itemi sunt:
• aceşti itemii sunt uşor de cotat;
• sunt uşor de construit;
• completarea lor nu necesită mult timp deoarece răspunsul nu trebuie scris;
45
• şansa de a ghici răspunsul corect este redusă;
Dezavantajul cel mai mare al acestui tip de itemi se referă la construirea unor distractori buni,
procedeu care necesită mai mult timp. În cazul itemilor polinomici, probabilitatea de a ghici răspunsul
există, deşi este mai mică decât în cazul itemilor dihotomici (este de 25% în cazul a patru alternative, de
33.33% în cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a
scorului obţinut de către fiecare persoană evaluată. Această formulă se exprimă astfel:
Scorul corect = R – W/ n – 1
R este numărul opţiunilor corecte;
W este numărul opţiunilor greşite;
n este numărul opţiunilor de răspuns ale itemilor.
Răspunsurile omise nu sunt incluse deoarece acestea nici nu cresc şi nici nu duc la scăderea scorului
final. De exemplu în cazul unui test de 100 de itemi, cu câte 4 opţiuni de răspuns (din care una singură este
corectă, celelalte trei sunt greşite la fiecare item), dacă vom completa aleator răspunsurile corecte vom
obţine scorul de 25 (bine înţeles aceasta este o situaţie ipotetică în realitate avem puţine şanse să obţinem
tocmai 25 de puncte care este scorul mediu aşteptat).
În acest caz, conform formulei anterioare, scorul corect este de:
25 - 75/4-1 = 25 – 25 = 0
Astfel, după aplicarea corecţiei scorul expectat este 0.
Întrebarea este în ce măsură în cazul testelor de cunoştinţe este recomandat ca studenţii să încerce să
ghicească răspunsul? În cazul în care nu se utilizează procedura de corecţie răspunsul este clar, „încercaţi
să nimeriţi”, dar nu şi în cazul în care se utilizează procedura de corecţie. Există situaţia în care nu sunteţi
siguri de răspunsul corect, dar ştiţi sigur că două din cele patru alternative de răspuns sunt greşite, în acest
caz vă sfătuim să încercaţi să ghiciţi. Formula de corecţie are la bază asumpţia că fiecare din cele patru
alternative de răspuns are aceeaşi probabilitate de a fi aleasă, deci aveţi şansa de 1 la 4. În cazul în care
eliminaţi două dintre alternative şansa dvs. creşte la 1 la 2, ceea ce vă oferă un avantaj asupra procedurii de
corecţie.
c. Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de
personalitate, în care persoana evaluată trebuie să-şi exprime acordul sau dezacordul faţă de a o afirmaţie
(se numeşte scală Likert, pentru că a fost introdusă de către Likert în 1932, în scopul evaluării atitudinilor).
46
Acest tip de răspuns permite cotarea inversă, scorul total este calculat prin însumarea numerelor
corespunzătoare răspunsurilor.
d. Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opţiuni de
răspuns, de cele mai multe ori sunt utilizate scale cu 10 opţiuni de răspuns. Pentru utilizarea lor adecvată este
foarte important ca punctele extreme ale scalei să fie clar definite şi permanent reamintite celor care realizează
evaluarea.
Una dintre principalele probleme legate de acest tip de scală este numărul de categorii care poate fi
utilizat, care poate fi de 10 şi 15 sau 66? S-au realizat câteva studii în acest sens, ele au arătat că depinde mult
de scopul pe care îl avem şi de nivelul de expertiză al evaluatorului. De exemplu dacă dorim să evaluăm
performanţa unor jucători de fotbal, o scală cu 7 nivele va fi suficientă pentru ochiul unui nonexpert care nu
sesizează aspectele de fineţe, dar nu şi în cazul unui expert, al unui antrenor care poate sesiza mai multe
diferenţe între jucători.
e. Q- sort – este o metodă utilizată cu precădere în evaluarea personalităţii. Persoana evaluată va primi o
listă de adjective pe care le va sorta în funcţie de măsura în care acestea îl caracterizează.
2. Analiza de itemi
Care sunt criteriile pe baza cărora putem spune că un item este bun?
Aşa după cum putem analiza un test din prisma fidelităţii şi validităţii, la fel putem analiza
conform acestor criterii un item. Mai precis, un item bun discriminează între două categorii de
subiecţi; putem spune de asemenea că un item este bun dacă performanţa la item corelează cu
performanţa la test.
Care este procesul pe baza căruia putem analiza itemii? După ce am generat itemii, după ce
aceştia au fost aplicaţi unui eşantion de subiecţi, ne interesează în ce măsură ei pot fi consideraţi
itemi buni, respectiv la care dintre itemi ar trebui să renunţăm deoarece nu satisfac criteriile.
Totalitatea procedeelor statistice cunoscute sub denumirea de „analiză de itemi” servesc scopurilor
prezentate. Este important de menţionat faptul că analiza de itemi cuprinde atât procedee cantitative
cât şi procedee calitative.
47
Analiza calitativă de itemi
Tehnicile de analiză calitativă a itemilor unui test constituie un procedeu des întâlnit în analiza
itemilor unui test. Tabelul 5 prezintă o serie de aspecte ale analizei calitative de itemi pe care trebuie să le ia în
calcul o persoană care construieşte un test.
48
Analiza cantitativă de itemi din perspectiva teoriei clasice
Atunci când ne referim la teoria clasică a testelor avem în vedere modelul de măsurare prezentat în
cadrul modulului II. În acest subcapitol vom prezenta procedurile de analiză a itemilor bazate pe acest model
şi pe asumpţiile sale.
Procedurile statistice utilizate în analiza itemilor sunt nu de puţine ori extrem de complexe, de aceea
scopul nostru este de a prezenta aici doar procedurile de bază. Vom prezenta în continuare modalităţile
principale utilizate în analiza itemilor. Este important de reţinut faptul că importanţa acestor procedee depinde
de funcţia şi obiectivele pe care autorul testului doreşte să le atribuie testului.
Printre indicatorii care ar trebui luaţi în calcul în analiza de itemi se găsesc:
▪ indicele de dificultate al itemului;
▪ indicele de discriminare;
Observaţie. La unele teste de cunoştinţe, primul item al testului este unul extrem de facil
(răspund deci majoritatea subiecţilor). Acest lucru este indicat a se realiza fie pentru a
verifica dacă subiectul a înţeles sarcina de lucru, fie pentru a-i forma o atitudine pozitivă
faţă de test şi astfel de a-i creşte motivaţia.
Indicele de dificultate al unui item (px) se obţine calculând proporţia subiecţilor care au răspuns corect
la item. Valoarea teoretică a indicelui de dificultate se găseşte între 0 (dacă nici un subiect nu a rezolvat itemul
corect) şi 1 (dacă toţi subiecţii au răspuns corect la un item).
Exemple.
1. Dacă 50 din cei 100 de subiecţi la care a fost aplicat un test au răspuns la itemul 2 corect atunci putem
spune că indicele de dificultate al itemului 2 este 50/100 adică p2=0,5
2. Dacă 75 din cei 100 de subiecţi la care a fost aplicat un test au răspuns la itemul 3 corect atunci putem
spune că indicele de dificultate al itemului 3 este 75/100 adică p3=0,75 şi vom spune că itemul 3 este
mai uşor decât itemul 2.
Se poate observa că cu cât indicele de dificultate al itemului este mai mare cu atât itemul este mai uşor.
Deoarece „p” se referă la procentul celor care au rezolvat corect itemul, putem spune că cu cât este mai mare
valoarea indicelui cu atât itemul este mai uşor. Vorbim de indice de dificultate pentru testele de performanţă,
însă în cazul testelor de personalitate acest indice exprimă procentul de subiecţi care a răspuns „da” la item,
sau în alte cazuri procentul de subiecţi care a agreeat itemul.
Un indice global de dificultate al itemilor unui test se poate calcula făcând media indicilor fiecărui item.
Astfel se face suma tuturor indicilor de dificultate şi rezultatul obţinut se împarte la numărul itemilor testului.
Pentru o maximă discriminare, este important ca media indicilor de dificultate al unui test să fie 0.5, deci
indicii fiecărui item al testului să varieze între 0.3 şi 0.8.
Ceea ce trebuie să luăm în calcul când analizăm indicele de dificultate al unui item este şansa ca subiectul
să dea răspunsul corect la întâmplare (adică de a ghici răspunsul). În acest caz indicele optim de dificultate al
49
unui item se găseşte la mijlocul distanţei dintre 1 şi rata de răspuns la întâmplare care pentru un item cu 2
răspunsurile este de 0,50. Mijlocul distanţei dintre 1 şi 0.50 este 0.75 – deci indicele optim de dificultate al
acestui item este 0.75. În general acest indice optim se obţine însumând valoarea şansei cu 1 şi apoi împărţind
valoarea obţinută la 2, sau:
0,50+1,00=1,5
1,5/2=0,75
Pentru un item care are 5 variante de răspuns şansa de a răspunde corect este 1/5 adică 0,20. În acest
caz, indicele de dificultate optim se va obţine astfel:
0,20+1,00=1,20
1,20/2=0,60
Pentru itemul 1 se poate observa că 20 dintre subiecţii care au obţinut performanţe superioare la test
au rezolvat corect itemul, în timp ce 16 dintre cei care au obţinut performanţe inferioare la test au rezolvat
corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai
mulţi subiecţi dintre cei care au obţinut o performanţă bună la test, au răspuns corect la item. Se poate observa
50
că cu cât este mai mare valoarea indicelui de discriminare cu atât itemul separă mai bine categoriile de
subiecţi şi este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare
este +1 (toţi subiecţii care au obţinut performanţa superioare la test au rezolvat corect itemul); valoarea cea
mai mică pe careo poate avea un indice de discriminare al unui item este –1 (nici unul dintre subiecţii care au
obţinut performanţe superioare la test nu au rezolvat corect itemul).
Analiza alternativelor de răspuns la itemi.
Calitatea fiecărei alternative de răspuns la itemii cu răspunsuri multiple poate fi analizată comparând-
o cu performanţa obţinută de subiecţii care au avut performanţe superioare (primii 27%) şi cei care au obţinut
performanţe inferioare (ultimii 27%) la un test.
Să analizăm (tabelul 4) performanţa la 5 itemi ipotetici, test la care 32 de subiecţi au obţinut
performanţe inferioare (I) şi 32 de subiecţi au obţinut performanţe superioare (S).
Tabelul 2.5. Răspunsurile la 5 itemi ai unui test (Răspunsul corect al fiecărui item este marcat cu caractere
îngroşate)
Alternative a b c d e
Item
1 S 24¤ 3 2 0 3
I 10¤ 5 6 6 5
2 S 2 13 3 2 12¤
I 6 7 5 7 7¤
3 S 0 0 32¤ 0 0
I 3 2 22¤ 2 3
4 S 5 15¤ 0 5 7
I 4 5¤ 4 4 15
5 S 14 0 0 5¤ 13
I 7 0 0 16¤ 9
Analiza itemilor.
Itemul 1 este un item bun – mai multe persoane cu performanţă superioară la test l-au rezolvat corect.
Itemul 2 – un număr mare de S au ales un distractor în locul răspunsului corect (răspunsul b). Acest item ar
trebui revăzut.
Itemul 3 reprezintă modalitatea optimă de răspuns la un item; toţii S au răspuns corect
Itemul 4 este mai dificil decât itemul 3 deoarece o proporţie mai mică de S au răspusn corect la item, dar
discriminează mai bine (o proporţie mai mică de I au răspuns cirect la item).
Itemul 5 este un item slab deoarece mai mulţi de I au răpsuns corect la item.
51
Analiza curbei caracteristice itemului
O modalitate de a afla noi informaţii despre comportamentul itemilor este trasarea curbei caracteristice
itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y
proporţia persoanelor care au răspuns corect la item (vezi figura 2.5).
0.5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Scorul total la test
Figura 2.5. Curba caracteristică a itemului
Scorul total reprezintă nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi măsurat, doar
estimat pe baza acestui scor. Relaţia dintre performanţa la unul dintre itemi şi cea obţinută la aplicarea
întregului test ne oferă informaţii legate de item.
Astfel figura de mai sus reprezintă curba caracteristică a unui item relativ bun, observăm cum curba
creşte pe măsură ce creşte şi scorul total la test, aceasta înseamnă că itemul discriminează bine în cazul tuturor
nivelelor de performanţă.
Să luăm spre exemplu o persoană care are un scor mai mic de 20 puncte, conform curbei (Figura 2.6),
aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.
1
0.5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Scorul total la test
Figura 2.6. Curba caracteristică a itemului
În cazul în care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a răspunde corect
este de 50 respectiv 100%.
Un item bun trebuie să prezinte un asemenea patern de comportament, adică pe măsură ce creşte
nivelul de abilitate a persoanelor testate să crească şi şansa de a fi rezolvat corect.
52
În figura 2.7 dorim să prezentăm itemi care prezintă un patern comportamental diferit de cel prezentat
1
anterior. Vă rugăm să analizaţi curba trasată cu linie întreruptă.
0.5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Scorul total la test
Figura 2.7. Curba caracteristică a 2 itemi
Observăm că şi dacă nivelul de abilitate al persoanelor din eşantionul nostru creşte, probabilitatea de a
răspunde corect la acest item este aceeaşi, cu alte cuvinte itemul nu ne oferă nici o informaţie despre nivelul
de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie întreruptă). Este posibil ca acest item să
măsoare un alt aspect decât cel pe care îl evaluează ceilalţi itemi ai testului.
Spre deosebire de acesta, itemul trasat cu linie neîntreruptă este rezolvat numai de persoanele care au
un scor brut de cel puţin 25 de puncte, probabilitatea de a-l rezolva corect creşte apoi treptat împreună cu
nivelul de abilitate. Acest item este de dificultate medie, este puţin probabil ca el să fie rezolvat corect de
persoanele cu scor mai mic de 25.
2. Analiza de itemi din perspectiva teoriei răspunsului la item (item response theory - IRT)
Teoria răspunsului la item propune un nou model de explicare şi de analiză a itemului şi a
comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, după care
acesta a fost dezvoltat şi adaptat la diferite situaţii de testare.
Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure trăsături
latente sau multidimensionale, în cazul testelor care evaluează mai multe dimensiuni. De asemenea în funcţie
de răspunsul la item dihotomic sau cu mai mute opţiuni avem mai multe tipuri de modele. În continuare vom
discuta despre modele unidimensionale dihotomice. În cazul modelelor IRT unidimensionale diferenţele
dintre persoanele care alcătuiesc eşantionul pot fi explicate numai pe baza unei singure dimensiuni.
Modelele IRT implică două asumpţii:
• Curba caracteristică itemului (item characteristic curve - ICC) trebuie să aibă o formă specifică
(acesta descrie modul în care modificările la nivelul abilităţii induc modificări la nivelul probabilităţii
de apariţie a răspunsului corect);
• Trebuie îndeplinită condiţia de independenţă locală (aceasta înseamnă că nu trebuie să avem corelaţie
între itemi, în condiţiile în care nivelul de abilitate al persoanelor evaluate este menţinut constant).
Înainte a trece la prezentarea concretă a unui model IRT, dorim să reamintim modelul care stă la baza
teoriei clasice.
Xobservat = Xreal + e (e = eroarea de măsură)
53
Limitele care au fost reproşate acestui model sunt următoarele:
1. sunt menţionate două variabile independente de care depinde scorul obţinut de o persoană, şi
anume scorul real şi eroarea de măsurare, dar acestea nu pot fi separate în mod real în
cadrului scorului obţinut de către o persoană, astfel modelul este util în cadrul realizării unor
estimări la nivel de populaţie;
2. Din acest model sunt omise proprietăţile itemului care şi ele au un impact asupra scorului
persoanei (dacă de exemplu toţi itemii sunt uşori, atunci majoritatea persoanelor vor ave un
scor maxim);
Modelele IRT explică performanţa la test considerând doi sau mai mulţi parametrii: nivelul de
abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea
de a ghici răspunsul corect, iată notaţiile utilizate.
β i = dificultatea itemului i
α i = discriminarea itemului i
Vom explicita modelul de măsurare utilizat de această abordare prin prezentarea modelului
uniparametric 1PL.
1
nivelul de abilitate şi parametrii itemilor (dificultate, discriminare) pot lua valori între minus şi plus infinit deoarece
sunt pe scală logit.
54
1
0.5
-3 -2 -1 0 1 2 3
nivelul de abilitate
Figura 2.8. Curba caracteristică a 2 itemi
În cazul acestui model, parametrul de discriminare este menţinut constant (egal cu 1).
În cadrul modelului biparametric – 2PL, este considerat şi parametrul de discriminare a itemului. În
figura 2.9 prezentăm itemi care au acelaşi nivel de dificultate, dar care au o discriminare diferită.
p(Xis=1) = 1/(1 + e (-α i (θ - β i))
0.5
-3 -2 -1 0 1 2 3
nivelul de abilitate
55
Probabilitatea de ghici răspunsul corect este vizibilă în punctul în care curba caracteristică itemului
intersectează axa Y. Aceasta înseamnă că şi persoanele care au un nivel de abilitate scăzut vor rezolva corect
itemul, ghicind răspunsul corect (Figura 2.10).
Utilizarea unui model 3PL devine necesară mai ales în situaţia în care probabilitatea de a ghici
răspunsul corect este mare, de exemplu în cazul unui item cu 2 posibilităţi de răspuns acesta este de 1 din 2,
spre deosebire de cea cu 6 opţiuni, în care probabilitatea de a ghici răspunsul corect este semnificativ mai
mică, 1 din 6.
0.5
-3 -2 -1 0 1 2 3
nivelul de abilitate
56
ANALIZA FACTORIALĂ
Una dintre metodele utilizate în validara de construct este analiza factorială. Analiza
factorială este definită ca „un set de proceduri matematice utilizate pentru a identifica
dimensiunile care stau la baza uneui set de măsurăori empirice”. Cel mai adesea este utilizată
pentru:
• identificarea factorilor care stau la baza performanţei la un test de aptitudini
• identificarea unor dimensiuni ale personalităţii
• identificarea unor sindroame clinice
• identificarea factorilor relaţionaţi cu satisfacţia în muncă
În continuare vor fi discutate principalele concepte implicate în analiza factorială.
Concepte generale
Atributele interne pot fi gândite ca şi constructe ipotetice. Ele nu sunt cu necesitate reale sau
concrete. Acestea sunt mai degrabă constructe care aşa cum vom vedea pot fi utilizate pentru a
înţelege şi a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie văzute ca o
critică a abordării factoriale. Utilizarea constructelor ipotetice constituie o practică obişnuită în multe
domenii ale ştiinţei. De exemplu, fizicienii utilizează o serie de constructe (gravitate, magnetism)
pentru a explica o serie de fenomene. Aceste forţe reprezintă de fapt constructe neobservabile, a
căror existenţă a fost inferată pe baza fenomenelor observabile. Aceste constructe, împreună cu
teoriile care le însoţesc pot explica o serie de fenomene observabile. Într-o manieră asemănătoare,
analiza factorială postulează că există atribute interne neobservabile care pot explica variaţia şi
covariaţia dintre o serie de atribute de suprafaţă, adică acele atribute care pot fi măsurate şi
observate direct.
Un concept teoretic central al analizei factoriale îl constituie deci relaţia dintre atributele interne şi
cele de suprafaţă. Principiul de bază este acela că atributele interne influenţează sistematic atributele de
suprafaţă. Acest fapt implică ideea că atunci când avem o măsură a unui atribut de suprafaţă, această măsură
este, cel puţin în parte, rezultatul influenţei atributelor interne. De exemplu, scorul obţinut de o persoană la un
test de adunare (atribut de suprafaţă) este influenţat de aptitudinea numerică (atribut intern). Tradiţional,
aceste relaţii dintre atributele de suprafaţă şi cele interne sunt considerate a fi lineare.
În continuare este util să distingem între 2 tipuri de atribute interne sau factori: factori comuni şi
factori specifici. Factorul comun este definit ca un atribut intern care afectează /influenţează mai mult de o
variabilă de suprafaţă. De exemplu, dacă factorul aptitudine numerică influenţează mai mult decât o variabilă
de suprafaţă (să presupunem că influenţează atât adunarea cât şi înmulţirea) atunci acesta factor este un factor
comun. Factorii specifici influenţează doar o singură variabilă de suprafaţă; astfel poate exista un număr de
factori specifici pentru fiecare variabilă de suprafaţă. Prin schimbarea variabilelor de suprafaţă factorul comun
se poate transforma în factor specific dacă se înlătură toate variabilele de suprafaţă care îl alcătuiesc, mai puţin
una; sau dimpotrivă, dacă lărgim bateria, un factor specific se poate transforma într-un factor comun dacă el
influenţează mai multe variabile de suprafaţă.
În afara celor 2 variabile interne (factorii comuni şi specifici) care influenţează variabilele de
suprafaţă, există o a treia influenţă asupra acestora. Această a treia influenţă o constituie erorile de măsură
asociate observării atributelor de suprafaţă. Aceste erori sunt reprezentate în analiza factorială ca factori
adiţionali, deşi ele nu fac parte din cadrul atributelor interne; adică nu reprezintă caracteristici neobservate ale
indivizilor. Mai degrabă erorile de măsură apar ca rezultat al influenţelor datorate măsurătorii atributelor de
suprafaţă. Se poate observa relaţia directă între factorii de suprafaţă şi erorile de măsură; astfel, cu cât
fidelitatea măsurătorilor este mai mare cu atât erorile sunt mai mici. Deci, utilizarea unor teste mai puţin fidele
va influenţa erorile de măsură, dar nu în mod necesar factorii comuni sau specifici. De asemenea, adăugarea
sau înlăturarea unor variabile de suprafaţă va influenţa factorii comuni sau specifici, însă nu va influenţa
erorile de măsură.
Factorii specifici şi erorile de măsură caracteristice unui set de observaţii se pot combina rezultând
factori unici. Un factor unic este alcătuit dintr-un factor specific caracteristic unei singure variabile de
57
suprafaţă precum şi din eroarea de măsură asociată variabilei de suprafaţă respective. Factorul unic se va
modifica la orice modificare a factorului specific sau a erorii de măsură.
Pornind de la aceste definiţii ale factorilor, ţinând cont de faptul că factorii influenţează atributele de
suprafaţă se poate înţelege că factorii se combină pentru a putea explica un anumit nivel al trăsăturilor de
suprafaţă. Mai precis, orice nivel al atributelor de suprafaţă poate fi văzut ca o rezultantă a factorilor relevanţi.
De exemplu, scorul unei persoane la un test de adunare poate fi văzut ca o rezultantă a factorului comun
aptitudine numerică şi a factorului specific asociat adunării. De asemenea, eroarea de măsură contribuie la
scorul obţinut la testul de adunare. Generalizând putem spune că diferenţele individuale sau varianţa
atributelor de suprafaţă poate fi atribuită factorilor adiacenţi acestor atribute. Astfel diferenţele la nivelul
atributelor de suprafaţă sunt datorate diferenţelor la nivelul factorilor ce influenţează aceste atribute şi de
asemenea diferenţele sunt datorate şi erorilor de măsură.
Distincţia realizată anterior între factorii comuni, specifici şi eroarea de măsură ne ajută să înţelegem
modul în care factorii explică varianţa atributelor de suprafaţă. Este important de reţinut faptul că varianţa
observată la nivelul atributelor de suprafaţă poate rezulta din trei surse. O parte din varianţă este datorată
influenţei factorilor comuni – aceasta poartă numele de varianţă comună sau comunalitate. O altă parte din
varianţa atributelor de suprafaţă poate fi datorată factorului specific – această varianţă este denumită varianţă
specifică sau specificitate. Cea de-a treia sursă de varianţă este datorată erorilor de măsură – şi este denumită
varianţa erorii de măsură. Varianţa specifică este adesea combinată cu varianţa erorii de măsură şi formează
varianţa unică sau unicitatea. Altfel spus, varianţa observată la nivelul unui atribut de suprafaţă este datorată
în parte factorilor care influenţează şi alte atribute de suprafaţă şi în parte factorilor care influenţează doar
atributul respectiv.
Printr-o extensie a conceptelor putem spune că analiza factorială ţine cont şi de covarianţa dintre
variabilele de suprafaţă. Adesea se poate observa că variabilele de suprafaţă dintr-un domeniu specific tind să
coreleze într-o anumită măsură una cu cealaltă. Potrivit analizei factoriale această corelaţie este datorată
influenţei factorilor comuni. Deci, o corelaţie între două variabile de suprafaţă este datorată dependenţei celor
două variabile de unul sau mai mulţi factori comuni. De exemplu scorul la un test de adunare va tinde să
coreleze pozitiv cu scorul la un test de înmulţire deoarece ambele variabile depind de acelaşi factor comun –
aptitudinea numerică. Din contră însă, rezultatul la testul de adunare va corela mai puţin cu rezultatul la un
test de citire deoarece cele două variabile de suprafaţă sunt influenţate de factori comuni diferiţi. Putem spune
că nivelul de intercorelaţie dintre atributele de suprafaţă este rezultatul dependenţei acestor atribute de aceiaşi
factori comuni.
Este extrem de important a se reţine faptul că doar factorii comuni pot explica corelaţia variabilelor de
suprafaţă; factorii unici nu determină astfel de corelaţii. La fel, factorii specifici sau erorile de măsură nu pot
determina corelaţii între atributele de suprafaţă deoarece prin definiţie ei influenţează doar o singură variabilă
de suprafaţă.
Pentru a sumariza aceste principii putem spune că într-un anumit domeniu există un număr mic de
factori comuni care influenţează un vast număr de atribute de suprafaţă. Variaţia factorilor de suprafaţă este
datorată în parte variaţiei factorilor comuni. Ceea ce rămâne se datorează factorilor unici sau factorilor
specifici şi erorilor de măsură. Covarianţa variabilelor de suprafaţă este atribuită dependenţei acestora de
aceiaşi factori comuni.
În continuare (figura 5) vor fi prezentate conceptele şi principiile discutate anterior în forma propusă
de Tucker (1940) pentru a ilustra teoria analizei factoriale. În cadrul diagramelor, pătratele reprezintă
atributele de suprafaţă, iar cercurile reprezintă atributele interne şi alţi factori. Săgeţile unidirecţionale exprimă
o relaţie liniară (printr-un proces cauzal), iar cele bidirecţionale reprezintă corelaţii fără influenţă cauzală.
58
Atribute de suprafaţă
Factori comuni
(atribute interne)
Factori specifici
(atribute interne)
Factori unici
Factori ERM
! DE REŢINUT:
Teoria factorială este o teorie care explică dinamica şi influenţele care determină variaţia
şi covariaţia atributelor de suprafaţă.
59
Obiectivele analizei factoriale
Tabelul 2.7. Tipuri de validitate a unui test de cunoştinţe matematice. (Anastasi, 1976).
SCOPUL TESTĂRII PROBLEMA STUDIATĂ TIPUL DE VALIDITATE
Evaluarea cunoştinţelor de Cât de mult a învăţa elevul din Validitate de conţinut
matematică în ciclul primar matematica predată?
Anticipare a performanţelor Care vor fi performanţele elevului în Validitate predictivă
elevului în gimnaziu gimnaziu la matematică?
Psihodiagnosticul dificultăţilor Care sunt dificultăţile specifice pe care le Validitate concurentă
de învăţare întâmpină elevul în învăţarea matematicii
Evaluarea gândirii logice Prin ce se caracterizează gândirea Validitate de construct
elevului?
60
! Obiectivele analizei factoriale sunt:
✓ Identificarea factorilor adiacenţi variabilelor de suprafaţă
✓ Screeningul variabilelor
✓ Sumarizarea datelor
✓ Selecţia variabilelor
1. Care sunt aspectele esenţiale de care trebuie să ţinem cont când formulăm
un item?
6. Ce reprezintă Q – Sort?
• Sumar
Atunci când dorim să evaluăm ceva, prima întrebare pe care ne-o formulăm este ce anume dorim
să evaluăm, care este formatul pe care trebuie să-l aibă itemii, astfel încât să ne ofere imagine acurată
a aspectului care ne interesează. Pentru a construi itemii trebuie să parcurgem un proces pretenţios în
cazul căruia trebuie să urmăm o serie de paşi. Mai mult decât atât, trebuie să ţinem cont şi de formatul
opţiunilor de răspuns. Astfel, în funcţie de constructul pe care dorim să-l evaluăm anumite formate
devin mai mult sau mai puţin adecvate. Pentru a putea spune despre un item că este bun sau nu trebuie
să ţinem cont de o serie de criterii pe care le descoperim în urma unei analize a itemilor. Aşa după
cum putem analiza un test din prisma fidelităţii şi validităţii, la fel putem analiza conform acestor
criterii un item. Mai precis, un item bun discriminează între două categorii de subiecţi; putem spune de
asemenea că un item este bun dacă performanţa la item corelează cu performanţa la test. Un element
foarte important este validitatea de construct care reprezintă măsura în care se poate susţine că testul
măsoară o variabilă sau o trăsătură specifică. Una dintre metodele utilizate în validara de construct
este analiza factorială. Analiza factorială este definită ca „un set de proceduri matematice utilizate
pentru a identifica dimensiunile care stau la baza uneui set de măsurăori empirice”.
61
Testează-ți cunoștințele singur!
1. Mai jos sunt prezentate descrierile câtorva studii de validare. Citiţi fiecare descriere şi
identificaţi orice probleme potenţiale care ar putea afecta rezultatele.
A. Un profesor de matematică de la un liceu, face un test pentru a identifica elevii supradotaţi la
matematică şi aplică acest test la o sută de elevi din şcoală. Cei care vor obţine cel mai mare punctaj la test vor
avea posibilitatea să se înscrie la facultate. La sfârşitul semestrului, profesorul face o corelaţie între scorul
obţinut la test şi notele obţinute de elevi la matematică. El nu a găsit nici o corelaţie semnificativă între aceste
variabile.
B. Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o
anumită corporaţie şi cere supraveghetorilor să noteze muncitorii prezenţi pe o scală cu următoarele categorii :
„peste medie”, „mediu”, „sub medie”. După aceasta psihologul testează muncitorii din categoria „peste
medie” şi „sub medie” şi compară mediile celor două grupuri. În urma analizei psihologul găseşte o diferenţă
semnificativă în favoarea grupului „peste medie”.
2. Pentru fiecare din următoarele situaţii indicaţi ce tip de studiu de validare ar fi cel mai
potrivit.
A. Un psiholog social dezvoltă un inventar cu scopul de a identifica peroanele care lucrează în domeniul
sănătăţii care prezintă „sindromul de epuizare (burnout)”. Pentru a defini sindromul de „burnout” se
utilizează o varietate de comportamente cum ar fi: absenteismul, eşec în a respecta politica firmei,
relaţii reci cu colegii şi şefii etc.
B. Un psiholog al dezvoltării specializat în problemele adolescenţilor doreşte să dezvolte un inventar
care să se adreseze elevilor din clasele IX – X pentru a prezice cine va trece mai departe în clasele XI-
XII.
C. Un test de aptitudini non-verbale este dezvoltat pentru copiii preşcolari cu deficit de auz. Se
intenţionează ca testul să fie o măsură de screening pentru identificarea copiilor care ar putea avea
dificultăţi în învăţarea cititului (încadraţi într-o clasă cu copii normali).
Bibliografie obligatorie
Urbina, S. (2010). Testarea psihologică, Editura Trei.
Bibliografie facultativa
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 133-135
62
VI. ASPECTE METODOLOGICE ŞI CONCEPTUALE ALE CONSTRUCŢIEI TESTELOR
• Scopul şi obiectivele: obiectivul esenţial al acestui modul este ca studenţii să poată face diferenţa
între evaluările psihologice, acestea fiind diferite cel puţin în cazul a trei aspecte.
Obiective de studiu:
63
ASPECTE CONCEPTUALE ŞI METODOLOGICE ALE CONSTRUCŢIEI
TESTELOR PSIHOLOGICE
Evaluările psihologice nu sunt echivalente. Ele diferă în cel puţin trei aspecte. În primul rând
ele diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea rând
ele diferă în privinţa structurii logice. Iar în al treilea rând ele diferă din perspectiva informaţiilor pe
care ele le aduc, sau mai precis din perspectiva greutăţii inferenţelor pe care aceste le suportă.
Algoritmul de construcţie al unui instrument de evaluare ar trebui să respecte următorii paşi:
1. POSTULATE
Asumpţii, valori, credinţe, metafore
3. REFERENTI
Măsuri obiective sau reflecţii ale constructelor (e.g.
anxietate: transpiraţia palmelor, etc.)
4. METODE INSTRUMENTALE
Sarcini, tehnici, teste, instrumente proceduri
5. MODEL DE MĂSURĂ
atribuirea unei scale de măsură fenomenelor
6. CULEGEREA DATELOR
7. ANALIZA DATELOR
metode statistice, modele matematice
8. INTERPRETĂRI ŞI INFERENŢE
Inferenţa statistică, evaluare logică, analiza modelului
Figura 1. Componente ale unui model ştiinţific de construcţie a unui intrument de evaluare (McFall & Townsend, 1998)
64
! Scopul oricărei evaluări psihologice este acela de a clarifica (de a oferi informaţii) o serie de
probleme, fie ele teoretice sau practice. Astfel putem spune că există o relaţie esenţială între teorie şi
evaluare: evaluarea trebuei astfel construită încât să răspundă unor întrebări teoretice.
La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului trebuie
să ne punem următoarele întrebări:
▪ Ce dorim să măsoare testul? Această întrebare este legată de modul în care este definit
constructul şi de cum această definiţie este diferită de altele care îşi propun să măsoare acelaşi
construct.
▪ Care este obiectivul testului? Când sau pentru ce scop va fi utilizat testul? Va fi analizat la acest
nivel în ce măsură obiectivul testului este diferit de testele existente.
▪ Este nevoie de construcţia acestui test?
▪ Cine va utiliza testul? Clinicienii, psih. educaţional sau alte categorii.
▪ Cui se adresează testul? Cine este populaţia ţintă. Aici se impune o analiză detaliată a
caracteristicilor populaţiei (vârstă, sex, mediu socioeconomic – ce factori culturali pot influenţa
performanţa la test). Ce nivel de citire este necesar pentru aplicarea testului.
65
În general, este generat un număr mai mare de itemi decât numărul final al itemilor testului, creându-
se banca de itemi. Aiken (1994) recomandă ca numărul itemilor de plecare să fie mai mare cu 20%
decât lungimea tesului.
Măsurările sunt realizate pe diferite tipuri de scale. Acestă problematică a alegerii scalei sau a
formatului itemlor se încadrează la nivelul modelului de măsurare. Nu există un tip general corect
de scală de măsurare.
Tipuri de scale.
Scala de tip Likert.
▪ Este o scală sumativă (propusă de Likert în 1932)
▪ utilizată destul de des în psihologie mai ales în măsurarea atitudinilor.
▪ Este o scală ordinală (distanţa dintre 2şi 3 nu este întotdeauna egală cu distanţa dintre 4 şi 5)
▪ Format: „niciodată rareori câteodată adesea întotdeauna”
▪ Are 5 trepte
▪ Dezavantaje: nu există o interpretare identică pentru fiecare subiect aceea ce înseamnă fiecare
categorie prezentată.
Scalele Guttman
▪ Când se doreşte ierarhizarea unor comportamente.
▪ Se prezintă comportamentele şi cere ierarhizarea acestora prin atribuirea de numere (de la 1 la X,
pentru X comportamente)
Nivelul culegerii datelor se referă la obţinerea unei variante a testului şi aplicarea acesteia pe
populaţia ţintă. Se ţin cont în această fază de condiţiile de standardizare.
Analiza datelor cuprinde în cadrul testului procesul de analiză a itemilor, analiza tipurilor de
validitate de criteriu precum şi aprecierea fidelităţii testului.
Dacă rezultatele obţinute sunt satisfăcătoare se trece la construirea manualului testului. Dacă pe baza
rezultatelor obţinute nu se pot face inferenţe valoroase atunci se recomandă identificarea erorilor şi
reluarea procedeului.
Manualul unui test trebuie să cuprindă aspectele pe baza cărora utilizatorul testului să poată analiza
valoarea testului, să poată utiliza testul şi să poată interpreta rezultatele acestuia. Aceste aspecte se
referă la informaţii legate de:
66
- care au fost criteriile pe baza cărora s-a validat testul
- în ce măsură testul este satisfăcător pentru ceea ce îşi propune să măsoare
5. Modul de aplicare, cotare şi interpretare a rezultatelor
- care sunt instrucţiunile de lucru
- care sunt criteriile de acordare a punctajului pentru răspunsurile subiecţilor?
- În ce măsură testul poate fi cotat electronic (acolo unde este cazul)
6. Consideraţii practice
- cât timp durează aplicarea testului
care este nivelul de pregătire pe care trebuie să îl aibă cel care administrează testul şi cum se poate obţine
această pregătire.
• Sumar
Evaluările psihologice nu sunt echivalente. Ele diferă în cel puţin trei aspecte. În primul rând ele
diferă din punctul de vedere al întrebărilor teoretice la care încearcă să răspundă. În al doilea rând
ele diferă în privinţa structurii logice. Iar în al treilea rând ele diferă din perspectiva informaţiilor pe
care ele le aduc, sau mai precis din perspectiva greutăţii inferenţelor pe care aceste le suportă.
Pentru construcţia unei scale trebuie să se respecte un algoritm. Un element foarte important îl
reprezintă manualul testului.
67
Testează-ți cunoștintele singur :
6. In ce nivel se încadrează alegerea tipului de scală și a formatului itemilor atunci când construim un test
psihologic?
a) Constructe teoretice formale.
b) Postulate.
c) Metode instrumentale.
d) Model de masură.
• Bibliografie modul
Kaplan, R.M. şi Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 529-563
68
I. Anexe
Increasing the Validity of Adapted Tests: Myths to be Avoided and Guidelines for Improving
Test Adaptation Practices1,2
Adapting or translating achievement, ability, and personality tests and questionnaires prepared in one
language and culture into other languages and cultures has had a long history in educational and
psychological testing though this fact is not well-known among educational researchers and
measurement specialists. At least five reasons can be found in the literature for adapting tests:
1. very often adapting a test is considerably cheaper and faster than constructing a new test in a
second language,
2. when the purpose for the adapted test is cross-cultural or cross-national assessment (such as
with many credentialing exams), an adapted test is the most effective way to produce an
equivalent test in a second language,
3. there may be a lack of expertise for developing a new test in a second language,
4. there is a sense of security that is associated with an adapted test more so than a newly
constructed test especially when the original test is well-known, and
5. fairness to examinees often results from the presence of multiple language versions of a test
(see Hambleton & Patsula, 1998).
Unfortunately, though the practice of adapting or (simply) translating tests can be traced to the
intelligence tests of the French psychologist Alfred Binet at the beginning of this century, there is
substantial evidence to suggest that improved methods for adapting or translating tests from one
language and culture to others are needed, and that considerably more attention should be given to
this important task than it is typically given by researchers and/or test developers. Too often in
practice the test adaptation process seems to be viewed as a routine task that can be completed by
anyone who knows the relevant languages. One consequence is adapted tests in the target languages
of interest with only superficial equivalence to the tests in the source language.
The purposes of this paper are two-fold: First, a set of myths or problems which need to be
discarded/overcome about the test adaptation process will be presented. These myths are widespread
and undermine effective test adaptation initiatives. Second, steps for adapting tests will be offered
along with a discussion of the importance of each step in the test adaptation process.
There are a number of myths associated with adapting tests which appear in measurement practice
and should be discarded as quickly as possible:
Myth 1. The preferable strategy is always to adapt an existing test rather than develop a new test
for a second language group.
There are many good reasons for adapting a test, but there are reasons for not proceeding with a test
adaptation as well. Especially when cross-cultural comparisons are not of interest, it may be
substantially easier and more relevant to construct a new test for a second language group. This
69
avoids any complications with copyright, insures that the format will be suitable, and any desired
modifications in the definition of the construct of interest can be made at the outset of the test
development process.
Sometimes, too, it may be desirable not to adapt a test but rather to require all examinees to take a
test in a single language. For example, in the United States, there has been interest in some states in
making high school graduation tests available in both English and Spanish. Technically this is
possible, but the question of whether or not to make two language versions of a test available
depends on many factors including the definition of the construct being measured. Is the language in
which performance is to be demonstrated a part of the construct definition or not? In the case of
reading, reading in the language of English is almost always part of the construct of interest.
Producing a Spanish equivalent version of a reading test in English makes very little sense because
inferences of English reading proficiency cannot be made from a test administered in Spanish.
The situation with a mathematics test may be very different. The construct of interest may be focused
on computation skills, concepts, and problem-solving skills and here, the purpose of the test is to
look for a demonstration of the skills, and the language in which the performance is assessed and
demonstrated may be of little or no interest. Of course, if the desired inference is mastery of
mathematics skills when the test questions are presented in English, then a Spanish version of the test
would be inappropriate in this situation too.
Myth 2. Anyone who knows the two languages can produce an acceptable translation of a test.
This is one of the most troublesome myths because it results in unqualified persons adapting tests.
There is considerable evidence suggesting that test translators need to be familiar with both source
and target languages and the cultures, and they need to be generally familiar with the construct being
assessed, and the principles of good test development practices. How, for example, can someone
translate a high school physics test from English into Spanish without some knowledge of the
content? Would a translator with little knowledge of test development principles be aware to
preserve the relevant features of the original test in an adapted test such as clearly written item stems,
a single correct or best answer, answer choices of approximately the same length, etc.?
Myth 3. A well-translated test guarantees that the test scores will be valid in a second language or
culture for cross-language comparative purposes.
Van de Vijver and Poortinga (1997) make the point that not only should the meaning of a test be
consistent across persons within a language group and culture but, that meaning, whatever it is, must
be consistent across language groups and cultures. For example, if a test is more speeded in a second
language version because of the nature of that language, then the two language versions of the test
are not equally valid. We have encountered just such a problem in some German test translations we
are currently working on. Quite simply, the German words are longer than English words and take
correspondingly longer to read. The result is a slightly more speeded German version of the test. In
this instance, the test may be equally valid in each language group and culture, but still not be
suitable for cross-cultural comparisons.
Many other examples could be introduced. For one, the non-equivalent familiarity of students in
different cultures with certain item formats, e.g., the multiple-choice format, places examinees from
this second cultural group at a serious disadvantage. The translation could be excellent, but the
scores from the two language versions are not equally valid.
70
Myth 4. Constructs are universal, and therefore all tests can be translated into other languages
and cultures.
One of the best counter examples of this myth concerns intelligence tests. The Western notion of
intelligence places considerable emphasis on speed of response. In some cultures, speed of response
is of minor importance as a operating characteristic for life, and members of these cultural groups
often score lower on Westernized intelligence tests because of a failure to perform quickly. But, it
only in this limited sense of the Western definition of the construct of intelligence that these cultural
groups appear of less intelligence. By another definition, perhaps one that devalues speed of response
and emphasizes other human attributes of intelligence (see Sternberg and Gardner (1983) for broader
definitions of intelligence which incorporate, for example, social and artistic skills) the results would
be opposite.
Myth 5. Translators are capable of finding flaws in a test adaptation. Field testing is not usually
necessary.
This is another of the major myths about adapting tests. There are literally thousands of examples of
poorly adapted test items in the literature, and many of the items in these tests were approved by
translators. The fact is translators are not able to anticipate all of the problems encountered by
examinees taking a test in a second language.
One of the best examples because it was discovered on an international comparative study of reading
achievement (and a study where the American students were about the middle of 20 countries) is the
following:
pessimistis
anguine
In the English version of the test item, only about 54% of the American students were able to
determine the correct response (a performance level slightly above chance) which is that the two
words have a different meaning. In a second language version, the item was adapted as follows--
Pessimisti
optimistic
In the foreign language version of the test item, almost 100% of the examinees answered the item
correctly. Clearly, a poor translation had made the test item considerably easier. The reason given
was that the word "sanguine" had no equivalent word in the second language and therefore another
word was chosen which too, had a different meaning to pessimistic. Interestingly, this easier version
of the test item was used in the country which finished number one among the 20 countries. One
71
wonders what role this item and other improperly adapted test items played in the final rankings of
the 20 countries.
In summary, all of the myths can seriously compromise the validity of a test in a second language or
cultural group, or negatively influence the validity of adapted tests for use in cross-language
comparison studies. Fortunately, each myth is straightforward to address in practice. What follows
are steps for adapting tests which should eliminate all of the myths and other shortcomings in test
adaptation methodology.
The International Test Commission (ITC) guidelines (Hambleton, 1994; van de Vijver & Hambleton,
1996) provide an excellent framework to guide researchers in the test adaptation process. Appendix
A contains a copy of those guidelines. The following steps for adapting a test from one culture and/or
language for use in another are a mixture of findings and recommendations from the ITC guidelines
and many empirical studies (e.g., Angoff & Cook, 1988, Prieto, 1992; Hambleton, 1994). Geisinger's
(1994) work in cross-cultural assessment was especially influential in our thinking about the topic of
steps for adapting tests. The steps are still evolving. Through the application of the steps in different
contexts new insights will be gained and certain additions, deletions, and clarifications may be
necessary.
Step 1 – Ensure that construct equivalence exists in the language and cultural groups of interest.
Assess whether construct equivalence exists between the cultures of interest and if it does not, either
consider "decentering" (that is, revising the definition of the construct to be equally equivalent in
each language and cultural group) or discontinue the project. The publication by Harkness (1998) is
especially helpful in the study of construct equivalence.
Central questions are as follows: Does the particular construct that a researcher (e.g., the content
domain for a credentialing exam) is interested in measuring exist in both cultures? Does it make
sense to compare these two cultures on this construct? Would any cross-cultural comparison on this
construct be meaningful? Does the construct that is being measured mean the same thing in all
cultures being compared?
Researchers familiar with both languages and cultures are in a strong position to make judgments
about construct equivalence between cultures. One can also judge whether cross-cultural construct
equivalence exists by interviewing or observing people from the cultures of interest, researching the
cultures of interest, asking others who know about the cultures, or visiting people in the culture.
Suggestions:
Consider the purpose of the adapted test, and the advantages and disadvantages of adapting an
existing test rather than developing a new test. It is clear too that some tests will be more amenable to
translation into certain languages than others (Ahluwalia, 1990, p. 20). The more similar the target
72
language and/or culture are to the source language and/or culture, the easier will be the adaptation
(thus, English to Spanish adaptations may make more sense than English to Arabic or English to
Chinese adaptations). With tests intended for cross-cultural comparisons, test adaptation (possibly
with some decentering) may be the only option. But when cross-cultural comparisons are not of
interest, it may be easier to actually produce a new test that meets the cultural parameters in the
second language group, than to adapt an already existing test which may have a number of
shortcomings (e.g., a less than satisfactory definition of the construct, inappropriate item formats, use
of some cultural specific content, etc.).
The standards with which to evaluate whether to adapt an existing test require some level of
expertise in measurement, some knowledge of the relevant literature of the original test, and some
knowledge of the language and culture to which the test is being adapted.
Suggestions:
1. Consider the purpose of the adapted test, and carefully consider the advantages
and disadvantages of adapting a test versus constructing a new test.
This is often one of the major shortcomings of a test adaptation project. Two points can be made:
First, in selecting translators, search for persons who are fluent in both languages and who are very
familiar with the cultures under study, and who have some knowledge of test construction and the
construct being measured. As knowledge of test construction practices is not common among
translators, this may be addressed with some training prior to initiating the test adaptation process.
Adding a psychometrician to the mix may be desirable, too.
Second, some researchers have found that panels or committees of people translate the test better
than individuals. Committees produce pooled adaptations that are often more accurate than
translations from a single translator.
Suggestions:
One approach to increasing the likelihood of a valid test adaptation is to adopt one of the two (or
both) standard designs: forward- and back-translation. Forward translation designs are the most
technically sound because the focus of the review is on both the source and target language versions
of the test. Backward translation designs can also be revealing of poor translations but without a
focus on the target language version of the test, problems in the adaptation can be missed. For
example, with a hard-to-translate concept like "ice hockey" into Chinese, these English words may
be used in the adapted version. They are very easy to back translate, but they may be quite
meaningless in the target language version of the test.
73
Suggestions:
Step 5 – Review the adapted version of the test and make necessary revisions.
In a forward translation design, another set of translators examine the adapted version of the test for
any errors that may lead to differences in meaning between the two language versions. The group of
translators' focus at this point would be on the quality of the translation or adaptation of the test. As
Geisinger (1994) suggests, this review can be accomplished in a group meeting, individually, or by
some combination of individual and group work. Geisinger believes that the most effective strategy
is to first have the translators review the items and react in writing and then to have the individuals
share their comments with one another and to reconcile any differences in opinion and make any
changes in the original and/or adapted language versions as necessary.
The National Institute for Testing and Evaluation in Israel is responsible for adapting college
admissions tests into five languages from the original Hebrew-language version. One special feature
in their process is that their translators work from the translated version first and attempt to
determine the validity of the questions: For example, is the stem clear? Is there a single correct
answer? Are there grammatical clues that lead the test-wise candidate to the correct answer? After it
is determined that the test items can stand on their own merits, then the equivalence of the adapted
version and the original Hebrew version are compared. Translators look at several features of the
adapted items: accuracy of the translation as well as the clarity of the sentences, the level of
difficulty of the words, and the fluency of the translation.
With a backward translation design, translators would take the adapted version of the test, back
translate to the source language, and then judgments would be made about the equivalence of the
original and back-translated versions of the test. Where non-equivalence is identified, changes in the
adapted version of the test are considered. The idea is that if the adaptation has been effective, the
back-adapted version of the test should look very much like the original. Of course, when the
adaptation involves format changes, time changes, and other changes, the target language version of
the test may be fine, but a back-translated test may not look at all like the original. In general, back-
translation designs seem like an excellent supplement to the forward translation design, but they are
not likely to be able to stand on their own. The information they provide about the validity of the
adapted test is limited.
Based on the comments of the reviewers, changes can be made in the original and/or adapted version
of the test, as necessary. Of course, if many changes are made, there may be advantages to repeating
step 4 and 5.
Suggestions:
1. Review and revision of the adapted test is absolutely necessary, following the
initial translation. In most cases, the adapted test is too important to be
dependent on the insights of a single translator or group of translators.
74
Step 6 – Conduct a small tryout of the adapted version of the test.
It is at this step that many studies seem to go wrong. Too many researchers and test developers feel
that judgmental review is sufficient evidence to establish the validity of a test in a second language.
But validity evidence for using a test in a second language depends on stronger evidence than that
the test seems to look acceptable to translators and/or reviewers. Not only is empirical evidence
needed to support the validity of inferences from an adapted version of a test, but perhaps two or
more empirical studies are needed. A good example of what researchers might learn from a tryout of
test items in a second language and culture is clearly highlighted in the paper by Allalouf and Sireci
(1998).
Beginning with a small tryout of the adapted test seems to be prudent before investing considerable
resources in a more ambitious field test. Pilot test the instrument using a small sample of individuals
representative of the eventual target population and compare the results to results obtained from a
source sample. The pilot test should consist of administering the test, as well as interviewing the
individuals to obtain their criticisms of the test itself, instructions, time limits, etc. These findings
form the basis for revising the test. One good suggestion from Ellis and Mead (1998) might be
carried out at this point. Ellis and Mead suggest that when there are disagreements about the best
adaptation of a test item, these variations might all be field tested, and the results used to make the
final decision about which adaptation is best.
Suggestions:
1. Conduct a pilot test to gain preliminary information about the test, and revise
accordingly.
This is one of the most important steps in the total test adaptation process. Good translators are often
capable of identifying and fixing many shortcomings in adapted tests. But many problems go
unidentified until test items are field tested. For example, in a recent study by Hambleton, Slater, and
Yu (in press) in which National Assessment of Educational Progress (NAEP) mathematics items
were adapted into Chinese, the NAEP test item went unidentified by the translators. A field test
revealed a major problem with the item which could not be identified by the translators because it
was a curriculum issue. Chinese students at the eighth grade were unfamiliar with the concept of
estimation.
Field test the adapted test using a larger sample of individuals representative of the eventual target
population and conduct preliminary statistical analyses, such as a reliability analysis and a classical
item analysis. In addition, check for construct equivalence using factor analysis should be carried
out.
Suggestions:
1. Design and carry out an ambitious field test to check out test items (using
classical or modern item analysis procedures), test and subtest reliabilities, and
the factor structure of the test (factor analysis or structural equating modeling
are popular for this analysis). Compare findings to those obtained with the
source language version of the test.
75
Step 8 – Choose a statistical design for connecting scores on the source and target language
versions of the test.
This step is necessary when cross-cultural comparisons are of interest, or the test score norms or
performance standards (i.e., the passing score on a credentialing exam) with the source language
version of the test are of interest with the target language version of the test. At this step (which
might be combined with step 7), a linking design is needed to place the test scores from the different
versions of the test on a common scale. There are three popular linking designs:
All three designs are popular, though the third design may be the easiest to implement in practice
(see, for example, Angoff & Cook, 1988). For a worked example based on item response modeling
of the data, studies by Angoff and Cook (1988) or Woodcock and Munoz-Sandoval (1993) would be
of special interest.
Suggestions:
1. Choose a linking design to equate scores from the source and target language
versions of the test. Item response modeling is a standard way to proceed.
Large samples are highly desirable at this step to produce a stable linking of
scores from one test to the other.
Step 9 – If cross-cultural comparisons are of interest, ensure equivalence of the language versions
of the test.
This step, too, may be combined with steps 7 and 8. We have highlighted this activity as a step
because of its central importance in the test adaptation process. Administer the source version of the
test to a large sample of the source population and perform statistical analyses to determine whether
or not the items function similarly in both the adapted and source language versions of the test. This
is accomplished through the use of an item bias study (often called a "differential item functioning"
or DIF study). If there are items that function differently for each group, rewrite or retranslate,
readminister, and reanalyze those items to determine whether they function the same for both groups.
The Muniz, Hambleton, and Xing (1998) study highlights the fact that even small samples (i.e., 50
candidates per group) can be useful in detecting flaws in the translation/adaptation process.
Suggestions:
1. Conduct a DIF study using one or more of the standard statistical procedures--
Mantel-Haenszel statistic, logistic regression, IRT-based area procedures, etc.
Regardless of the interest in cross-cultural comparisons of scores from the two language versions of
the test, and the related research generated by that concern, there is also a need to ensure that the test
scores of the newly adapted test are valid and reliable. Step 1 involved judgmental strategies for
collecting evidence of construct equivalence, as there was no data available with which to conduct
statistical analyses. Now that the test has been administered, there are data available and so evidence
76
of construct-related validity can be compiled. This may be compiled from factor analytic,
experimental, or other correlational information (e.g., predictive or concurrent validity studies).
Again, this step may be combined with steps 7 to 9.
Suggestions:
Step 11 – Document the process and prepare a manual for the users of the adapted test.
Document results obtained from steps 1 to 10 and prepare a manual for the users of the adapted test.
The manual should include specifics regarding the administration of the test, as well as how to
interpret the test scores. This is a very important step, yet often overlooked.
Suggestions:
1. Document the full process of adapting a test. Everything from the persons
involved, and designs used, to the findings and the nature of the changes
which were made needs to be compiled and placed in a technical manual for
future reference.
Where possible, train the users of the test. Although documentation and a manual will assist users of
the adapted instrument, training will further assist them.
Suggestions:
1. Train test administrators to follow the directions and to answer any questions
appropriately which may arise. Especially when cross-cultural comparisons
are being made, or the norms for the target language version of the test are
being used, standardized test administrations are essential across language
groups.
Often cross-cultural studies are a "one-shot affair." But some tests are adapted for ongoing use in a
second language group. Popular intelligence, credentialing, aptitude, and personality tests would be
ones which are adapted and intended for ongoing use. Researchers should remain vigilant to
potential flaws in their adapted tests, and this means that ongoing monitoring of adapted tests is
needed. Re-investigation and re-evaluation of the reliability and validity of test scores should be
ongoing.
Suggestions:
1. Continue to monitor the evaluation of adapted tests and assess their reliability
and validity on a regular basis. The reliability and validity of all tests can be
77
expected to change over time due to changes in curriculum, values,
experiences, exposure to the test, etc.
Conclusions
An increasing number of educational, credentialing, and psychological tests are being adapted for
use in other languages and cultures. At the same time, these adapted tests will have limited value
unless they are adapted with a high degree of concern for issues of usability, reliability and validity.
There is a rapidly emerging psychometric literature on the topic of test adaptation methodology, and
more advances can be expected in the coming years as researchers respond to the expanding need for
adapted tests of high technical quality. Avoiding the five myths and following the 13 steps
introduced in this paper for the test adaptation process should go a long way toward improving
current practices. In addition, the 13 steps provide a framework for incorporating new methodology
into the process as it is developed.
References
78
Hambleton, R. K., Slater, S. C., & Yu, J. (in press). Field test of the
ITC guidelines for adapting psychological tests. European Journal of
Psychological Assessment.
Muniz, J., Hambleton, R. K., & Xing, D. (1998). Small sample studies
to detect flaws in test translation. Paper presented at the meeting of
AERA, San Diego.
79
Appendix A
Context
80
2. identify problematic components or aspects of the instrument
which may be inadequate to one or more of the intended
populations.
Administration
A.5 The test manual should specify all aspects of the instrument and its
administration that require scrutiny in the application of the test in a
new cultural context.
Documentation/Score Interpretations
81
I.2 Score differences among samples of populations administered the
test should not be taken at face value. The researcher has the
responsibility to substantiate the differences with other empirical
evidence.
I.4 The test developer should provide specific information on the ways
in which the socio-cultural and ecological contexts of the populations
might affect performance on the test, and should suggest procedures to
account for these effects in the interpretation of results.
82
GHID PENTRU SOLICITANȚI ȘI UTILIZATORI
Norme de avizare a metodelor şi tehnicilor de evaluare şi
asistenţă psihologică
(Colegiul Psihologilor din Romania, www.alegericpr.ro)
Capitolul I
Dispoziţii generale
Art. 1 (1) Potrivit art. 33 lit. h) din Legea nr. 213/2004 privind exercitarea profesiei de psiholog cu
drept de liberă practică, înfiinţarea, organizarea şi funcţionarea Colegiului Psihologilor din România,
publicată în M.O., Partea I, nr. 492 din 1 iunie 2004, denumită în continuare lege, Comitetul director
al Colegiului Psihologilor din România, denumit în continuare Comitetul director, elaborează
normele de avizare a metodelor şi tehnicilor de evaluare şi asistenţă psihologică utilizate de către
psihologii cu drept de liberă practică din România.
(2) Comisia metodologică constituită în cadrul Comitetului director reprezintă unica autoritate, care,
potrivit art. 36 lit. b) din lege, analizează şi apreciază metodele şi tehnicile de evaluare şi asistenţă
psihologică.
(3) În urma analizării metodelor şi tehnicilor de evaluare şi asistenţă psihologică, Comisia
metodologică propune Comitetului director eliberarea rezoluției pentru metodele şi tehnicile de
evaluare şi asistenţă psihologică analizate, precum şi modul de utilizare al acestora.
(4) Comitetul director eliberează rezoluția pentru metodele şi tehnicile de evaluare şi asistenţă
psihologică în baza propunerii Comisiei metodologice sau o adresă în care sunt menţionate motivele
care au stat la baza neacordării avizului.
Art. 2 În vederea instituirii şi promovării standardelor de calitate a serviciilor psihologice prestate de
către psihologul cu drept de liberă practică, Comitetul director stabileşte prin prezentele norme
condiţiile acordării avizului / rezoluției pentru metodele şi tehnicile de evaluare şi asistenţă
psihologică utilizate de către psihologii cu drept de liberă practică din România.
2
Art. 3 (1) Avizele / rezoluțiile eliberate de către Comitetul director sunt solicitate în mod obligatoriu
de către producătorii sau distribuitorii de metode şi tehnici de evaluare şi asistenţă psihologică /
formatorii în metode și tehnici de intervenție psihologică, persoane fizice sau juridice, române sau
străine, care intenţionează să le introducă pe piaţa românească în vederea comercializării sau
utilizării cu titlu gratuit.
(2) Evidenţa metodelor şi tehnicilor de evaluare şi asistenţă psihologică este ţinută şi actualizată de
către Colegiul Psihologilor din România, în ordine alfabetică, prin înscrierea acestora în urma
obţinerii avizului în Catalogul metodelor şi tehnicilor de evaluare şi asistenţă psihologică din
România.
(3) Catalogul metodelor şi tehnicilor de evaluare şi asistenţă psihologică este un document public,
afișat pe site-ul Colegiului Psihologilor din România și actualizat bianual de către secretariatul
Colegiului Psihologilor din România.
Capitolul II
Definiţii şi precizări terminologice
Art. 4 (1) Normele de avizare a metodelor şi tehnicilor de evaluare şi asistenţă psihologică constau
într-un set de prescripţii metodologice, explicit formulate, care, adoptate şi respectate atât de către
producătorii şi distribuitorii autorizaţi / formatorii în metode și tehnici de intervenție psihologică, cât
şi de către psihologii cu drept de liberă practică, asigură coerenţă în formularea concluziilor psiho-
diagnostice și în desfășurarea intervențiilor.
83
(2 ) Metodele şi tehnicile de evaluare psihologică constau în totalitatea demersurilor fundamentate
ştiinţific, efectuate în scopul cercetării, investigării unei persoane, grup de persoane sau organizaţii
sub aspect psihologic.
(3) Metodele şi tehnicile de asistenţă psihologică constau în totalitatea demersurilor fundamentate
ştiinţific, efectuate în scopul declarat al intervenției (ameliorării sau optimizării activităţii psihice a
unei persoane, grup de persoane sau organizaţii).
(4) Utilizatorul de metode şi tehnici de evaluare şi asistenţă psihologică este psihologul cu drept de
liberă practică care a dobândit atestatul de liberă practică în specialităţile de competenţă profesională.
(5) Testele psihologice sunt probe standardizate și etalonate de extragere a unei secvenţe relevante
din comportamentul și/sau procesările cognitiv-afective ale unei persoane sau grup, a căror
interpretare este realizată de către psihologul cu drept de liberă practică specializat.
(6) Producătorul este persoana fizică sau juridică, română sau străină care este deţinătoare a dreptului
sau drepturilor de autor, responsabilă cu selecţia, administrarea, cotarea şi comercializarea metodelor
şi tehnicilor de evaluare şi asistenţă psihologică.
3
(7) Distribuitorul autorizat este persoana fizică sau juridică, română sau străină, deţinătoare a
drepturilor de distribuţie generală sau pe o anumită piaţă sau segment din piaţa metodelor şi
tehnicilor de evaluare şi asistenţă psihologică.
(8) Formatorul în metodă / Asociația formatoare în metoda de intervenție psihologică este o asociație
profesională care pregătește și formează psihologi în vederea utilizării în practică a unei anumite
metode de intervenție.
(9) Distribuirea pe piaţă constă în acţiunea producătorului sau distribuitorului autorizat de a face
disponibil contra cost sau gratuit metode sau tehnici de evaluare şi asistenţă psihologică.
(10) Solicitanţii avizului pentru metodele şi tehnicile de evaluare şi asistenţă psihologică sunt
producătorii sau distribuitorii autorizaţi, care introduc spre utilizare pe piaţa românească metodele
sau tehnicile de evaluare şi asistenţă psihologică, altele decât cele avizate de către Comitetul director
şi evidenţiate în Catalogul metodelor şi tehnicilor de evaluare şi asistenţă psihologică.
(11) Piaţa reprezintă cadrul legal reglementat prin prezentele norme, precum şi prin celelalte acte
normative în vigoare care reglementează activităţile civile şi comerciale, în care activează, pe de o
parte, producătorii şi distribuitorii autorizaţi de metode şi tehnici de evaluare şi asistenţă psihologică,
iar pe de altă parte utilizatorii de metode şi tehnici de evaluare şi asistenţă psihologică.
Capitolul III
Avizarea metodelor şi tehnicilor de evaluare și asistență psihologică III.1. Avizarea metodelor şi
tehnicilor de evaluare psihologică Art. 5 (1) În vederea obţinerii avizului pentru metodele şi tehnicile
de evaluare psihologică, solicitanţii vor depune la secretariatul Comitetului director un dosar pentru
fiecare metodă sau tehnică de evaluare psihologică, pentru care se solicită aviz, cuprinzând
următoarele documente:
a) cerere tip, potrivit Anexei nr. 1;
b) actul de identitate al persoanei fizice sau actele de înregistrare ale persoanei juridice, precum şi
actul constitutiv al acesteia (în fotocopie, semnată şi ştampilată pentru conformitate cu originalul sau
după caz, tradusă şi legalizată);
c) dovada deţinerii dreptului de autor sau a dreptului de distribuţie asupra metodei sau tehnicii de
evaluare psihologică sau orice dovadă privind întâia aducere la cunoştinţa publicului a metodei sau
tehnicii de evaluare psihologică, însoţită de o declaraţie pe proprie răspundere autentificată (original
ori copie legalizată, sau după caz, tradusă şi legalizată);
d) dovada deţinerii calităţii de producător sau distribuitor autorizat, după caz (original ori copie
legalizată sau după caz, tradusă şi legalizată);
84
e) dovezi privind îndeplinirea criteriilor specificate în Normele de avizare a metodelor și tehnicilor
de evaluare și asistență psihologică, în funcție de specificul instrumentului, după cum urmează
(original ori copie legalizată sau după caz, tradusă şi legalizată):
- Descrierea instrumentului: Descrirea generală; Clasificare (domenii de conținut, arii de
aplicabilitate, descrierea populațiilor, numărul scalelor și o scurtă descriere a variabilei/variabilelor
măsurate, modalitatea de răspuns, criterii pentru persoana căreia i se aplică testul, formatul itemilor,
caracter ipsativ, numărul total de itemi și numărul itemilor pe scală/subtest, modul de utilizare
recomandat, modul/modurile de administrare, timpul necesar pentru administrare, versiuni);
Măsurare și scorare (procedura de scorare, scorurile, scalele utilizate, transformarea scorurilor în
scoruri standard); Rapoarte generate pe calculator (posibilitatea întocmirii rapoartelor computerizate,
denumirea / descrierea raportului, conținut, complexitate, structură, sensibilitatea la context, raportul
clinic-actuarial, posibilitatea de modificare, stadiul de finalizare, transparență, stil și ton, utilizatori,
existența unor distribuitorii care oferă servicii de modificare a rapoartelor sau de elaborare a unor
rapoarte computerizate personalizate); Condiții și costuri de livrare (documentația furnizată de
distribuitor ca parte a pachetului testului, forma publicării, costuri /prețuri, calificări și trepte de
specializare).
-Evaluarea instrumentului: Justificarea utilității instrumentului, a modalității de prezentare și a
informațiilor oferite (explicarea utilității instrumentului, documentație disponibilă (manuale de
utilizare și tehnice, etaloanele etc.), instrucțiuni procedurale oferite utilizatorilor); Materiale de
testare (materiale aferente testelor creion-hârtie, materialelor aferente testării computerizate și a celei
web); Etaloanele (interpretarea bazată pe norme, interpretare bazată pe criteriu); Fidelitatea (date
oferite, consistența internă, test-retest, echivalentă, TRI, inter-evaluator, alte modalități); Validitatea
(validitatea de construct, validitatea relativă la criteriu, validitatea generală); Rapoarte generate de
computer (scop sau domeniu de aplicare, fidelitate, relevanță sau validitate, corectitudine sau
libertate față de biasul sistematic, acceptabilitate, lungime);
f) lista furnizorilor români de formare profesională continuă care pot oferi pregătire teoretică şi
practică pentru utilizarea metodei sau tehnicii de evaluare psihologică (original, semnată şi
ştampilată de către solicitant);
g) declaraţie de conformitate, potrivit Anexei nr. 2;
h) fotocopie după dovada achitării taxei de avizare preliminară, în cuantumul stabilit de către
Consiliul Colegiului Psihologilor din România, denumit în continuare Consiliul;
i) opis cuprinzând documentele depuse la dosar, semnat şi datat de către solicitant.
(2) Documentele prevăzute la alin. 1 vor fi prezentate în două exemplare, în dosare sau plicuri
securizate, dintre care un exemplar în fotocopie.
(3) Comisia Metodologică poate solicita şi alte date sau informaţii suplimentare.
85
d) dovada deţinerii calităţii de producător sau distribuitor autorizat, după caz (original ori copie
legalizată sau după caz, tradusă şi legalizată);
e) dovada rezervării de denumire a metodei sau tehnicii de asistență psihologică, după caz (original
ori copie legalizată sau după caz, tradusă şi legalizată);
f) dovezi privind îndeplinirea criteriilor specificate în Normele de avizare a metodelor și tehnicilor de
evaluare și asistență psihologică, în funcție de specificul metodei de asistență, după cum urmează:
- Prezentare detaliată a obiectului, scopului şi destinaţiei metodei sau tehnicii de asistență /
intervenție psihologică (original ori copie legalizată sau după caz, tradusă şi legalizată);
- Fundamentarea teoretică a metodei sau tehnicii de asistență psihologică, conținând bibliografia:
teoriile/modelele teoretice care susțin metoda sau tehnica de asistență/intervenție psihologică
(original ori copie legalizată sau după caz, tradusă şi legalizată)
- Atestare și recunoaștere generală (națională și internațională) în domeniu (original ori copie
legalizată sau după caz, tradusă şi legalizată);
- Literatură de specialitate descriptivă (manuale, tratate, etc.) – o listă cu cel mult 100 de titluri
(original, semnat şi ştampilat de către solicitant), însoțită de un stick, cu documente reprezentative in
extenso, în format pdf;
- Calitatea dovezilor științifice
. În concordanță cu Piramida încrederii privind eficiența unei intervenții psihologice în funcție de
calitatea metodologică a studiilor pe care se bazează, comisia va analiza și aprecia: designul
studiilor; calitatea studiilor; consistenţa rezultatelor, cu evidențierea robusteţei şi omogenității
efectelor; similaritatea studiilor cu situaţia practică de rezolvat și gradul de aplicabilitate. Studiile
care susțin științific metoda sau tehnica de asistență/intervenție psihologică vor fi depuse la dosar pe
un stick, în format pdf.
- Dovezi / rezultate științifice publicate în jurnale cu peer-review: Studiile care susțin științific
metoda sau tehnica de asistență/intervenție psihologică, publicate în jurnale cu peer-review, vor fi
depuse la dosar pe un stick, în format pdf.
- Alte dovezi de fidelitate și validitate a rezultatelor / eficienței metodei sau tehnicii de
asistență/intervenție psihologică (original / după caz, traducere, pe un stick, după caz);
- Posibilitatea utilizării metodei într-un context comun, după caz, în funcție de specificul metodei sau
tehnicii de asistență/intervenție psihologică (original ori după caz, traducere);
- Dovezi de absență a lezării și prejudicierii (original ori traducere, după caz), însoțite de o declarație
pe propria răspundere a solicitantului (original, semnat şi ştampilat de către solicitant);
g) lista furnizorilor români de formare profesională continuă și/sau complementară care pot oferi
pregătire teoretică şi practică pentru utilizarea metodei sau tehnicii de asistență psihologică (original,
semnat şi ştampilat de către solicitant);
h) declaraţie de conformitate, potrivit Anexei nr. 2;
i) specialităţile de competenţă şi treptele de specializare în care poate fi utilizată metoda sau tehnica
de asistență psihologică, potrivit H.G. nr. 788/2005 (original sau tradus şi legalizat);
j) numărul de ore de formare în domeniu / în metodă, specific fiecărei metode (original, semnat şi
ştampilat de către solicitant);
1 Fundamentarea teoretică și bibliografia vor fi redactate în format APA.
2 Conform Grilei de evaluare a calităţii dovezilor ştiinţifice (sistemul GRADE).
3 Piramida încrederii privind eficiența unei intervenții psihologice este prezentată în Normele de
avizare a metodelor și tehnicilor de evaluare și asistență psihologică.
k) preţul cursurilor de formare pentru metoda sau tehnica de asistență psihologică, propus şi
recomandat de către solicitant (original, semnat şi ştampilat de către solicitant);
l) fotocopie după dovada achitării taxei de avizare preliminară, în cuantumul stabilit de către
Consiliul Colegiului Psihologilor din România, denumit în continuare Consiliul;
m) opis cuprinzând documentele depuse la dosar, semnat şi datat de către solicitant.
86
(2) Documentele prevăzute la alin. 1 vor fi prezentate în două exemplare, în dosare sau plicuri
securizate, dintre care un exemplar în fotocopie.
(3) Comisia Metodologică poate solicita şi alte date sau informaţii
suplimentare.
*
Art. 7 (1) La cererea expresă a solicitantului sau reprezentantului acestuia, Comisia metodologică va
putea stabili o dată în vederea susţinerii de către solicitant a cererii de avizare.
(2) Cererea solicitantului trebuie formulată până la data atribuirii dosarului de avizare.
(3) Orice cerere ulterioară sau încercare de influenţare a membrilor Comisiei metodologice din
partea solicitanţilor sau reprezentanţilor acestora, în vederea acordării sau a neacordării avizului
pentru metoda sau tehnica de evaluare sau asistenţă psihologică, suspendă de drept procedura de
avizare.
(4) Acţiunea prevăzută la alin. 3, care este întreprinsă de către un psiholog cu drept de liberă practică,
constituie abatere disciplinară gravă şi se sancţionează potrivit reglementărilor în vigoare.
Art. 8 (1) Secretariatul Comitetului director înregistrează cererile de avizare în ordinea cronologică a
depunerii acestora.
(2) Secretariatul Comitetului director asigură depozitarea dosarelor de avizare până la data depunerii
şi înregistrării lor la Comisia metodologică.
(3) De la data înregistrării dosarelor la Comisia metodologică, responsabilitatea privind acestea
aparţine în totalitate membrilor comisiei.
Art. 9 (1) După înregistrarea dosarului la secretariatul Comitetului director, Comisia metodologică va
stabili data şedinţei de lucru privind recepţia dosarelor de avizare şi atribuirea lor spre analizare
membrilor comisiei.
(2) Neprezentarea membrilor Comisiei metodologice la lucrările acesteia constituie abatere
disciplinară, cu excepţia cazului fortuit sau forţei majore.
(3) În cadrul şedinţei de lucru, membrii comisiei realizează recepţia dosarelor de avizare înregistrate
de către secretariatul Comitetului director.
(4) Verificarea iniţială a dosarelor constă în verificarea datelor înscrise în opis cu documentele
depuse la dosar. Orice inadvertenţă descoperită va fi consemnată în procesul verbal al şedinţei.
Art. 10 (1) Procedura de lucru debutează cu inventarierea dosarelor şi stabilirea ordinii de
înregistrare.
(2) Dosarele de avizare vor fi analizate în ordinea înregistrării lor la secretariatul Comitetului
director.
Art. 11 Aducerea la cunoştinţa publică sau destăinuirea de către membrii comisiei pe toată perioada
desfăşurării procedurilor de avizare a oricăror date cu privire la conţinutul
dosarelor de avizare constituie abatere disciplinară gravă şi se sancţionează potrivit reglementărilor
legale în vigoare.
Art. 12 (1) După încheierea procedurilor preliminare, fiecărui membru i se înmânează un exemplar
din dosarul de avizare.
(2) Membrii comisiei stabilesc prin vot data următoarei şedinţe de lucru, dar nu mai târziu de 30 de
zile calendaristice, fapt ce se consemnează în procesul verbal al şedinţei de lucru.
(3) Fiecare membru al comisiei va elabora şi prezenta un raport privind rezoluția metodei sau tehnicii
de evaluare sau asistenţă psihologică analizate.
(4) După audierea fiecărui raport, președintele și membrii comisiei votează în plen propunerea de
avizare sau neavizare a metodei sau tehnicii de evaluare sau asistenţă psihologică.
(5) Hotărârea membrilor comisiei este luată cu majoritatea voturilor valide. Voturile de abţinere nu
sunt considerate valide. Fiecare membru al comisiei este obligat să exprime un vot valid.
Art. 13 (1) În cazul în care membrii comisiei nu consideră concludente documentele
87
prezentate, aceştia vor comunica solicitanţilor o adresă prin care se precizează probele, documentele
sau alte clarificări pe care aceştia trebuie să le prezinte în completare.
(2) Termenul de completare a dosarelor de avizare este stipulat în adresa comunicată solicitantului.
Data comunicării este considerată data poştei.
(3) Datele privind completarea dosarului vor fi analizate conform procedurii.
(4) Neprezentarea în termen a documentelor de completare este echivalentă cu renunţarea la cererea
de avizare.
Art. 14 (1) Comisia metodologică propune Comitetului director acordarea sau neacordarea avizului /
rezoluției pentru metoda sau tehnica de evaluare sau asistenţă psihologică analizată. În baza
propunerii înaintate de către Comisia metodologică, Comitetul director hotărăşte eliberarea avizului /
rezoluției sau respingerea cererii de avizare.
(2) Termenul de eliberare a avizului / rezoluției pentru metoda sau tehnica de evaluare sau asistenţă
psihologică este raportat la data ședintei Comisiei metodologice și la data sedinței Comitetului
director în care se validează rezoluțiile comisiei.
(3) Adresa de respingere a cererii de avizare a metodei sau tehnicii de evaluare sau asistenţă
psihologică va fi comunicată solicitantului în termen de 30 zile de la data înregistrării propunerii de
respingere a cererii la secretariatul Comitetului director.
(4) Solicitantul poate contesta respingerea cererii de acordare a avizului / rezoluției în termen de 15
zile de la data comunicării.
(5) Hotărârea dată în soluţionarea contestaţiei este definitivă. De asemenea, hotărârea Comitetului
director, necontestată în termen, este considerată acceptată de către solicitanţi.
Capitolul IV
Tipuri de rezoluții
IV. 1. Tipuri de rezoluții pentru metodele și tehnicile de evaluare psihologică
Art. 15 (1) În urma analizei efectuate de către membrii comisiei, Comisia metodologică poate
propune Comitetului director acordarea a trei tipuri de rezoluții pentru metodele și tehnicile de
evaluare psihologică:
a) aviz pe perioadă nedeterminată
b) amânare (cu minor revision și acordare de termen)
c) respins
(2) Comisia metodologică va întocmi o motivare prin care să justifice tipul de rezoluție, dar şi
recomandări pentru îmbunătăţirea calităţilor psihometrice ale probelor. De asemenea, vor fi aprobate
şi eliberate instrucţiunile de utilizare ale metodei sau tehnicii de evaluare psihologică, conform
Anexei nr. 3.
(3) Avizul eliberat pe perioadă nedeterminată corespunde unei metode sau tehnici de evaluare
psihologică care îndeplineşte toate condiţiile de calitate necesare utilizării de către psihologii cu
drept de liberă practică.
(4) Amânarea cu minor revision corespunde unei metode sau tehnici de evaluare psihologică care
îndeplineşte condiţiile minime de calitate necesare utilizării de către psihologii cu drept de liberă
practică, însă necesită completări și/sau dovezi suplimentare. În aceste condiții, proba va fi
reanalizată de către comisie, conform termenului acordat (maxim 6 luni). Reanalizarea probei
presupune redepunerea dosarului. În cazul în care există anumite reglementări metodologice
specifice de revizuire a probelor după un anumit interval d etimp, ori dacă anumite caracteristici cu
efect asupra gradului de încredere în proba respectivă sunt modificate, revizuirea se impune sub acest
termen și achitarea unui procent de 50% din contravaloarea taxei inițiale. O probă poate beneficia de
o singură sesiune/procedură de reanalizare a dosarului.
(5) Respingerea cererii de acordare a avizului pentru metoda sau tehnica de evaluare psihologică
corespunde neîndeplinirii condiţiilor minime de calitate necesare utilizării de către psihologii cu
drept de liberă practică sau prezentării unor date incomplete.
88
Art. 16 (1) Avizul eliberat de către Comitetul director se rezumă la aria de aplicabilitate specificată
în caracteristicile domeniului vizat, şi nu poate fi extins spre alte domenii de activitate fără o avizare
prealabilă.
(2) Sunt exceptate de la necesitatea obţinerii avizului metodele sau tehnicile de evaluare psihologică
aflate în perioadă de experimentare, ale căror rezultate nu pot fi utilizate în procesul de testare
psihologică.
(3) Dovada avizării metodei sau tehnicii de evaluare psihologică o constituie hotărârea Comitetului
director.
IV. 2. Tipuri de rezoluții pentru metodele și tehnicile de asistență psihologică
Art. 17 (1) În urma analizei efectuate de către membrii comisiei, privind datele referitoare la design,
la calitatea studiilor, la robusteţea şi omogenitatea efectelor şi la gradul de aplicabilitate a acestora la
situaţia practică întâlnită, Comisia metodologică poate propune Comitetului director acordarea
următoarelor tipuri de rezoluții pentru metodele și tehnicile de asistență psihologică, din perspectiva
gradului de încredere în reușita intervenției:
• ridicat (4) – probabilitate scăzută ca studii viitoare să conducă la modificarea încrederii în eficienţa
intervenţiei;
• moderat (3) – studii viitoare pot avea un impact relevant pentru concluziile referitoare la eficienţa
intervenţiei;
• scăzut (2) – probabilitate ridicată ca studiile viitoare să aibă impact important asupra concluziilor,
fiind posibil să asistăm la situaţia inversării direcţiei efectului;
• foarte scăzut (1) – orice direcţie a efectului este posibilă
.
(2) Comisia metodologică va întocmi o motivare prin care să justifice tipul de rezoluție, dar şi
recomandări pentru îmbunătăţirea calităţilor psihometrice ale probelor. De asemenea, vor fi aprobate
şi eliberate instrucţiunile de utilizare ale metodei sau tehnicii de asistență psihologică, conform
Anexei nr. 3.
Art. 18 (3) Întrucât metodele sau tehnicile de asistență/intervenție psihologică sunt specifice unei
anumite populații sau unei anumite problematici, acestea nu pot fi:
Normele de avizare a metodelor și tehnicilor de evaluare și asistență psihologică prezintă scorurile
de pornire inițială și modalitățile de ajustare a acestor scoruri, prin scăderi sau creșteri de punctaj.
avizate la modul general. Metoda nu poate funcționa în contexte în care nu și-a dovedit eficiența, iar
rezoluția se va solicita, în cazul fiecărei metode, pentru o anumita utilitate
.
(4) Avizul/Rezoluția va cuprinde sintagma ”Metoda X – cu aplicație în zona/aria Y”. Pentru
conformitatea Metodă – Aplicabilitate, vor fi consultate ghidurile internaționale în domeniu (NICE,
APA, etc.). / solicitantul va aduce dovezi de conformitate, conform prevederilor internaționale.
(5) Dovada avizării metodei sau tehnicii de asistență/intervenție psihologică o constituie hotărârea
Comitetului director.
Capitolul V
Dispoziţii finale
Art. 19 (1) Încălcarea dispoziţiilor alin. 1 reprezintă abatere disciplinară gravă şi este sancţionată
potrivit actelor normative în vigoare.
(2) Prezentarea de către orice persoană a unor metode sau tehnici de evaluare sau asistenţă
psihologică neavizate de către Comitetul director ca fiind avizate de către acesta se sancţionează
potrivit legii penale.
Art. 20 Normele de avizare a metodelor și tehnicilor de evaluare și asistență psihologică reprezintă
procedura unică de avizare a metodelor sau tehnicilor de evaluare sau asistenţă psihologică.
Art. 21 Normele de avizare a metodelor și tehnicilor de evaluare și asistență psihologică au fost
adoptate prin Hotărârea Convenției Naționale a Colegiului Psihologilor din România, numărul 3 din
data de 24.11.2018.
89
Exemplificare: Metoda X este eficientă în zona anxios-depresivă, însă nu neapărat în zona de
trăsături schizotipale accentuate. / Dacă Metoda Y se adresează unei populații subclinice, ea nu va fi
în mod obligatoriu eficientă pentru populația clinică sau nonclinică.
Anexa nr. 1
Domnule Preşedinte,
În acest scop, potrivit art. 5 / art. 6 din Normele de avizare a metodelor şi tehnicilor de evaluare şi
asistenţă psihologică, anexez la dosar documentele necesare pentru avizare.
Data: ____________ Semnatura: _____________
Anexa nr. 2
Emitent:______________________________________
Sediul social: __________________________________
Cod de înregistrare fiscală/C.U.I.: __________________
Tel./Fax ______________________________________
DECLARAŢIE DE CONFORMITATE
90
Anexa nr. 3
MOD DE UTILIZARE A MATERIALULUI – INSTRUCȚIUNI DE UTILIZARE ALE METODEI
SAU TEHNICII DE EVALUARE ȘI ASISTENȚĂ PSIHOLOGICĂ
Date de identificare a metodei sau tehnicii de evaluare psihologică / asistență psihologică
1. Denumire:
2. Acronim:
3. Autor(i):
4. Autorul traducerii şi adaptării versiunii româneşti (dacă este cazul):
5. Descrierea în maxim 15 cuvinte a scopului: (ex.: Măsoară caracteristicile de personalitate la adulţi
/ Diminuează manifestările anxioase la copii)
6. Versiuni avizate (se completează de către CM):
7. Forme paralele existente / Alte versiuni:
8. Manualul testului (număr de pagini; editura; an; versiuni test) / Studiile științifice care susțin
metoda de asistență psihologică (număr de studii; revistele în care au fost publicate; autori; ani;
linkuri)
9. Licenţa de distribuire pentru România / Dreptul de utilizare în România:
10. Date de contact ale distribuitorului (adresă, telefon/fax, link către pagina de net):
11. Copyright
12. Preţ avizat de către CPR, pentru probă / curs de formare pentru metoda de asistență/intervenție
psihologică (cel precizat în dosarul trimis spre avizare)
13. Cuvinte cheie (maxim 5):
15 Date despre tipul de aviz acordat / rezoluție şi modul de utilizare
1. Tip aviz acordat / Tip de rezoluție (se completează de către CM)
2. Anul în care a fost acordată rezoluția: (se completează de către CM)
3. Analiza metodei sau tehnicii de evaluare sau asistență psihologică (calificative /punctaje acordate
de către CM în procesul de analiză)
3.1. Analiza metodei sau tehnicii de evaluare psihologică
3.1.1. Fundamentarea teoretică
3.1.2. Calitatea materialelor de testare
3.1.3. Etaloane
3.1.4. Fidelitate
3.1.5 Validitate
3.2. Analiza metodei sau tehnicii de aistență psihologică
3.2.1. Fundamentarea teoretică
3.2.2. Atestare și recunoaștere generală
3.2.3. Literatură de specialitate descriptivă
3.2.4. Calitatea dovezilor științifice
3.2.5. Dovezi / rezultate științifice publicate în jurnale cu peer-review
3.2.6. Dovezi de absență a lezării și prejudicierii
4. Domenii de utilizare / aplicabilitate (bifate): (se completează de către CM pe baza propunerilor
solicitantului şi a analizei efectuate):
5. Scopul utilizării (bifate): (se completează de către CM pe baza propunerilor solicitantului şi a
analizei efectuate)
6. Utilizatori, competențe și trepte de specializare
7. Caracteristici psihice măsurate / optimizate (scurtă descriere a testului și/sau a scalelor; scurtă
descriere a obiectivelor, tehnicilor și tipurilor de exerciții utilizate de metoda de asistență/intervenție
psihologică): maxim 150 de cuvinte
8. Modul de utilizare (condiţii de utilizare):
8.1. Grup ţintă: (ex. evaluarea copiilor cu vârste între 5 şi 15 ani; diminuarea comportamentului
antisocial la adolescenți)
91
8.2. Durata medie de aplicare a metodei sau tehnicii de evaluare sau asistență psihologică (cât
durează în medie completarea probei; cât durează în medie aplicarea intervenției)
8.3. Modalităţi de aplicare: creion-hârtie / calculator, în ultimul caz caracteristici tehnice necesare
(ex. tip sistem de operare, memorie RAM, acces la internet, accesorii necesare (ex. pedale) etc.);
tipuri de tehnici (directive/nondirective, etc.)
8.4. Condiţii de aplicare (ex. individual vs. colectiv; condiţii de luminozitate, zgomot, distanţa şi
poziţia; contraindicaţii; schemă de poziţionare pentru aparatură, dacă este cazul şi alte informaţii
relevante care ar putea influenţa performanţa individului, etc.)
8.5. Modalităţi de scorare: (ex. manual (cu ajutorul unei grile de cotare); prin poştă, etc.) sau de
interpretare a rezultatelor eficienței intervenției
8.6. Durata de scorare: (ex. se completează pentru fiecare modalitate de scorare în parte) sau de
interpretare a rezultatelor eficienței intervenției
8.7. Rapoarte generate pe calculator (da; nu): dacă da, ce fel de indicatori sunt generaţi
8.8. Detalii despre cursuri de formare în metoda sau tehnica de evaluare sau asistență
psihologică:
9. Observaţii (se completează de către CM dacă este cazul)
II. Anexă Hotărârea 3CN din 24.11.2018 - Norme de avizare ale metodelor și tehnicilor de
evaluare și asistență psihologică - Link
92
Glosar
A măsura înseamnă a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens,
1951).
Analiza factorială - un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la
baza uneui set de măsurăori empirice
Consistenţa internă a unui test - se referă la măsura în care toţi itemii testului măsoară aceeaşi variabilă
Etalonarea unui test - reprezintă stabilirea unui cadru de referinţă, a unei scări care să permită determinarea
locului ocupat de rezultatele unui subiect faţă de rezultatele unei populaţii de referinţă, suficient de
numeroasă, formată din persoane comparabile cu cea examinată.
Etalonul (norma sau standardele) reprezintă deci cadrul de referinţă al unui subiect cu populaţia
Evaluarea psihologica este un proces de rezolvare de probleme care vizează descoperirea manifestărilor
realitatii.
Fidelitatea interevaluatori exprimă măsura în care testul este independent de erori datorate modalităţii de
cotare a răspunsurilor subiectului
Item - stimul specific care determină un anumit comportament ce poate fi cotat şi evaluat independent.
Itemi cu mai multe opţiuni (polinomici) – au un format similar celor dihotomici, atâta doar că au mai mult
de două alternative de răspuns
Itemii dihotomici – oferă două alternative de răspuns (adevărat şi fals), de obicei uneia dintre acestea i se
acordă un punct la cotarea performanţei persoanei evaluate
Metoda formelor paralele - două teste sunt paralele dacă pentru un subiect erorile de măsură la cele două
administrări sunt variabile aleatoare independente
Predicţia - este procesul de stabilire a unor expectaţii despre viitor având la baza date / evenimente curente
Q- sort – este o metodă utilizată cu precădere în evaluarea personalităţii. Persoana evaluată va primi o listă de
adjective pe care le va sorta în funcţie de măsura în care acestea îl caracterizează
Scală categorială – este similară cu scalele Likert, dar utilizează un număr mai mare de opţiuni de răspuns, de
cele mai multe ori sunt utilizate scale cu 10 opţiuni de răspuns
Scale Likert – prezintă o formă foarte populară, utilizată mai ales în cadrul testelor de personalitate, în care
persoana evaluată trebuie să-şi exprime acordul sau dezacordul faţă de a o afirmaţie
Scor standard - este un scor care a fost transformat dintr-o scală în alta, ultima fiind una pe baza căreia se
pot face comparaţii.
93
Stabilitatea rezultatelor testării - ne indică în ce măsură la aplicări diferite în timp un subiect obţine
rezultate similare la un test psihologic
Testarea psihologica - constituie procesul de administrare, cotare si interpretarea a rezultatelor unui test
psihologic
Validarea – procesul prin care se obţin informaţii legate de validitatea unui test
Validitate concurentă (presupune obţinerea scorurilor la criteriu aproximativ în acelaşi timp cu scorurile la
test. În cazul validităţii concurente este vorba tot de o predicţie, dar la aceasta se ajunge pe o cale puţin diferită
faţă de cea urmată în studierea validităţii predictive
Validitate convergentă - măsura în care testul evaluează aceleaşi constructe ca şi alte teste
Validitate de discriminare – măsura în care testul evaluează altceva decât alte teste despre care se ştie că se
referă la constructe ce nu au legătură cu constructul măsurat de test
Validitatea de aspect - ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară
Validitatea de aspect este definită ca “ceea ce un test pare să măsoare, mai degrabă decât ceea ce măsoară”
Validitatea de construct - reprezintă măsura în care se poate susţine că testul măsoară o variabilă sau o
trăsătură specifică
Validitatea de conţinut - implică examinarea sistematică a conţinutului testului pentru a se verifica dacă
testul acoperă un eşantion reprezentativ din domeniul care se cere a fi evaluat prin test
Validitatea de criteriu - indică măsura în care testul este un bun predictor pentru un eşantion de
comportamente viitoare
Validitatea predictivă - este definită ca acurateţea cu care putem estima în ce măsură o anumită caracteristică
sau aptitudine a unei persoane se va manifesta în viitor pe baza măsurii în care persoana posedă o serie de
caracteristici sau aptitudini curente
Prof. univ. dr. Anca DOBREAN este titular în cadrul Departamentului de Psihologie Clinică şi
Psihoterapie din cadrul Universitatii Babes Bolyai. Domeniile sale de competenţă includ: evaluare și
intervenții psihologice validate științific în psihopatologia copilului şi adolescentului.
Anca Dobrean participat in calitate de director, coordonator sau membru în peste 15 proiecte
de cercetare naţionale şi internaţionale, şi a publicat ca autor sau coautor peste 70 de studii stiintifice
in reviste de specialitate, indexate ISI, recenzate in baze de date internaţionale şi/sau recunoscute
CNCSIS.
ORCID: https://orcid.org/0000-0001-6089-1018
GoogleScholar: Anca Dobrean
94