Documente Academic
Documente Profesional
Documente Cultură
Psihodiagnostic Curs Idd
Psihodiagnostic Curs Idd
PSIHODIAGNOSTIC
Sem I
Anca Dobrean
I. Informatii generale
Date de identificare ale cursului :
Numele cursului : PSIHODIAGNOSTIC
Codul cursului : Psy 2093
Anul : II ; Semestrul I
Tipul cursului : Obligatoriu
Numr de credite : 6,5
Pagina web a cursului : www.psychology.ro
Date de contact ale titularului de curs:
Nume: Anca Dobrean
Birou: str. Republicii, nr. 37
Telefon:0264-434141
Fax: 0264-434141
E-mail: AncaDobrean@psychology.ro
Consultatii : miercuri: 12:00-14:00
Date de identificare curs si contact tutori:
Tutori :
Asistent de cercetare drd. Raluca Anton
Asistent de cercetare drd. Madalina Sucala
Adresa e-mail tutori: psihodiagnostictutor@psychology.ro
Studenii care susin examene de mrire de not sau restante trebuie s prezinte toate sarcinile
aferente cursului.
Fraudarea examenului sau a sarcinilor de lucru de pe parcursul semestrului se penalizeaz prin
exmatriculare.
Proiectele copiate, discuiile sau colaborrile n timpul examenelor se sancioneaz cu nota 1.
Nepredarea lucrrii scrise de ctre un student care se prezint la examen este sancionat cu nota 1.
Orice material elaborat de catre studenti pe parcursul activitilor va face dovada originalitatii.
Studentii ale cror lucrri se dovedesc a fi plagiate nu vor fi acceptati la examinarea finala.
Discuiile sau colaborrile n timpul examenelor se sancioneaz cu nota 1. Nepredarea lucrrii scrise
de ctre un student care se prezint la examen este sancionat cu nota 1.
Contestarea notei primite la examen se face n scris, la secretariatul facultii, n termen de 48 ore de
la afiarea rezultatelor. Nota final la disciplina respectiv este cea obinut n urma contestaiei.
Scopul i obiectivele: obiectivul esenial al acestui modul este s se poat face diferena
ntre conceptele de evaluare psihologic i testare psihologic. Acest modul este unul introductiv
care i ajut pe studeni s i fac o imagine iniial a ceea ce nseamn psihodisgnosticul.
Obiective de studiu:
1.
2.
3.
4.
5.
6.
7.
8.
9.
care le facem pe baza unui test iau in considerare doar o singura sursa si anume testul respectiv. Predictiile
pe care le facem pe baza unei evaluri psihologice in seama de o multitudine de surse de informaie
(incluznd bineinteles si testarea psihologica).
REPERE ISTORICE N EVOLUIA TESTRII PSIHOLOGICE
Tabelul 1. Repere istorice n evoluia testrii psihologice
2200 C
1877
1884
1890
1901
1905
1914
1916
1917
1920-1940
1920
1921
1927
1939
1942
1949
1967
scale nominale
scale ordinale
scale de interval
(Stevens, 1946):
relaie de echivalen
Orice dou submulimi ale unei clase, nu
trebuie s se intersecteze
Exemple:
1. sexul (femei / brbai) - o clas de elevi cuprinde 31 elevi din care 14 biei i 17 fete;
2. categoriile socioprofesionale
Definiie
relaie de echivalen
relaie de ordine
Observaie:
Exemple:
A>B>C
Aprecierile ca foarte bun, bun, slab
relaie de echivalen
relaie de ordine
distana ntre clase (zero arbitrar)
Exemple:
1. IQ
2. Coeficient perceptiv.
Permite utilizarea celor mai numeroi indici statistici
(media, variana, coeficieni de corelaie).
Relaii
Nominale
Ordinale
Echivalen
Echivalen
Ordine
Echivalen
De interval
Ordine
Existena unei uniti de msur
De proporii
Modul, frecvene
Mediana, centilele, coef. de
corelaie al lui Spearman
Media, variana, coeficientul de
corelaie Bravais-Pearson
A. Raven
B. Binet-Simon
C. Rorschach
! Itemul este un stimul specific care determin un anumit comportament ce poate fi cotat i
evaluat independent
Tipuri de itemi:
I. Itemi de tip "eseu"
II.Itemi cu rspunsuri date: a. itemi de tip "da-nu", b. "adevrat-fals", itemi cu rspunsuri la
alegere, c. itemi cu rspunsuri pe scale de tip: "da-nu-nu tiu", "de acord-acord parial-dezacord",
d. Itemi cu rspunsuri ce trebuie alturate dup diferite criterii
Selecie/clasificare.
Diagnostic i intervenie
Autocunoatere
Proiecte de evaluare a unor modificri intervenite n urma unor intervenii educative, psihoterapeutice.
Instrumente ale cercetrii tiinifice
Psihologia
industrial/organizaional
Psihologia colar
Neuropsihologia
Sumar
Termenii de evaluare respectiv testare psihologica sunt doi temeni distinci. Evaluarea psihologica
include testarea psihologica. Testarea constituie procesul de administrare, cotare si interpretarea a
rezultatelor unui test psihologic. Testul psihologic reprezint, alturi de alte instrumente ale metodei
experimentale, o surs de informaii extrem de util n evaluarea comportamentului uman. n literatura de
specialitate gsim diferite definiii ale testului psihologic. Este important de reinut c acesta reprezint o
colecie de itemi care pot fi, fie de tip eseu, fie cu rspunsuri date.
Prin conceptul de msurare se nelege atribuirea de numere obiectelor sau fenomenelor potrivit unor
reguli determinate (Stevens, 1951). Aceste reguli stabilesc o coresponden ntre proprietile numerelor
i proprietile obiectelor / fenomenelor. Astfel, prin testul psihologic se vizeaz acele atribute / trsturi
specifice iar pentru a le msura se utilizeaz scalele de msur (scale nominale, ordinale, de interval, de
raport / proporii).
Bibliografie modul
Scopul i obiectivele: n cadrul acestui modul studenii vor acumula informaii cu privire la
modalitile de interpretare a rezultatelor obinute n urma aplicrii unui test psihologic.
Obiective de studiu:
1.
2.
3.
4.
Etalonul (norma sau standardele) reprezint deci cadrul de referin al unui subiect cu populaia. Un scor brut
obinut la un test nu are nici o valoare deoarece pe baza lui nu putem ti unde se situeaz performana unui
subiect.
S lum un exemplu.
S presupunem c la un test de cunotine de matematic alctuit din 100 de itemi un subiect rezolv corect
30 de itemi. Scorul brut obinut de subiect la acest test este 30. Ce reprezint aceast valoare? Reprezint o
performan slab, medie sau bun la test? Pentru a putea rspunde la aceast ntrebare trebuie s comparm
aceast valoare cu un cadru de referin sau etalon. Acest etalon poate fi reprezentat de performana obinut
de ceilali subieci la test i astfel raportm subiectul la performana celorlali sau dimpotriv, cadrul de
referin l poate constitui o norm naional n care cadrul de referin l constituie ntreaga populaie din
care face parte.
Procesul de etalonare al unui test reprezint stabilirea unui cadru de referin, a unei scri care s permit
determinarea locului ocupat de rezultatele unui subiect fa de rezultatele unei populaii de referin, suficient
de numeroas, format din persoane comparabile cu cea examinat.
ETALONAREA
Etalonarea are astfel urmtoarele scopuri:
1. confer semnificai scorurilor i permite interpretarea acestora;
2. permite compararea direct a scorurilor. Astfel, un scor de 33 obinut de un subiect la un test poate
s nu aib aceeai semnificaie la un al doilea test.
Procesul de construcie a unui etalon respect urmtorii pai:
1.
2.
3.
4.
definirea populaiei sau a cadrului de referin pentru care se dorete construcia testului;
eantionarea;
administrarea testului la eantionul ales;
construcia cotelor sau a normelor testului.
1. Definirea populaiei constituie primul pas n construirea normelor. Acest proces cuprinde de fapt
circumscriera persoanelor pentru care este destinat testul. Astfel, aceast definire se face prin prezentarea
unor caracteristici care vor permite recunoaterea unei persoane ca aparinnd sau nu populaiei pentru
care a fost construit testul.
Exemplu.
a. Testul Bender Gestalt evalueaz funcia perceptiv motric ntre 5 i 10 ani. n aceast situaie tim c
orice persoan cu vrsta ntre 5 i 10 ani poate fi evaluat cu testul Bender pentru a se identifica nivelul
dezvoltrii funciei perceptiv motrice.
b. Testul de cunotine matematice X cuprinde toi copiii de liceu (14-18 ani) din judeul Cluj. Pentru ca
performana unui copil la acest test de cunotina matematice s poat fi raportat la etalon, copilul
respectiv trebuie s aib urmtoarele caracteristici: s aib vrsta cuprins ntre 14-18 ani i s urmeze un
liceu n judeul Cluj.
2. Deoarece testul nu poate fi aplicat la ntreaga populaie pentru care a fost construit se impune selecia din
cadrul populaiei (stabilite anterior) a unui grup sau eantion de normare. Eantionarea n psihologie se
constituie mult mai greu dect n alte domenii cum ar fi sociologia deoarece examinrile sunt costisitoare
dac se fac la domiciliul subiecilor.
Eantionul trebuie s fie reprezentativ pentru populaie. Astfel structura eantionului trebuie s respecte
structura populaiei. Variabilele care se vor lua n considerare n construirea eantionului in cont att de
caracteristicile populaiei (vezi definirea acesteia) ct i de caracteristicile constructului msurat de test.
Exemplu
Dac avem un test adaptat n Romnia care evalueaz inteligena la copiii precolari, populaia testului o
constituie copiii de vrsta 4 7 ani din Romnia. Acestea reprezint caracteristicile populaiei. n afara
acestor caracteristici trebuie s inem cont ns i de caracteristicile constructului. n acest caz, inteligena
depinde i de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vrst construit vom avea ca
variabil mediul (ex. Rural sau urban).
Construirea eantionului se poate realiza prin mai multe tipuri de selecie. Cele mai des ntlnite selecii sunt
cele aleatoare i cele stratificate. n cazul seleciei aleatoare oricare membru al populaiei are anse egale de a
fi inclus n eantion. n cazul seleciei stratificate se face nti o mprire a populaiei n clase (n funcie de
variabilele relevante) i apoi pentru fiecare clas se trece la o selecie aleatoare.
Cnd poate fi considerat un eantion aleatoriu? dac fiecare subiect are o probabilitate aleatoare de
a fi selectat. Extragerea Loto este aleatoare? La primul nr da.
Scor
brut
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
Frecvena
fiecrui
scor
1
1
2
6
7
4
9
4
10
7
13
19
11
14
16
12
13
11
18
22
Frecven Stanine
cumulat
1
2
4
10
17
21
30
34
44
51
64
83
94
108
124
136
149
160
178
200
Stanina 9
Stanina 8
Stanina 7
Stanina 6
Stanina5
Scor
brut
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
-
Frecvena
fiecrui
scor
16
11
14
12
13
14
8
9
6
3
6
2
3
2
2
2
1
0
0
0
1
325
Frecven
cumulat
Stanine
216
227
241
253
266
280
288
297
303
306
312
314
317
319
321
323
324
324
324
324
325
Stanina 4
Stanina 3
Stanina 2
Stanina 1
325....................100%
x.........................4%
x=13
Valoarea obinut reprezint frecvena cumulat a scorurilor din stanina 9. Observm n coloana frecvenelor
cumulate c aceast valoare nu exist, deci vom lua valoarea existent cea mai apropiat de 13. n coloana
frecvenelor cumulate avem valorile 10 i 17. Deoarece 10 este mai aproape de 13 vom lua aceast valoare
ca limit pentru stanina 9. Deci scorurile care intr n stanina 9 sunt cele cuprinse ntre 42 i 39 (este
corespunztor frecvenei cumulate 10).
Pentru a afla scorurile care intr n stanina 8 lum procentul din populaie din stanina 9 la care adugm
procentul corespunztor staninei 8 adic:
4% + 7% = 11%
Repetm apoi algoritmul utilizat n stabilirea scorurilor pentru stanina 9:
325....................100%
x.........................11%
x=35,75
Valoarea frecvenei cumulate cea mai apropiat de 35,75 este valoarea 34, valoarea creia i corespunde
scorul brut de 35. deci, n stanina 8 avem toate scorurile ntre 38 i 35.
Pentru stanina 7 calculul este urmtorul:
11%+12%=23%
325.................100%
x......................23%
x= 74,75
Pentru stanina 6 calculul este urmtorul:
23% +17% = 40%
325.................100%
x......................40%
x=130
Pentru stanina 5 calculul este urmtorul:
40% + 20% = 60%
325.................100%
x......................60%
x=195
Pentru stanina 4 calculul este urmtorul:
60% + 17% = 77%
325.................100%
x......................77%
x=250,25
Pentru stanina 3 calculul este urmtorul:
77% + 12% = 89%
325.................100%
x......................89%
x=289,25
Pentru stanina 2 calculul este urmtorul:
89% + 7% = 96%
325.................100%
x......................96%
x=312
Dac performana subiectului se gsete n staninele 4, 5 sau 6 putem spune c performana sa la test este una
medie. O performana ncadrat n staninele 2 i 3 este un slab, iar o performan ncadrat n stanina 1 este
una foarte slab. De cealalt parte a medie, staninele 7 i 8 indic o performan bun la un test, iar stanina 9
reprezint o performan foarte bun.
Etaloanele n decile, quartile, centile, mpart distribuia n clase egale; decilele cuprind 10 clase (10% din
populaie n fiecare clas), quartilele cuprind 4 clase (25%), iar centilele 100.
Orice manual al unui test psihologic conine normele testului i trebuie s includ urmtoarele
aspecte:
1. indicii demografici ai populaiei pentru care a fost construit testul. Cei mai frecveni indicatori sunt:
vrsta, sexul, mediul din care fac parte subiecii, nivelul de colarizare Putem spune c aceti
indicatori definesc populaia pentru care este destinat testul. Astfel, un test care evalueaz inteligena
la copiii precolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de
referin la care s raportm performana obinut de acest copil.
2. numrul persoanelor pe care a fost etalonat testul i modul de eantionare ales. Aceast informaie
este uti pentru analiza semnificaiei etalonului. Ne intereseaz n acest caz dac etalonul testului are
la baz un numr suficient de mare de persoane dintr-o populaie pentru a-l putea considera
reprezentativ.
3. data construirii normelor. Aceast informaie este util deoarece ne ajut identificm dac
populaia pe care a fost etalonat testul mai posed caracteristicile populaiei din care face parte
subiectul testat. Este cunoscut faptul c unele constructe psihologice sau cunotine sunt dependente
de evoluie. De exemplu un test care evalua nivelul dezvoltrii vocabularului la o anumit populaie
n anii 1940-1950 nu mai are aceleai norme n prezent deoarece populaia a evoluat i astfel
normele trebuie mereu reactualizate.
1. Ce reprezint etalonul?
2. Care sunt scopurile etalonrii?
3. Care este procesul de construcie de construcie al unui etalon?
4. ce metode de msurare se utilizeaz?
Sumar
n general, numrul de itemi rezolvai corect de subiect la un test este operaionalizat prin scor sau cot
brut. Aceast valoare ns nu are nici o semnificaie dac nu o comparm cu anumite norme, standarde sau
etaloane. Etalonul (norma sau standardele) reprezint deci cadrul de referin al unui subiect cu populaia.
Un scor brut obinut la un test nu are nici o valoare deoarece pe baza lui nu putem ti unde se situeaz
performana unui subiect. Etalonarea confer semnificai scorurilor i permite interpretarea acestora i
permite compararea direct a scorurilor. Pe lng aceasta este foarte important ca procesul de construcie a
unui etalon s respecte o serie de pai. n cadrul metodelor de etalonare trebuie s inem cont de distribuie
(cu ct avem o colecie mai mare de date cu att acestea respect mai mult distribuia lui Gauss) i de o serie
de scoruri: standard sau in clase normalizate.
Bibliografie modul
Albu, M. (2000). Metode i instrumente de evaluare n psihologie. Editura Argonaut. p 14-37, 6582
Kaplan, R.M. i Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 3-27
Scopul i obiectivele: scopul acestui modul este de a i nva pe studeni ce reprezint fidelitatea
testului psihologic, de cte tipuri este aceasta, cum se calculeaz fidelitatea i modalitile de influenare a
fidelitii unui test. Aceste elemente sunt foarte importante pentru c fidelitatea reprezint absena relativ
dintr-o prob psihologic a erorilor de msurare. n psihologie acest lucru nu poate fi ntlnit; de aceea orice
test psihologic trebuie s estimeze valoarea acestor erori aleatoare de msur. Astfel, calculul fidelitii i
ajut pe studeni s indice msura n care scorurile obinute la test exprim de fapt valorile reale ale
constructului pe care testul l msoar.
Obiective de studiu:
FIDELITATEA TESTELOR
The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in
vacuum during the time interval of 1/299 792 458 of a second. This replaces the two previous definitions of
the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a
definition adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case,
the change in definition achieved not only an increase in accuracy, but also progress toward the goal of
using fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of
atomic systems. - Taylor,1991.
Fidelitatea unui test psihologic se refer la dou aspecte:
1. consistena intern;
2. stabilitatea n timp a rezultatelor testrii.
Analiza fidelitii unui test pornete de la conceptul de eroare. Orice scor la un test psihologic este rezultatul
scorului real i al unei erori de msur:
Xobservat = Xreal + e
(e = eroarea de msur)
Fidelitatea reprezint absena relativ dintr-o prob psihologic a erorilor de msurare. Acest lucru
ns n psihologie nu poate fi ntlnit; de aceea orice test psihologic trebuie s estimeze valoarea acestor erori
aleatoare de msur. Calculul fidelitii indic msura n care scorurile obinute la test exprim de fapt
valorile reale ale constructului pe care testul l msoar.
Fidelitatea unui test poate fi calculat pe baza a patru metode:
1. metoda consistenei interne coeficieni de consistenta intern;
2. test retest coeficieni de stabilitate;
3. metoda formelor paralele coeficieni de echivalen;
4. metoda fidelitii interevaluatori coeficieni interevaluatori.
II.1.1. CONSISTENA INTERN
Consistena intern a unui test se refer la msura n care toi itemii testului msoar aceeai variabil.
Calculul coeficientului de consisten intern va consta n analiza corelaiei ce exista ntre fiecare item.
Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculai urmtorii
coeficieni:
1. Cronbach pentru testele cu orice tip de itemi;
2. 3 Guttman;
3. 20 i 21 Kuder Richardson (dac itemii testului sunt binari).
Toi coeficienii prezentai se bazeaz pe un calcul de corelaie ntre itemii ce alctuiesc testul.
Un coeficient de consisten ridicat exprim faptul c toi itemii testului se refer la aceeai
variabil. n afara coeficienilor prezentai anterior, consistena intern a unui test poate fi calculat
i pe baza metodei njumtirii. Pe baza acestei metode testul este mprit n jumtate,
calculndu-se coeficientul de corelaie dintre cele dou pri. Dac acest coeficient este ridicat el ne
indic o bun fidelitate (consistena intern) a testului. O form particular a metodei njumtirii o
constituie metoda item cu item, n care testul este mprit n dou prin selectarea itemilor pari
respectiv a celor impari. Aceasta tehnic este util mai ales n cazul testelor n care itemii sunt
prezentai n ordinea crescnd a dificultii. Se calculeaz i acest caz coeficientul de consisten
intern ntre cele doua pri ale testului, valoarea lui reprezentnd valoarea coeficientului de
fidelitate.
II.1.2. STABILITATEA
Stabilitatea rezultatelor testrii ne indic n ce msur la aplicri diferite n timp un subiect obine
rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizeaz astfel:
a) se administreaz testul la un grup de persoane;
b) dup un interval de timp se readministreaz testul;
c) se calculeaz un coeficient de corelaie ntre rezultatele la cele dou administrri.
O valoare mare a acestui coeficient indic o bun stabilitate n timp a rezultatelor. Se poate spune despre acel
instrument c este fidel deoarece relev aceleai valori ale unei variabile la msurtori diferite n timp.
interevaluatori. Acest coeficient va exprim msura n care testul este independent de erori datorate
modalitii de cotare a rspunsurilor subiectului.
Coeficienii de fidelitate transformai n coeficieni de determinare (ptratul coeficientului de fidelitate)
relev proporia n care variana total a rezultatelor psihometrice se datoreaz varianei reale diferenelor
individuale reale sau din contr, varianei eroare, definit diferit, n funcie de metoda particular urmat
n stabilirea tipului de fidelitate (Kulcsar, 1980). n consecin, dei semnificaia diferiilor coeficieni de
fidelitate nu este aceeai, totui orice coeficient de fidelitate, ridicat la ptrat, poate fi interpretat n termeni
de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 nseamn
c .802=64% din variana total a rezultatelor psihometrice considerate se datoreaz varianei reale a
domeniului explorat, iar 36% varianei eroare, generat de unele din sursele multiple ale deosebirilor n
rezultatele psihometrice.
! Trebuie menionat faptul ca dei fidelitatea unui test este importanta, ea nu este suficient
pentru un test bun. Un test poate avea o bun consisten intern (toi itemii evalueaz aceeai variabil)
respectiv o bun stabilitate n timp, dar s msoare altceva dect i propune. Problema evalurii corecte a
ceea ce i propune s msoare un test constituie subiectul validitii testelor.
Interpretare
Fidelitate mare
Fidelitate moderat
Fidelitate sczut
Scorul real i eroarea au efect egal
asupra scorurilor la test
Aa cum am precizat anterior orice rezultat (scorul observat) pe care o persoan l obine la un test este
alctuit din aptitudinea real (scor real) creia i se adaug eroarea de msur. Adic:
Xobservat = Xreal + e
(e = eroarea de msur)
ntrebarea pe care este necesar s o analizm n acest caz ar fi urmtoarea: care este intervalul n care se
gsete scorul real. Altfel spus, dat fiind faptul c o persoan obine un anumit scor la un test, ne intereseaz
care este intervalul n care putem spune c se gsete scorul real la test. Acest interval este denumit interval
de ncredere i este definit ca probabilitatea ca scorul real al persoanei la un test s se gseasc ntre anumite
limite.
(1 r )
S lum un exemplu.
Presupunem c la un test de inteligen o persoan a obinut un scor de 115. Coeficientul de fidelitate alpha
este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflm intervalul n care se gsete
scorul real al persoanei la test?
1. Calculm eroarea standard de msur
SEm = SD*
(1 r )
SEm = 15*
(1 0.98)
SEm = 15*
0.02
SEm = 2.12
2. Calculm intervalul de ncredere
IC = Xobservat + z*SEm
IC = 115 + z*2.12
Alegerea scorului z care va intra n calcul se face n funcie de precizia cu care dorim s lucrm. Dac
alegem s lucrm cu o probabilitate de 95% scorul z corespunztor este de 1.96 . Pentru o probabilitate de
90% scorul z corespunztor este de 1.65. n acest exemplu s vom lucra cu o precizie de 95%, deci z=1.96.
Astfel vom avea:
IC = 115 + 1.96*2.12
IC= 115 + 4.15
n acest caz putem spune cu o probabilitate de 95% c scorul real al persoanei se gsete n intervalul 110.85
119.15.
! DE REINUT:
Testul C are eroarea standard de msur 3,20 iar fidelitatea testului 0,76
Testul D are eroarea standard de msur 5,6 iar fidelitatea testului 0,62
Considernd c toi ceilali parametri ai celor 2 teste sunt egali, pe care dintre teste l considerai mai bun?
2.
3.
Calculai eroarea standard de msur pentru un scor observat de 15 i utilizai valoarea obinut
pentru a determina intervalul de ncredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a
scorurilor la test este 8; Fidelitatea testului este 0,74. Calculai:
a. Eroarea standard de msur:______________
b. Intervalul de ncredere la 90%_________________________________
c. Explicai semnificaia acestui interval.
d. Intervalul de ncredere la 95%_________________________________
e. Explicai semnificaia acestui interval.
Bibliografie modul
Kaplan, R.M. i Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63, 63-98
Scopul i obiectivele: obiectivul acestui modul este s le ofere studenilor o serie de informaii cu
privire la validitatea testelor psihologice i importana acesteia, adic faptul c e necesar s demonstrm c
testul msoar ceea ce i-a propus. Orice instrument de evaluare psihologic trebuie s satisfac cerinele
validitii.
Obiective de studiu:
Definiia validitii
Evaluarea psihologic vizeaz o anumit realitate fie intern, fie extern. Numim domeniu de
evaluare orice realitate (intern sau extern) care este supus evalurii. n orice proces de evaluare
psihologic pornim de la definirea domeniului de evaluare i apoi propunem o serie de modaliti cantitative
prin care observm dac indivizii posed sau nu caracteristicile domeniului respectiv. Deoarece definirea
domeniului poate s fie mai mult sau mai puin corect ne punem ntrebarea dac aptitudinile /caracteristicile
msurate de test corespund domeniului de evaluare. Astfel, pentru ca testul s fie considerat o msur bun a
domeniului de evaluare este necesar s obinem o serie de informaii care s reflecte faptul c testul msoar
ceea ce i-a propus. Din aceste cerine decurge problema validitii unei msurtori.
Orice instrument de evaluare psihologic trebuie s satisfac cerinele validitii. Tradiional, definiia cea
mai des ntlnit a validitii este modalitatea n care un test msoar ceea ce i propune s msoare
(Anastasi, 1976). Validitatea se refer deci la relaia dintre scorul obinut la un test i un anumit criteriu sau o
performan extern. Acest criteriu poate s aparin oricrui domeniu; poate include selecia de personal,
reuita colar sau nosologia.
Istoric al studiilor despre validitate
Este cunoscut deja faptul c msurarea psihologic i deci implicit i validarea i au rdcinile demult n
timp. ntr-un articol care viza rolul testelor n selecia de personal, Guion (1976) realizeaz o trecere n
revist a principalelor aspecte de care se inea cont la vremea respectiv n analiza validitii unei msurtori
psihologice. Acestea sunt prezentate n tabelul 2:
Tabelul 2.2. Referiri la validitate
1.
2.
3.
4.
5.
6.
7.
8.
9.
Aspecte
Observaii
Scopul validrii* este acela de a prezice o esteimportant a se cunoate dac scorurile la
performan viitoare
un test sunt ntr-o modalitate mai mare sau mai
mic predictive pentru succesele ulterioare
(Bingham, 1937, p.216)
Predictorii i criteriile trebuie s fie
selectai pe baza analizei muncii.
Instrumentele
de
evaluare
trebuie Pentru a putea compara performanele unei
standardizate.
persoane la un test la diferite momente n timp,
testul trebuie s fie uniform (Freyd, 1923, p.232)
Testele trebuie validate empiric.
Un test nu are nici o semnificaie nainte ca
acesta s fie validat (Link, 1924)
Validarea este specific unei situaii.
Un singur test nu este suficient.
Hull (1928) susine c pentru a putea prezice cu
mare acuratee un anumit criteriu, trebuie utilizat
o baterie alctuit din 4, 5 sau mai multe teste
(Guion, 1976, p.783).
Este bine s se utilizeze doar un singur Freyd (1923) descrie procesele prin care este
criteriu.
selectat un criteriu
Metodele psihometrice sunt preferate Evaluatorul nu se va limita la un instrument
metodelor nepsihometrice.
anume de msur, dar cele pe care trebuie s le
utilizeze cel mai des sunt testele i chestionarele
(Freyd, 1923, p.231)
Un test trebuie s in cont de diferenele Performanele la un test trebuie analizate - acolo
individuale.
unde este cazul - diferit n funcie de sexe
(Freyd, 1923).
Analiza fcut de Guion (1976) ne ofer o imagine global a ceea ce nsemna la nceputul sec. xx
modaliti tradiionale de realizare a studiilor de validitate a unui instrument de evaluare psihologic.
O abordare mai recent i poate mai corect a validitii este formulat de APA1, AERA2, NCSEPT3
n 1974. Conform standardelor asociaiilor amintite Validitatea se refer la corectitudinea inferenelor
realizate pe baza unui test sau a altei forme de evaluare (p.25). Altfel spus, dar fiind un set de ntrebri la
care dorim s rspundem pe baza unei evaluri psihologice trebuie s ne verificm ct de corecte (sau valide)
sunt rspunsurile (sau informaiile) oferite de un test psihologic (Ghiselli & all, 1986).
Validitatea trebuie atribuit ntotdeauna inferenelor fcute pe baza performanelor la un test.
Validitatea nu este o caracteristic a testului psihologic ci este mai degrab o caracteristic a inferenelor care
*
Validarea este procesul prin care se obin informaii legate de validitatea unui test.
rezult n urma utilizrii acestuia (unei forme de evaluare - chiar a observaiei). Altfel spus, validitatea
determin relaia dintre inferenele fcute pe baza performanelor la un test i realitate (este inclus aici orice
aspect care este supus evalurii). Dac analizm definiia dat de Nunnally (1978) validitii, i anume ct
de util tiinific este un instrument de msur observm c i n acest caz este vorba de inferene, sau
judeci realizate pe baza instrumentului respectiv.
Forme ale validitii.
Literatura de specialitate indic diferite tipuri de validitate psihologic. Ele trebuie nelese ca fiind
tehnici, modaliti prin care se ncearc optimizarea unui instrument de msur psihologic. Modalitatea cea
mai des ntlnit n literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o
constituie urmtoarea taxonomie:
validitate de criteriu
validitate de coninut
validitate de construct.
n afara celor trei tipuri de validitate, normele APA analizeaz validitatea de aspect.
Validitatea de aspect este definit ca ceea ce un test pare s msoare, mai degrab dect ceea ce msoar
(APA, 1974). Exprim de fapt modul n care persoana evaluat percepe itemii testului; ea este important n
msura n care poate influena rspunsurile persoanei examinate la test. Dac persoana examinat apreciaz
c testul msoar ceea ce i propune s msoare de fapt, atunci putem spune c testul are o validitate de
aspect ridicat. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu
important pentru inferenele fcute pe baza unui test.
II.2.1.VALIDITATEA DE CRITERIU
CRITERIU
nainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reinut urmtoarea afirmaie. O
anumit variabil poate constitui un criteriu ntr-o anumit situaie respectiv predictor n alt situaie. Ceea ce
este astzi criteriu poate s nu mai fie mine.
APA (1974) difereniaz ntre dou tipuri de validitate de criteriu:
validitate predictiv.
validitate concurent
Validitatea predictiv.
Termenul de predicie poate fi utilizat fie n sens larg cnd se refer la predicia unui test pentru orice
situaie, sau n sens restrns cnd se refer la predicie ntr-un interval de timp. Validitatea predictiv vizeaz
cel de-al doilea sens.
Validitatea predictiv este definit ca acurateea cu care putem estima n ce msur o anumit
caracteristic sau aptitudine a unei persoane se va manifesta n viitor pe baza msurii n care persoana posed
o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la
facultate ne poate intereseaz n ce msur aptitudinile de care dispune acum o persoana sunt predictive
pentru performana academic. Pe baza notei la examenul de admitere (predictor) am putea face o predicie
asupra reuitei academice ulterioare (criteriu).
n practica clinic de exemplu, un test care ar reui s prezic tentativele viitoare de suicid ar constitui un
bun predictor pentru acest criteriu.
Ce este predicia?
Predicia este procesul de stabilire a unor expectaii despre viitor avnd la baza date / evenimente
curente de exemplu desprinderea unor date despre performana viitoare n munc pornind de la
caracteristicile actuale ale unei persoane.
n literatura de specialitate, datele actuale se numesc predictori, n timp ce variabilele care descriu
performana se numesc criteriu.
Caracteristica A
Lege psihologic
Ipoteze pe baz de
observaie
Comportamentul E
Ipoteze pe baz de
observaie
Predicie
Caracteristica a observat
Comportamentul observat e
Eantion de situaii
Reprezentativitate
Reprezentare
Eantion de sarcini
Univers de situaii
Reprezentare
Predicie
Univers de sarcini
Studiul de validare al unui test care vizeaz prognoza reuitei la citire n clasa I, trebuie s parcurg
urmtoarele etape (Kulcsar, 1980) (figura 1):
analiza psihologic a activitii de citire; indicarea premiselor psihologice ale reuitei la citire;
alegerea unui test sau a unor teste psihologice care exploreaz tocmai acele aspecte psihologice
care condiioneaz reuita la citire;
aplicarea testului sau a testelor psihologice destinate prediciei reuitei la citire;
msurarea criteriului, adic evaluarea gradului de nsuire a deprinderii de citire pe baza notelor
colare sau a unor probe de citire elaborate n acest scop;
analiza cantitativ i calitativ a rezultatelor la test i la criteriu; studierea legturii ntre cele
dou categorii de rezultate.
15 septembrie 1980
15 iunie 1981
Aplicarea testului sau a bateriei de teste predictive Msurarea criteriului (notele colare; aplicarea unor
(la intrarea n clasa I)
probe de citire)
prin:
15 septembrie 1980
Testare psihologic
Msurarea criteriului
msur scorurile la test pot fi utilizate pentru a estima performana actual a unei persoane la un anumit
criteriu.
Analiza validitii de criteriu (fie ea predictiv sau concurent) se bazeaz pe dou tipuri de analize statistice:
coeficienii de validitate.
Coeficienii de validate
Validitatea de criteriu a unui test reprezint o modalitate cantitativ i obiectiv a relaiei dintre scorurile la
predictor i scorurile la criteriu. Astfel coeficienii de corelaie sunt o modalitate de a estima validitatea
predictiv. Cnd acetia sunt utilizai pentru a indica relaia dintre un predictor i un criteriu, ei sunt denumii
coeficieni de validitate.
CONINUT
Validitatea de coninut implic examinarea sistematic a coninutului testului pentru a se verifica dac testul
acoper un eantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel
pentru a vorbi de o validitate de coninut ridicat trebuie ca itemii care alctuiesc testul s fie reprezentativi
pentru ceea ce testul dorete s msoare.
Analiza validitii de coninut a unui test trebuie s surprind:
1. Definirea i descrierea domeniului de coninut a testului. Aceast descriere trebuie s fie extrem de clar
i s includ toate faetele domeniul care se dorete a fi evaluat.
2. Analiza itemilor care sunt inclui n test. Vor trebui s fie eliminai acei itemi care nu evalueaz aspecte
ale domeniului de coninut identificat anterior. Aceast analiz se va face de ctre experi care pot s
aprecieze relevana fiecrui item pentru un domeniu dat. Validitatea de coninut nu depinde ns de
relevana aparent a coninutului itemilor ci de caracterul relevant al rspunsurilor subiectului la itemi
(Anastasi, 1976). Pentru a stabili validitatea de coninut a testului, orice analiz teoretic trebuie deci s
fie confirmat empiric (Kulcsar, 1980).
3. Compararea structurii testului cu domeniul de coninut. Astfel se va analiza dac itemii acoper toate
aspectele domeniului, respectiv dac ei sunt proporionali n test cu importana i mrimea fiecrui
aspect.
Deoarece acest tip de validare nu reclam metode i modele statistice, ea fcndu-se doar pe baza de
raionamente, o gsim n literatura de specialitate i sub denumirea de validare logic sau raional
(Thorndike, Hagen, 1961).
2. n cazul testelor utilizate la msurarea unui atribut ce nu poate fi exprimat printr-un construct (Murphy &
Davidshofer, 1991). De exemplu, se poate descrie cu uurina domeniul de coninut al unui test construit
pentru cunotine de aritmetic la elevii clasei I, dar este foarte dificil s gsim comportamente prin
care aceast caracteristic s poat fi observat.
3. n cazul testelor care evalueaz performana n munca n scopuri de selecie i clasificare a angajailor.
Acest tip de validare este adecvat cnd testul reprezint un eantion de comportamente din ceea ce
reprezint deprinderile i cunotinele specifice muncii respective.
CONSTRUCT
II.2.3. VALIDITATEA DE CONSTRUCT
Validitatea de construct reprezint msura n care se poate susine c testul msoar o variabil sau o
trstur specific. n termeni generali constructul este sinonim cu acela de concept (Kline, 1992) fiind
utilizat pentru a desemna o serie de fenomene ntr-un cadru tiinific. El este util atunci cnd poate fi
operaionalizat. Dac lum de exemplu conceptul de specie, el este extrem de util n investigare i
clasificare n tiinele naturii. Cu toate aceste nu exist o entitate distinct pe care putem s o etichetm
specie, ea nu poate fi deci studiat i observat direct. Este doar o categorie, creat n scopul nelegerii
diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologic care ofer cadrul menit
s fundamenteze analiza semnificaiei psihologice a rezultatelor la test. Vorbim de validitate relativ la
construct n cazul testelor de personalitate.
Pentru a putea fi utilizat i evaluat, un concept trebuie corect i precis operaionalizat. Aceast
operaionalizare impune descrierea constructului n termeni comportamentali concrei. Murphy &
Davidshofer (1991) identific urmtorii pai n operaionalizarea unui construct:
1. identificarea comportamentelor care au legtur cu constructul;
2. identificarea altor constructe, pentru fiecare decizndu-se dac au sau nu legtur cu constructul
msurat de test;
3. alctuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprim.
Pentru fiecare comportament, pe baza relaiilor dintre constructe se decide dac are sau nu
legtur cu constructul msurat de test.
Spunem despre un test c are validitate convergent dac evalueaz aceleai constructe ca i alte
teste, adic dac ntre scorurile sale i scorurile altor teste exist o relaie funcional. Un test are validitate
de discriminare dac evalueaz altceva dect alte teste despre care se tie c se refer la constructe ce nu au
legtur cu constructul msurat de test. Acest lucru nseamn c ntre scorurile la test i scorurile la alte teste
sau variabile nu exist o relaie funcional.
Campbell & Fiske (1959) propun ca i metod de verificare a validitii convergente i de
discriminare a unui test metoda bazat pe matricea trsturi multiple-metode multiple (tabelul 6). Pe baza
acestei metode sunt relevai coeficienii de corelaie ntre diferite msurtori ale acelorai constructe,
msurtori obinute prin teste diferite.
Metoda 1
Trsturi
Metoda 1
Metoda 2
Metoda 3
A1
Metoda 2
B1
C1
A2
Metoda 3
B2
C2
A3
B3
A1
(.89)
B1
.51
.(89)
C1
.38
.37
(.76)
A2
.57
.22
.09
(.93)
B2
.22
.57
.10
.68
(.94)
C2
.11
.11
.46
.59
.58
(.84)
A3
.56
.22
.11
.67
.42
.33
(.94)
B3
.23
.58
.12
.43
.66
.34
.67
(.92)
C3
.11
.11
.45
.34
.32
.58
.58
.60
Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul trsturi multiple-metode multiple
C3
(.85)
Tabelul de mai sus prezint toate corelaiile posibile ntre scorurile obinute cnd sunt evaluate trei
trsturi (A, B, C) prin trei metode / teste. Cele trei trsturi reprezint trsturi de personalitate cum ar fi:
(A) dominana, (B) sociabilitatea, (C) motivaia de realizare. Cele trei metode prin care se evalueaz aceste
caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indic
scorurile la dominan evaluate pe baza unui chestionar, A2 indic scorurile la dominan evaluate pe baza
unui test proiectiv, iar C3 indic scorurile pentru motivaia de realizare evaluat printr-o scal de
comportament. Tabelul include pe de o parte corelaiile ntre trsturi diferite evaluate pe baza aceleiai
metode (chenar ntreg) precum i corelaiile ntre trsturi diferite prin metode diferite (chenar ntrerupt).
Pentru verificarea validitii convergente n cazul constructului (A) avem urmtorii coeficieni:
.57 metoda 1 cu metoda 2
.56 metoda 1 cu metoda 3
.67 metoda 2 cu metoda 3
Validarea convergent a unui test este necesar, dar nu i suficient pentru a dovedi c testul
msoar ceea ce i-a propus; etichetele atribuite testelor reprezint trsturile sau caracteristicile pe care
testele ar trebui s le msoare. Corelaia mare ntre dou teste nseamn c testele msoar acelai lucru, ns
nu se poate spune c itemii cuprini n teste sunt reprezentativi pentru constructul pe care testele
intenioneaz s l msoare. Analiza factorial sau analiza de clusteri efectuat asupra itemilor din testele
care evalueaz aceleai constructe poate ajuta la explicarea corelaiilor dintre scorurile testelor (Albu, 1999)
1. Ce reprezint validitatea?
2. Ce reprezint validitatea de criteriu?
3. Ce reprezint validitatea de coninut?
4. C reprezint validitatea de aspect?
5. Care sunt caracteristicile unui criteriu?
6. Care sunt tipurile validitii de criteriu?
7. Ce trebuie s surprind analiza validitii de coninut?
Sumar
n orice proces de evaluare psihologic pornim de la definirea domeniului de evaluare i apoi
propunem o serie de modaliti cantitative prin care observm dac indivizii posed sau nu
caracteristicile domeniului respectiv. Deoarece definirea domeniului poate s fie mai mult sau mai
puin corect ne punem ntrebarea dac aptitudinile /caracteristicile msurate de test corespund
domeniului de evaluare. Astfel, pentru ca testul s fie considerat o msur bun a domeniului de
evaluare este necesar s obinem o serie de informaii care s reflecte faptul c testul msoar ceea
ce i-a propus. Din aceste cerine decurge problema validitii unei msurtori. Orice instrument de
evaluare psihologic trebuie s satisfac cerinele validitii. Exist diferite tipuri de validitate
psihologic. Aceste tipuri reprezint modaliti prin care se ncearc optimizarea unui instrument de
msurare psihologic. Modalitatea cea mai des ntlnit n literatura de specialitate (Anastasi, 1976;
Cohen, et. all, 2000) de a concepe validitatea o constituie urmtoarea taxonomie: 1. validitate de
criteriu, 2. validitate de coninut, 3. validitate de construct.
Bibliografie modul
Kaplan, R.M. i Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 27-63
Scopul i obiectivele: n cadrul acestui modul obiectivul principal este ca studenii s nvee
modalitile cele mai bune de construcie de itemi astfel nct acetia s ofere imaginea acurat a
constructului de msurat.
Obiective de studiu:
1.
2.
3.
4.
5.
n funcie de constructul pe care dorim s-l evalum anumite formate devin mai mult sau mai
puin adecvate. Prezentm n continuare cele mai frecvent ntlnite forme ale itemilor.
a. Itemii dihotomici ofer dou alternative de rspuns (adevrat i fals), de obicei uneia dintre acestea i
se acord un punct la cotarea performanei persoanei evaluate. Itemii au forma unor afirmaii, iar sarcina
subiecilor este de a decide asupra valorii de adevra a acesteia.
Avantajele acestui tip de itemi sunt:
sunt uor de cotat;
sunt uor de construit (n construirea unui test de evaluare a cunotinelor profesorul poate
utiliza fragmente din suportul de curs pentru a formula itemii);
completarea lor nu necesit mult timp deoarece rspunsul nu trebuie scris;
necesit o evaluare n termeni absolui (alb sau negru);
Dezavantaje acestui tip de itemi sunt:
n cadrul testelor de cunotine acest tip de itemi pot ncuraja studenii s memoreze
materialul;
ansa de a ghici rspunsul corect este foarte mare, de 50%.
b. Itemi cu mai multe opiuni (polinomici) au un format similar celor dihotomici, atta doar c au
mai mult de dou alternative de rspuns. Se acord un punct numai unei opiuni de rspuns, iar celelalte
care nu sunt corecte poart denumirea de distractori. Itemii construii n scopul evalurii performanei
academice au de cele mai multe ori acest format.
Avantajele acestui tip de itemi sunt:
aceti itemii sunt uor de cotat;
sunt uor de construit;
completarea lor nu necesit mult timp deoarece rspunsul nu trebuie scris;
ansa de a ghici rspunsul corect este redus;
Dezavantajul cel mai mare al acestui tip de itemi se refer la construirea unor distractori buni,
procedeu care necesit mai mult timp. n cazul itemilor polinomici, probabilitatea de a ghici rspunsul
exist, dei este mai mic dect n cazul itemilor dihotomici (este de 25% n cazul a patru alternative, de
33.33% n cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a
scorului obinut de ctre fiecare persoan evaluat. Aceast formul se exprim astfel:
Scorul corect = R W/ n 1
R este numrul opiunilor corecte;
W este numrul opiunilor greite;
n este numrul opiunilor de rspuns ale itemilor.
Rspunsurile omise nu sunt incluse deoarece acestea nici nu cresc i nici nu duc la scderea
scorului final. De exemplu n cazul unui test de 100 de itemi, cu cte 4 opiuni de rspuns (din care una
singur este corect, celelalte trei sunt greite la fiecare item), dac vom completa aleator rspunsurile
corecte vom obine scorul de 25 (bine neles aceasta este o situaie ipotetic n realitate avem puine
anse s obinem tocmai 25 de puncte care este scorul mediu ateptat).
n acest caz, conform formulei anterioare, scorul corect este de:
25 - 75/4-1 = 25 25 = 0
Astfel, dup aplicarea coreciei scorul expectat este 0.
ntrebarea este n ce msur n cazul testelor de cunotine este recomandat ca studenii s ncerce
s ghiceasc rspunsul? n cazul n care nu se utilizeaz procedura de corecie rspunsul este clar,
ncercai s nimerii, dar nu i n cazul n care se utilizeaz procedura de corecie. Exist situaia n care
nu suntei siguri de rspunsul corect, dar tii sigur c dou din cele patru alternative de rspuns sunt
greite, n acest caz v sftuim s ncercai s ghicii. Formula de corecie are la baz asumpia c fiecare
din cele patru alternative de rspuns are aceeai probabilitate de a fi aleas, deci avei ansa de 1 la 4. n
cazul n care eliminai dou dintre alternative ansa dvs. crete la 1 la 2, ceea ce v ofer un avantaj
asupra procedurii de corecie.
c. Scale Likert prezint o form foarte popular, utilizat mai ales n cadrul testelor de
personalitate, n care persoana evaluat trebuie s-i exprime acordul sau dezacordul fa de a o afirmaie
(se numete scal Likert, pentru c a fost introdus de ctre Likert n 1932, n scopul evalurii
atitudinilor).
De exemplu la itemul: mi este fric de nlime.
Avem urmtoarele opiuni de rspuns:
1
acord total
acord
dezacord
dezacord
total
Pentru a se evita alegerea unui rspuns neutru din partea celui evaluat (n cazul exemplului de mai
sus 3), se utilizeaz scale cu un numr par de opiuni de rspuns, de exemplu:
1
acord
puternic
acord
acord
dezacord
dezacord
dezacord
puternic
moderat
moderat
Acest tip de rspuns permite cotarea invers, scorul total este calculat prin nsumarea numerelor
corespunztoare rspunsurilor.
d. Scal categorial este similar cu scalele Likert, dar utilizeaz un numr mai mare de opiuni de
rspuns, de cele mai multe ori sunt utilizate scale cu 10 opiuni de rspuns. Pentru utilizarea lor adecvat este
foarte important ca punctele extreme ale scalei s fie clar definite i permanent reamintite celor care
realizeaz evaluarea.
Una dintre principalele probleme legate de acest tip de scal este numrul de categorii care poate fi
utilizat, care poate fi de 10 i 15 sau 66? S-au realizat cteva studii n acest sens, ele au artat c depinde
mult de scopul pe care l avem i de nivelul de expertiz al evaluatorului. De exemplu dac dorim s evalum
performana unor juctori de fotbal, o scal cu 7 nivele va fi suficient pentru ochiul unui nonexpert care nu
sesizeaz aspectele de finee, dar nu i n cazul unui expert, al unui antrenor care poate sesiza mai multe
diferene ntre juctori.
e. Q- sort este o metod utilizat cu precdere n evaluarea personalitii. Persoana evaluat va primi
o list de adjective pe care le va sorta n funcie de msura n care acestea l caracterizeaz.
itemi dihotomici
itemi polinomici
scale Likert
scale categoriale
Q - sort
2. Analiza de itemi
Care sunt criteriile pe baza crora putem spune c un item este bun?
Aa dup cum putem analiza un test din prisma fidelitii i validitii, la fel putem analiza
conform acestor criterii un item. Mai precis, un item bun discrimineaz ntre dou categorii
de subieci; putem spune de asemenea c un item este bun dac performana la item
coreleaz cu performana la test.
Care este procesul pe baza cruia putem analiza itemii? Dup ce am generat itemii, dup ce
acetia au fost aplicai unui eantion de subieci, ne intereseaz n ce msur ei pot fi considerai
itemi buni, respectiv la care dintre itemi ar trebui s renunm deoarece nu satisfac criteriile.
Totalitatea procedeelor statistice cunoscute sub denumirea de analiz de itemi servesc scopurilor
prezentate. Este important de menionat faptul c analiza de itemi cuprinde att procedee cantitative
ct i procedee calitative.
Analiza calitativ de itemi
Tehnicile de analiz calitativ a itemilor unui test constituie un procedeu des ntlnit n analiza
itemilor unui test. Tabelul 5 prezint o serie de aspecte ale analizei calitative de itemi pe care trebuie s le ia
n calcul o persoan care construiete un test.
Tabelul 2.3. Aspecte ale analizei calitative de itemi
Aspecte
ntrebri
Specificitatea cultural
Validitatea de aspect
Testul msoar ceea ce crezi tu c msoar? Dac nu este aa ce anume din test
Mediul de testare
Limbajul testului
Lungimea testului
Rspunsurile aleatoare
Corectitudinea testrii
Crezi c s-a putut tria la acest test? Dac da, care crezi c au fi sunt
modalitile de a tria?
Starea psihic/fizic a Cum ai descrie starea ta (psihic sau fizic) din timpul testului? Crezi ca
subiectului
n
timpul aceast stare ar putea influena n vre-un fel performana la test?
examinrii
Impresia general
Care este impresia ta general lsat de acest test? Care sunt sugestiile pe care
le-ai face pentru mbuntirea testului?
Preferine
Ce i-a plcut/displcut la acest test? Au existat pri ale testului pe care le-ai
resimit ca provocndu-i anxietate sau alte stri negative?
Pregtirea anterioar
Cum te-ai pregtit pentru acest test? Dac ar trebui s sftuieti pe cineva
privind modul n care ar trebui s se pregteasc pentru acest test ce i-ai
sugera?
Observaie. La unele teste de cunotine, primul item al testului este unul extrem de facil
(rspund deci majoritatea subiecilor). Acest lucru este indicat a se realiza fie pentru a
verifica dac subiectul a neles sarcina de lucru, fie pentru a-i forma o atitudine pozitiv
fa de test i astfel de a-i crete motivaia.
Indicele de dificultate al unui item (px) se obine calculnd proporia subiecilor care au rspuns
corect la item. Valoarea teoretic a indicelui de dificultate se gsete ntre 0 (dac nici un subiect nu a
rezolvat itemul corect) i 1 (dac toi subiecii au rspuns corect la un item).
Exemple.
1. Dac 50 din cei 100 de subieci la care a fost aplicat un test au rspuns la itemul 2 corect atunci
putem spune c indicele de dificultate al itemului 2 este 50/100 adic p2=0,5
2. Dac 75 din cei 100 de subieci la care a fost aplicat un test au rspuns la itemul 3 corect atunci
putem spune c indicele de dificultate al itemului 3 este 75/100 adic p3=0,75 i vom spune c itemul
3 este mai uor dect itemul 2.
Se poate observa c cu ct indicele de dificultate al itemului este mai mare cu att itemul este mai uor.
Deoarece p se refer la procentul celor care au rezolvat corect itemul, putem spune c cu ct este mai mare
valoarea indicelui cu att itemul este mai uor. Vorbim de indice de dificultate pentru testele de performan,
ns n cazul testelor de personalitate acest indice exprim procentul de subieci care a rspuns da la item,
sau n alte cazuri procentul de subieci care a agreeat itemul.
Un indice global de dificultate al itemilor unui test se poate calcula fcnd media indicilor fiecrui item.
Astfel se face suma tuturor indicilor de dificultate i rezultatul obinut se mparte la numrul itemilor
testului. Pentru o maxim discriminare, este important ca media indicilor de dificultate al unui test s fie 0.5,
deci indicii fiecrui item al testului s varieze ntre 0.3 i 0.8.
Ceea ce trebuie s lum n calcul cnd analizm indicele de dificultate al unui item este ansa ca
subiectul s dea rspunsul corect la ntmplare (adic de a ghici rspunsul). n acest caz indicele optim de
dificultate al unui item se gsete la mijlocul distanei dintre 1 i rata de rspuns la ntmplare care pentru un
item cu 2 rspunsurile este de 0,50. Mijlocul distanei dintre 1 i 0.50 este 0.75 deci indicele optim de
dificultate al acestui item este 0.75. n general acest indice optim se obine nsumnd valoarea ansei cu 1 i
apoi mprind valoarea obinut la 2, sau:
0,50+1,00=1,5
1,5/2=0,75
Pentru un item care are 5 variante de rspuns ansa de a rspunde corect este 1/5 adic 0,20. n acest
caz, indicele de dificultate optim se va obine astfel:
0,20+1,00=1,20
1,20/2=0,60
Indicele de discriminare al unui item
Indicele de discriminare al unui item (d) constituie o msur a ct de bine reuete un item s separe sau s
discrimineze subiecii care au obinut scoruri mari i cei care au obinut coruri mici la test. Mai precis, un
item este considerat discriminativ dac subiecii care au obinut o performan bun la test au rezolvat corect
itemul, respectiv dac cei care au obinut o performan sczut la test nu au rezolvat corect itemul. Dac
majoritatea subiecilor cu performan mare la test nu au rezolvat corect un item atunci nseamn c itemul
respectiv nu discrimineaz ntre categorii diferite de subieci. Similar, n cazul testelor de personalitate
subiecii care au un scor mare la o anumit trstur (evaluat de ntregul test) trebuie s aib un scor mare i
la un item care se presupune c evalueaz trstura respectiv.
Indicele de discriminare are n vedere performana eantionului la un item innd cont de
performana scorurilor din ultima treime sau din prima treime a distribuiei totale a scorurilor. Limita pn la
care putem considera prima/ultima arie a distribuiei scorurilor este valoarea de 27% din scoruri (Kelley,
1939). Indicele de discriminare al unui item este reprezentat de msura diferenei dintre proporia celor care
au rezolvat corect itemul i cei care nu au rezolvat corect itemul. Cu ct valoarea lui d este mai mare cu att
este mai mare numrul subiecilor buni care au rezolvat itemul. O valoare negativ pentru un d reprezint
o problem a itemului deoarece indic situaia n care cei care au avut o performan slab la test rezolv
corect itemul. n aceast situaie se cere revizuirea sau eliminarea itemului.
Exemplu.
S presupunem c un profesor administreaz un test la 119 persoane i selecteaz primele 27% i
ultimele 27% din performanele la test, selectnd 32 de teste n fiecare grup. n continuare n tabelul 3 sunt
prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:
Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test
Item
Superior (S)
Inferior (I)
S-I
d = (S-I)/n
20
16
32
0,43
30
10
20
32
0,63
32
32
32
1,00
20
20
32
0,00
32
-32
32
-1,00
Pentru itemul 1 se poate observa c 20 dintre subiecii care au obinut performane superioare la test
au rezolvat corect itemul, n timp ce 16 dintre cei care au obinut performane inferioare la test au rezolvat
corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai
muli subieci dintre cei care au obinut o performan bun la test, au rspuns corect la item. Se poate
observa c cu ct este mai mare valoarea indicelui de discriminare cu att itemul separ mai bine categoriile
de subieci i este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de
discriminare este +1 (toi subiecii care au obinut performana superioare la test au rezolvat corect itemul);
valoarea cea mai mic pe careo poate avea un indice de discriminare al unui item este 1 (nici unul dintre
subiecii care au obinut performane superioare la test nu au rezolvat corect itemul).
Analiza alternativelor de rspuns la itemi.
Calitatea fiecrei alternative de rspuns la itemii cu rspunsuri multiple poate fi analizat
comparnd-o cu performana obinut de subiecii care au avut performane superioare (primii 27%) i cei
care au obinut performane inferioare (ultimii 27%) la un test.
S analizm (tabelul 4) performana la 5 itemi ipotetici, test la care 32 de subieci au obinut
performane inferioare (I) i 32 de subieci au obinut performane superioare (S).
Tabelul 2.5. Rspunsurile la 5 itemi ai unui test (Rspunsul corect al fiecrui item este marcat cu caractere
ngroate)
a
24
10
13
12
Alternative
Item
1
32
22
15
15
14
13
16
Analiza itemilor.
Itemul 1 este un item bun mai multe persoane cu performan superioar la test l-au rezolvat corect.
Itemul 2 un numr mare de S au ales un distractor n locul rspunsului corect (rspunsul b). Acest item ar
trebui revzut.
Itemul 3 reprezint modalitatea optim de rspuns la un item; toii S au rspuns corect
Itemul 4 este mai dificil dect itemul 3 deoarece o proporie mai mic de S au rspusn corect la item, dar
discrimineaz mai bine (o proporie mai mic de I au rspuns cirect la item).
Itemul 5 este un item slab deoarece mai muli de I au rpsuns corect la item.
Analiza curbei caracteristice itemului
O modalitate de a afla noi informaii despre comportamentul itemilor este trasarea curbei caracteristice
itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y
proporia persoanelor care au rspuns corect la item (vezi figura 2.5).
1
0.5
0
0
10
15
20
25 30 35 40 45
Scorul total la test
50
55
60
65
0.5
0.5
10
15
20
25 30 35 40 45
Scorul total la test
50
55
60
65
2. Analiza de itemi din perspectiva teoriei rspunsului la item (item response theory - IRT)
Teoria rspunsului la item propune un nou model de explicare i de analiz a itemului i a
comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, dup care
acesta a fost dezvoltat i adaptat la diferite situaii de testare.
Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure
trsturi latente sau multidimensionale, n cazul testelor care evalueaz mai multe dimensiuni. De asemenea
n funcie de rspunsul la item dihotomic sau cu mai mute opiuni avem mai multe tipuri de modele. n
continuare vom discuta despre modele unidimensionale dihotomice. n cazul modelelor IRT unidimensionale
diferenele dintre persoanele care alctuiesc eantionul pot fi explicate numai pe baza unei singure
dimensiuni.
Modelele IRT implic dou asumpii:
Curba caracteristic itemului (item characteristic curve - ICC) trebuie s aib o form specific
(acesta descrie modul n care modificrile la nivelul abilitii induc modificri la nivelul
probabilitii de apariie a rspunsului corect);
nainte a trece la prezentarea concret a unui model IRT, dorim s reamintim modelul care st la baza
teoriei clasice.
Xobservat = Xreal + e
(e = eroarea de msur)
Dac analizm acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat
nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un rspuns corect la itemii a
cror curb este trasat), observm cum curbele caracteristice itemilor au acelai unghi de nclinare, ceea ce
difer este locaia lor de-a lungul nivelului de abilitate, practic aceast locaie este un indicator al dificultii
itemului. De exemplu itemul trasat cu linie ntrerupt (figura 2.8) este rezolvat de persoanele cu un nivel de
abilitate de 01 n proporie de aproximativ 55%, n timp ce aceleai persoane rezolv itemul trasat cu linia
punctat n proporie de 20%, deci acesta din urm este mai dificil dect primul.
0.5
0
-3
-2
-1
0
1
nivelul de abilitate
n cazul acestui model, parametrul de discriminare este meninut constant (egal cu 1).
n cadrul modelului biparametric 2PL, este considerat i parametrul de discriminare a itemului. n
figura 2.9 prezentm itemi care au acelai nivel de dificultate, dar care au o discriminare diferit.
p(Xis=1) = 1/(1 + e (- i ( - i))
0.5
0
-3
-2
-1
0
1
nivelul de abilitate
nivelul de abilitate i parametrii itemilor (dificultate, discriminare) pot lua valori ntre minus i plus infinit deoarece
sunt pe scal logit.
Discriminarea este reprezentat grafic prin gradul de nclinare a curbelor care descriu
comportamentul itemului. Un item cu o curb abrupt discrimineaz mai bine comparativ cu un item cu o
curb mai domoal. Acest lucru nseamn c o modificare mic la nivelul abilitii persoanelor testate va
duce la o modificare mare a probabilitii de a rspunde corect la item. Curba trasat cu linie nentrerupt
reprezint un item care are o discriminare perfect, deoarece nici o persoan cu un nivel de abilitate mai mic
de 0.25 nu va avea ansa de a rezolva acest item, n schimb persoanele cu o abilitate mai mare l vor rezolva.
Modelul tri-parametric 3PL, introduce i parametrul care permite estimarea ansei de a ghici
rspunsul corect la item.
p(Xis=1) = i + (1 - i)[1/(1 + e (- i ( - i))]
Probabilitatea de ghici rspunsul corect este vizibil n punctul n care curba caracteristic itemului
intersecteaz axa Y. Aceasta nseamn c i persoanele care au un nivel de abilitate sczut vor rezolva corect
itemul, ghicind rspunsul corect (Figura 2.10).
Utilizarea unui model 3PL devine necesar mai ales n situaia n care probabilitatea de a ghici
rspunsul corect este mare, de exemplu n cazul unui item cu 2 posibiliti de rspuns acesta este de 1 din 2,
spre deosebire de cea cu 6 opiuni, n care probabilitatea de a ghici rspunsul corect este semnificativ mai
mic, 1 din 6.
0.5
0
-3
-2
-1
0
1
nivelul de abilitate
Concepte generale
Atributele interne pot fi gndite ca i constructe ipotetice. Ele nu sunt cu necesitate reale
sau concrete. Acestea sunt mai degrab constructe care aa cum vom vedea pot fi utilizate pentru a
nelege i a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie vzute ca
o critic a abordrii factoriale. Utilizarea constructelor ipotetice constituie o practic obinuit n
multe domenii ale tiinei. De exemplu, fizicienii utilizeaz o serie de constructe (gravitate,
magnetism) pentru a explica o serie de fenomene. Aceste fore reprezint de fapt constructe
neobservabile, a cror existen a fost inferat pe baza fenomenelor observabile. Aceste constructe,
mpreun cu teoriile care le nsoesc pot explica o serie de fenomene observabile. ntr-o manier
asemntoare, analiza factorial postuleaz c exist atribute interne neobservabile care pot explica
variaia i covariaia dintre o serie de atribute de suprafa, adic acele atribute care pot fi
msurate i observate direct.
Un concept teoretic central al analizei factoriale l constituie deci relaia dintre atributele interne i
cele de suprafa. Principiul de baz este acela c atributele interne influeneaz sistematic atributele de
suprafa. Acest fapt implic ideea c atunci cnd avem o msur a unui atribut de suprafa, aceast msur
este, cel puin n parte, rezultatul influenei atributelor interne. De exemplu, scorul obinut de o persoan la
un test de adunare (atribut de suprafa) este influenat de aptitudinea numeric (atribut intern). Tradiional,
aceste relaii dintre atributele de suprafa i cele interne sunt considerate a fi lineare.
n continuare este util s distingem ntre 2 tipuri de atribute interne sau factori: factori comuni i
factori specifici. Factorul comun este definit ca un atribut intern care afecteaz /influeneaz mai mult de o
variabil de suprafa. De exemplu, dac factorul aptitudine numeric influeneaz mai mult dect o variabil
de suprafa (s presupunem c influeneaz att adunarea ct i nmulirea) atunci acesta factor este un
factor comun. Factorii specifici influeneaz doar o singur variabil de suprafa; astfel poate exista un
numr de factori specifici pentru fiecare variabil de suprafa. Prin schimbarea variabilelor de suprafa
factorul comun se poate transforma n factor specific dac se nltur toate variabilele de suprafa care l
alctuiesc, mai puin una; sau dimpotriv, dac lrgim bateria, un factor specific se poate transforma ntr-un
factor comun dac el influeneaz mai multe variabile de suprafa.
n afara celor 2 variabile interne (factorii comuni i specifici) care influeneaz variabilele de
suprafa, exist o a treia influen asupra acestora. Aceast a treia influen o constituie erorile de msur
asociate observrii atributelor de suprafa. Aceste erori sunt reprezentate n analiza factorial ca factori
adiionali, dei ele nu fac parte din cadrul atributelor interne; adic nu reprezint caracteristici neobservate
ale indivizilor. Mai degrab erorile de msur apar ca rezultat al influenelor datorate msurtorii atributelor
de suprafa. Se poate observa relaia direct ntre factorii de suprafa i erorile de msur; astfel, cu ct
fidelitatea msurtorilor este mai mare cu att erorile sunt mai mici. Deci, utilizarea unor teste mai puin
fidele va influena erorile de msur, dar nu n mod necesar factorii comuni sau specifici. De asemenea,
adugarea sau nlturarea unor variabile de suprafa va influena factorii comuni sau specifici, ns nu va
influena erorile de msur.
Factorii specifici i erorile de msur caracteristice unui set de observaii se pot combina rezultnd
factori unici. Un factor unic este alctuit dintr-un factor specific caracteristic unei singure variabile de
suprafa precum i din eroarea de msur asociat variabilei de suprafa respective. Factorul unic se va
modifica la orice modificare a factorului specific sau a erorii de msur.
Pornind de la aceste definiii ale factorilor, innd cont de faptul c factorii influeneaz atributele de
suprafa se poate nelege c factorii se combin pentru a putea explica un anumit nivel al trsturilor de
suprafa. Mai precis, orice nivel al atributelor de suprafa poate fi vzut ca o rezultant a factorilor
relevani. De exemplu, scorul unei persoane la un test de adunare poate fi vzut ca o rezultant a factorului
comun aptitudine numeric i a factorului specific asociat adunrii. De asemenea, eroarea de msur
contribuie la scorul obinut la testul de adunare. Generaliznd putem spune c diferenele individuale sau
variana atributelor de suprafa poate fi atribuit factorilor adiaceni acestor atribute. Astfel diferenele la
nivelul atributelor de suprafa sunt datorate diferenelor la nivelul factorilor ce influeneaz aceste atribute i
de asemenea diferenele sunt datorate i erorilor de msur.
Distincia realizat anterior ntre factorii comuni, specifici i eroarea de msur ne ajut s nelegem
modul n care factorii explic variana atributelor de suprafa. Este important de reinut faptul c variana
observat la nivelul atributelor de suprafa poate rezulta din trei surse. O parte din varian este datorat
influenei factorilor comuni aceasta poart numele de varian comun sau comunalitate. O alt parte din
variana atributelor de suprafa poate fi datorat factorului specific aceast varian este denumit varian
specific sau specificitate. Cea de-a treia surs de varian este datorat erorilor de msur i este denumit
variana erorii de msur. Variana specific este adesea combinat cu variana erorii de msur i formeaz
variana unic sau unicitatea. Altfel spus, variana observat la nivelul unui atribut de suprafa este datorat
n parte factorilor care influeneaz i alte atribute de suprafa i n parte factorilor care influeneaz doar
atributul respectiv.
Printr-o extensie a conceptelor putem spune c analiza factorial ine cont i de covariana dintre
variabilele de suprafa. Adesea se poate observa c variabilele de suprafa dintr-un domeniu specific tind
s coreleze ntr-o anumit msur una cu cealalt. Potrivit analizei factoriale aceast corelaie este datorat
influenei factorilor comuni. Deci, o corelaie ntre dou variabile de suprafa este datorat dependenei
celor dou variabile de unul sau mai muli factori comuni. De exemplu scorul la un test de adunare va tinde
s coreleze pozitiv cu scorul la un test de nmulire deoarece ambele variabile depind de acelai factor comun
aptitudinea numeric. Din contr ns, rezultatul la testul de adunare va corela mai puin cu rezultatul la un
test de citire deoarece cele dou variabile de suprafa sunt influenate de factori comuni diferii. Putem
spune c nivelul de intercorelaie dintre atributele de suprafa este rezultatul dependenei acestor atribute de
aceiai factori comuni.
Este extrem de important a se reine faptul c doar factorii comuni pot explica corelaia variabilelor
de suprafa; factorii unici nu determin astfel de corelaii. La fel, factorii specifici sau erorile de msur nu
pot determina corelaii ntre atributele de suprafa deoarece prin definiie ei influeneaz doar o singur
variabil de suprafa.
Pentru a sumariza aceste principii putem spune c ntr-un anumit domeniu exist un numr mic de
factori comuni care influeneaz un vast numr de atribute de suprafa. Variaia factorilor de suprafa este
datorat n parte variaiei factorilor comuni. Ceea ce rmne se datoreaz factorilor unici sau factorilor
specifici i erorilor de msur. Covariana variabilelor de suprafa este atribuit dependenei acestora de
aceiai factori comuni.
n continuare (figura 5) vor fi prezentate conceptele i principiile discutate anterior n forma propus
de Tucker (1940) pentru a ilustra teoria analizei factoriale. n cadrul diagramelor, ptratele reprezint
atributele de suprafa, iar cercurile reprezint atributele interne i ali factori. Sgeile unidirecionale
exprim o relaie liniar (printr-un proces cauzal), iar cele bidirecionale reprezint corelaii fr influen
cauzal.
Atribute de suprafa
Factori comuni
(atribute interne)
Factori specifici
(atribute interne)
Factori unici
Factori ERM
! DE REINUT:
Teoria factorial este o teorie care explic dinamica i influenele care determin variaia
i covariaia atributelor de suprafa.
SCOPUL TESTRII
PROBLEMA STUDIAT
TIPUL DE VALIDITATE
elevul
Prin ce
elevului?
se
caracterizeaz
1. Care sunt aspectele eseniale de care trebuie s inem cont cnd formulm
un item?
2. Ce sunt itemii dihotomici i care sunt avantajele i dezavantajele lor?
3. Ce sunt itemii polinomici i care sunt avantajele i dezavantajele lor?
4. Ce sunt scalele Likert?
5. Ce este o scal categorial?
6. Ce reprezint Q Sort?
7. Care este procesul pe baza cruia se realizeaz analiza factorial?
8. Ce reprezint analiza calitativ de itemi?
9. Ce reprezint analiza cantitativ de itemi?
10. Care sunt obiectivele analizei factoriale?
Sumar
Atunci cnd dorim s evalum ceva, prima ntrebare pe care ne-o formulm este ce anume
dorim s evalum, care este formatul pe care trebuie s-l aib itemii, astfel nct s ne ofere
imagine acurat a aspectului care ne intereseaz. Pentru a construi itemii trebuie s parcurgem un
proces pretenios n cazul cruia trebuie s urmm o serie de pai. Mai mult dect att, trebuie s
inem cont i de formatul opiunilor de rspuns. Astfel, n funcie de constructul pe care dorim
s-l evalum anumite formate devin mai mult sau mai puin adecvate. Pentru a putea spune
despre un item c este bun sau nu trebuie s inem cont de o serie de criterii pe care le
descoperim n urma unei analize a itemilor. Aa dup cum putem analiza un test din prisma
fidelitii i validitii, la fel putem analiza conform acestor criterii un item. Mai precis, un item
bun discrimineaz ntre dou categorii de subieci; putem spune de asemenea c un item este bun
dac performana la item coreleaz cu performana la test. Un element foarte important este
validitatea de construct care reprezint msura n care se poate susine c testul msoar o
variabil sau o trstur specific. Una dintre metodele utilizate n validara de construct este
analiza factorial. Analiza factorial este definit ca un set de proceduri matematice utilizate
pentru a identifica dimensiunile care stau la baza uneui set de msurori empirice.
Bibliografie modul
Kaplan, R.M. i Saccuzzo, D.P. (2001) Psychological Testing, Principles, Applications and Issues,
Wadsworth Thomson Learning, Fifth Edition. p 133-135
Albu, M. (1998). Construirea i utilizarea testelor psihologice, Editura Clusium. p 170-173
Stan, A. (2002). Testul psihologic. Evoluie construcie, aplicaii. Editura Polirom, P 202-242
Scopul i obiectivele: obiectivul esenial al acestui modul este ca studenii s poat face diferena
ntre evalurile psihologice, acestea fiind diferite cel puin n cazul a trei aspecte.
Obiective de studiu:
Atunci cnd dorim s evalum ceva, prima ntrebare pe care ne-o formulm este ce anume
dorim s evalum, care este formatul pe care trebuie s-l aib itemii, astfel nct s ne ofere imagine
acurat a aspectului care ne intereseaz. Pentru a construi itemii trebuie s parcurgem un proces
pretenios n cazul cruia trebuie s urmm o serie de pai. Mai mult dect att, trebuie s inem
cont i de formatul opiunilor de rspuns. Astfel, n funcie de constructul pe care dorim s-l
evalum anumite formate devin mai mult sau mai puin adecvate. Pentru a putea spune despre un
item c este bun sau nu trebuie s inem cont de o serie de criterii pe care le descoperim n urma
unei analize a itemilor. Aa dup cum putem analiza un test din prisma fidelitii i validitii, la fel
putem analiza conform acestor criterii un item. Mai precis, un item bun discrimineaz ntre dou
categorii de subieci; putem spune de asemenea c un item este bun dac performana la item
coreleaz cu performana la test. Un element foarte important este validitatea de construct care
reprezint msura n care se poate susine c testul msoar o variabil sau o trstur specific.
Una dintre metodele utilizate n validara de construct este analiza factorial. Analiza factorial este
definit ca un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la
baza uneui set de msurori empirice.
3. REFERENTI
Msuri obiective sau reflecii ale constructelor (e.g.
anxietate: transpiraia palmelor, etc.)
4. METODE INSTRUMENTALE
Sarcini, tehnici, teste, instrumente proceduri
5. MODEL DE MSUR
atribuirea unei scale de msur fenomenelor
6. CULEGEREA DATELOR
7. ANALIZA DATELOR
metode statistice, modele matematice
8. INTERPRETRI I INFERENE
Inferena statistic, evaluare logic, analiza modelului
Figura 1. Componente ale unui model tiinific de construcie a unui intrument de evaluare (McFall & Townsend, 1998)
Scopul oricrei evaluri psihologice este acela de a clarifica (de a oferi informaii) o serie de
probleme, fie ele teoretice sau practice. Astfel putem spune c exist o relaie esenial ntre teorie i
evaluare: evaluarea trebuei astfel construit nct s rspund unor ntrebri teoretice.
Nivelul de plecare n construcia unui instrument de evaluare se gsete la nivelul
postulatelor care servete ca punct fundmental (Polya, 1957, Smith, 1984). Postulatele sunt simplu
tratate ca ceva ce este dat. O dat stipulate ns ele constrng tot procesul ulterior, intrun mod
adesea foarte subtil (Lakoff & Johnson, 1980).
Nivelul urmtor cuprinde constructele teoretice formale. Acest nivel trebuie s fie
congruent cu postulatele anterioare deoarece deriv logic din acestea. Cu toate acestea ns exist o
multitudine de teorii plauzibile care pot satisface postulatele nct cercettorii trebuie s ia n calcul
o serie de aspecte legate de validitatea teoriilor care adesea sunt n competiie. Este vorba deci de a
opta, pe baza unei analize de cele mai multe ori dificile, pentru o teorie innd cont de atuurile
acesteia n competiia cu altele. Personalitatea ca i construct glogal sau temperamentul ca i
construct mai specific pot fi abordate din perspectiva mai multor teorii. Opiunea pentru o teorie a
personalitii se face, n construcia unui instrument de evaluare, la acest nivel al
constructelorteoretice formale.
Procesul de validare al unui test ncepe la nivelul constructelor teoretice prin formularea
constructelor derivate dintr-o teorie, din cercetri anterioare sau din observaii sistematice ale unui
domeniu relevant de comportamente. Itemii testului vor fi mai trziu (la nivelul referenilor)
formulai, astfel nct s ating cerinele formulate la acest nivel.
La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului
trebuie s ne punem urmtoarele ntrebri:
Ce dorim s msoare testul? Aceast ntrebare este legat de modul n care este definit
constructul i de cum aceast definiie este diferit de altele care i propun s msoare acelai
construct.
Care este obiectivul testului? Cnd sau pentru ce scop va fi utilizat testul? Va fi analizat la
acest nivel n ce msur obiectivul testului este diferit de testele existente.
Este nevoie de construcia acestui test?
Cine va utiliza testul? Clinicienii, psih. educaional sau alte categorii.
Cui se adreseaz testul? Cine este populaia int. Aici se impune o analiz detaliat a
caracteristicilor populaiei (vrst, sex, mediu socioeconomic ce factori culturali pot influena
performana la test). Ce nivel de citire este necesar pentru aplicarea testului.
Cel de al treilea nivel, al referenilor, cuprinde msurtori observabile ale constructelor
formulate. Astfel, constructul de anxietate se poate exprima la nivelul referenilor prin msurtori
ale conductanei electrice a pielii, prin rata cardiac, etc.
Pentru ca datele de la nivelul anterior s poat fi culese avem nevoie de o serie de medode
instrumentale. Este vorba de generarea unor msurtori, care n cadrul testului adesea iau forma
itemilor.
Itemii (vezi modulul 1) unui test sunt:
n majoritatea cazurilor generai de psihologi pornind de la constructele formulate;
n cazul testelor de cunotine itemii sunt formulai de specialiti n domeniul respectiv;
Pot fi luai din testele existente.
n general, este generat un numr mai mare de itemi dect numrul final al itemilor testului,
crendu-se banca de itemi. Aiken (1994) recomand ca numrul itemilor de plecare s fie mai mare
cu 20% dect lungimea tesului.
Msurrile sunt realizate pe diferite tipuri de scale. Acest problematic a alegerii scalei sau
a formatului itemlor se ncadreaz la nivelul modelului de msurare. Nu exist un tip general
corect de scal de msurare.
Tipuri de scale.
Scala de tip Likert.
Este o scal sumativ (propus de Likert n 1932)
utilizat destul de des n psihologie mai ales n msurarea atitudinilor.
Este o scal ordinal (distana dintre 2i 3 nu este ntotdeauna egal cu distana dintre 4 i 5)
Format: niciodat
rareori cteodat
adesea ntotdeauna
Are 5 trepte
Dezavantaje: nu exist o interpretare identic pentru fiecare subiect aceea ce nseamn fiecare
categorie prezentat.
Scalele Guttman
Cnd se dorete ierarhizarea unor comportamente.
Se prezint comportamentele i cere ierarhizarea acestora prin atribuirea de numere (de la 1 la
X, pentru X comportamente)
Nivelul culegerii datelor se refer la obinerea unei variante a testului i aplicarea acesteia
pe populaia int. Se in cont n aceast faz de condiiile de standardizare.
Analiza datelor cuprinde n cadrul testului procesul de analiz a itemilor, analiza tipurilor
de validitate de criteriu precum i aprecierea fidelitii testului.
Dac rezultatele obinute sunt satisfctoare se trece la construirea manualului testului. Dac pe
baza rezultatelor obinute nu se pot face inferene valoroase atunci se recomand identificarea
erorilor i reluarea procedeului.
Manualul unui test trebuie s cuprind aspectele pe baza crora utilizatorul testului s poat analiza
valoarea testului, s poat utiliza testul i s poat interpreta rezultatele acestuia. Aceste aspecte se
refer la informaii legate de:
Sumar
Evalurile psihologice nu sunt echivalente. Ele difer n cel puin trei aspecte. n primul
rnd ele difer din punctul de vedere al ntrebrilor teoretice la care ncearc s
rspund. n al doilea rnd ele difer n privina structurii logice. Iar n al treilea rnd ele
difer din perspectiva informaiilor pe care ele le aduc, sau mai precis din perspectiva
greutii inferenelor pe care aceste le suport. Pentru construcia unei scale trebuie s se
respecte un algoritm. Un element foarte important l reprezint manualul testului.
Bibliografie modul
III. Anexe
Bibliografia complet a cursului :
Obligatorie:
1. Suportul de curs, Psihodiagnostic
2. Capitolele aferente tematicii de mai sus din urmtoarele surse:
- Albu, M. (1998). Construirea i utilizarea testelor psihologice, Editura Clusium.
- Albu, M. (2000). Metode i instrumente de evaluare n psihologie. Editura Argonaut.
- Stan, A. (2002). Testul psihologic. Evoluie construcie, aplicaii. Editura Polirom.
- Haynes, S. N., Richard, D. & Kubany, E. S. (1995). Content validity in Psychological
Assessment: A functional approach to contcepts and methods. Psychological
Assessment,7,3, 238-247
- Messick, S. (1995). Validity of Psychological Assessment. Validation of Inferences
From Persons' Responses and Performances as Scientific Inquiry Into Score Meaning.
American Psychologist, September 1995 Vol. 50, No. 9, 741-749.
Facultativ:
- Anastasi, A. (1988). Psychological Testing. (6th ed). New York: Macmillan.
- Murphy,K & Davidshofer, C. O. (1994). Psychological testing: Priciples and applications
(3rd ed). Englewood Cliffs, NJ: Pretince Hall.
- www.rash.org
There are many good reasons for adapting a test, but there are reasons for not
proceeding with a test adaptation as well. Especially when cross-cultural comparisons
are not of interest, it may be substantially easier and more relevant to construct a new
test for a second language group. This avoids any complications with copyright,
insures that the format will be suitable, and any desired modifications in the definition
of the construct of interest can be made at the outset of the test development process.
Sometimes, too, it may be desirable not to adapt a test but rather to require all
examinees to take a test in a single language. For example, in the United States, there
has been interest in some states in making high school graduation tests available in
both English and Spanish. Technically this is possible, but the question of whether or
not to make two language versions of a test available depends on many factors
including the definition of the construct being measured. Is the language in which
performance is to be demonstrated a part of the construct definition or not? In the case
of reading, reading in the language of English is almost always part of the construct of
interest. Producing a Spanish equivalent version of a reading test in English makes
very little sense because inferences of English reading proficiency cannot be made
from a test administered in Spanish.
The situation with a mathematics test may be very different. The construct of interest
may be focused on computation skills, concepts, and problem-solving skills and here,
the purpose of the test is to look for a demonstration of the skills, and the language in
which the performance is assessed and demonstrated may be of little or no interest. Of
course, if the desired inference is mastery of mathematics skills when the test
questions are presented in English, then a Spanish version of the test would be
inappropriate in this situation too.
Myth 2. Anyone who knows the two languages can produce an acceptable
translation of a test.
This is one of the most troublesome myths because it results in unqualified persons
adapting tests. There is considerable evidence suggesting that test translators need to
be familiar with both source and target languages and the cultures, and they need to be
generally familiar with the construct being assessed, and the principles of good test
development practices. How, for example, can someone translate a high school
physics test from English into Spanish without some knowledge of the content?
Would a translator with little knowledge of test development principles be aware to
preserve the relevant features of the original test in an adapted test such as clearly
written item stems, a single correct or best answer, answer choices of approximately
the same length, etc.?
Myth 3. A well-translated test guarantees that the test scores will be valid in a
second language or culture for cross-language comparative purposes.
Van de Vijver and Poortinga (1997) make the point that not only should the meaning
of a test be consistent across persons within a language group and culture but, that
meaning, whatever it is, must be consistent across language groups and cultures. For
example, if a test is more speeded in a second language version because of the nature
of that language, then the two language versions of the test are not equally valid. We
have encountered just such a problem in some German test translations we are
currently working on. Quite simply, the German words are longer than English words
and take correspondingly longer to read. The result is a slightly more speeded German
version of the test. In this instance, the test may be equally valid in each language
group and culture, but still not be suitable for cross-cultural comparisons.
Many other examples could be introduced. For one, the non-equivalent familiarity of
students in different cultures with certain item formats, e.g., the multiple-choice
format, places examinees from this second cultural group at a serious disadvantage.
The translation could be excellent, but the scores from the two language versions are
not equally valid.
Myth 4. Constructs are universal, and therefore all tests can be translated into other
languages and cultures.
One of the best counter examples of this myth concerns intelligence tests. The
Western notion of intelligence places considerable emphasis on speed of response. In
some cultures, speed of response is of minor importance as a operating characteristic
for life, and members of these cultural groups often score lower on Westernized
intelligence tests because of a failure to perform quickly. But, it only in this limited
sense of the Western definition of the construct of intelligence that these cultural
groups appear of less intelligence. By another definition, perhaps one that devalues
speed of response and emphasizes other human attributes of intelligence (see
Sternberg and Gardner (1983) for broader definitions of intelligence which
incorporate, for example, social and artistic skills) the results would be opposite.
There is currently considerable interest in cross-cultural comparisons of quality of
life. It is interesting to discover that the construct associated with quality of life in this
country is often very different in other countries and this makes cross-cultural
comparisons very different. Televisions, portable telephones, personal computers, the
great outdoors, and college sports are of no importance and do not affect the quality of
life for persons in many other cultures. Cross-cultural comparisons of quality of life
are difficult to carry out because the construct may have very different meanings
across cultures.
Myth 5. Translators are capable of finding flaws in a test adaptation. Field testing
is not usually necessary.
This is another of the major myths about adapting tests. There are literally thousands
of examples of poorly adapted test items in the literature, and many of the items in
these tests were approved by translators. The fact is translators are not able to
anticipate all of the problems encountered by examinees taking a test in a second
language.
One of the best examples because it was discovered on an international comparative
study of reading achievement (and a study where the American students were about
the middle of 20 countries) is the following:
Determine whether these two words are similar or
different--
p
e
s
s
i
m
i
s
t
i
c
s
a
n
g
u
i
n
e
In the English version of the test item, only about 54% of the American students were
able to determine the correct response (a performance level slightly above chance)
which is that the two words have a different meaning. In a second language version,
the item was adapted as follows-p
e
s
s
i
m
i
s
t
i
c
o
p
t
i
m
i
s
t
i
c
In the foreign language version of the test item, almost 100% of the examinees
answered the item correctly. Clearly, a poor translation had made the test item
considerably easier. The reason given was that the word "sanguine" had no equivalent
word in the second language and therefore another word was chosen which too, had a
different meaning to pessimistic. Interestingly, this easier version of the test item was
used in the country which finished number one among the 20 countries. One wonders
what role this item and other improperly adapted test items played in the final
rankings of the 20 countries.
In summary, all of the myths can seriously compromise the validity of a test in a
second language or cultural group, or negatively influence the validity of adapted tests
for use in cross-language comparison studies. Fortunately, each myth is
straightforward to address in practice. What follows are steps for adapting tests which
should eliminate all of the myths and other shortcomings in test adaptation
methodology.
Steps for Adapting Tests
The International Test Commission (ITC) guidelines (Hambleton, 1994; van de Vijver
& Hambleton, 1996) provide an excellent framework to guide researchers in the test
adaptation process. Appendix A contains a copy of those guidelines. The following
steps for adapting a test from one culture and/or language for use in another are a
mixture of findings and recommendations from the ITC guidelines and many
empirical studies (e.g., Angoff & Cook, 1988, Prieto, 1992; Hambleton, 1994).
Geisinger's (1994) work in cross-cultural assessment was especially influential in our
thinking about the topic of steps for adapting tests. The steps are still evolving.
Through the application of the steps in different contexts new insights will be gained
and certain additions, deletions, and clarifications may be necessary.
Step 1 Ensure that construct equivalence exists in the language and cultural
groups of interest.
Assess whether construct equivalence exists between the cultures of interest and if it
does not, either consider "decentering" (that is, revising the definition of the construct
to be equally equivalent in each language and cultural group) or discontinue the
project. The publication by Harkness (1998) is especially helpful in the study of
construct equivalence.
Central questions are as follows: Does the particular construct that a researcher (e.g.,
the content domain for a credentialing exam) is interested in measuring exist in both
cultures? Does it make sense to compare these two cultures on this construct? Would
any cross-cultural comparison on this construct be meaningful? Does the construct
that is being measured mean the same thing in all cultures being compared?
Researchers familiar with both languages and cultures are in a strong position to make
judgments about construct equivalence between cultures. One can also judge whether
cross-cultural construct equivalence exists by interviewing or observing people from
the cultures of interest, researching the cultures of interest, asking others who know
about the cultures, or visiting people in the culture.
Suggestions:
1. Through discussions with psychologists and other knowledge
persons in each culture, determine if the construct exists, and if
the same definition applies equally well in both language and
cultural groups.
Step 2 Decide whether to adapt an existing test or develop a new test.
Consider the purpose of the adapted test, and the advantages and disadvantages of
adapting an existing test rather than developing a new test. It is clear too that some
tests will be more amenable to translation into certain languages than others
(Ahluwalia, 1990, p. 20). The more similar the target language and/or culture are to
the source language and/or culture, the easier will be the adaptation (thus, English to
Spanish adaptations may make more sense than English to Arabic or English to
Chinese adaptations). With tests intended for cross-cultural comparisons, test
adaptation (possibly with some decentering) may be the only option. But when crosscultural comparisons are not of interest, it may be easier to actually produce a new test
that meets the cultural parameters in the second language group, than to adapt an
already existing test which may have a number of shortcomings (e.g., a less than
satisfactory definition of the construct, inappropriate item formats, use of some
cultural specific content, etc.).
The standards with which to evaluate whether to adapt an existing test require some
level of expertise in measurement, some knowledge of the relevant literature of the
original test, and some knowledge of the language and culture to which the test is
being adapted.
Suggestions:
1. Consider the purpose of the adapted test, and carefully consider
the advantages and disadvantages of adapting a test versus
constructing a new test.
Step 3 Select well-qualified translators.
This is often one of the major shortcomings of a test adaptation project. Two points
can be made: First, in selecting translators, search for persons who are fluent in both
languages and who are very familiar with the cultures under study, and who have
some knowledge of test construction and the construct being measured. As knowledge
of test construction practices is not common among translators, this may be addressed
with some training prior to initiating the test adaptation process. Adding a
psychometrician to the mix may be desirable, too.
Second, some researchers have found that panels or committees of people translate
the test better than individuals. Committees produce pooled adaptations that are often
more accurate than translations from a single translator.
Suggestions:
equivalence is identified, changes in the adapted version of the test are considered.
The idea is that if the adaptation has been effective, the back-adapted version of the
test should look very much like the original. Of course, when the adaptation involves
format changes, time changes, and other changes, the target language version of the
test may be fine, but a back-translated test may not look at all like the original. In
general, back-translation designs seem like an excellent supplement to the forward
translation design, but they are not likely to be able to stand on their own. The
information they provide about the validity of the adapted test is limited.
Based on the comments of the reviewers, changes can be made in the original and/or
adapted version of the test, as necessary. Of course, if many changes are made, there
may be advantages to repeating step 4 and 5.
Suggestions:
1. Review and revision of the adapted test is absolutely necessary,
following the initial translation. In most cases, the adapted test
is too important to be dependent on the insights of a single
translator or group of translators.
Step 6 Conduct a small tryout of the adapted version of the test.
It is at this step that many studies seem to go wrong. Too many researchers and test
developers feel that judgmental review is sufficient evidence to establish the validity
of a test in a second language. But validity evidence for using a test in a second
language depends on stronger evidence than that the test seems to look acceptable to
translators and/or reviewers. Not only is empirical evidence needed to support the
validity of inferences from an adapted version of a test, but perhaps two or more
empirical studies are needed. A good example of what researchers might learn from a
tryout of test items in a second language and culture is clearly highlighted in the paper
by Allalouf and Sireci (1998).
Beginning with a small tryout of the adapted test seems to be prudent before investing
considerable resources in a more ambitious field test. Pilot test the instrument using a
small sample of individuals representative of the eventual target population and
compare the results to results obtained from a source sample. The pilot test should
consist of administering the test, as well as interviewing the individuals to obtain their
criticisms of the test itself, instructions, time limits, etc. These findings form the basis
for revising the test. One good suggestion from Ellis and Mead (1998) might be
carried out at this point. Ellis and Mead suggest that when there are disagreements
about the best adaptation of a test item, these variations might all be field tested, and
the results used to make the final decision about which adaptation is best.
Suggestions:
1. Conduct a pilot test to gain preliminary information about the
test, and revise accordingly.
Step 7 Carry out a more ambitious field test.
This is one of the most important steps in the total test adaptation process. Good
translators are often capable of identifying and fixing many shortcomings in adapted
tests. But many problems go unidentified until test items are field tested. For example,
in a recent study by Hambleton, Slater, and Yu (in press) in which National
Assessment of Educational Progress (NAEP) mathematics items were adapted into
Chinese, the NAEP test item went unidentified by the translators. A field test revealed
a major problem with the item which could not be identified by the translators
because it was a curriculum issue. Chinese students at the eighth grade were
unfamiliar with the concept of estimation.
Field test the adapted test using a larger sample of individuals representative of the
eventual target population and conduct preliminary statistical analyses, such as a
reliability analysis and a classical item analysis. In addition, check for construct
equivalence using factor analysis should be carried out.
Suggestions:
1. Design and carry out an ambitious field test to check out test
items (using classical or modern item analysis procedures), test
and subtest reliabilities, and the factor structure of the test
(factor analysis or structural equating modeling are popular for
this analysis). Compare findings to those obtained with the
source language version of the test.
Step 8 Choose a statistical design for connecting scores on the source and target
language versions of the test.
This step is necessary when cross-cultural comparisons are of interest, or the test
score norms or performance standards (i.e., the passing score on a credentialing exam)
with the source language version of the test are of interest with the target language
version of the test. At this step (which might be combined with step 7), a linking
design is needed to place the test scores from the different versions of the test on a
common scale. There are three popular linking designs:
1. bilingual group design,
2. matched monolingual group design, and
3. monolingual group design.
All three designs are popular, though the third design may be the easiest to implement
in practice (see, for example, Angoff & Cook, 1988). For a worked example based on
item response modeling of the data, studies by Angoff and Cook (1988) or Woodcock
and Munoz-Sandoval (1993) would be of special interest.
Suggestions:
1. Choose a linking design to equate scores from the source and
target language versions of the test. Item response modeling is
a standard way to proceed. Large samples are highly desirable
at this step to produce a stable linking of scores from one test to
the other.
Appendix A
ITC Test Adaptation Guidelines
Context
C.1 Effects of cultural differences which are not
relevant or important to the main purposes of the study
should be minimized to the extent possible.
C.2 The amount of overlap in the constructs in the
populations of interest should be assessed.
Test Development and Adaptation
D.1 Test developers/publishers should insure that the
adaptation process takes full account of linguistic and
cultural differences among the populations for whom
adapted versions of the instrument are intended.
D.2 Test developers/publishers should provide evidence
that the language use in the directions, rubrics, and
items themselves as well as in the handbook are
appropriate for all cultural and language populations for
whom the instrument is intended.
D.3 Test developers/publishers should provide evidence
that the choice of testing techniques, item formats, test
conventions, and procedures are familiar to all intended
populations.
h) bibliografie;
i) alte informaii utile n aprecierea metodei.
(2) n cazul probelor psihologice standardizate utilizate n evaluarea psihologic,
informaiile din dosar trebuie s corespund standardelor de calitate menionate n
Anexa III.
(3) - n cazul n care datele cuprinse n dosarul tehnic nu sunt suficiente
pentru acordarea avizului, se pot cere probe, documente i clarificri
suplimentare prin consultarea Comisiilor aplicative, pe cheltuiala solicitantului.
Seciunea 2 Procedura de avizare
Art. 9 (1) - Studierea dosarului tehnic se face de ctre CM a CPR.
(2) - Fiecare metod supus avizrii va fi analizat independent de ctre doi membri ai
Comisiei Metodologice, ce vor fi alei prin tragere la sori dintre membrii disponibili.
(3) - n cazul probelor psihologice standardizate, evaluarea se va face pe baza ghidului
ce conine standardele de calitate ale testelor psihologice, precizate n anexa III.
Art. 10 (1) - n urma analizei, evaluatorii pot propune acordarea a trei tipuri de avize:
a) avizarea pe o perioad nedeterminat;
b) avizare temporar;
c) respingere a metodei sau tehnicii respective.
(2) - Evaluatorii vor ntocmi un referat prin care s justifice tipul de aviz dat i
recomandrile fcute pentru mbuntirea calitilor psihometrice ale probelor.
(3) - n cazul n care concluziile celor doi evaluatori difer, n ceea ce privete tipul de
aviz acordat, metoda sau tehnica va fi reevaluat de o a treia persoan din cadrul CM,
aleas prin tragere la sori de ctre Preedintele Comisiei, dar alta dect primele dou.
Art. 11 (1) - n cazul testelor psihologice, avizul pe o perioad nedeterminat i oblig
pe cei care distribuie pe pia produsele sau serviciile respective s le actualizeze
periodic la un interval de maximum 10 ani pe populaia autohton.
(2) - Dac reactualizarea conduce la modificri n punctele b i c din cadrul art.8,
alin.1 ori n coninutul probei, n modul de administrare a acesteia sau n modalitatea
de cotare i interpretare a rezultatelor este necesar o rennoire a avizului.
Art. 12 (1) - Metodele i tehnicile de evaluare psihologic pot primi un aviz temporar,
pe o durata de 24 luni, cu condiia punerii n practic de ctre persoanele responsabile
a recomandrilor membrilor CM.
(2) - Avizul temporar poate fi acordat, att probelor noi, aflate n perioad de
experimentare, dar utilizate n procesul de evaluare psihologic, ct i probelor care
necesit mbuntiri din perspectiva caracteristicilor tehnice.
(3) - La expirarea celor 24 de luni de utilizare a metodei sau tehnicii pe baza avizului
temporar, se reevalueaz situaia metodei sau tehnicii. Dac solicitantul nu satisface
normele de avizare definitiv a metodei sau tehnicii aflat n aceast situaie, CM prin
CD al CPR va retrage avizul temporar de utilizare a metodei.
Art. 21 (1) - Autorii sau productorii unor teste psihologice pot propune criterii
suplimentare cu scopul de a restriciona dreptul de utilizare a testelor pe care le
introduc pe pia, inclusiv o anumit experien de utilizare sub supervizare, cursuri
de formare.
(2) - Decizia de includere a acestor criterii suplimentare rmne un atribut exclusiv al
CM.
ANEXA 1
Model cerere tip
Domnule Preedinte,
Subsemnatul ....
de profesie , CNP .
cu domiciliul in..
n calitate de .....
va rog sa avizati metoda/tehnica/testul .
pentru a putea fi utilizat(a) in.
In acest scop anexez dosarul tehnic
Data :
ANEXA 2
si declaratia de conformitate.
Semnatura:
DECLARATIE DE CONFORMITATE
Nr. ................
Noi, ..........................................................................,
(denumirea completa a persoanei juridice sau persoanei fizice autorizate)
...............................................................................,
(sediul)
cu Certificat de nregistrare/Autorizaie nr. .............../.................,
asiguram, garantam si declaram pe propria rspundere, conform prevederilor art.
5 din Hotrrea Guvernului nr. 1.022/2002 privind regimul produselor si
serviciilor care pot pune in pericol viata, sntatea, securitatea muncii si
protecia mediului, ca produsul/serviciul ......................................
................................................................................
(denumirea, tipul sau modelul, eventual numrul lotului, seriei i numrul de
exemplare)
la care se refera aceasta declaraie nu pune in pericol viaa, sntatea,
securitatea muncii, nu produce un impact negativ asupra mediului i este n
conformitate cu: ...............................................................
................................................................................
(titlul si/sau numrul i data publicrii documentului/documentelor
normativ/normative)
.................................
............................................
(locul si data emiterii)
(numele si prenumele in clar si stampila)
ANEXA 3
n curs de traducere i de dezbatere: The Revised Dutch Rating System for Test
Quality.
Glosar
A msura nseamn a atribui numere obiectelor sau fenomenelor potrivit unor reguli
determinate (Stevens, 1951).
Analiza factorial - un set de proceduri matematice utilizate pentru a identifica dimensiunile
care stau la baza uneui set de msurori empirice
Consistena intern a unui test - se refer la msura n care toi itemii testului msoar
aceeai variabil
Criteriul standardul la care este raportat performana la un test
Definirea populaiei - circumscriera persoanelor pentru care este destinat testul
Etalon - reprezint deci cadrul de referin al unui subiect cu populaia
Etalonarea unui test - reprezint stabilirea unui cadru de referin, a unei scri care s
permit determinarea locului ocupat de rezultatele unui subiect fa de rezultatele unei
populaii de referin, suficient de numeroas, format din persoane comparabile cu cea
examinat.
Etalonul (norma sau standardele) reprezint deci cadrul de referin al unui subiect cu
populaia
Evaluarea psihologica este un proces de rezolvare de probleme care vizeaz descoperirea
manifestrilor realitatii.
Fidelitatea - reprezint absena relativ dintr-o prob psihologic a erorilor de msurare.
Fidelitatea interevaluatori exprim msura n care testul este independent de erori datorate
modalitii de cotare a rspunsurilor subiectului
Item - stimul specific care determin un anumit comportament ce poate fi cotat i evaluat
independent.
Itemi cu mai multe opiuni (polinomici) au un format similar celor dihotomici, atta doar
c au mai mult de dou alternative de rspuns
Itemii dihotomici ofer dou alternative de rspuns (adevrat i fals), de obicei uneia dintre
acestea i se acord un punct la cotarea performanei persoanei evaluate
Metoda formelor paralele - dou teste sunt paralele dac pentru un subiect erorile de msur
la cele dou administrri sunt variabile aleatoare independente
Predicia - este procesul de stabilire a unor expectaii despre viitor avnd la baza date /
evenimente curente
Q- sort este o metod utilizat cu precdere n evaluarea personalitii. Persoana evaluat
va primi o list de adjective pe care le va sorta n funcie de msura n care acestea l
caracterizeaz
Scal categorial este similar cu scalele Likert, dar utilizeaz un numr mai mare de
opiuni de rspuns, de cele mai multe ori sunt utilizate scale cu 10 opiuni de rspuns
Scale Likert prezint o form foarte popular, utilizat mai ales n cadrul testelor de
personalitate, n care persoana evaluat trebuie s-i exprime acordul sau dezacordul fa de a
o afirmaie
Scor standard - este un scor care a fost transformat dintr-o scal n alta, ultima fiind una pe
baza creia se pot face comparaii.
Stabilitatea rezultatelor testrii - ne indic n ce msur la aplicri diferite n timp un
subiect obine rezultate similare la un test psihologic
Standardizarea - procesul de obiectivare i uniformitate a unui test
Testarea psihologica - constituie procesul de administrare, cotare si interpretarea a
rezultatelor unui test psihologic
Validarea procesul prin care se obin informaii legate de validitatea unui test
Validitate concurent (presupune obinerea scorurilor la criteriu aproximativ n acelai timp
cu scorurile la test. n cazul validitii concurente este vorba tot de o predicie, dar la aceasta
se ajunge pe o cale puin diferit fa de cea urmat n studierea validitii predictive
Validitate convergent - msura n care testul evalueaz aceleai constructe ca i alte teste
Validitate de discriminare msura n care testul evalueaz altceva dect alte teste despre
care se tie c se refer la constructe ce nu au legtur cu constructul msurat de test
Validitatea de aspect - ceea ce un test pare s msoare, mai degrab dect ceea ce msoar
Validitatea de aspect este definit ca ceea ce un test pare s msoare, mai degrab dect ceea
ce msoar
Validitatea de construct - reprezint msura n care se poate susine c testul msoar o
variabil sau o trstur specific
Validitatea de coninut - implic examinarea sistematic a coninutului testului pentru a se
verifica dac testul acoper un eantion reprezentativ din domeniul care se cere a fi evaluat
prin test
Validitatea de criteriu - indic msura n care testul este un bun predictor pentru un
eantion de comportamente viitoare
Validitatea predictiv - este definit ca acurateea cu care putem estima n ce msur o
anumit caracteristic sau aptitudine a unei persoane se va manifesta n viitor pe baza msurii
n care persoana posed o serie de caracteristici sau aptitudini curente