Psi Ho Diagnostic

UNIVERSITATEA BABE-BOLYAI CLUJ-NAPOCA FACULTATEA DE PSIHOLOGIE I TIINELE EDUCAIEI SECIA PSIHOLOGIE NVMNT LA DISTAN
PSIHODIAGNOSTIC
- SEMESTRUL I -
CUPRINS
MODULUL I I. TESTUL PSIHOLOGIC MODULUL II II. PRINCIPALELE CALITI ALE TESTULUI PSIHOLOGIC II.1. FIDELITATEA TESTELOR II.1.1. CONSISTENA INTERN II.1.2. STABILITATEA II.1.3. METODA FORMELOR PARALELE II.1.4. FIDELITATEA INTEREVALUATORI II.2. VALIDITATEA TESTELOR II.2.1. VALIDITATEA DE CRITERIU II.2.2. VALIDITATEA DE CONINUT II.2.3. VALIDITATEA DE CONSTRUCT MODULUL III NORMELE TESTELOR MODUL IV ASPECTE CONCEPTUALE I METODOLOGICE ALE CONSTRUCIEI TESTELOR PSIHOLOGICE
4 12 12 12 13 13 14 18 18 24 35 42 48
MODULUL I TESTUL PSIHOLOGIC

CE ESTE EVALUAREA PSIHOLOGICA? Maloney & Ward (1976) consider evaluarea psihologic un proces de rezolvare de probleme care vizeaz descoperirea manifestrilor realitii. Acest proces implic un scop bine precizat, o serie de instrumente de evaluare - printre care i testul - precum i o serie de variabile specifice situaiei. Pornind de la definiia anterioar putem considera evaluarea psihologic o problem care poate fi rezolvat prin mai multe modaliti atta vreme ct sunt respectate anumite cerine: stabilirea clar a scopului evalurii respectiv utilizarea unor instrumente valide de evaluare. Se poate observa faptul c vorbim de instrumente de evaluare, i nu doar de un instrument specific cum este cel mai adesea testul psihologic. Evaluarea psihologic este realizat cel mai adesea pe baza a dou categorii de instrumente: instrumente psihometrice i instrumente nepsihometrice. n cadrul primei categorii instrumentele psihometrice - sunt cuprinse n general testul psihologic, chestionarele, observaia standardizat respectiv alte proceduri care au la baz indicatori psihometrici (standardizarea, fidelitatea, validitatea, etalonarea aceste aspecte vor fi discutate ulterior). n cadrul celei de a doua categorii - instrumentele nepsihometrice sunt cuprinse acelea care nu au indicatori psihometrici estimai: interviul nestandardizat, analiza produselor activitii, analiza de Curriculum Vitae, etc. Evaluare versus testare psihologic Termenii de evaluare respectiv testare psihologica sunt doi temeni distinci. Evaluarea psihologic include testarea psihologic. Testarea psihologic constituie procesul de administrare, cotare i interpretare a rezultatelor unui test psihologic. Ea are un cmp mult mai ngust deoarece include doar testul psihologic ca instrument de evaluare. A reduce evaluarea psihologic la testare este o practica netiinific. Prediciile pe care le facem pe baza unui test iau n considerare doar o singur surs i anume testul respectiv. Prediciile pe care le facem pe baza unei evaluri psihologice in seama de o multitudine de surse de informaie (incluznd bineneles i testarea psihologic). I.1. DEFINIII ALE TESTULUI PSIHOLOGIC Testul psihologic reprezint alturi de alte instrumente o surs de informaii extrem de util n evaluarea comportamentului uman. Literatura de specialitate indic diferite definiii ale testului psihologic. Prezentm n continuare cteva definiii ale testului psihologic: Un examen simplu de stri, de fapte fizice sau psihice (Hehlmann, W., 1968) Testul psihologic este o prob definit, implicnd o sarcin de ndeplinit, identic pentru toi subiecii examinai, cu o tehnic precis pentru aprecierea succesului sau eecului sau pentru notaia numeric a reuitei (Pieron, H., 1968) Testul psihologic const dintr-o prob, mai frecvent dintr-o serie de probe, construite n scopul stabilirii prezenei (sau absenei) unui aspect psihic, a particularitilor de comportare sau a gradului de dezvoltare psihic (Roca, M., 1972) Se numete test mintal o situaie experimental standardizat servind drept stimul pentru un comportament. Acest comportament este evaluat printr-o comparaie statistic cu acela al altor indivizi plasai n aceeai situaie, permind astfel clasarea subiectului examinat, fie cantitativ, fie tipologic (Pichot, P., 1994) 3
Un test psihologic este o procedur standardizat prin care se formeaz un eantion de comportamente care va fi descris prin categorii sau scoruri. n plus, multe teste au norme sau standarde care fac posibil utilizarea rezultatelor la predicia altor comportamente, mai importante (Gregory, J.,1992) Testul reprezint o msur obiectiv i standardizat a unui eantion de comportament (Anastasi, A., 1976).
Din analiza definiiilor anterioare, putem observa c testul este definit fie ntr-o manier mai larg (cum este definiia dat de Hehlmann) sau mai ngust. Ceea ce rmne ns invariabil n definiia testului psihologic sunt urmtoarele caracteristici: instrument de evaluare; vizeaz un eantion de comportament; implic o procedur standard privind administrarea, cotarea i interpretarea rezultatelor. I.2. PRINCIPALELE REPERE ISTORICE PRIVIND DEZVOLTAREA METODEI TESTELOR Thorndike (1918) - Dac ceva exist, atunci exist ntr-o oarecare msur McCall (1939) - Orice exist ntr-o oarecare msur poate fi evaluat REPERE ISTORICE N EVOLUIA TESTRII PSIHOLOGICE
Tabelul 1.1 Repere istorice n evoluia testrii psihologice 2200 C 1877 1884 1890 1901 1905 1914 1916 1917 1920-1940 1920 1921 1927 1939 1942 1949 1967 Chinezii ncorporau militarii pe baza unor evaluri prealabile Wilhem Wundt nfiineaz primul laborator de testare psihologic la Leipzig, Germania Francis Galton realizeaz prima baterie de teste James McKeen Cattell utilizeaz pentru prima dat termenul de "mental test", evalund aptitudinile intelectuale pe baza unor probe ce vizau timpul de reacie i capacitatea de discriminare senzorial Clark Wissler susine c indicii obinui de Cattell nu coreleaz cu notele olare Scala Metrica a Inteligentei - primul test de inteligen elaborat de Binet-Simon Stern introduce termenul de coeficient de inteligen (IQ) = vrsta mintal/vrsta cronologic Lewis Terman reia scalele Binet-Simon, publicnd Scalele Stanford-Binet. Acestea vor fi revizuite treptat n anii 1937, 1960, 1986 Robert Yerkes realizeaz testele pentru ncorporarea n armata american n timpul Primului Rzboi Mondial: Army Alpha i Army Beta Dezvoltarea major a testelor de personalitate Testul Rorchach Este fondat Psychological Corporation (Cattell, Thorndike, Woodworth) Este elaborat primul chestionar ce viza orientarea profesional Wechsler Bellevue Intelligence Scale elaboarat de David Wechsler. Va fi revzut ulterior i mbuntit n anii 1955 (WAIS) i 1981 (WAIS-R) Minesota Multiphasic Personality Inventory (MMPI) Weschler Intelligence Scale for Children (WISC). Va fi revzut i mbuntit n anii 1974 (WISC-R) i 1990 (WISC-III) Wechsler Primary and Prescholl Intelligence Scale (WPPSI)
I.3. TESTUL CA INSTRUMENT DE MSURARE/EVALUARE 4
A msura nseamn a atribui numere obiectelor sau fenomenelor potrivit unor reguli determinate (Stevens, 1951). Aceste reguli stabilesc o coresponden ntre proprietile numerelor i proprietile obiectelor/fenomenelor. testele psihologice vizeaz atribute/trsturi specifice; au la baz scalele de msur. scale nominale scale ordinale scale de interval scale de raport / proporii
I.3.1. SCALE DE MSUR Distingem 4 tipuri de scale de msur (Stevens, 1946):
I.3.1.1. SCALELE NOMINALE Definiie Msurarea pe o scal nominal poate fi realizat ori de cte ori caracteristica studiat permite mprirea n clase de elemente echivalente.
relaie de echivalen relaie de echivalen Orice dou submulimi ale unei clase, nu Orice dou submulimi ale unei clase, nu trebuie s se intersecteze trebuie s se intersecteze
Exemple: 1. sexul (femei / brbai) - o clas de elevi cuprinde 31 elevi din care 14 biei i 17 fete; 2. categoriile socioprofesionale Statistic, nu este posibil realizarea nici unei analize (X2, procente). I.3.1.2. SCALELE ORDINALE Definiie Msurarea pe oo scal ordinal realizeaz ierarhizarea claselor. Msurarea pe scal ordinal realizeaz ierarhizarea claselor.
relaie de echivalen relaie de echivalen relaie de ordine relaie de ordine Observaie: Clasele sunt ordonate, dar distana dintre ele nu poate Clasele sunt ordonate, dar distana dintre ele nu poate fifi estimat. estimat. 5
Exemple: A>B>C Aprecierile ca foarte bun, bun, slab
Statistic poate fi calculat mediana, centilele. Grafic putem s ne referim la histograme.
I.3.1.2. SCALELE DE INTERVAL Definiie Msurarea pe o scal de interval presupune o unitate de msur comun i constant.
relaie de echivalen relaie de echivalen relaie de ordine relaie de ordine distana ntre arbitrar) distana ntreclase clase(zero (zero arbitrar) Exemple: 1. IQ 2. Coeficient perceptiv. Permite utilizarea celor mai numeroi indici statistici (media, variana, coeficieni de corelaie).
I.3.1.4. SCALELE DE PROPORII Definiie Posed proprietile scalelor de interval, dar n plus au un punct zero nonarbitrar.
n psihologie msurarea nu se realizeaz pe scale de proporii. Concluzii privind scalele de msur

Tabelul 1.2. Principalele caracteristici ale scalelor de msur
Scale Nominale Ordinale De interval De proporii
Relaii Echivalen Echivalen Ordine Echivalen Ordine Existena unei uniti de msur
Prelucrri statistice Modul, frecvene Mediana, centilele, coef. de corelaie al lui Spearman Media, variana, coeficientul de corelaie Bravais-Pearson
I.4. TESTUL VIZEAZ UN EANTION DE COMPORTAMENT Testul psihologic, la fel ca testele n alte tiine realizeaz observaii pe un eantion de comportamente ale unui subiect. Dac un psiholog dorete s evalueze vocabularul unui copil sau aptitudinile sale aritmetice sau coordonarea motric la un pilot va trebui s aleag din totalitatea comportamentelor disponibile cteva reprezentative pentru ale include ntr-o prob psihologic. I. 5. TESTUL IMPLIC O PROCEDUR DE STANDARDIZARE Standardizarea = procesul de obiectivare i uniformitate a unui test raportat la: modalitatea de aplicare/administrare; modalitatea de cotare; modalitatea de interpretare i raportare la norme/etaloane I.6. TESTUL CA REZULTANT A UNEI COLECII DE ITEMI I.6.1. CE ESTE UN ITEM ? Item este un stimul specific care determin un anumit comportament ce poate fi cotat i evaluat independent. I.6.2. TIPURI DE ITEMI n funcie de tipul de rspuns solicitat putem distinge ntre itemi de tip eseu i itemi cu rspunsuri date: I. Itemi de tip "eseu" - subiectului i se cere s rspund liber la un item. ex. Discutai implicaiile teoriei lui Piaget n practica educaional. II. Itemi cu rspunsuri date care pot fi: 1. Itemi de tip "da-nu", "adevrat-fals"
ex. Bogota este capitala Columbiei?
sunt utilizai cel mai adesea n testele de cunotine; uneori sunt utilizai i n testele de personalitate; sunt considerai inadecvai n chestionarele de atitudini sau n cele ce evalueaz simptomele clinice (n aceste domenii nu exist rspunsuri corecte sau greite); avantaje: uor i rapid de administrat; dezavantaje: subiectul are 50% anse de a ghici rspunsul. 2. Itemi cu rspunsuri la alegere
ex. Care este capitala Columbiei ? A. La Paz B. Bogota C. Lima D. Santiago
sunt utilizai n testele de cunotine; avantaje: procentul de a ghici rspunsul scade; 3. Itemi cu rspunsuri pe scale de tip: "da-nu-nu tiu", "de acord-acord parial-dezacord", "ntotdeauna-adesea-uneori-niciodat"
ex. Sunt o persoan anxioas n situaii de examen. A. ntotdeauna B. adesea C. uneori D. niciodat
4. Itemi cu rspunsuri ce trebuie alturate dup diferite criterii

ex. __ 1. primul test de inteligen __ 2. test proiectiv de personalitate A. Raven B. Binet-Simon
__ 3. test de inteligen de grup
C. Rorschach
I.7. SCOPUL UTILIZRII TESTELOR PSIHOLOGICE Selecie/clasificare. Diagnostic i intervenie Autocunoatere Proiecte de evaluare a unor modificri intervenite n urma unor intervenii educative, psihoterapeutice. 5. Instrumente ale cercetrii tiinifice
1. 2. 3. 4.
I.8. DOMENII DE UTILIZARE A TESTELOR PSIHOLOGICE

Tabelul 1.3. Domenii de utilizare a testelor Domeniu de aplicabilitate Activitatea vizat spre evaluare Psihologia clinic - evaluarea inteligenei - evaluarea psihopatologiei Consilierea psihologic - orientarea colar i profesional - evaluarea aptitudinal - evaluarea comportamentului relaional/social - evaluarea potenialului managerial - evaluarea aptitudinilor cognitive i psihomotorii - evaluarea maturitii colare - evaluarea progresului n procesul instructiv-educativ - evaluarea potenialului de nvare - evaluarea copiilor cu cerine speciale - evaluarea leziunilor cerebrale
Psihologia industrial/organizaional Psihologia colar
Neuropsihologia
I.9. CLASIFICRI ALE TESTELOR PSIHOLOGICE Testele psihologice pot fi clasificate n funcie de diferite criterii (Albu, 1999). 1. Clasificri n funcie de coninutul testului: a). dup modul de executare a sarcinii de ctre subiect teste orale; teste scrise; teste de performan : teste cu manipulare de aparate i piese; teste administrate de calculator. b). dup utilizarea limbajului n rezolvarea sarcinii teste verbale ; teste nonverbale. c). dup modul de procesare implicat: teste de eficien teste de aptitudini; teste de dezvoltare intelectual; teste de cunotine; probe de lucru; teste situaionale teste de personalitate (nonintelective). 8
2. Clasificri n funcie de modul de administrare a testului: a). dup numrul persoanelor care pot fi examinate simultan: teste individuale; teste de grup. b). dup timpul de execuie teste de vitez; teste de randament: cu limit de timp; cu timp de lucru nelimitat. 3. Clasificri n funcie de modul de cotare a testului i de interpretare a scorului: a). dup modul de stabilire a cotei la test: teste obiective; teste subiective. b). dup modul n care se interpreteaz scorurile testelor teste normative; teste centrate pe criteriu; teste idiografice; teste ipsative. SUMAR Prezentul modul a conturat caracteristicile principale ale testului psihologica ca instrument de msur n psihologie. Este important de reinut faptul c testul este unul dintre modalitile de evaluare psihologic. Alturi de alte instrumente ca interviul, observaia, chestionarele, scalele de evaluare, testul se constituie ntr-o surs important de informaii pentru o evaluare psihologic. Distingem ntre evaluare i testare psihologic. Evaluarea psihologic poate fi neleas ca un proces de rezolvare de probleme n care psihologul caut soluia utiliznd o serie de instrumente; testarea se refer la procesul strict de obinerea a unor informaii utiliznd testul psihologic. Elemente considerate eseniale pentru nelegerea noiunii de test psihologic sunt: 1. testul psihologic servete la msurarea unor atribute psihice, fie la predicia unor comportamente, 2. un test psihologic const n una sau mai multe probe, 3. testul evalueaz doar un eantion de comportamente, 4. n etapa de construcie a testelor se stabilesc regulile care trebuie respectate n utilizarea acestuia, 5. un test este obiectiv dac el permite s se msoare fr ambiguitate capacitile unei persoane. Testele psihologice sunt utilizate, n principal, pentru a stabili un diagnostic psihologic, pentru a face aprecieri i predicii referitoare la subieci i pentru a lua decizii asupra persoanelor. Testele psihologice reprezint deci una din sursele de informaie pentru evaluarea psihologic.
MODULUL II PRINCIPALELE CALITI ALE TESTULUI PSIHOLOGIC

n urma parcurgerii eficiente a acestui modul studenii vor fi capabili: S enumere i s poat defini corect fidelitatea i validitatea testelor psihologice; S cunoasc principalele modaliti de a analiza fidelitatea i validitatea testelor S interpreteze corect coeficienii de validitate i fidelitate S poat analiza un test psihologic prin prisma fidelitii i validitii acestuia
II.1. FIDELITATEA TESTELOR

9
The meter (m) is the Si unit of length and is defined as the length of the path traveled by light in vacuum during the time interval of 1/299 792 458 of a second. This replaces the two previous definitions of the meter: the original adopted by CGPM in 1889 based on a platinum-iridium prototype bar, and a definition adopted in 1960 based on a krypton86 radiation from an electrical discharge lamp. In each case, the change in definition achieved not only an increase in accuracy, but also progress toward the goal of using fundamental physical quantities as standards, in particular, the quantum mechanical characteristics of atomic systems. - Taylor,1991. Fidelitatea unui test psihologic se refer la dou aspecte: 1. consistena intern; 2. stabilitatea n timp a rezultatelor testrii. Analiza fidelitii unui test pornete de la conceptul de eroare. Orice scor la un test psihologic este rezultatul scorului real i al unei erori de msur: Xobservat = Xreal + e (e = eroarea de msur) Fidelitatea reprezint absena relativ dintr-o prob psihologic a erorilor de msurare. Acest lucru ns n psihologie nu poate fi ntlnit; de aceea orice test psihologic trebuie s estimeze valoarea acestor erori aleatoare de msur. Calculul fidelitii indic msura n care scorurile obinute la test exprim de fapt valorile reale ale constructului pe care testul l msoar. Fidelitatea unui test poate fi calculat pe baza a patru metode: 1. metoda consistenei interne coeficieni de consistenta intern; 2. test retest coeficieni de stabilitate; 3. metoda formelor paralele coeficieni de echivalen; 4. metoda fidelitii interevaluatori coeficieni interevaluatori. II.1.1. CONSISTENA INTERN Consistena intern a unui test se refer la msura n care toi itemii testului msoar aceeai variabil. Calculul coeficientului de consisten intern va consta n analiza corelaiei ce exista ntre fiecare item. Pornind de la scorurile observate la un test, pentru analiza consistentei interne pot fi calculai urmtorii coeficieni: 1. Cronbach pentru testele cu orice tip de itemi; 2. 3 Guttman; 3. 20 i 21 Kuder Richardson (dac itemii testului sunt binari). Toi coeficienii prezentai se bazeaz pe un calcul de corelaie ntre itemii ce alctuiesc testul. Un coeficient de consisten ridicat exprim faptul c toi itemii testului se refer la aceeai variabil. n afara coeficienilor prezentai anterior, consistena intern a unui test poate fi calculat i pe baza metodei njumtirii. Pe baza acestei metode testul este mprit n jumtate, calculndu-se coeficientul de corelaie dintre cele dou pri. Dac acest coeficient este ridicat el ne indic o bun fidelitate (consistena intern) a testului. O form particular a metodei njumtirii o constituie metoda item cu item, n care testul este mprit n dou prin selectarea itemilor pari respectiv a celor impari. Aceasta tehnic este util mai ales n cazul testelor n care itemii sunt prezentai n ordinea crescnd a dificultii. Se calculeaz i acest caz coeficientul de consisten intern ntre cele doua pri ale testului, valoarea lui reprezentnd valoarea coeficientului de fidelitate. II.1.2. STABILITATEA Stabilitatea rezultatelor testrii ne indic n ce msur la aplicri diferite n timp un subiect obine rezultate similare la un test psihologic. Calculul coeficientului de stabilitate se realizeaz astfel: a) se administreaz testul la un grup de persoane; 10
b) dup un interval de timp se readministreaz testul; c) se calculeaz un coeficient de corelaie ntre rezultatele la cele dou administrri. O valoare mare a acestui coeficient indic o bun stabilitate n timp a rezultatelor. Se poate spune despre acel instrument c este fidel deoarece relev aceleai valori ale unei variabile la msurtori diferite n timp. Factori care influeneaz calculul fidelitii test-retest (stabilitii): Intervalul de timp ntre test i retest. Dac timpul este prea scurt exist o mare probabilitate ca subiecii s i reaminteasc rspunsurile date anterior; respectiv un timp prea lung ntre test i retest poate determina maturizarea eantionului de subieci. Astfel dac aplicm un test de percepie la 4 ani i l reaplicm la un interval de 6 luni exist o mare probabilitate s obinem rezultate diferite la cele dou administrri ale testului deoarece n intervalul de 6 luni subiecii s-au maturizat. n acest caz retestul va include n evaluare nivelul de maturizare al subiecilor. Datorit acestor argumente este destul de dificil de stabilit cu exactitate un timp optim ntre test i retest. ntotdeauna cnd se calculeaz acest coeficient trebuie precizat intervalul scurs ntre test i retest, vrsta subiecilor precum i condiiile n care s-au administrat testele pentru a putea identifica eventualele surse de eroare de msur. Gradul de dificultate al itemilor. Dac itemii sunt fie prea uori fie prea dificili se vor obine coeficieni de stabilitate ridicai deoarece itemii testului fie vor fi rezolvai de majoritatea subiecilor (n primul caz) fie nu vor fi rezolvai nici la test nici la retest (al doilea caz). Schimbri ale subiectului determinate de prima aplicare. Pot exista o serie de situaii n care se obin performane diferite la retest deoarece subiectul fie a nvat s rspund la itemi dup prima administrare, fie aceast prim administrare a determinat schimbri de atitudini fa de o anumit problem. II.1.3. METODA FORMELOR PARALELE Exist o serie de situaii practice care necesit aplicri repetate a unui test psihologic la un interval foarte scurt de timp. n acest caz aplicarea aceluiai test este improprie deoarece s-a vzut anterior c la un interval scurt de timp subiecii pot s i reaminteasc rspunsurile date anterior. n acest caz trebuie s se construiasc forme echivalente sau paralele ale unui test. Dou teste sunt paralele dac pentru un subiect erorile de msur la cele dou administrri sunt variabile aleatoare independente. n acest caz itemii celor dou teste trebuie s fie logic izomorfi, adic s aib acelai nivel de dificultate. Avantajul acestei metode este acela c nu mai permite reamintirea rspunsurilor i nici posibilitatea cutrii rspunsurilor la ntrebrile la care nu s-a tiut rspunde. um de timp prin dou administrri; subiecii se pot plictisi dac testrile sunt prea lungi; este greu de realizat fiind dificil i costisitoare. II.1.4. FIDELITATEA INTEREVALUATORI Este necesar a fi calculat n cazul testelor care nu au o cotare obiectiv aa cum sunt testele proiective de personalitate la care scorul este influenat i de interpretarea pe care o d persoana care face cotarea. Pentru a verifica n ce msur scorul la test este influenat de modalitatea n care se face cotarea de diferite persoane se va cere la diferii evaluatori s calculeze scorurile la test, iar apoi se va realiza un coeficient de corelaie interevaluatori. Acest coeficient va exprim msura n care testul este independent de erori datorate modalitii de cotare a rspunsurilor subiectului. 11
Coeficienii de fidelitate transformai n coeficieni de determinare (ptratul coeficientului de fidelitate) relev proporia n care variana total a rezultatelor psihometrice se datoreaz varianei reale diferenelor individuale reale sau din contr, varianei eroare, definit diferit, n funcie de metoda particular urmat n stabilirea tipului de fidelitate (Kulcsar, 1980). n consecin, dei semnificaia diferiilor coeficieni de fidelitate nu este aceeai, totui orice coeficient de fidelitate, ridicat la ptrat, poate fi interpretat n termeni de procentaj al variantei randamentului la test. Astfel de exemplu, un coeficient de fidelitate de .80 nseamn c .80 2=64% din variana total a rezultatelor psihometrice considerate se datoreaz varianei reale a domeniului explorat, iar 36% varianei eroare, generat de unele din sursele multiple ale deosebirilor n rezultatele psihometrice. Trebuie menionat faptul ca dei fidelitatea unui test este importanta, ea nu este suficient pentru un test bun. Un test poate avea o bun consisten intern (toi itemii evalueaz aceeai variabil) respectiv o bun stabilitate n timp, dar s msoare altceva dect i propune. Problema evalurii corecte a ceea ce i propune s msoare un test este constituie subiectul validitii testelor. Interpretarea unui coeficient de fidelitate Murphy & Davidshopher (1998) prezint urmtoarele repere n interpretarea coeficienilor de fidelitate (tabelul 1):
Tabelul 2.1. Semnificaia coeficienilor de fidelitate
Valori ale coeficienilor de fidelitate Tipul testului Interpretare
0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50
Testele de inteligen de grup Testele de performan Testele cu rspunsuri multiple Scalele comportamentale Unele msurtori proiective
Fidelitate mare Fidelitate moderat Fidelitate sczut Scorul real i eroarea au efect egal asupra scorurilor la test
Aa cum am precizat anterior orice rezultat (scorul observat) pe care o persoan l obine la un test este alctuit din aptitudinea real (scor real) creia i se adaug eroarea de msur. Adic: Xobservat = Xreal + e (e = eroarea de msur) ntrebarea pe care este necesar s o analizm n acest caz ar fi urmtoarea: care este intervalul n care se gsete scorul real. Altfel spus, dat fiind faptul c o persoan obine un anumit scor la un test, ne intereseaz care este intervalul n care putem spune c se gsete scorul real la test. Acest interval este denumit interval de ncredere i este definit ca probabilitatea ca scorul real al persoanei la un test s se gseasc ntre anumite limite Calculul intervalului de ncredere (IC). Intervalul de ncredere se obine astfel: IC = Xobservat + z*SEm SEm= eroarea standard de msur ( 1 r ) SEm = SD* SD= abaterea standard a scorurilor la test; r= coeficientul de fidelitate S lum lun exemplu. Presupunem c la un test de inteligen o persoan a obinut un scor de 115. Coeficientul de fidelitate alpha este de 0,98, iar abaterea standard a scorurilor la test este de 15. Cum aflm intervalul n care se gsete scorul real al persoanei la test? 1. Calculm eroarea standard de msur SEm = SD* (1 r ) 12
SEm = 15* (1 0.98) SEm = 15* 0.02 SEm = 2.12 2. Calculm intervalul de ncredere IC = Xobservat + z*SEm IC = 115 + z*2.12 Alegerea scorului z care va intra n calcul se face n funcie de precizia cu care dorim s lucrm. Dac alegem s lucrm cu o probabilitate de 95% scorul z corespunztor este de 1.96 . Pentru o probabilitate de 90% scorul z corespunztor este de 1.65. n acest exemplu s vom lucra cu o precizie de 95%, deci z=1.96. Astfel vom avea: IC = 115 + 1.96*2.12 IC= 115 + 4.15 n acest caz putem spune cu o probabilitate de 95% c scorul real al persoanei se gsete n intervalul 110.85 119.15. De reinut: intervalul de ncredere depinde de coeficientul de fidelitate al testului; dac avem un coeficieni de fidelitate mici, atunci intervalul se mrete, deci eroarea este mai mare. intervalul de ncredere depinde de abaterea standard a scorurilor la test.
EXERCIII Rezolvai urmtoarele probleme: 1. Testul A are abaterea standard 4, fidelitatea testului este 0.89 Testul B are abaterea standard 7, fidelitatea testului este 0.88 Considernd c toi ceilali parametri ai celor 2 teste sunt egali, pe care dintre teste l considerai mai bun? 2. Testul C are eroarea standard de msur 3,20 iar fidelitatea testului 0,76 Testul D are eroarea standard de msur 5,6 iar fidelitatea testului 0,62 Considernd c toi ceilali parametri ai celor 2 teste sunt egali, pe care dintre teste l considerai mai bun? 3. Calculai eroarea standard de msur pentru un scor observat de 15 i utilizai valoarea obinut pentru a determina intervalul de ncredere al scorului real pentru 90 % respectiv 95%. Abaterea standard a scorurilor la test este 8; Fidelitatea testului este 0,74. Calculai: a. Eroarea standard de msur:______________ b. Intervalul de ncredere la 90%_________________________________ c. Explicai semnificaia acestui interval. d. Intervalul de ncredere la 95%_________________________________ e. Explicai semnificaia acestui interval.
II.2 VALIDITATEA TESTELOR Definiia validitii Evaluarea psihologic vizeaz o anumit realitate fie intern, fie extern. Numim domeniu de evaluare orice realitate (intern sau extern) care este supus evalurii. n orice proces de evaluare psihologic pornim de la definirea domeniului de evaluare i apoi propunem o serie de modaliti cantitative prin care observm dac indivizii posed sau nu caracteristicile domeniului respectiv. Deoarece definirea domeniului poate s fie mai mult sau mai puin corect ne punem ntrebarea dac aptitudinile /caracteristicile msurate de test corespund domeniului de evaluare. Astfel, pentru ca testul s fie considerat o msur bun a domeniului de evaluare este necesar s obinem o serie 13
de informaii care s reflecte faptul c testul msoar ceea ce i-a propus. Din aceste cerine decurge problema validitii unei msurtori. Orice instrument de evaluare psihologic trebuie s satisfac cerinele validitii. Tradiional, definiia cea mai des ntlnit a validitii este modalitatea n care un test msoar ceea ce i propune s msoare (Anastasi, 1976). Validitatea se refer deci la relaia dintre scorul obinut la un test i un anumit criteriu sau o performan extern. Acest criteriu poate s aparin oricrui domeniu; poate include selecia de personal, reuita colar sau nosologia. Istoric al studiilor despre validitate Este cunoscut deja faptul c msurarea psihologic i deci implicit i validarea i au rdcinile demult n timp. ntr-un articol care viza rolul testelor n selecia de personal, Guion (1976) realizeaz o trecere n revist a principalelor aspecte de care se inea cont la vremea respectiv n analiza validitii unei msurtori psihologice. Acestea sunt prezentate n tabelul 2:
Tabelul 2.2. Referiri la validitate
1. Aspecte Scopul validrii* este acela de a prezice o performan viitoare Predictorii i criteriile trebuie s fie selectai pe baza analizei muncii. Instrumentele de evaluare trebuie standardizate. Testele trebuie validate empiric. Validarea este specific unei situaii. Un singur test nu este suficient. Observaii esteimportant a se cunoate dac scorurile la un test sunt ntr-o modalitate mai mare sau mai mic predictive pentru succesele ulterioare (Bingham, 1937, p.216) Pentru a putea compara performanele unei persoane la un test la diferite momente n timp, testul trebuie s fie uniform (Freyd, 1923, p.232) Un test nu are nici o semnificaie nainte ca acesta s fie validat (Link, 1924) Hull (1928) susine c pentru a putea prezice cu mare acuratee un anumit criteriu, trebuie utilizat o baterie alctuit din 4, 5 sau mai multe teste (Guion, 1976, p.783). Freyd (1923) descrie procesele prin care este selectat un criteriu Evaluatorul nu se va limita la un instrument anume de msur, dar cele pe care trebuie s le utilizeze cel mai des sunt testele i chestionarele (Freyd, 1923, p.231) Performanele la un test trebuie analizate - acolo unde este cazul - diferit n funcie de sexe (Freyd, 1923).
2. 3. 4. 5. 6.
7. 8.
Este bine s se utilizeze doar un singur criteriu. Metodele psihometrice sunt preferate metodelor nepsihometrice. Un test trebuie s in cont de diferenele individuale.
9.
Analiza fcut de Guion (1976) ne ofer o imagine global a ceea ce nsemna la nceputul sec. xx modaliti tradiionale de realizare a studiilor de validitate a unui instrument de evaluare psihologic. O abordare mai recent i poate mai corect a validitii este formulat de APA 1, AERA2, NCSEPT3 n 1974. Conform standardelor asociaiilor amintite Validitatea se refer la corectitudinea inferenelor realizate pe baza unui test sau a altei forme de evaluare (p.25). Altfel spus, dar fiind un set de ntrebri la care dorim s rspundem pe baza unei evaluri psihologice trebuie s ne verificm
*
Validarea este procesul prin care se obin informaii legate de validitatea unui test.
1 2
American Psychological Association American Educational Research Association 3 National Council on Standards for Educational and Psychological Tests
14
ct de corecte (sau valide) sunt rspunsurile (sau informaiile) oferite de un test psihologic (Ghiselli & all, 1986). Validitatea trebuie atribuit ntotdeauna inferenelor fcute pe baza performanelor la un test. Validitatea nu este o caracteristic a testului psihologic ci este mai degrab o caracteristic a inferenelor care rezult n urma utilizrii acestuia (unei forme de evaluare - chiar a observaiei). Altfel spus, validitatea determin relaia dintre inferenele fcute pe baza performanelor la un test i realitate (este inclus aici orice aspect care este supus evalurii). Dac analizm definiia dat de Nunnally (1978) validitii, i anume ct de util tiinific este un instrument de msur observm c i n acest caz este vorba de inferene, sau judeci realizate pe baza instrumentului respectiv. Forme ale validitii. Literatura de specialitate indic diferite tipuri de validitate psihologic. Ele trebuie nelese ca fiind tehnici, modaliti prin care se ncearc optimizarea unui instrument de msur psihologic. Modalitatea cea mai des ntlnit n literatura de specialitate (Anastasi, 1976; Cohen, et. all, 2000) de a concepe validitatea o constituie urmtoarea taxonomie: validitate de criteriu validitate de coninut validitate de construct. n afara celor trei tipuri de validitate, normele APA analizeaz validitatea de aspect. Validitatea de aspect este definit ca ceea ce un test pare s msoare, mai degrab dect ceea ce msoar (APA, 1974). Exprim de fapt modul n care persoana evaluat percepe itemii testului; ea este important n msura n care poate influena rspunsurile persoanei examinate la test. Dac persoana examinat apreciaz c testul msoar ceea ce i propune s msoare de fapt, atunci putem spune c testul are o validitate de aspect ridicat. Conform Standardelor de Evaluare APA (1974) validitatea de aspect nu constituie un criteriu important pentru inferenele fcute pe baza unui test. II.2.1. VALIDITATEA DE CRITERIU Nu de puine ori suntem confruntai cu ntrebri ca: n ce msur performana la un test de inteligen este predictiv pentru reuita colar?, n ce msur rezultatul la un test de aptitudini prezice performana n munc?, n ce msur performana la un test de memorie constituie un bun predictor pentru declinul cognitiv la vrsta a treia?. Aceste ntrebri se adreseaz validitii de criteriu. Adesea acest tip de validitate este ntlnit sub denumirea de validitate empiric (Lyman, 1998). Validitatea de criteriu indic deci msura n care testul este un bun predictor pentru un eantion de comportamente viitoare. n acest caz performana la un test trebuie raportat la o alt performan pe care o numim criteriu. Criteriul este definit ca standardul la care este raportat performana la un test. Astfel criteriul poate fi performana unui pilot care conduce un Boeing 767, numrul de zile petrecut ntr-un spital de psihiatrie, notele obinute de un elev la disciplinele umane, performana la un alt test. Aa cum se poate observa nu exist reguli stricte pentru ceea ce numim criteriu. Acesta poate fi un comportament specific sau un grup de comportamente, o perioad de timp, un diagnostic psihiatric, indicele de absenteism, alcoolemia din snge, etc. Dei la o prima vedere se poate spune c un criteriu poate constitui orice, acest lucru este adevrat doar dac criteriul este relevant pentru domeniul de evaluare, dac este necontaminat, dac este valid i fidel. Un test psihologic este adecvat dac este relaionat cu un criteriu i deci poate fi considerat un bun substitut al criteriului. n general numim testul ca fiind predictor pentru criteriul respectiv. Caracteristicile unui criteriu. 15
Criteriul reprezint o msur direct i independent a ceea ce testul dorete s prezic. Astfel pentru un test de aptitudini mecanice criteriul l poate constitui performana n munca de mecanic; pentru un test de cunotine criteriul l pot constitui notele colare. Criteriul trebuie s ndeplineasc cteva condiii (Corsini, 1994): s fie relevant pentru activitatea sau caracteristica la care se refer; adic ordinea subiecilor la test s coincid cu ordinea performanei la criteriu; s fie fidel, adic s fie congruent cu evaluri diferite ale performanelor la care se refer, evaluri realizate la momente diferite. s fie practic, adic s nu coste mult; s fie exprimat n aceleai uniti pentru toate persoanele. Dac de exemplu, valorile variabilei criteriu sunt dependente de vrsta subiecilor atunci aceste valori trebuie transformate n cote standard (de exemplu: z sau T); Anastasi (1954) exemplific cteva criterii utilizate n analizarea validitii testelor care vizeaz constructe: vrsta se folosete ca i criteriu n cazul constructelor ce vizeaz procese care cunosc o maturizare (ex. inteligena, funciile perceptive, etc.). Nu este un criteriu bun pentru testele care vizeaz aspecte invariabile n timp (ex. variabilele ce in de temperament). performanele colare sunt un criteriu bun pentru testele de cunotine sau pentru testele care evalueaz aptitudini colare. performanele la diverse programe de instruire special (muzic, sport, etc.) sunt criterii adecvate pentru testele de aptitudini speciale. rezultatele altor teste se utilizeaz adesea ca i criteriu n construirea de noi teste. Astfel Scala Metrica a inteligenei construit de Binet-Simon (1905) a folosit drept criteriu pentru teste ulterioare construite n scopul evalurii inteligenei; grupele contrastante - pentru un test de inteligen acestea ar fi constituite din copiii care frecventeaz coala de mas, respectiv copiii integrai n coala ajuttoare. Ca i scorurile la test, un criteriu trebuie s fie fidel (Cohen, 1999). Dac ar fi posibil ntotdeauna s obinem direct scoruri la criteriu pentru un anumit individ nu am mai avea nevoie de msura predictorului i de nici o aproximare a validitii de criteriu. Din pcate ns nu putem obine imediat scorurile la un criteriu; ele pot fi obinute doar la anumite intervale n timp sau pot fi adesea extrem de costisitoare pentru a fi obinute la cerere pentru orice individ. S considerm un exemplu. S-a pus nu de puine ori ntrebarea ce nseamn o performan bun ntr-o anumit organizaie. Performana poate fi definit din mai multe puncte de vedere. Astfel, organizaia poate fi interesat de ct de mult contribuie o persoan la creterea profitului, iar pentru persoana respectiv performana poate nsemna msura n care simte c este apreciat. Avem n acest caz de-a face cu mai multe dimensiuni ale unui criteriu. Aceste surse de informaii pot fi utilizate pentru a prezice fiecare dintre cele dou surse ale criteriului iar validitatea acestora va fi determinat diferit. Dac un criteriu este adecvat este cel mai adesea o judecat de valoare (Ghiselli et. all). Putem estima prin diferite modaliti fidelitatea unui criteriu (stabilitatea acestuia n timp de ex.) ns formularea lui, respectiv coninutul acestuia constituie cel mai adesea un raionament sau o judecat a celui care realizeaz evaluarea. n exemplul anterior criteriul aparine viitorului i n momentul evalurii nu este disponibil, deci avem nevoie de o serie de predictori pentru estimarea acestuia. S presupunem ns c avem de-a face cu un criteriu care poate fi estimat acum (adic n momentul evalurii). ntrebarea pe care trebuie s ne-o punem este urmtoarea: avem la dispoziie msurtori economice ale criteriului 16
care pot fi folosite acum?. Un exemplu de astfel de criteriu este msura n care o serie de indivizi prezint o form sau alta de tulburare psihic. O analiz complet a acestei dimensiuni ar dura cteva zile i ar fi neeconomic. Dac n plus sarcina psihologului este acela de a analiza un numr mare de persoane din prisma acestor criterii ar trebui gsit o alt modalitate dect cea clinic, complet. Problema cu care ne confruntam acum este aceea de a gsi o modalitate economic (rapid n timp i necostisitoare) care ar putea substitui examinarea clinic complet care constituie criteriul. Exist de multe ori evenimente care s-au petrecut n trecut i care deci nu mai pot fi evaluate n mod direct. Care este n acest caz predictorul utilizat pentru evaluarea criteriului (evenimentul trecut)? De exemplu, analiza de ctre medic a unei electrocardiograme (predictor) poate fi utilizat ca modalitate de a decide dac pacientul respectiv a suferit sau nu un atac de cord (criteriu). Un alt exemplu care intr n aceast categorie este rolul pe care l are un judector de a stabili dac un individ a comis o crim n trecut (criteriul) pe baza prezentrii faptelor la proces (predictor). nainte de a prezenta diferitele tipuri de validitate de criteriu trebuie reinut urmtoarea afirmaie. O anumit variabil poate constitui un criteriu ntr-o anumit situaie respectiv predictor n alt situaie. Ceea ce este astzi criteriu poate s nu mai fie mine. APA (1974) difereniaz ntre dou tipuri de validitate de criteriu: validitate predictiv. validitate concurent Validitatea predictiv. Termenul de predicie poate fi utilizat fie n sens larg cnd se refer la predicia unui test pentru orice situaie, sau n sens restrns cnd se refer la predicie ntr-un interval de timp. Validitatea predictiv vizeaz cel de-al doilea sens. Validitatea predictiv este definit ca acurateea cu care putem estima n ce msur o anumit caracteristic sau aptitudine a unei persoane se va manifesta n viitor pe baza msurii n care persoana posed o serie de caracteristici sau aptitudini curente (Ghiselli, et. all). De exemplu, la un examen de admitere la facultate ne poate intereseaz n ce msur aptitudinile de care dispune acum o persoana sunt predictive pentru performana academic. Pe baza notei la examenul de admitere (predictor) am putea face o predicie asupra reuitei academice ulterioare (criteriu). n practica clinic de exemplu, un test care ar reui s prezic tentativele viitoare de suicid ar constitui un bun predictor pentru acest criteriu. Ce este predicia? Predicia este procesul de stabilire a unor expectaii despre viitor avnd la baza date / evenimente curente de exemplu desprinderea unor date despre performana viitoare n munc pornind de la caracteristicile actuale ale unei persoane. n literatura de specialitate, datele actuale se numesc predictori, n timp ce variabilele care descriu performana se numesc criteriu. Principii ale prediciei.
Psihologia personalului, orientat pe selecie ofer 2 modele tiinifice ale prediciei: abordarea pe baz de trsturi i abordarea pe baza generalizrii comportamentelor (Wernimont & Campbell, 1968).
Abordarea pe baz de trsturi (figura 1) pornete de la asumpia c exist un numr de relaii bine precizate ntre trsturile unei persoane i activitile pe care persoana le desfoar, relaii 17
exprimate n forma legilor psihologice. Aceast abordare are la baz principiul deductiv nomologic (principiul DN) din teoria tiinei (Stegmuller, 1974). Cnd pentru un grup de persoane o anumit lege psihologic stabilete c exist o legtur ntre o caracteristic A a persoanei i un anumit tip de comportament E, putem realiza, pe baza acestei legi, predicia c o persoan care posed caracteristica A va manifesta comportamentul E. Principiul nu poate fi aplicat n aceast form simpl din mai multe motive. n primul rnd, relaia dintre predictor i criteriu este mai degrab una probabilistic i nu determinist. Astfel, cunoscnd scorul unei persoane la o variabil predictor, putem face doar o inferen despre scorul la criteriu; aceast inferen se realizeaz cu o anumit probabilitate i nu cu certitudine. n al doilea rnd, trsturile i caracteristicile comportamentale, nu pot fi msurate n mod direct, ci ele sunt msurate pe baza unor instrumente care au caracteristici psihometrice specifice. n al treilea rnd legile dintre trsturi i comportamente trebuie stabilite foarte clar, fr contradicii logice. Astfel de contradicii ar putea apare atunci cnd un test ar realiza o predicie a unei performane bune a persoanei, iar un alt test ar prezice o performan slab.
Caracteristica A Ipoteze pe baz de observaie
Lege psihologic
Comportamentul E Ipoteze pe baz de observaie
Predicie Caracteristica a observat Comportamentul observat e
Figura 2.1. Predicia pe baza principiului deductiv-nomologic
Abordarea pe baza generalizrii comportamentului (figura 2) are la baz urmtoarea asumpie: atunci cnd o persoan se comport de o manier E ntr-o anumit situaie G1 se poate concluziona c persoana respectiv se va comporta de aceeai manier E ntr-o alt situaie Gi, situaie similar cu prima. Avem de-a face n acest caz cu o generalizare a comportamentului observat ntr-un eantion de situaii la un o alt situaie similar cu cele din eantionul ales. Pe baza acestei generalizri putem vorbi de principiul eantionului de situaii. Figura 2 prezint grafic o reprezentare a acestui principiu.
Eantion de situaii Reprezentare
Reprezentativitate
Univers de situaii Reprezentare
Eantion de sarcini
Predicie
Univers de sarcini
Figura 2.2. Predicia pe baza principiului generalizrii comportamentului
18
Cele dou modele ale prediciei difer din punctul de vedere al bazei lor epistemologice. Abordarea pe baza trsturilor relaioneaz o caracteristic durabil a unei persoane (ceva ce persoana are) cu activitatea sa (ceva ce persoana face). Abordarea pe baza generalizrii comportamentului nu ia n considerare trstura, ea relaioneaz comportamente (ce face o persoan cu altceva ce face). Aceast a doua abordare are la baz o similaritate mai mare ntre predictor i criteriu, fapt ce poate determina o mai bun predicie. Acest argument susine i faptul c instrumentele de tipul celor orientate pe coninut au o validitate predictiv mai mare dect cele bazate pe trsturi (Schmitt&Noe, 1986). Similaritatea dintre cele dou abordri se refer la faptul c ele au la baz asumpia c exist o stabilitate a comportamentului; n primul caz stabilitatea este dat de trstur, iar n al doilea caz stabilitatea este dat de o constant comportamental (comportamentul nu se schimb atta timp ct situaia nu se schimb). Ce model de predicie este utilizat n testul de personalitate 16PF? Validarea predictiv presupune existena unui interval de timp ntre test i verificarea criteriului. Pentru un test care are ca scop predicia reuitei colare la scris-citit n clasa I testul va fi aplicat la intrarea n clasa I, iar criteriul (performanele la scris-citit) va fi verificat fie dup un semestru, fie la sfritul clasei I. Studiul de validare al unui test care vizeaz prognoza reuitei la citire n clasa I, trebuie s parcurg urmtoarele etape (Kulcsar, 1980) (figura 1): analiza psihologic a activitii de citire; indicarea premiselor psihologice ale reuitei la citire; alegerea unui test sau a unor teste psihologice care exploreaz tocmai acele aspecte psihologice care condiioneaz reuita la citire; aplicarea testului sau a testelor psihologice destinate prediciei reuitei la citire; msurarea criteriului, adic evaluarea gradului de nsuire a deprinderii de citire pe baza notelor colare sau a unor probe de citire elaborate n acest scop; analiza cantitativ i calitativ a rezultatelor la test i la criteriu; studierea legturii ntre cele dou categorii de rezultate. 15 septembrie 1980 Aplicarea testului sau a bateriei de teste predictive (la intrarea n clasa I) 15 iunie 1981 Msurarea criteriului (notele colare; aplicarea unor probe de citire)
Studierea legturii ntre reuita la
TEST (15 sept. 1980) i prin: CITIRE (15 iunie 1981)
metoda grupelor reprezentative; intercorelarea celor dou categorii de rezultate (coeficientul de validitate relev eroarea estimrii) metoda grupelor extreme sau contrastante; se studiaz comparativ media i dispersia rezultatelor la dou categorii de subieci semnificativ diferite sub aspectul criteriului reuita la citire / nereuita la citire
Figura 2.3. Ilustrarea procesului de validare predictiv (Kulcsar, 1980).
Validarea concurent presupune obinerea scorurilor la criteriu aproximativ n acelai timp cu scorurile la test. n cazul validitii concurente este vorba tot de o predicie, dar la aceasta se ajunge pe o cale puin diferit fa de cea urmat n studierea validitii predictive (Cronbach, 1970). 19
Trebuie menionat faptul c distincia logic ntre validitatea predictiv i cea concurent (figura 2) nu se bazeaz pe relaia temporal dintre test i criteriu ci mai ales pe obiectivele testrii. Astfel, n timp ce validitatea concurent are ca scop rezolvarea unei probleme privind starea actual a subiectului, validarea predictiv vizeaz evoluia sa n viitor. Diferena ntre cele dou tipuri de validitate poate fi sumarizat pe baza urmtoarelor ntrebri: Este X anxios? (validare concurent) i Este posibil ca X s devin anxios? (validare predictiv). 15 septembrie 1980 Testare psihologic Studierea legturii ntre cele dou categorii de rezultate
Figura 2.4. Ilustrarea procesului de validare concurent (Kulcsar, 1980)
15 septembrie 1980 Msurarea criteriului
Dac rezultatele la predictor (test) sunt obinute simultan cu rezultatele la criteriu, msura relaiei dintre predictor i criteriu o constituie validitatea concurent. Validitatea concurent exprim deci n ce msur scorurile la test pot fi utilizate pentru a estima performana actual a unei persoane la un anumit criteriu. Analiza validitii de criteriu (fie ea predictiv sau concurent) se bazeaz pe dou tipuri de analize statistice: coeficienii de validitate. Coeficienii de validate Validitatea de criteriu a unui test reprezint o modalitate cantitativ i obiectiv a relaiei dintre scorurile la predictor i scorurile la criteriu. Astfel coeficienii de corelaie sunt o modalitate de a estima validitatea predictiv. Cnd acetia sunt utilizai pentru a indica relaia dintre un predictor i un criteriu, ei sunt denumii coeficieni de validitate. II.2.2. VALIDITATEA DE CONINUT Validitatea de coninut implic examinarea sistematic a coninutului testului pentru a se verifica dac testul acoper un eantion reprezentativ din domeniul care se cere a fi evaluat prin test (Anastasi, 1976). Astfel pentru a vorbi de o validitate de coninut ridicat trebuie ca itemii care alctuiesc testul s fie reprezentativi pentru ceea ce testul dorete s msoare. Analiza validitii de coninut a unui test trebuie s surprind: 1. Definirea i descrierea domeniului de coninut a testului. Aceast descriere trebuie s fie extrem de clar i s includ toate faetele domeniul care se dorete a fi evaluat. 2. Analiza itemilor care sunt inclui n test. Vor trebui s fie eliminai acei itemi care nu evalueaz aspecte ale domeniului de coninut identificat anterior. Aceast analiz se va face de ctre experi care pot s aprecieze relevana fiecrui item pentru un domeniu dat. Validitatea de coninut nu depinde ns de relevana aparent a coninutului itemilor ci de caracterul relevant al rspunsurilor subiectului la itemi (Anastasi, 1976). Pentru a stabili validitatea de coninut a testului, orice analiz teoretic trebuie deci s fie confirmat empiric (Kulcsar, 1980). 3. Compararea structurii testului cu domeniul de coninut. Astfel se va analiza dac itemii acoper toate aspectele domeniului, respectiv dac ei sunt proporionali n test cu importana i mrimea fiecrui aspect. Deoarece acest tip de validare nu reclam metode i modele statistice, ea fcndu-se doar pe baza de raionamente, o gsim n literatura de specialitate i sub denumirea de validare logic sau raional (Thorndike, Hagen, 1961). Validarea referitoare la coninut se impune a fi calculat n urmtoarele cazuri: 1. n cazul testelor de cunotine atunci cnd nu exista un criteriu extern adecvat pentru analiza validitii de criteriu; 20
2. n cazul testelor utilizate la msurarea unui atribut ce nu poate fi exprimat printr-un construct (Murphy & Davidshofer, 1991). De exemplu, se poate descrie cu uurina domeniul de coninut al unui test construit pentru cunotine de aritmetic la elevii clasei I, dar este foarte dificil s gsim comportamente prin care aceast caracteristic s poat fi observat. 3. n cazul testelor care evalueaz performana n munca n scopuri de selecie i clasificare a angajailor. Acest tip de validare este adecvat cnd testul reprezint un eantion de comportamente din ceea ce reprezint deprinderile i cunotinele specifice muncii respective. CONSTRUCIA I ANALIZA DE ITEMI 1. Construcia de itemi Atunci cnd dorim s evalum ceva, prima ntrebare pe care ne-o formulm este ce anume dorim s evalum, care este formatul pe care trebuie s-l aib itemii, astfel nct s ne ofere imagine acurat a aspectului care ne intereseaz. Formularea itemilor Construirea de itemi este un proces pretenios, n continuare vom prezenta cteva aspecte orientative legate de formularea lor: 1. Definii clar ceea ce avei de msurat, pentru a putea formula itemii ct mai specific posibil. 2. Generai o baz de itemi, evitai itemii redundani. 3. Evitai formularea unor itemi lungi, care ar putea fi greu nelei. 4. ncercai s formulai itemii ntr-un limbaj accesibil persoanelor evaluate cu acest instrument. 5. Evitai formularea unor itemi care surprind dou aspecte sau idei, de exemplu: mi place s lucrez ntr-un mediu bine organizat, pentru c vreau s fiu cel mai bun la locul de munc Acest item are n vedere dou aspecte: mi place s lucrez ntr-un mediu bine organizat i vreau s fiu cel mai bun la locul de munca, astfel n momentul n care persoana evaluat va alege o opiune de rspuns, va fi imposibil de decelat la care din cele dou aspecte evaluate se refer. 6. ncercai s formulai itemi pozitivi i negativi n aceeai msur, pentru a evita biasarea care apare n cazul formulrii itemilor pozitivi. Aceast biasare este determinat de tendina persoanei evaluate de a fi de acord cu toi itemii testului. Formatul opiunilor de rspuns n funcie de constructul pe care dorim s-l evalum anumite formate devin mai mult sau mai puin adecvate. Prezentm n continuare cele mai frecvent ntlnite forme ale itemilor. a. Itemii dihotomici ofer dou alternative de rspuns (adevrat i fals), de obicei uneia dintre acestea i se acord un punct la cotarea performanei persoanei evaluate. Itemii au forma unor afirmaii, iar sarcina subiecilor este de a decide asupra valorii de adevra a acesteia. Avantajele acestui tip de itemi sunt: sunt uor de cotat; sunt uor de construit (n construirea unui test de evaluare a cunotinelor profesorul poate utiliza fragmente din suportul de curs pentru a formula itemii); completarea lor nu necesit mult timp deoarece rspunsul nu trebuie scris; necesit o evaluare n termeni absolui (alb sau negru); Dezavantaje acestui tip de itemi sunt: n cadrul testelor de cunotine acest tip de itemi pot ncuraja studenii s memoreze materialul; ansa de a ghici rspunsul corect este foarte mare, de 50%. 21
b. Itemi cu mai multe opiuni (polinomici) au un format similar celor dihotomici, atta doar c au mai mult de dou alternative de rspuns. Se acord un punct numai unei opiuni de rspuns, iar celelalte care nu sunt corecte poart denumirea de distractori. Itemii construii n scopul evalurii performanei academice au de cele mai multe ori acest format. Avantajele acestui tip de itemi sunt: aceti itemii sunt uor de cotat; sunt uor de construit; completarea lor nu necesit mult timp deoarece rspunsul nu trebuie scris; ansa de a ghici rspunsul corect este redus; Dezavantajul cel mai mare al acestui tip de itemi se refer la construirea unor distractori buni, procedeu care necesit mai mult timp. n cazul itemilor polinomici, probabilitatea de a ghici rspunsul exist, dei este mai mic dect n cazul itemilor dihotomici (este de 25% n cazul a patru alternative, de 33.33% n cazul a trei alternative). Aceste lucru poate fi corectat prin utilizarea unei formule de ajustare a scorului obinut de ctre fiecare persoan evaluat. Aceast formul se exprim astfel: Scorul corect = R W/ n 1
R este numrul opiunilor corecte; W este numrul opiunilor greite; n este numrul opiunilor de rspuns ale itemilor.
Rspunsurile omise nu sunt incluse deoarece acestea nici nu cresc i nici nu duc la scderea scorului final. De exemplu n cazul unui test de 100 de itemi, cu cte 4 opiuni de rspuns (din care una singur este corect, celelalte trei sunt greite la fiecare item), dac vom completa aleator rspunsurile corecte vom obine scorul de 25 (bine neles aceasta este o situaie ipotetic n realitate avem puine anse s obinem tocmai 25 de puncte care este scorul mediu ateptat). n acest caz, conform formulei anterioare, scorul corect este de: 25 - 75/4-1 = 25 25 = 0 Astfel, dup aplicarea coreciei scorul expectat este 0. ntrebarea este n ce msur n cazul testelor de cunotine este recomandat ca studenii s ncerce s ghiceasc rspunsul? n cazul n care nu se utilizeaz procedura de corecie rspunsul este clar, ncercai s nimerii, dar nu i n cazul n care se utilizeaz procedura de corecie. Exist situaia n care nu suntei siguri de rspunsul corect, dar tii sigur c dou din cele patru alternative de rspuns sunt greite, n acest caz v sftuim s ncercai s ghicii. Formula de corecie are la baz asumpia c fiecare din cele patru alternative de rspuns are aceeai probabilitate de a fi aleas, deci avei ansa de 1 la 4. n cazul n care eliminai dou dintre alternative ansa dvs. crete la 1 la 2, ceea ce v ofer un avantaj asupra procedurii de corecie. c. Scale Likert prezint o form foarte popular, utilizat mai ales n cadrul testelor de personalitate, n care persoana evaluat trebuie s-i exprime acordul sau dezacordul fa de a o afirmaie (se numete scal Likert, pentru c a fost introdus de ctre Likert n 1932, n scopul evalurii atitudinilor). De exemplu la itemul: mi este fric de nlime. Avem urmtoarele opiuni de rspuns: 1 2 3 4 5 acord total acord nici acord nici dezacord dezacord dezacord total Pentru a se evita alegerea unui rspuns neutru din partea celui evaluat (n cazul exemplului de mai sus 3), se utilizeaz scale cu un numr par de opiuni de rspuns, de exemplu: 1 2 3 4 5 6 acord acord acord dezacord dezacord dezacord 22
puternic
moderat
moderat
puternic
Acest tip de rspuns permite cotarea invers, scorul total este calculat prin nsumarea numerelor corespunztoare rspunsurilor. d. Scal categorial este similar cu scalele Likert, dar utilizeaz un numr mai mare de opiuni de rspuns, de cele mai multe ori sunt utilizate scale cu 10 opiuni de rspuns. Pentru utilizarea lor adecvat este foarte important ca punctele extreme ale scalei s fie clar definite i permanent reamintite celor care realizeaz evaluarea. Una dintre principalele probleme legate de acest tip de scal este numrul de categorii care poate fi utilizat, care poate fi de 10 i 15 sau 66? S-au realizat cteva studii n acest sens, ele au artat c depinde mult de scopul pe care l avem i de nivelul de expertiz al evaluatorului. De exemplu dac dorim s evalum performana unor juctori de fotbal, o scal cu 7 nivele va fi suficient pentru ochiul unui nonexpert care nu sesizeaz aspectele de finee, dar nu i n cazul unui expert, al unui antrenor care poate sesiza mai multe diferene ntre juctori. e. Q- sort este o metod utilizat cu precdere n evaluarea personalitii. Persoana evaluat va primi o list de adjective pe care le va sorta n funcie de msura n care acestea l caracterizeaz. 2. Analiza de itemi Care sunt criteriile pe baza crora putem spune c un item este bun? Aa dup cum putem analiza un test din prisma fidelitii i validitii, la fel putem analiza conform acestor criterii un item. Mai precis, un item bun discrimineaz ntre dou categorii de subieci; putem spune de asemenea c un item este bun dac performana la item coreleaz cu performana la test. Care este procesul pe baza cruia putem analiza itemii? Dup ce am generat itemii, dup ce acetia au fost aplicai unui eantion de subieci, ne intereseaz n ce msur ei pot fi considerai itemi buni, respectiv la care dintre itemi ar trebui s renunm deoarece nu satisfac criteriile. Totalitatea procedeelor statistice cunoscute sub denumirea de analiz de itemi servesc scopurilor prezentate. Este important de menionat faptul c analiza de itemi cuprinde att procedee cantitative ct i procedee calitative. Analiza calitativ de itemi Tehnicile de analiz calitativ a itemilor unui test constituie un procedeu des ntlnit n analiza itemilor unui test. Tabelul 5 prezint o serie de aspecte ale analizei calitative de itemi pe care trebuie s le ia n calcul o persoan care construiete un test.
Tabelul 2.3. Aspecte ale analizei calitative de itemi
Aspecte Specificitatea cultural Validitatea de aspect Examinatorul Mediul de testare Limbajul testului Lungimea testului Rspunsurile aleatoare Corectitudinea testrii Starea psihic/fizic a ntrebri Crezi c itemii testului sunt discriminativi pentru un grup anume de persoane? De ce? Testul msoar ceea ce crezi tu c msoar? Dac nu este aa ce anume din test te ndreptete s susii acest lucru? Crezi c performana obinut la test a fost influenat de comportamentul examinatorului? Dac da, care au fost acele comportamente care te-au influenat? Crezi c unele condiii ale mediului n care ai fost testat au influenat performanele la test? Dac da, care au fost acelea? Modalitatea de prezentare a instruciunilor sau alte aspecte verbale ale testului au influenat performana la test? Care este opinia ta n privina lungimii testului se vor discuta 2 aspecte: timpul total i numrul itemilor Au fost itemi n test la care ai dat rspunsuri la ntmplare? Care este procentajul de itemi la care ai rspuns la ntmplare? Ai folosit anumite strategii specifice? Crezi c s-a putut tria la acest test? Dac da, care crezi c au fi sunt modalitile de a tria? Cum ai descrie starea ta (psihic sau fizic) din timpul testului? Crezi ca aceast stare
23
subiectului n examinrii Impresia general Preferine Pregtirea anterioar
timpul
ar putea influena n vre-un fel performana la test? Care este impresia ta general lsat de acest test? Care sunt sugestiile pe care le-ai face pentru mbuntirea testului? Ce i-a plcut/displcut la acest test? Au existat pri ale testului pe care le-ai resimit ca provocndu-i anxietate sau alte stri negative? Cum te-ai pregtit pentru acest test? Dac ar trebui s sftuieti pe cineva privind modul n care ar trebui s se pregteasc pentru acest test ce i-ai sugera?
Analiza cantitativ de itemi din perspectiva teoriei clasice Atunci cnd ne referim la teoria clasic a testelor avem n vedere modelul de msurare prezentat n cadrul modulului II. n acest subcapitol vom prezenta procedurile de analiz a itemilor bazate pe acest model i pe asumpiile sale. Procedurile statistice utilizate n analiza itemilor sunt nu de puine ori extrem de complexe, de aceea scopul nostru este de a prezenta aici doar procedurile de baz. Vom prezenta n continuare modalitile principale utilizate n analiza itemilor. Este important de reinut faptul c importana acestor procedee depinde de funcia i obiectivele pe care autorul testului dorete s le atribuie testului. Printre indicatorii care ar trebui luai n calcul n analiza de itemi se gsesc: indicele de dificultate al itemului; indicele de discriminare; Indicele de dificultate al unui item S presupunem c un item al unui test este rezolvat corect de toi subiecii. Putem spune c itemul acesta este un item bun? Ce se ntmpl dac dimpotriv, nici un subiect nu rspunde corect la acest item. n ambele cazuri putem considera c itemul respectiv nu este unul bun. Dac la un item toi subiecii rspund corect nseamn c itemul este prea uor; dac dimpotriv, nici un subiect nu rspunde la un item atunci putem spune c itemul este prea dificil. n ambele cazuri, se recomand rescrierea itemului sau eliminarea din test. Observaie. La unele teste de cunotine, primul item al testului este unul extrem de facil (rspund deci majoritatea subiecilor). Acest lucru este indicat a se realiza fie pentru a verifica dac subiectul a neles sarcina de lucru, fie pentru a-i forma o atitudine pozitiv fa de test i astfel de a-i crete motivaia. Indicele de dificultate al unui item (px) se obine calculnd proporia subiecilor care au rspuns corect la item. Valoarea teoretic a indicelui de dificultate se gsete ntre 0 (dac nici un subiect nu a rezolvat itemul corect) i 1 (dac toi subiecii au rspuns corect la un item). Exemple. 1. Dac 50 din cei 100 de subieci la care a fost aplicat un test au rspuns la itemul 2 corect atunci putem spune c indicele de dificultate al itemului 2 este 50/100 adic p2=0,5 2. Dac 75 din cei 100 de subieci la care a fost aplicat un test au rspuns la itemul 3 corect atunci putem spune c indicele de dificultate al itemului 3 este 75/100 adic p3=0,75 i vom spune c itemul 3 este mai uor dect itemul 2. Se poate observa c cu ct indicele de dificultate al itemului este mai mare cu att itemul este mai uor. Deoarece p se refer la procentul celor care au rezolvat corect itemul, putem spune c cu ct este mai mare valoarea indicelui cu att itemul este mai uor. Vorbim de indice de dificultate pentru testele de performan, ns n cazul testelor de personalitate acest indice exprim procentul de subieci care a rspuns da la item, sau n alte cazuri procentul de subieci care a agreeat itemul. Un indice global de dificultate al itemilor unui test se poate calcula fcnd media indicilor fiecrui item. Astfel se face suma tuturor indicilor de dificultate i rezultatul obinut se mparte la 24
numrul itemilor testului. Pentru o maxim discriminare, este important ca media indicilor de dificultate al unui test s fie 0.5, deci indicii fiecrui item al testului s varieze ntre 0.3 i 0.8. Ceea ce trebuie s lum n calcul cnd analizm indicele de dificultate al unui item este ansa ca subiectul s dea rspunsul corect la ntmplare (adic de a ghici rspunsul). n acest caz indicele optim de dificultate al unui item se gsete la mijlocul distanei dintre 1 i rata de rspuns la ntmplare care pentru un item cu 2 rspunsurile este de 0,50. Mijlocul distanei dintre 1 i 0.50 este 0.75 deci indicele optim de dificultate al acestui item este 0.75. n general acest indice optim se obine nsumnd valoarea ansei cu 1 i apoi mprind valoarea obinut la 2, sau: 0,50+1,00=1,5 1,5/2=0,75 Pentru un item care are 5 variante de rspuns ansa de a rspunde corect este 1/5 adic 0,20. n acest caz, indicele de dificultate optim se va obine astfel: 0,20+1,00=1,20 1,20/2=0,60 Indicele de discriminare al unui item Indicele de discriminare al unui item (d) constituie o msur a ct de bine reuete un item s separe sau s discrimineze subiecii care au obinut scoruri mari i cei care au obinut coruri mici la test. Mai precis, un item este considerat discriminativ dac subiecii care au obinut o performan bun la test au rezolvat corect itemul, respectiv dac cei care au obinut o performan sczut la test nu au rezolvat corect itemul. Dac majoritatea subiecilor cu performan mare la test nu au rezolvat corect un item atunci nseamn c itemul respectiv nu discrimineaz ntre categorii diferite de subieci. Similar, n cazul testelor de personalitate subiecii care au un scor mare la o anumit trstur (evaluat de ntregul test) trebuie s aib un scor mare i la un item care se presupune c evalueaz trstura respectiv. Indicele de discriminare are n vedere performana eantionului la un item innd cont de performana scorurilor din ultima treime sau din prima treime a distribuiei totale a scorurilor. Limita pn la care putem considera prima/ultima arie a distribuiei scorurilor este valoarea de 27% din scoruri (Kelley, 1939). Indicele de discriminare al unui item este reprezentat de msura diferenei dintre proporia celor care au rezolvat corect itemul i cei care nu au rezolvat corect itemul. Cu ct valoarea lui d este mai mare cu att este mai mare numrul subiecilor buni care au rezolvat itemul. O valoare negativ pentru un d reprezint o problem a itemului deoarece indic situaia n care cei care au avut o performan slab la test rezolv corect itemul. n aceast situaie se cere revizuirea sau eliminarea itemului. Exemplu. S presupunem c un profesor administreaz un test la 119 persoane i selecteaz primele 27% i ultimele 27% din performanele la test, selectnd 32 de teste n fiecare grup. n continuare n tabelul 3 sunt prezentate valorile necesare calcului indicelui de discriminare pentru cei 5 itemi ai testului:
Tabelul 2.4. Indicele de discriminare pentru 5 itemi ipotetici ai unui test Item Superior (S) Inferior (I) S-I n 1 20 16 4 32 2 30 10 20 32 3 32 0 32 32 4 20 20 0 32 5 0 32 -32 32 d = (S-I)/n 0,43 0,63 1,00 0,00 -1,00
25
Pentru itemul 1 se poate observa c 20 dintre subiecii care au obinut performane superioare la test au rezolvat corect itemul, n timp ce 16 dintre cei care au obinut performane inferioare la test au rezolvat corect itemul. Cu un indice de discriminare de 0.13, itemul 1 poate fi considerat un item bun deoarece mai muli subieci dintre cei care au obinut o performan bun la test, au rspuns corect la item. Se poate observa c cu ct este mai mare valoarea indicelui de discriminare cu att itemul separ mai bine categoriile de subieci i este deci mai discriminativ. Valoarea cea mai mare pe care o poate avea un indice de discriminare este +1 (toi subiecii care au obinut performana superioare la test au rezolvat corect itemul); valoarea cea mai mic pe careo poate avea un indice de discriminare al unui item este 1 (nici unul dintre subiecii care au obinut performane superioare la test nu au rezolvat corect itemul). Analiza alternativelor de rspuns la itemi. Calitatea fiecrei alternative de rspuns la itemii cu rspunsuri multiple poate fi analizat comparnd-o cu performana obinut de subiecii care au avut performane superioare (primii 27%) i cei care au obinut performane inferioare (ultimii 27%) la un test. S analizm (tabelul 4) performana la 5 itemi ipotetici, test la care 32 de subieci au obinut performane inferioare (I) i 32 de subieci au obinut performane superioare (S).
Tabelul 2.5. Rspunsurile la 5 itemi ai unui test (Rspunsul corect al fiecrui item este marcat cu caractere ngroate) Alternative a b c d e Item 1 S 24 3 2 0 3 I 10 5 6 6 5 2 S 2 13 3 2 12 I 6 7 5 7 7 3 S 0 0 32 0 0 I 3 2 22 2 3 4 S 5 15 0 5 7 I 4 5 4 4 15 5 S 14 0 0 5 13 I 7 0 0 16 9
Analiza itemilor.
Itemul 1 este un item bun mai multe persoane cu performan superioar la test l-au rezolvat corect. Itemul 2 un numr mare de S au ales un distractor n locul rspunsului corect (rspunsul b). Acest item ar trebui revzut. Itemul 3 reprezint modalitatea optim de rspuns la un item; toii S au rspuns corect Itemul 4 este mai dificil dect itemul 3 deoarece o proporie mai mic de S au rspusn corect la item, dar discrimineaz mai bine (o proporie mai mic de I au rspuns cirect la item). Itemul 5 este un item slab deoarece mai muli de I au rpsuns corect la item.
Analiza curbei caracteristice itemului O modalitate de a afla noi informaii despre comportamentul itemilor este trasarea curbei caracteristice itemului. Astfel, pentru un anumit item vom reprezenta pe axa X scorurile posibile la test, iar pe axa Y proporia persoanelor care au rspuns corect la item (vezi figura 2.5).
1
0.5
0 0 5 10 15 20 25 30 35 40 45 Scorul total la test 50 55 60 65
26
Figura 2.5. Curba caracteristic a itemului
Scorul total reprezint nivelul de abilitate al persoanei evaluate, acest nivel nu poate fi msurat, doar estimat pe baza acestui scor. Relaia dintre performana la unul dintre itemi i cea obinut la aplicarea ntregului test ne ofer informaii legate de item. Astfel figura de mai sus reprezint curba caracteristic a unui item relativ bun, observm cum curba crete pe msur ce crete i scorul total la test, aceasta nseamn c itemul discrimineaz bine n cazul tuturor nivelelor de performan. S lum spre exemplu o persoan care are un scor mai mic de 20 puncte, conform curbei (Figura 2.6), aceasta va avea o probabilitate de aproape 40% de a rezolva corect acest item.
1
0.5
Figura 2.6. Curba caracteristic a itemului n cazul n care scorul este mai mare, de 40 respectiv 65 de puncte, probabilitatea de a rspunde corect este de 50 respectiv 100%. Un item bun trebuie s prezinte un asemenea patern de comportament, adic pe msur ce crete nivelul de abilitate a persoanelor testate s creasc i ansa de a fi rezolvat corect. n figura 2.7 dorim s prezentm itemi care prezint un patern comportamental diferit de cel prezentat anterior. V rugm s analizai curba trasat cu linie ntrerupt.
1
0.5
Figura 2.7. Curba caracteristic a 2 itemi Observm c i dac nivelul de abilitate al persoanelor din eantionul nostru crete, probabilitatea de a rspunde corect la acest item este aceeai, cu alte cuvinte itemul nu ne ofer nici 27
o informaie despre nivelul de abilitate al persoanei care l-a rezolvat (itemul trasat cu linie ntrerupt). Este posibil ca acest item s msoare un alt aspect dect cel pe care l evalueaz ceilali itemi ai testului. Spre deosebire de acesta, itemul trasat cu linie nentrerupt este rezolvat numai de persoanele care au un scor brut de cel puin 25 de puncte, probabilitatea de a-l rezolva corect crete apoi treptat mpreun cu nivelul de abilitate. Acest item este de dificultate medie, este puin probabil ca el s fie rezolvat corect de persoanele cu scor mai mic de 25. 2. Analiza de itemi din perspectiva teoriei rspunsului la item (item response theory - IRT) Teoria rspunsului la item propune un nou model de explicare i de analiz a itemului i a comportamentului acestuia. Rasch (1960) a fost principalul promotor, care a propus primul model, dup care acesta a fost dezvoltat i adaptat la diferite situaii de testare. Aceste modele sunt unidimensionale, adecvate testelor care au ca scop evaluarea unei singure trsturi latente sau multidimensionale, n cazul testelor care evalueaz mai multe dimensiuni. De asemenea n funcie de rspunsul la item dihotomic sau cu mai mute opiuni avem mai multe tipuri de modele. n continuare vom discuta despre modele unidimensionale dihotomice. n cazul modelelor IRT unidimensionale diferenele dintre persoanele care alctuiesc eantionul pot fi explicate numai pe baza unei singure dimensiuni. Modelele IRT implic dou asumpii: Curba caracteristic itemului (item characteristic curve - ICC) trebuie s aib o form specific (acesta descrie modul n care modificrile la nivelul abilitii induc modificri la nivelul probabilitii de apariie a rspunsului corect); Trebuie ndeplinit condiia de independen local (aceasta nseamn c nu trebuie s avem corelaie ntre itemi, n condiiile n care nivelul de abilitate al persoanelor evaluate este meninut constant).
nainte a trece la prezentarea concret a unui model IRT, dorim s reamintim modelul care st la baza teoriei clasice. Xobservat = Xreal + e Acesta are urmtoarele asumpii: Valoare expectat a erorii pentru fiacre persoan n parte este 0; Eroarea nu covariaz cu alte variabile (aceste asumpii sunt importante pentru interpretarea erorii standard de msurare). (e = eroarea de msur)
Limitele care au fost reproate acestui model sunt urmtoarele: 1. sunt menionate dou variabile independente de care depinde scorul obinut de o persoan, i anume scorul real i eroarea de msurare, dar acestea nu pot fi separate n mod real n cadrului scorului obinut de ctre o persoan, astfel modelul este util n cadrul realizrii unor estimri la nivel de populaie; 2. Din acest model sunt omise proprietile itemului care i ele au un impact asupra scorului persoanei (dac de exemplu toi itemii sunt uori, atunci majoritatea persoanelor vor ave un scor maxim);
28
3. Modelele IRT explic performana la test considernd doi sau mai muli parametrii: nivelul de abilitate al persoanei evaluate, parametrul de dificultate al itemului, parametrul de discriminare, probabilitatea de a ghici rspunsul corect, iat notaiile utilizate. X is = rspunsul persoanei s la itemul i (care n cazul itemilor dihotomici poate fi 0 sau 1) p(Xis=1) = probabilitatea ca persoana s s ofere un rspuns corect la itemul i s = nivelul de abilitate al persoanei s i = dificultatea itemului i i = discriminarea itemului i i = probabilitatea de a ghici rspunsul corect la itemul i Vom explicita modelul de msurare utilizat de aceast abordare prin prezentarea modelului uniparametric 1PL. p(Xis=1) = 1/(1 + e (-( - i)) n cadrul acestuia probabilitatea de a rspunde un rspuns corect la un item i, depinde de nivelul de abilitate al persoanei evaluate i de parametrul de dificultate al itemului. Acesta se numete model uniparametric deoarece este considerat numai un singur parametru al itemului. Dac analizm acest model la nivel grafic (vezi figura de mai jos, unde pe axa X este reprezentat nivelul de abilitate al persoanei testate , iar pe axa Y probabilitatea de a oferi un rspuns corect la itemii a cror curb este trasat), observm cum curbele caracteristice itemilor au acelai unghi de nclinare, ceea ce difer este locaia lor de-a lungul nivelului de abilitate, practic aceast locaie este un indicator al dificultii itemului. De exemplu itemul trasat cu linie ntrerupt (figura 2.8) este rezolvat de persoanele cu un nivel de abilitate de 0 1 n proporie de aproximativ 55%, n timp ce aceleai persoane rezolv itemul trasat cu linia punctat n proporie de 20%, deci acesta din urm este mai dificil dect primul.
1
0.5
0 -3 -2 -1 0 1 nivelul de abilitate 2 3
Figura 2.8. Curba caracteristic a 2 itemi n cazul acestui model, parametrul de discriminare este meninut constant (egal cu 1).
1
nivelul de abilitate i parametrii itemilor (dificultate, discriminare) pot lua valori ntre minus i plus infinit deoarece sunt pe scal logit.
29
n cadrul modelului biparametric 2PL, este considerat i parametrul de discriminare a itemului. n figura 2.9 prezentm itemi care au acelai nivel de dificultate, dar care au o discriminare diferit. p(Xis=1) = 1/(1 + e (- i ( - i))
0.5
Figura 2.9. Curba caracteristic a 3 itemi

0 Discriminarea este reprezentat grafic prin gradul de nclinare a curbelor care descriu comportamentul itemului. Un item cu o curb abrupt discrimineaz mai bine comparativ cu un -2 Acest -1 0 1 o modificare 2 3 mic la nivelul abilitii item cu o curb mai -3 domoal. lucru nseamn c nivelul de abilitate persoanelor testate va duce la o modificare mare a probabilitii de a rspunde corect la item. Curba trasat cu linie nentrerupt reprezint un item care are o discriminare perfect, deoarece nici o persoan cu un nivel de abilitate mai mic de 0.25 nu va avea ansa de a rezolva acest item, n schimb persoanele cu o abilitate mai mare l vor rezolva.
Modelul tri-parametric 3PL, introduce i parametrul care permite estimarea ansei de a ghici rspunsul corect la item. p(Xis=1) = i + (1 - i)[1/(1 + e (- i ( - i))] Probabilitatea de ghici rspunsul corect este vizibil n punctul n care curba caracteristic itemului intersecteaz axa Y. Aceasta nseamn c i persoanele care au un nivel de abilitate sczut vor rezolva corect itemul, ghicind rspunsul corect (Figura 2.10).Utilizarea unui model 3PL devine necesar mai ales n situaia n care probabilitatea de a ghici rspunsul corect este mare, de exemplu n cazul unui item cu 2 posibiliti de rspuns acesta este de 1 din 2, spre deosebire de cea cu 6 opiuni, n care probabilitatea de a ghici rspunsul corect este semnificativ mai mic, 1 din 6.
0.5
0 -3 -2 -1 0 1 nivelul de abilitate 2 3
Figura 2.10. Curba caracteristic itemului
30
Aceste modele reflect modul n care IRT a contribuit la perfecionarea procedurilor de dezvoltare a instrumentelor de msurare, dar analiza atent a asumpiilor acestora ofer o nou perspectiv asupra vechilor reguli de msurare, aa cum spunea Emreston i Reise (2000). II.2.3. VALIDITATEA DE CONSTRUCT Validitatea de construct reprezint msura n care se poate susine c testul msoar o variabil sau o trstur specific. n termeni generali constructul este sinonim cu acela de concept (Kline, 1992) fiind utilizat pentru a desemna o serie de fenomene ntr-un cadru tiinific. El este util atunci cnd poate fi operaionalizat. Dac lum de exemplu conceptul de specie, el este extrem de util n investigare i clasificare n tiinele naturii. Cu toate aceste nu exist o entitate distinct pe care putem s o etichetm specie, ea nu poate fi deci studiat i observat direct. Este doar o categorie, creat n scopul nelegerii diferitelor tipuri de organisme vii. Constructul este desprins dintr-o teorie psihologic care ofer cadrul menit s fundamenteze analiza semnificaiei psihologice a rezultatelor la test. Vorbim de validitate relativ la construct n cazul testelor de personalitate. Pentru a putea fi utilizat i evaluat, un concept trebuie corect i precis operaionalizat. Aceast operaionalizare impune descrierea constructului n termeni comportamentali concrei. Murphy & Davidshofer (1991) identific urmtorii pai n operaionalizarea unui construct: 1. identificarea comportamentelor care au legtur cu constructul; 2. identificarea altor constructe, pentru fiecare decizndu-se dac au sau nu legtur cu constructul msurat de test;maIN 3. alctuirea pentru fiecare construct a unei liste de comportamente prin care acestea se exprim. Pentru fiecare comportament, pe baza relaiilor dintre constructe se decide dac are sau nu legtur cu constructul msurat de test. Spunem despre un test c are validitate convergent dac evalueaz aceleai constructe ca i alte teste, adic dac ntre scorurile sale i scorurile altor teste exist o relaie funcional. Un test are validitate de discriminare dac evalueaz altceva dect alte teste despre care se tie c se refer la constructe ce nu au legtur cu constructul msurat de test. Acest lucru nseamn c ntre scorurile la test i scorurile la alte teste sau variabile nu exist o relaie funcional. Campbell & Fiske (1959) propun ca i metod de verificare a validitii convergente i de discriminare a unui test metoda bazat pe matricea trsturi multiple-metode multiple (tabelul 6). Pe baza acestei metode sunt relevai coeficienii de corelaie ntre diferite msurtori ale acelorai constructe, msurtori obinute prin teste diferite.
Tabelul 2.6. (Campbell & Fiske, 1959). Matrice de tipul trsturi multiple-metode multiple
Trsturi A1 Metoda 1 B1 C1 A2 Metoda 2 B2 C2 A3 Metoda 3 B3 C3 A1 (.89) .51 .38 .57 .22 .11 .56 .23 .11 Metoda 1 B1 C1 .(89) .37 .22 .57 .11 .22 .58 .11 A2 Metoda 2 B2 C2 A3 Metoda 3 B3 C3
(.76) .09 .10 .46 .11 .12 .45
(.93) .68 .59 .67 .43 .34
(.94) .58 .42 .66 .32
(.84) .33 .34 .58
(.94) .67 .58
(.92) .60
(.85)
Tabelul de mai sus prezint toate corelaiile posibile ntre scorurile obinute cnd sunt evaluate trei trsturi (A, B, C) prin trei metode / teste. Cele trei trsturi reprezint trsturi de personalitate cum ar fi: (A) dominana, (B) sociabilitatea, (C) motivaia de realizare. Cele trei metode prin care se evalueaz aceste caracteristici pot fi (1) un chestionar, (2) un test proiectiv, (3) scale de comportament. Astfel A1 indic scorurile la dominan evaluate pe baza unui chestionar, A 2 indic scorurile la dominan evaluate pe baza unui test proiectiv, iar C 3 indic scorurile pentru motivaia 31
de realizare evaluat printr-o scal de comportament. Tabelul include pe de o parte corelaiile ntre trsturi diferite evaluate pe baza aceleiai metode (chenar ntreg) precum i corelaiile ntre trsturi diferite prin metode diferite (chenar ntrerupt). Pentru verificarea validitii convergente n cazul constructului (A) avem urmtorii coeficieni: .57 metoda 1 cu metoda 2 .56 metoda 1 cu metoda 3 .67 metoda 2 cu metoda 3 Validarea convergent a unui test este necesar, dar nu i suficient pentru a dovedi c testul msoar ceea ce i-a propus; etichetele atribuite testelor reprezint trsturile sau caracteristicile pe care testele ar trebui s le msoare. Corelaia mare ntre dou teste nseamn c testele msoar acelai lucru, ns nu se poate spune c itemii cuprini n teste sunt reprezentativi pentru constructul pe care testele intenioneaz s l msoare. Analiza factorial sau analiza de clusteri efectuat asupra itemilor din testele care evalueaz aceleai constructe poate ajuta la explicarea corelaiilor dintre scorurile testelor (Albu, 1999). ANALIZA FACTORIAL Una dintre metodele utilizate n validara de construct este analiza factorial. Analiza factorial este definit ca un set de proceduri matematice utilizate pentru a identifica dimensiunile care stau la baza uneui set de msurori empirice. Cel mai adesea este utilizat pentru: identificarea factorilor care stau la baza performanei la un test de aptitudini identificarea unor dimensiuni ale personalitii identificarea unor sindroame clinice identificarea factorilor relaionai cu satisfacia n munc n continuare vor fi discutate principalele concepte implicate n analiza factorial. Concepte generale Atributele interne pot fi gndite ca i constructe ipotetice. Ele nu sunt cu necesitate reale sau concrete. Acestea sunt mai degrab constructe care aa cum vom vedea pot fi utilizate pentru a nelege i a explica o serie de fenomene observate. Aceste constructe ipotetice nu trebuie vzute ca o critic a abordrii factoriale. Utilizarea constructelor ipotetice constituie o practic obinuit n multe domenii ale tiinei. De exemplu, fizicienii utilizeaz o serie de constructe (gravitate, magnetism) pentru a explica o serie de fenomene. Aceste fore reprezint de fapt constructe neobservabile, a cror existen a fost inferat pe baza fenomenelor observabile. Aceste constructe, mpreun cu teoriile care le nsoesc pot explica o serie de fenomene observabile. ntr-o manier asemntoare, analiza factorial postuleaz c exist atribute interne neobservabile care pot explica variaia i covariaia dintre o serie de atribute de suprafa, adic acele atribute care pot fi msurate i observate direct. Un concept teoretic central al analizei factoriale l constituie deci relaia dintre atributele interne i cele de suprafa. Principiul de baz este acela c atributele interne influeneaz sistematic atributele de suprafa. Acest fapt implic ideea c atunci cnd avem o msur a unui atribut de suprafa, aceast msur este, cel puin n parte, rezultatul influenei atributelor interne. De exemplu, scorul obinut de o persoan la un test de adunare (atribut de suprafa) este influenat de aptitudinea numeric (atribut intern). Tradiional, aceste relaii dintre atributele de suprafa i cele interne sunt considerate a fi lineare. n continuare este util s distingem ntre 2 tipuri de atribute interne sau factori: factori comuni i factori specifici. Factorul comun este definit ca un atribut intern care afecteaz /influeneaz mai mult de o variabil de suprafa. De exemplu, dac factorul aptitudine numeric influeneaz mai mult dect o variabil de suprafa (s presupunem c influeneaz att adunarea ct i nmulirea) atunci acesta factor este un factor comun. Factorii specifici influeneaz doar o singur variabil de suprafa; astfel poate exista un numr de factori specifici pentru fiecare variabil de suprafa. Prin schimbarea variabilelor de suprafa factorul comun se poate transforma n factor specific dac se 32
nltur toate variabilele de suprafa care l alctuiesc, mai puin una; sau dimpotriv, dac lrgim bateria, un factor specific se poate transforma ntr-un factor comun dac el influeneaz mai multe variabile de suprafa. n afara celor 2 variabile interne (factorii comuni i specifici) care influeneaz variabilele de suprafa, exist o a treia influen asupra acestora. Aceast a treia influen o constituie erorile de msur asociate observrii atributelor de suprafa. Aceste erori sunt reprezentate n analiza factorial ca factori adiionali, dei ele nu fac parte din cadrul atributelor interne; adic nu reprezint caracteristici neobservate ale indivizilor. Mai degrab erorile de msur apar ca rezultat al influenelor datorate msurtorii atributelor de suprafa. Se poate observa relaia direct ntre factorii de suprafa i erorile de msur; astfel, cu ct fidelitatea msurtorilor este mai mare cu att erorile sunt mai mici. Deci, utilizarea unor teste mai puin fidele va influena erorile de msur, dar nu n mod necesar factorii comuni sau specifici. De asemenea, adugarea sau nlturarea unor variabile de suprafa va influena factorii comuni sau specifici, ns nu va influena erorile de msur. Factorii specifici i erorile de msur caracteristice unui set de observaii se pot combina rezultnd factori unici. Un factor unic este alctuit dintr-un factor specific caracteristic unei singure variabile de suprafa precum i din eroarea de msur asociat variabilei de suprafa respective. Factorul unic se va modifica la orice modificare a factorului specific sau a erorii de msur. Pornind de la aceste definiii ale factorilor, innd cont de faptul c factorii influeneaz atributele de suprafa se poate nelege c factorii se combin pentru a putea explica un anumit nivel al trsturilor de suprafa. Mai precis, orice nivel al atributelor de suprafa poate fi vzut ca o rezultant a factorilor relevani. De exemplu, scorul unei persoane la un test de adunare poate fi vzut ca o rezultant a factorului comun aptitudine numeric i a factorului specific asociat adunrii. De asemenea, eroarea de msur contribuie la scorul obinut la testul de adunare. Generaliznd putem spune c diferenele individuale sau variana atributelor de suprafa poate fi atribuit factorilor adiaceni acestor atribute. Astfel diferenele la nivelul atributelor de suprafa sunt datorate diferenelor la nivelul factorilor ce influeneaz aceste atribute i de asemenea diferenele sunt datorate i erorilor de msur. Distincia realizat anterior ntre factorii comuni, specifici i eroarea de msur ne ajut s nelegem modul n care factorii explic variana atributelor de suprafa. Este important de reinut faptul c variana observat la nivelul atributelor de suprafa poate rezulta din trei surse. O parte din varian este datorat influenei factorilor comuni aceasta poart numele de varian comun sau comunalitate. O alt parte din variana atributelor de suprafa poate fi datorat factorului specific aceast varian este denumit varian specific sau specificitate. Cea de-a treia surs de varian este datorat erorilor de msur i este denumit variana erorii de msur. Variana specific este adesea combinat cu variana erorii de msur i formeaz variana unic sau unicitatea. Altfel spus, variana observat la nivelul unui atribut de suprafa este datorat n parte factorilor care influeneaz i alte atribute de suprafa i n parte factorilor care influeneaz doar atributul respectiv. Printr-o extensie a conceptelor putem spune c analiza factorial ine cont i de covariana dintre variabilele de suprafa. Adesea se poate observa c variabilele de suprafa dintr-un domeniu specific tind s coreleze ntr-o anumit msur una cu cealalt. Potrivit analizei factoriale aceast corelaie este datorat influenei factorilor comuni. Deci, o corelaie ntre dou variabile de suprafa este datorat dependenei celor dou variabile de unul sau mai muli factori comuni. De exemplu scorul la un test de adunare va tinde s coreleze pozitiv cu scorul la un test de nmulire deoarece ambele variabile depind de acelai factor comun aptitudinea numeric. Din contr ns, rezultatul la testul de adunare va corela mai puin cu rezultatul la un test de citire deoarece cele dou variabile de suprafa sunt influenate de factori comuni diferii. Putem spune c nivelul de intercorelaie dintre atributele de suprafa este rezultatul dependenei acestor atribute de aceiai factori comuni.
33
Este extrem de important a se reine faptul c doar factorii comuni pot explica corelaia variabilelor de suprafa; factorii unici nu determin astfel de corelaii. La fel, factorii specifici sau erorile de msur nu pot determina corelaii ntre atributele de suprafa deoarece prin definiie ei influeneaz doar o singur variabil de suprafa. Pentru a sumariza aceste principii putem spune c ntr-un anumit domeniu exist un numr mic de factori comuni care influeneaz un vast numr de atribute de suprafa. Variaia factorilor de suprafa este datorat n parte variaiei factorilor comuni. Ceea ce rmne se datoreaz factorilor unici sau factorilor specifici i erorilor de msur. Covariana variabilelor de suprafa este atribuit dependenei acestora de aceiai factori comuni. n continuare (figura 5) vor fi prezentate conceptele i principiile discutate anterior n forma propus de Tucker (1940) pentru a ilustra teoria analizei factoriale. n cadrul diagramelor, ptratele reprezint atributele de suprafa, iar cercurile reprezint atributele interne i ali factori. Sgeile unidirecionale exprim o relaie liniar (printr-un proces cauzal), iar cele bidirecionale reprezint corelaii fr influen cauzal. Atribute de suprafa
Factori comuni (atribute interne)
Factori specifici (atribute interne)
Factori unici
Factori ERM
34
Figura 2.11. Relaia dintre atributele de suprafa i cei trei tipuri de factori
Este important de reinut faptul c teoria factorial este o teorie care explic dinamica i influenele care determin variaia i covariaia atributelor de suprafa.
35
Obiectivele analizei factoriale Identificarea factorilor adiaceni variabilelor de suprafa Obiectivul primar ala analizei factoriale este acela de a determina umrul i natura factorilor comuni precum i modul n care acetia influeneaz atributele de suprafa. Prin identificarea factorilor care explic un mare numr de variabile se pot nelege mai bine datele de care dispunem. De exemplu o companie aerian dorete s studieze aproximativ 50 de variabile pe care le consider importante din puntul de vedere al consumatorului care trebuie s opteze pentru o companie (variabilele pot fi: respectarea orelor de aterizare /decolare, flexibilitatea orarului, amabilitatea personalului de zbor, facilitile oferite n timpul zborului, etc.). Dac pe baza analizei factoriale aceste 50 de variabile pot fi explicate pe baza unor factori vom nelege mai bine variabilele fundamentale care stau la baza alegerii fcute de consumator. Screeningul variabilelor O a doua utilizare a analizei factoriale se refer la analiza pe baz de screening a variabilelor care ulterior pot fi incluse n investigaii statistice ca analiza de regresie. Deoarece analiza factorial identific grupe de variabile care sunt corelate ntre ele putem opta la alegerea unei singura variabile din fiecare factor i includerea acestei variabile ntr-o ecuaie de predicie. Sumarizarea datelor O alt aplicaie a analizei factoriale se refer la flexibilitatea de a extrage ci factori se dorete dintr-un set iniial de variabile. Primii factori extrai dintr-un set de variabile explic cea mai mare parte din variana acestora; cu fiecare extragere ulterioar se obine tot mai puin. Selecia variabilelor AF ne permite extragerea factorilor diferii dintr-un set de variabile. De exemplu dac se pune problema selecie caracteristicilor definitorii ale unui automobil n vederea construciei unei reclame ne intereseaz s pstrm un numr de variabile rezonabil pentru a putea construi reclama. Este important ns ca acest variabile selectate s nu se refere la acelai factor, ele trebuind s nu coreleze ntre ele. Lund n considerare aspectele prezentate privind validitatea unui test psihologic, se poate spune c trebuie s avem ntotdeauna n vedere funcia i scopul pe care le va avea testul pentru a putea aprecia corect tipurile de validitate. Exemplul (tabelul 7) urmtor ilustreaz modul n care putem privi validitatea unui test de cunotine la matematic (Anastasi, 1976):
Tabelul 2.7. Tipuri de validitate a unui test de cunotine matematice. (Anastasi, 1976).
SCOPUL TESTRII Evaluarea cunotinelor de matematic n ciclul primar Anticipare a performanelor elevului n gimnaziu Psihodiagnosticul dificultilor de nvare Evaluarea gndirii logice EXERCIII
PROBLEMA STUDIAT Ct de mult a nva elevul din matematica predat? Care vor fi performanele elevului n gimnaziu la matematic? Care sunt dificultile specifice pe care le ntmpin elevul n nvarea matematicii Prin ce se caracterizeaz gndirea elevului?
TIPUL DE VALIDITATE Validitate de coninut Validitate predictiv Validitate concurent Validitate de construct
1. Mai jos sunt prezentate descrierile ctorva studii de validare. Citii fiecare descriere i identificai orice probleme poteniale care ar putea afecta rezultatele. A. Un profesor de matematic de la un liceu, face un test pentru a identifica elevii supradotai la matematic i aplic acest test la o sut de elevi din coal. Cei care vor obine cel mai mare punctaj la test vor avea posibilitatea s se nscrie la facultate. La sfritul semestrului, profesorul face o corelaie ntre scorul obinut la test i notele obinute de elevi la matematic. El nu a gsit nici o corelaie semnificativ ntre aceste variabile. 36
B. Un psiholog industrial face un test pentru a selecta personal pentru un serviciu cleric la o anumit corporaie i cere supraveghetorilor s noteze muncitorii prezeni pe o scal cu urmtoarele categorii : peste medie, mediu, sub medie. Dup aceasta psihologul testeaz muncitorii din categoria peste medie i sub medie i compar mediile celor dou grupuri. n urma analizei psihologul gsete o diferen semnificativ n favoarea grupului peste medie. 2. Pentru fiecare din urmtoarele situaii indicai ce tip de studiu de validare ar fi cel mai potrivit. A. Un psiholog social dezvolt un inventar cu scopul de a identifica peroanele care lucreaz n domeniul sntii care prezint sindromul de epuizare (burnout). Pentru a defini sindromul de burnout se utilizeaz o varietate de comportamente cum ar fi: absenteismul, eec n a respecta politica firmei, relaii reci cu colegii i efii etc. B. Un psiholog al dezvoltrii specializat n problemele adolescenilor dorete s dezvolte un inventar care s se adreseze elevilor din clasele IX X pentru a prezice cine va trece mai departe n clasele XI-XII. C. Un test de aptitudini non-verbale este dezvoltat pentru copiii precolari cu deficit de auz. Se intenioneaz ca testul s fie o msur de screening pentru identificarea copiilor care ar putea avea dificulti n nvarea cititului (ncadrai ntr-o clas cu copii normali). MODULUL III
NORMELE TESTELOR
Obiective: S defineasc ce sunt normele testelor S cunoasc principalele modaliti prin care se pot realiza normele S poat interpreta scorul la un test pe baza diferitelor norme
Cum interpretm rezultatul obinut de un subiect la un test?
n general, numrul de itemi rezolvai corect de subiect la un test este operaionalizat prin scor sau cot brut. Aceast valoare ns nu are nici o semnificaie dac nu o comparm cu anumite norme, standarde sau etaloane.
Etalonul (norma sau standardele) reprezint deci cadrul de referin al unui subiect cu populaia. Un scor brut obinut la un test nu are nici o valoare deoarece pe baza lui nu putem ti unde se situeaz performana unui subiect.
S lum un exemplu.
S presupunem c la un test de cunotine de matematic alctuit din 100 de itemi un subiect rezolv corect 30 de itemi. Scorul brut obinut de subiect la acest test este 30. Ce reprezint aceast valoare? Reprezint o performan slab, medie sau bun la test? Pentru a putea rspunde la aceast ntrebare trebuie s comparm aceast valoare cu un cadru de referin sau etalon. Acest etalon poate fi reprezentat de performana obinut de ceilali subieci la test i astfel raportm subiectul la performana celorlali sau dimpotriv, cadrul de referin l poate constitui o norm naional n care cadrul de referin l constituie ntreaga populaie din care face parte.
Procesul de etalonare al unui test reprezint stabilirea unui cadru de referin, a unei scri care s permit determinarea locului ocupat de rezultatele unui subiect fa de rezultatele unei populaii de referin, suficient de numeroas, format din persoane comparabile cu cea examinat. Etalonarea are astfel urmtoarele scopuri: 1. confer semnificai scorurilor i permite interpretarea acestora; 2. permite compararea direct a scorurilor. Astfel, un scor de 33 obinut de un subiect la un test poate s nu aib aceeai semnificaie la un al doilea test.
37
Orice manual al unui test psihologic conine normele testului i trebuie s includ urmtoarele aspecte: 1. indicii demografici ai populaiei pentru care a fost construit testul. Cei mai frecveni indicatori sunt: vrsta, sexul, mediul din care fac parte subiecii, nivelul de colarizare Putem spune c aceti indicatori definesc populaia pentru care este destinat testul. Astfel, un test care evalueaz inteligena la copiii precolari (4-7 ani) nu poate fi aplicat la un copil de 9 ani deaorece nu avem un cadru de referin la care s raportm performana obinut de acest copil. 2. numrul persoanelor pe care a fost etalonat testul i modul de eantionare ales. Aceast informaie este uti pentru analiza semnificaiei etalonului. Ne intereseaz n acest caz dac etalonul testului are la baz un numr suficient de mare de persoane dintr-o populaie pentru a-l putea considera reprezentativ. 3. data construirii normelor. Aceast informaie este util deoarece ne ajut identificm dac populaia pe care a fost etalonat testul mai posed caracteristicile populaiei din care face parte subiectul testat. Este cunoscut faptul c unele constructe psihologice sau cunotine sunt dependente de evoluie. De exemplu un test care evalua nivelul dezvoltrii vocabularului la o anumit populaie n anii 1940-1950 nu mai are aceleai norme n prezent deoarece populaia a evoluat i astfel normele trebuie mereu reactualizate. Procesul de construcie a unui etalon respect urmtorii pai: 1. definirea populaiei sau a cadrului de referin pentru care se dorete construcia testului; 2. eantionarea; 3. administrarea testului la eantionul ales; 4. construcia cotelor sau a normelor testului. 1. Definirea populaiei constituie primul pas n construirea normelor. Acest proces cuprinde de fapt circumscriera persoanelor pentru care este destinat testul. Astfel, aceast definire se face prin prezentarea unor caracteristici care vor permite recunoaterea unei persoane ca aparinnd sau nu populaiei pentru care a fost construit testul. Exemplu.
a. Testul Bender Gestalt evalueaz funcia perceptiv motric ntre 5 i 10 ani. n aceast situaie tim c orice persoan cu vrsta ntre 5 i 10 ani poate fi evaluat cu testul Bender pentru a se identifica nivelul dezvoltrii funciei perceptiv motrice. b. Testul de cunotine matematice X cuprinde toi copiii de liceu (14-18 ani) din judeul Cluj. Pentru ca performana unui copil la acest test de cunotina matematice s poat fi raportat la etalon, copilul respectiv trebuie s aib urmtoarele caracteristici: s aib vrsta cuprins ntre 14-18 ani i s urmeze un liceu n judeul Cluj.
2. Deoarece testul nu poate fi aplicat la ntreaga populaie pentru care a fost construit se impune selecia din cadrul populaiei (stabilite anterior) a unui grup sau eantion de normare. Acest eantion trebuie s fie reprezentativ pentru populaie. Astfel structura eantionului trebuie s respecte structura populaiei. Variabilele care se vor lua n considerare n construirea eantionului in cont att de caracteristicile populaiei (vezi definirea acesteia) ct i de caracteristicile constructului msurat de test. Exemplu
Dac avem un test adaptat n Romnia care evalueaz inteligena la copiii precolari, populaia testului o constituie copiii de vrsta 4 7 ani din Romnia. Acestea reprezint caracteristicile populaiei. n afara acestor caracteristici trebuie s inem cont ns i de caracteristicile constructului. n acest caz, inteligena depinde i de mediul din care fac parte copii, iar astfel pentru fiecare grupa de vrst construit vom avea ca variabil mediul (ex. Rural sau urban).
38
Construirea eantionului se poate realiza prin mai multe tipuri de selecie. Cele mai des ntlnite selecii sunt cele aleatoare i cele stratificate. n cazul seleciei aleatoare oricare membru al populaiei are anse egale de a fi inclus n eantion. n cazul seleciei stratificate se face nti o mprire a populaiei n clase (n funcie de variabilele relevante) i apoi pentru fiecare clas se trece la o selecie aleatoare. 3. Deoarece rezultatele nu se pot culege de un singur examinator, la un singur moment n timp, este important ca n timpul etalonrii administrarea s se realizeze standard, pstrnd aceleai condiii de aplicare i cotare. 4. Dup ce s-a aplicat testul la ntregul eantion se obine o colecie de date pe baza crora se impune construirea normelor testului. Distribuia normal Cu ct avem o colecie mai mare de date cu att acestea respect mai mult distribuia lui Gauss. - proprietile curbei normale (figura 1): 68% este ntre + 1sigma, 95% este intre + 2sigma, Beneficiul interpretrii rezultatelor pe baza distribuiei normale = simplific interpretarea scorurilor individuale la un test. In cazul distribuiei normale media, mediana i modul au aceeai valoare - cunoscnd c o persoana se gsete n intervalul + 1 sigma ne spune ca aproximativ 2 treimi din populaie are acelai scor.
39
Figura 3.1. Proprietile distribuiei normale
Scorurile standard Un scor standard este un scor care a fost transformat dintr-o scal n alta, ultima fiind una pe baza creia se pot face comparaii. - cela mai cunoscute sunt scorurile z i T Scorurile z - scorul z are media 0 si abaterea standard 1 z = (X M)/ , unde X= scorul brut obinut de subiect la test, M= media scorurilor la test =abaterea standard a scorurilor la test
Exemplu La un test de citire un subiect obine un scor brut de 24 (media=20, sigma=3), iar la matematic un scor brut de 42, media = 60, sigma=10. Calculai scorul z pentru ambele performane. Interpretai valorile obinute.
Scorurile T T = 50 + 10z T este o scal a crei medie este 50 si sigma este 10; Propus de McCall (1922, 1939) n cinstea profesorului sau Thorndike (T); Cuprinde 5 sigma sub/peste medie; 40
Scorul care se gsete la exact 5 sub medie va reprezentat un scor T de 0, media va fi 10, iar 5 sigma peste medie va fi 100; Avantajul la scorurile T este ca nu avem o valoare negativa; Utilizat de exemplu la testul Minesota Multiphasic Personalty Inventory (MMPI).
Scorurile n clase normalizate 5 clase: 7%, 24%, 38%, 24%, 7% 7 clase: 5, 11%, 21%, 26%, 21%, 11%, 5%, 9 clase (stanine): 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%, Pai: 1. se aranjeaz scorurile de la cel mai mare la cel mai mic; 2. se stabilete frecventa pentru fiecare scor; 3. se stabilete frecventa cumulata; 4. se calculeaz procentul fiecrei clase; 5. se face corespondena scor + procent din distribuia de frecven cumulat; Exemplu
S presupunem c un test a fost aplicat la 325 de subieci. Scorul maxim al testului este 42 iar scorul minim este 2. Tabelul 3.1 prezint frecvena fiecrui scor, frecvena cumulat i stanina corespunztoare.
Scor Frecvena fiecr ui scor Frecven cumulat Stanine Scor Frecvena fiec rui scor Frecven cumulat Stanine
42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23
1 1 2 6 7 4 9 4 10 7 13 19 11 14 16 12 13 11 18 22
1 2 4 10 17 21 30 34 44 51 64 83 94 108 124 136 149 160 178 200
Stanina 9
Stanina 8
Stanina 7
Stanina 6
Stanina5
22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 -
16 11 14 12 13 14 8 9 6 3 6 2 3 2 2 2 1 0 0 0 1 325
216 227 241 253 266 280 288 297 303 306 312 314 317 319 321 323 324 324 324 324 325
Stanina 4
Stanina 3 Stanina 2
Stanina 1
Cum obinem staninele pentru fiecare scor? Calculul scorului care intr n stanina 9. Se ia procentul corespunztor acestei stanine (4%) i se raporteaz la datele existente astfel: 325....................100% x.........................4% x=13 Valoarea obinut reprezint frecvena cumulat a scorurilor din stanina 9. Observm n coloana frecvenelor cumulate c aceast valoare nu exist, deci vom lua valoarea existent cea mai 41
apropiat de 13. n coloana frecvenelor cumulate avem valorile 10 i 17. Deoarece 10 este mai aproape de 13 vom lua aceast valoare ca limit pentru stanina 9. Deci scorurile care intr n stanina 9 sunt cele cuprinse ntre 42 i 39 (este corespunztor frecvenei cumulate 10). Pentru a afla scorurile care intr n stanina 8 lum procentul din populaie din stanina 9 la care adugm procentul corespunztor staninei 8 adic: 4% + 7% = 11% Repetm apoi algoritmul utilizat n stabilirea scorurilor pentru stanina 9: 325....................100% x.........................11% x=35,75 Valoarea frecvenei cumulate cea mai apropiat de 35,75 este valoarea 34, valoarea creia i corespunde scorul brut de 35. deci, n stanina 8 avem toate scorurile ntre 38 i 35.
Pentru stanina 7 calculul este urmtorul: 11%+12%=23% 325.................100% x......................23% x= 74,75 Pentru stanina 6 calculul este urmtorul: 23% +17% = 40% 325.................100% x......................40% x=130 Pentru stanina 5 calculul este urmtorul: 40% + 20% = 60% 325.................100% x......................60% x=195 Pentru stanina 4 calculul este urmtorul: 60% + 17% = 77% 325.................100% x......................77% x=250,25 Pentru stanina 3 calculul este urmtorul: 77% + 12% = 89% 325.................100% x......................89%
x=289,25
Pentru stanina 2 calculul este urmtorul: 89% + 7% = 96% 325.................100% x......................96% x=312
Dac performana subiectului se gsete n staninele 4, 5 sau 6 putem spune c performana sa la test este una medie. O performana ncadrat n staninele 2 i 3 este un slab, iar o performan ncadrat n stanina 1 este una foarte slab. De cealalt parte a medie, staninele 7 i 8 indic o performan bun la un test, iar stanina 9 reprezint o performan foarte bun. EXERCIII
42
1. La un test de performan de citire, un subiect are scorul brut de 24. Care este nivelul nsuirii cunotinelor sale dac: a. media la test este 30 i este 4? b. media la test este 30 i este 7? c. media la test este 40 i este 5? 2. Pentru fiecare din studiile urmtoare se va descrie procedura de eantionare. Citii fiecare descriere i identificai tipul de eantionare folosit: A. Un profesor de psihologie ataeaz un scurt chestionar care vizeaz obiceiurile de studiu al elevilor la fiecare al patrulea test i distribuie aceste teste elevilor pe msur ce acetia intr n clas. B. Cercettorul selecteaz aleatoriu jumtate din celulele unui penitenciar i intervieveaz toi indivizii din celulele selectate. C. Un administrator dintr-un cmin de studeni selecteaz aleatoriu cinci dormitoare din campus i din studenii acestora selecteaz aleator 60% studeni de anul I i 40% studenii din anii mai mari pentru un studiu viznd consumul de alcool.
SUMAR Scorurile normative sunt utile atunci cnd cei care utilizeaz testul doresc s compare scorul obinut de cel examinat cu distribuia scorurilor pentru un eantion bine definit al populaiei. n realizarea unui studiu de normare se pot utiliza patru tipuri de eantionare probabilistic: eantionarea aleatoare simpl, eantionarea sistematic, eantionarea aleatoare stratificat i eantionarea pe clusteri. Normele testului descriu performana realizat de eantionul de persoane alese. Cu ajutorul normelor se determin modul n care se transform cotele brute ale testului n cote uor de interpretat, numite cote transformate. Acestea permit compararea persoane diferite sau pentru aceeai persoan la teste diferite. Pentru a fi cu adevrat utile, normele trebuie s fie descrise detaliat n manualul testului, indicnd: compoziia populaiei pentru care au fost stabilite, modului de formare al eantionului din aceast populaie, numrul persoanelor din eantion, caracteristicile eantionului, gradul n care eantionul ales este reprezentativ pentru populaia specific, natura i uniformitatea condiiilor n care a fost administrat testul, data testrii.
43
MODUL IV ASPECTE CONCEPTUALE I METODOLOGICE ALE CONSTRUCIEI TESTELOR PSIHOLOGICE

Evalurile psihologice nu sunt echivalente. Ele difer n cel puin trei aspecte. n primul rnd ele difer din punctul de vedere al ntrebrilor teoretice la care ncearc s rspund. n al doilea rnd ele difer n privina structurii logice. Iar n al treilea rnd ele difer din perspectiva informaiilor pe care ele le aduc, sau mai precis din perspectiva greutii inferenelor pe care aceste le suport. Algoritmul de construcie al unui instrument de evaluare ar trebui s respecte urmtorii pai: 1. POSTULATE Asumpii, valori, credine, metafore
2. CONSTRUCTE TEORETICE FORMALE Constructe ipotetice, procese, relaii, predicii (e.g. memorie implicit, anxietate, depresie)
3. REFERENTI Msuri obiective sau reflecii ale constructelor (e.g. anxietate: transpiraia palmelor, etc.)
4. METODE INSTRUMENTALE Sarcini, tehnici, teste, instrumente proceduri
5. MODEL DE MSUR atribuirea unei scale de msur fenomenelor
6. CULEGEREA DATELOR
7. ANALIZA DATELOR metode statistice, modele matematice
8. INTERPRETRI I INFERENE Inferena statistic, evaluare logic, analiza modelului

Figura 4.1. Componente ale unui model tiinific de construcie a unui intrument de evaluare (McFall & Townsend, 1998)
44
Scopul oricrei evaluri psihologice este acela de a clarifica (de a oferi informaii) o serie de probleme, fie ele teoretice sau practice. Astfel putem spune c exist o relaie esenial ntre teorie i evaluare: evaluarea trebuei astfel construit nct s rspund unor ntrebri teoretice. Nivelul de plecare n construcia unui instrument de evaluare se gsete la nivelul postulatelor care servete ca punct fundmental (Polya, 1957, Smith, 1984). Postulatele sunt simplu tratate ca ceva ce este dat. O dat stipulate ns ele constrng tot procesul ulterior, intrun mod adesea foarte subtil (Lakoff & Johnson, 1980). Nivelul urmtor cuprinde constructele teoretice formale. Acest nivel trebuie s fie congruent cu postulatele anterioare deoarece deriv logic din acestea. Cu toate acestea ns exist o multitudine de teorii plauzibile care pot satisface postulatele nct cercettorii trebuie s ia n calcul o serie de aspecte legate de validitatea teoriilor care adesea sunt n competiie. Este vorba deci de a opta, pe baza unei analize de cele mai multe ori dificile, pentru o teorie innd cont de atuurile acesteia n competiia cu altele. Personalitatea ca i construct glogal sau temperamentul ca i construct mai specific pot fi abordate din perspectiva mai multor teorii. Opiunea pentru o teorie a personalitii se face, n construcia unui instrument de evaluare, la acest nivel al constructelorteoretice formale. Procesul de validare al unui test ncepe la nivelul constructelor teoretice prin formularea constructelor derivate dintr-o teorie, din cercetri anterioare sau din observaii sistematice ale unui domeniu relevant de comportamente. Itemii testului vor fi mai trziu (la nivelul referenilor) formulai, astfel nct s ating cerinele formulate la acest nivel. La acest al doilea nivel pe care l-am putea denumi acela de conceptualizare al testului trebuie s ne punem urmtoarele ntrebri: Ce dorim s msoare testul? Aceast ntrebare este legat de modul n care este definit constructul i de cum aceast definiie este diferit de altele care i propun s msoare acelai construct. Care este obiectivul testului? Cnd sau pentru ce scop va fi utilizat testul? Va fi analizat la acest nivel n ce msur obiectivul testului este diferit de testele existente. Este nevoie de construcia acestui test? Cine va utiliza testul? Clinicienii, psih. educaional sau alte categorii. Cui se adreseaz testul? Cine este populaia int. Aici se impune o analiz detaliat a caracteristicilor populaiei (vrst, sex, mediu socioeconomic ce factori culturali pot influena performana la test). Ce nivel de citire este necesar pentru aplicarea testului. Cel de al treilea nivel, al referenilor, cuprinde msurtori observabile ale constructelor formulate. Astfel, constructul de anxietate se poate exprima la nivelul referenilor prin msurtori ale conductanei electrice a pielii, prin rata cardiac, etc. Pentru ca datele de la nivelul anterior s poat fi culese avem nevoie de o serie de medode instrumentale. Este vorba de generarea unor msurtori, care n cadrul testului adesea iau forma itemilor. Itemii (vezi modulul 1) unui test sunt: n majoritatea cazurilor generai de psihologi pornind de la constructele formulate; n cazul testelor de cunotine itemii sunt formulai de specialiti n domeniul respectiv; Pot fi luai din testele existente. 45
n general, este generat un numr mai mare de itemi dect numrul final al itemilor testului, crendu-se banca de itemi. Aiken (1994) recomand ca numrul itemilor de plecare s fie mai mare cu 20% dect lungimea tesului. Msurrile sunt realizate pe diferite tipuri de scale. Acest problematic a alegerii scalei sau a formatului itemlor se ncadreaz la nivelul modelului de msurare. Nu exist un tip general corect de scal de msurare. Modulul anterior a prezentat formatul cel mai des al itemilor utilizai n testele psihologice. Nivelul culegerii datelor se refer la obinerea unei variante a testului i aplicarea acesteia pe populaia int. Se in cont n aceast faz de condiiile de standardizare. Analiza datelor cuprinde n cadrul testului procesul de analiz a itemilor, analiza tipurilor de validitate de criteriu precum i aprecierea fidelitii testului. Dac rezultatele obinute sunt satisfctoare se trece la construirea manualului testului. Dac pe baza rezultatelor obinute nu se pot face inferene valoroase atunci se recomand identificarea erorilor i reluarea procedeului. Manualul unui test trebuie s cuprind aspectele pe baza crora utilizatorul testului s poat analiza valoarea testului, s poat utiliza testul i s poat interpreta rezultatele acestuia. Aceste aspecte se refer la informaii legate de: 1. Datele de identificare ale testului - autorul (autorii) testului - editura care a publicat testul - anul publicrii - numele testului 2. Standardizarea testului - pe cte persoane a fost etalonat testul - care sunt caracteristicile demografice ale eantionului - cum s-a fcut eantionarea 3. Fidelitatea testului - care au fost metodele utilizate pentru estimarea fidelitii testului - n ce msur valorile coeficienilor de fidelitate sunt subiecte pentru scopul testului 4. Validitatea testului - care au fost criteriile pe baza crora s-a validat testul - n ce msur testul este satisfctor pentru ceea ce i propune s msoare 5. Modul de aplicare, cotare i interpretare a rezultatelor - care sunt instruciunile de lucru - care sunt criteriile de acordare a punctajului pentru rspunsurile subiecilor? - n ce msur testul poate fi cotat electronic (acolo unde este cazul) 6. Consideraii practice - ct timp dureaz aplicarea testului - care este nivelul de pregtire pe care trebuie s l aib cel care administreaz testul i cum se poate obine aceast pregtire.
46

Psi Ho Diagnostic

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Psi Ho Diagnostic

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA BABE-BOLYAI CLUJ-NAPOCA FACULTATEA DE PSIHOLOGIE I TIINELE EDUCAIEI SECIA PSIHOLOGIE NVMNT LA DISTAN

MODULUL I TESTUL PSIHOLOGIC

I.3. TESTUL CA INSTRUMENT DE MSURARE/EVALUARE 4

I.3.1. SCALE DE MSUR Distingem 4 tipuri de scale de msur (Stevens, 1946):

Exemple: A>B>C Aprecierile ca foarte bun, bun, slab

Statistic poate fi calculat mediana, centilele. Grafic putem s ne referim la histograme.

n psihologie msurarea nu se realizeaz pe scale de proporii. Concluzii privind scalele de msur

Scale Nominale Ordinale De interval De proporii

4. Itemi cu rspunsuri ce trebuie alturate dup diferite criterii

__ 3. test de inteligen de grup

I.8. DOMENII DE UTILIZARE A TESTELOR PSIHOLOGICE

Psihologia industrial/organizaional Psihologia colar

MODULUL II PRINCIPALELE CALITI ALE TESTULUI PSIHOLOGIC

II.1. FIDELITATEA TESTELOR

Caracteristica A Ipoteze pe baz de observaie

Comportamentul E Ipoteze pe baz de observaie

Predicie Caracteristica a observat Comportamentul observat e

Figura 2.1. Predicia pe baza principiului deductiv-nomologic

Eantion de situaii Reprezentare

Univers de situaii Reprezentare

Figura 2.2. Predicia pe baza principiului generalizrii comportamentului

Studierea legturii ntre reuita la

TEST (15 sept. 1980) i prin: CITIRE (15 iunie 1981)

15 septembrie 1980 Msurarea criteriului

subiectului n examinrii Impresia general Preferine Pregtirea anterioar

0 0 5 10 15 20 25 30 35 40 45 Scorul total la test 50 55 60 65

Figura 2.5. Curba caracteristic a itemului

0 0 5 10 15 20 25 30 35 40 45 Scorul total la test 50 55 60 65

0 0 5 10 15 20 25 30 35 40 45 Scorul total la test 50 55 60 65

Figura 2.9. Curba caracteristic a 3 itemi

Figura 2.10. Curba caracteristic itemului

(.76) .09 .10 .46 .11 .12 .45

(.93) .68 .59 .67 .43 .34

(.94) .58 .42 .66 .32

(.84) .33 .34 .58

(.94) .67 .58

Factori comuni (atribute interne)

Factori specifici (atribute interne)

Figura 3.1. Proprietile distribuiei normale

1 2 4 10 17 21 30 34 44 51 64 83 94 108 124 136 149 160 178 200

MODUL IV ASPECTE CONCEPTUALE I METODOLOGICE ALE CONSTRUCIEI TESTELOR PSIHOLOGICE

4. METODE INSTRUMENTALE Sarcini, tehnici, teste, instrumente proceduri

5. MODEL DE MSUR atribuirea unei scale de msur fenomenelor

7. ANALIZA DATELOR metode statistice, modele matematice

8. INTERPRETRI I INFERENE Inferena statistic, evaluare logic, analiza modelului

S-ar putea să vă placă și